版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章生物信息学绪论2什么是生物信息学?3一、生物信息学定义4生物信息学(Bioinformatics)名词的由来
八十年代末期,林华安博士认识到将计算机科学与生物学结合起来的重要意义,开始留意要为这一领域构思一个合适的名称。起初,考虑到与将要支持他主办一系列生物信息学会议的佛罗里达州立大学超型计算机计算研究所的关系,他使用的是“CompBio”;之后,又将其更改为兼具法国风情的“bioinformatique”,看起来似乎有些古怪。因此不久,他便进一步把它更改为“bio-informatics(bio/informatics)”。但由于当时的电子邮件系统与今日不同,该名称中的-或/符号经常会引起许多系统问题,于是林博士将其去除,今天我们所看到的“bioinformatics”就正式诞生了,林博士也因此赢得了“生物信息学之父”的美誉。Dr.HwaA.Lim(林华安)1987年提出“Bio-informatique”→“Bioinformatics”
生物信息学(Bioinformatics)的来源Prof.DrPaulienHogeweg
谁是生物信息学的提出者???Bioinformaticsgroup,UtrechtUniversity
6生物信息学之父——林华安
Dr.HwaA.Lim(林华安)1987年提出“Bio-informatique”→“Bioinformatics”1955年出生于马来西亚。联合国Bioinformatics专家,UniversityofTexasatDallas分子与细胞生物学AdjunctProfessor、中国科学院基因遗传研究所客座教授。1981年英国伦敦大学帝国学院(ImperialCollege,LondonUniversity)毕业,1986年获得美国RochesterUniversity生化物理学博士学位,30岁取得佛罗里达州立大学终生教授。1992年受聘担任美国国家癌症中心及美国国家科学基金会审核委员。1995年后,历任多家生物科技公司生化信息执行长、副总裁等高层管理职位。1997年,创立结合软件与数据分析的专业顾问公司D’Trends,服务生物技术、制药及卫生保健等机构。什么是生物信息学
?美国国家卫生研究院(NIH)的定义:Bioinformatics为拓展生物学、医学、行为学和卫生学数据的用途,而进行有关计算机方法手段的研究、开发与应用,包括此类数据的采集、存贮、整理、归档、分析与可视化。
ComputationalBiology开发和应用数据分析、理论方法、数学模型和计算机仿真技术,用于生物学、行为学和社会群体系统的研究。生物信息学/计算生物学生物信息学说文解字:生物
+信息
+学
(bioinformatics)biology+information+theory广义:
应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:
应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。
生物信息学
从人类基因组计划(HGP),ENCODE计划和千人基因组计划说起曼哈顿原子弹计划阿波罗登月计划三大科学计划人类基因组计划1984.12犹他州阿尔塔组织会议,初步研讨测定人类整个基因组DNA序列的意义1985Dulbecco在《Science》撰文“肿瘤研究的转折点:人类基因组的测序”人类基因组计划为什么要开展人类基因组计划?有助于认识自身、掌握生老病死规律、疾病的诊断和治疗、了解生命的起源。
人类基因组计划(HGP,HumanGenomeProject)目标:整体上破解人类遗传信息的奥秘人类基因组计划目标HumanGenome=threebillion(3*10^9)basepairs人类基因组计划-DNA测序技术新的测序技术焦磷酸测序法(454,Solexa,Solid),单分子测序新的整合技术Sanger测序法Sanger测序法双脱氧链终止法
第一个自由生物体流感嗜血菌(H.inf)的全基因组测序完成1996完成人类基因组计划的遗传作图启动模式生物基因组计划H.inf全基因组Saccharomycescerevisiae酿酒酵母Caenorhabditiselegans秀丽线虫1997大肠杆菌(E.coli)全基因组测序完成1998完成人类基因组计划的物理作图开始人类基因组的大规模测序
Celera公司加入,与公共领域竞争启动水稻基因组计划1999.7第5届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组水稻基因组计划1999.7第5届国际公共领域人类基因组测序会议,加快测序速度2000Celera公司宣布完成果蝇基因组测序国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作Drosophilamelanogaster果蝇Arabidopsisthaliana拟南芥人类基因组序列的组装人类基因组计划幕后英雄JimKent.“黄金之路”(TheGoldenPath)
GigAssemblerKent&Haussler,GenomeRes.2001.11:1541-1548为什么需要组装呢?人类基因组序列的组装和注释DNA测序技术组装人类基因组生物信息学分析技术基因(gene)转座元件进化保守性基因的鉴定HumanGenome=threebillion(3*10^9)basepairs:基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位
编码蛋白质或RNA等具有特定功能产物的遗传信息的基本单位基因的鉴定-隐马尔可夫模型11/621/631/641/651/661/6FairLoaded0.050.10.950.911/1021/1031/1041/1051/1065/1021621665666352321264622533314315136163516312314636513356135546324162542442123263666456224661463426462222222222211111111111111111111111111111111111111111111111111111111111111111112222222222222222222222隐状态:那个骰子例子:偶尔作弊的赌场基因的鉴定跟线虫的基因数差不多暗示着。。。。。。人类基因组序列的显示VisualizationHGCCelera2001年2月15日《Nature》封面2001年2月16日《Science》封面2000.6.26
公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15《Nature》刊文发表国际公共领域结果2001.2.16《Science》刊文发表Celera公司及其合作者结果我国对人类基因组计划的贡献基因组学研究2003年人类基因组计划的完成仅仅标志着人类向着利用基因信息诊断、治疗和预防疾病的目标迈出了重要的第一步。生物学的挑战人类基因组大小:约30亿个碱基对28
人类基因组计划准备用15年时间投入30亿美元,完成人全部24(22+X+Y)条染色体中3.2×109个碱基对的序列测定,主要任务包括做图(遗传图谱\物理图谱以及转录图谱的绘制)、测序和基因识别,其根本任务是解读和破译生物体的生老病死以及与疾病相关的遗传信息。29人类基因组人类基因组的组成线粒体基因组(16.6kb)细胞核基因组(3200Mb)基因外序列基因和基因有关序列约10%约90%专一或中等重复序列Non-codingDNA假基因内含子基因片段<10%>90%专一的或低拷贝数序列中度至高度重复序列20~30%70~80%分散重复序列串联重复序列/成簇重复序列约60%约40%蛋白编码基因rRNA基因tRNA基因CodingDNA估计10万→最初公布3.5万→目前研究确定2.45万30笼统的说,人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就容易得多。研究多种模式生物基因组将有助于研究地球生物的进化史。人类基因组计划的实施意义
引言HGP带来的科学挑战随着实验数据和可利用信息急剧增加,信息的管理和分析成为HGP的一项重要的工作发现生物学规律解读生物遗传密码认识生命的本质研究基因组数据之间的关系分析现有的基因组数据利用数学模型和计算技术32基因组计划带来的科学挑战随着实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。1、信息的整合2、信息的储存3、信息的比较4、信息的分析5、信息的分解基因组学功能基因组学33EncyclopediaofDNAElements(ENCODE)计划人类基因组计划的延伸DNA元件百科全书计划DNA元件百科全书计划(ENCODE)目标:对人类基因组功能元件进行全面的鉴定和分析
ENCODE计划目标[HumanMolecularGenetics,3rdEdition]“JunkDNA”?98.5%?2004年Science的10大突破排名第4ENCODE计划研究规划ENCODE计划主要分为三个阶段进行:①试点研究阶段(ENCODEpilotproject)②技术开发阶段③实际生产阶段gene目标:对人类基因组1%的序列功能元件进行全面的鉴定和分析ENCODE试点研究计划(ENCODEpilotproject)高通量技术-芯片技术基因的异常表达大规模集成的固相杂交肿瘤,疾病等相关肿瘤基因表达谱差异研究基因突变基因多态性分析遗传病产前诊断等基因芯片的应用生物信息学技术高通量技术-芯片数据分析
选择技术,设计实验
准备样品,杂交到芯片上
可视化显示数据归一化数据评价数据的质量移除低质量寻找差异表达的基因构建和应用分类器解析结果ENCODE试点研究计划-比较基因组学开发比较基因组学软件JunkDNA是什么?ENCODE试点研究计划-转录组高通量芯片技术测序的表达数据生物信息技术整合分析ENCODERegion:93%是转录的>74%转录能被两种不同方法检测暗示着……ENCODE试点研究计划-转录组注释HopeorHype?ENCODE试点研究计划-转录调控高通量ChIP技术转录组数据蛋白结合位点的peak整合分析ENCODERegion:组蛋白的修饰相邻与转录起始位点DNaseI超敏位点有特异的组蛋白修饰模式gene暗示……ENCODE试点研究计划-非编码RNA支持向量机概率罚分模型非编码RNA(ncRNA)一类以RNA形式行使功能的非蛋白编码的RNA功能在细胞的生长、分化和死亡以及癌症和肿瘤的发生和发展等方面发挥重要作用。ENCODE试点研究计划-非编码RNA(1)支持向量机(RNAz)如何选取向量特征?最低自由能(MFE)进化保守(2)随机上下文无关文法(evoFold)ModENCODEProject为什么要开展模式生物ENCODE计划?模式生物DNA元件百科全书计划28篇相关的文章ENCODE试点研究计划-研究论文1000HumanGenomesProject
千人基因组计划(ADeepCatalogofHumanGeneticVariation)千人基因组计划的目标目标:构建最全面的人类遗传变异图
解释为什么有些人会得某种疾病新一代高通量测序技术海量的生物学数据任何两个人的基因有99%多是相同生物信息学分析技术遗传变异为什么需要新一代高通量测序技术High-throughputsequencing(HTS)Next-generationsequencing(NGS),NextisNowSangerSequencingTheHumanGenomeProject(HGP):(i)Time:1990-2003(expect:15years)(ii)Cost:the$3billionproject(iii)Output:96sequencereads/runGoalsforNGS:(i)Howtosignificantlyshortenthetime?(ii)Howtosignificantlyreducethecosts?(iii)millionsofsequencereadsinparallel
Shendure&Ji,2008;Naturebiotechnology,26,1135-1145新一代高通量测序技术OneFragment=OneBead=OneReadOneFragment=OneBeadOneBead=OneReadJonathanM.Rothberg
1.theinventorofmassivelyparallelsequencing
2.thefounderof454LifeSciencesMardis.2008;Annu.Rev.GenomicsHum.Genet.9:387–402/29um20umCCD(电荷耦合元件,Nobelprize,2009)Charge-coupledDevice(CCD)>1millionreadsinexcessof400bp400-600millionbases/run~$60/Mb新一代高通量测序技术高通量测序技术带来的挑战和机遇Company:Bioinformaticsbottleneckthreatenstolimitinstrumentsales.NGSdataagrowinggapdata-analysiscapabilitiesVisualizationhumaneyesarealwaysbetterMapping
ultra-fastprogramformappingNGSreads?AnnotationNGSdataderivedfromwhatknowgenomicelements?StorageHowstoragenewNGSdataDiscoveryRNA-seq,CNV-seq,SNP,ChIP-seqMcPherson,etal.2009;NatureMethods.,6:S2-S5高通量测序技术-存储最小的空间存储最快的速度查询+压缩和二进制法索引表BAM格式+内存:~9M索引查询速度:几秒BinaryAlignment/Map(BAM)高通量测序技术-比对最小的内存最快的速度+哈希索引测序序列哈希索引基因组BWT索引基因组解决方法Burrows-Wheelertransformfull-textminute-space(FM)index高通量测序技术-可视化比对数据可视化人类的眼睛是最灵敏的。Customerexperiments规模可伸缩性(scalability)用有限的内存显示巨大的比对数据(如:10~100GB)便携性(portability)能用于多个操作系统平台(如:Linux,Mac和Windows)远程可操作性(efficiencyovernetwork
)在台式机上浏览在服务器上巨大的数据回答各种各样的生物学问题rnaNGS:discoveringsmallandlongncRNAsfrompooledNGSdatarnaNGS:软件界面deepView可视化浏览千人基因组计划数据(a)超快速:在<1秒,装载和浏览不限大小的BAM数据和人类基因组序列区域(>3G)(b)占用内存小:浏览人类基因组序列区域和>900兆BAM数据,只需25兆内存(c)发现SNP,InDel(insertordelete)位点deepView各式各样的功能(a)支持各式各样的输入格式(b)改变和移动Track的位置(c)隐藏和显示Track(d)改变Track颜色(e)改变背景颜色(f)改变Track设置课程小结实验技术Sanger测序法基因组整合、注释等生物信息学的应用人类基因组计划芯片技术基因鉴定、表达和调控网络ENCODE计划新一代测序技术整合、比对、可视化和变异千人基因组计划生物信息学的应用随着实验数据和可利用信息急剧增加,信息的管理和分析成为一项重要的工作62基因组数据库蛋白质序列数据库蛋白质结构数据库DDBJEMBLGenBankSWISS-PROT
PDBPIR1生物分子数据的收集与管理632数据库搜索及序列比较搜索同源序列在一定程度上就是通过序列比较寻找相似序列序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。
643运用计算机软件进行序列拼接654基因识别与定位665基因相关的SNP研究SingleNucleotidePolymorphisms(SNP),是指在基因组上单个核苷酸的变异,一般而言,SNP
是指变异频率大于1%的单核苷酸变异6767基因变异与疾病68与以前的该RILs的重组图谱比较分析,在150个RILs中鉴定出2334个重组框,平均每个框的大小约164kb利用slidingwindow方法分析SNP位点与表型间的关系与重组位点利用全基因组重测序分析表型差异Slidingwindow方法696非编码区信息结构分析在微生物中,非编码区只占整个基因组序列的10%~20%;但在高等生物和人类基因组中,非编码序列则占了基因组序列的绝大部分。在人的基因组中,非编码序列超过95%70
非蛋白编码区约占人类基因组的95%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生物学功能可能体现在对基因表达的时空调控上。
对非蛋白编码区进行生物学意义分析的策略有两种,一种是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。716比较基因组学比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。72比较基因组分析各类功能基因中氨基酸在物种间差异比例差异同源蛋白GO分类进化关系分析737基因组演化与物种演化
(生命之树)74生物进化谱系树大鼠、小鼠、狗、大熊猫、牛……家鸡、火鸡……斑马鱼……拟南芥、水稻、杨树、酿酒葡萄、短柄草、黄瓜、高粱、玉米……1535个细菌基因组、49个真菌基因组和78个古细菌……
利什曼原虫、椎体虫……四类蓝藻……隐藻……蜜蜂……75
尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演化历史中的重要作用。由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。768基因表达数据的分析与处理基因表达数据分析是目前生物信息学研究的热点和重点目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能所用方法主要有:相关分析方法、模式识别技术中的层次式聚类方法、人工智能中的自组织映射神经网络、主元分析方法等表达数据缺点:仅反映mRNA丰度,噪声,…77蛋白质三维结构测定主要方法:X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法9蛋白质结构及功能预测78
基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来,然而要想了解它们的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其三维高级结构来执行的,而且蛋白质三维结构也不一定是静态的,在行使功能的过程中其结构也会相应的有所改变。因此,得到这些新蛋白的完整、精确和动态的三维结构就成为摆在我们面前的紧迫任务。目前除了通过诸如X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三维结构蛋白质结构79
另外一种广泛使用的方法就是通过计算机辅助预测的方法,目前,一般认为蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构80
基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行,由于基因芯片技术只能反映从基因组到RNA的转录水平上的表达情况,由于从RNA到蛋白质还有许多中间环节的影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者——蛋白质的整体表达状况;近几年在发展基因芯片的同时,人们也发展了一套研究基因组所有蛋白质产物表达情况——蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术和质谱测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。这些都是技术实现问题,最重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运转和调控的整体系统的分子机制。10蛋白质组研究
81蛋白质组研究821)、诊断类药物:生物芯片设计遗传病:基因诊断感染性疾病:抗体、基因芯片、PCR技术药物设计:83病人/健康人基因芯片诊断及早治疗,对症下药842)、预防类药物:计算机辅助疫苗设计计算机预测抗原表位85
所谓基因组药物(Genomicdrug)是指利用基因序列数据,经生物信息学分析、高通量基因表达、高通量功能筛选和体内外药效研究开发得到的新药候选物.实际上利用了反向生物学的原理.沿着从基因序列一蛋白质一功能一药物的途径研制新药,其优势是取自庞大的人类基因资源及其编码蛋白质做为原材料,具有巨大的开发潜力。3)、开发基因组药物86美国的人类基因组科学公司(HGS公司)。根据其1999年2月公布的消息,在功能基因组研究领域,HGS公司己发现95%的人类cDNA;克隆了9000个人类分泌蛋白质的全长cDNA;发现了3000个基因的可能医学应用;发现了35个新的白细胞介素类分子和40个新的生长因子类分子;已有3个基因组药物进入临床。874)、寻找药物作用新靶点基因组比较:抗微生物同源性搜索表达差异分析88
理想的抗生素靶标应为微生物细胞存活所必须,在病原体中高度保守,且在人体中不存在或与人类基因有根本差异。基因组研究促进了新靶标的发现:89
生物信息学和人类基因组计划为药物靶标的发现和新药的研制开创了新天地,未来的药物设计将是基于生物信息学的知识挖掘的过程.通过数据分析首先确立靶标分子预测蛋白质分子结构设计药物分子与靶标分子相互作用90计算机辅助分子建模,分子三维结构可视化。
1982年,Dock程序已成功的有HIV蛋白酶抑制剂、二氢叶酸还原酶抑制剂等5)、计算机辅助药物设计91开发阶段:药物基因组学
减少药物副作用避免开发风险9293生物信息学的研究意义生物信息学将是21世纪生物学的核心之一
认识生物本质了解生物分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省泸州市泸州高级中学校2024-2025学年七年级上学期1月期末道德与法治试卷(含答案)
- 湖北省武汉市部分重点中学2024-2025学年高二上学期期末生物答案
- 2024琴行演奏员劳动合同范本发布3篇
- 2024上音乐教学计划(32篇)
- 2024版房地产钢筋材料采购协议版B版
- 2024货车运输承包合同
- 福建省南平市岚谷中学高三语文测试题含解析
- 2025年宾馆租赁经营权转让及收益分成合同3篇
- 2024招投标与合同管理实战案例分析习题集3篇
- 2024用人单位二零四年度劳动合同解除与补偿协议3篇
- 洗涤剂常用原料
- 《报任安书》优秀-课件
- 曼陀罗中毒课件
- (新版)焊工(初级)理论知识考试200题及答案
- 满堂脚手架计算书
- MRAS系统标准用户手册
- HAPS系统实现协同仿真验证-基础电子
- 欧洲地下车库诱导通风系统设计手册
- 现代文答题技巧课件2023年中考语文二轮复习
- YS/T 673-2013还原钴粉
- TY/T 3001-2006中国青少年儿童 手腕骨成熟度及评价方法
评论
0/150
提交评论