计算生物学第一章-绪论课件_第1页
计算生物学第一章-绪论课件_第2页
计算生物学第一章-绪论课件_第3页
计算生物学第一章-绪论课件_第4页
计算生物学第一章-绪论课件_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算生物学Computational

Biology章节讲课习题课上机其它合计第一章绪论2第二章生物信息数据库及

构建

8第三章序列比对(动态规划)6第四章原核及真核生物

基因组、转录组分析

(多元统计、HMM)10第五章蛋白结构功能预

测(机器学习、神经网络)4第六章分子进化及系统发育2合计328PrincipleofBioinformatics先修课程:数理统计、数据库原理、Perl编程、分子生物学生物信息学学科的发展和研究内容生物数据库关键词或词组为基础的数据库检索核酸和蛋白质序列为基础的数据库检索多序列对位排列分析和系谱分析基因预测和基因结构分析蛋白质性质和结构分析农业类及物种专属数据库的利用核酸序列的其他分析方法芯片表达谱基本分析及查询《生物信息软件综合实践》其它专业《生物信息学》内容/kech/swxxx/华农主页-南湖教苑-精品课程-国家精品课程-2007年国家精品课程-生物信息学教学网站获取课件及自学资源(仅限校园网内)提取文件提取码:bioinfoC/

(包括一些软件及相关书籍)用户名:nobody密码:lampp华中农业大学生物信息学课程维基(包含大量数据库介绍):/wiki/第一章绪论§1.1从人类基因组计划(HGP)说起PrincipleofBioinformatics曼哈顿原子弹计划阿波罗登月计划人类基因组计划PrincipleofBioinformatics7JohnCraigVenter

(bornOctober14,1946)isanAmericanbiologist

andentrepreneur.Heisknownforbeingoneofthefirsttosequencethehumangenome

andforcreatingthefirstcellwithasyntheticgenome.

VenterfoundedCeleraGenomics,TheInstituteforGenomicResearch

(TIGR)andtheJ.CraigVenterInstitute

(JCVI),andisnowworkingatJCVItocreatesyntheticbiologicalorganisms.HewaslistedonTime

magazine's2007and2008Time100

listofthemostinfluentialpeopleintheworld.In2010,theBritishmagazineNewStatesman

listedCraigVenterat14thinthelistof"TheWorld's50MostInfluentialFigures2010".8Fleischmann,RobertD.;Adams,MarkD.;White,Owen;Clayton,Rebecca;...Venter,J.Craig(July28,1995)."Whole-GenomeRandomSequencingandAssemblyofHaemophilusinfluenzaeRd".Science(Washington,DC:AmericanAssociationfortheAdvancementofScience)269(5223):496–512.Bibcode

1995Sci...269..496F.doi:10.1126/science.7542800.PMID

7542800.FraserCM,GocayneJD,WhiteO,…,HutchisonCA3rd,VenterJC.TheminimalgenecomplementofMycoplasmagenitalium.Science.1995Oct20;270(5235):397-403.PubMedPMID:7569993.Tomb,Jean-F.;White,Owen;Kerlavage,AnthonyR.;Clayton,RebeccaA.;Sutton,GrangerG.;Fleischmann,RobertD.;...Venter,J.Craig(August7,1997)."ThecompletegenomesequenceofthegastricpathogenHelicobacterpylori".Nature(London,England:NaturePublishingGroup)388(6642):539–47.doi:10.1038/41483.PMID

9252185.Adams,MarkD.;Celniker,SusanE.;Holt,RobertA.;Evans,CherylA.;Goccayne,JeannineA.;Amanatides,PeterG.;...Venter,J.Craig(March24,2000)."ThegenomesequenceofDrosophilamelanogaster".Science(Washington,DC:AmericanAssociationfortheAdvancementofScience)287(5461):2185–95.Bibcode

2000Sci...287.2185..doi:10.1126/science.287.5461.2185.PMID

10731132.Venter,J.Craig(February16,2001)."TheSequenceoftheHumanGenome".Science(Washington,DC:AmericanAssociationfortheAdvancementofScience)291(5507):1304–51.Bibcode

2001Sci...291.1304V.doi:10.1126/science.1058040.ISSN

0036-8075.PMID

11181995.Venter,J.Craig;Remington,Karin;Heidelberg,JohnF.;Halpern,AaronL.;Rusch,Doug;Eisen,JonathanA.;Wu,Dongying;Paulsen,Ianetal.(April2,2004)."EnvironmentalGenomeShotgunSequencingoftheSargassoSea".Science(Washington,DC:AmericanAssociationfortheAdvancementofScience)304(5667):66–74.Bibcode

2004Sci...304...66V.doi:10.1126/science.1093857.PMID

15001713.Rusch,DonaldB.;Halpern,AaronL.;Sutton,Granger;Heidelberg,KarlaB.;Williamson,Shannon;Yooseph,Shibu;Wu,Dongying;...Venter,J.Craig(March13,2007)."TheSorcererII

GlobalOceanSamplingexpedition:NorthwestAtlanticthroughEasternTropicalPacific".PLoSBiology(PublicLibraryofScience)5(3):398–431.doi:10.1371/journal.pbio.0050077.PMC

1821060.PMID

17355176.///pmc/articles/PMC1821060/.Yooseph,Shibu;Sutton,Granger;Rusch,DonaldB.;Halpern,AaronL.;Williamson,Shannon;Remington,Karin;Eisen,JonathanA.;...Venter,J.Craig(March13,2007)."TheSorcererIIGlobalOceanSamplingExpedition:ExpandingtheUniverseofProteinFamilies".PLoSBiology(PublicLibraryofScience)5(3):432–466.doi:10.1371/journal.pbio.0050016.PMC

1821046.PMID

17355171.///pmc/articles/PMC1821046/.Venter,J.Craig(October18,2007).ALifeDecoded:MyGenome:MyLife.NewYork,NewYork:VikingAdult.ISBN

0-670-06358-4.OCLC

165048736.GibsonDG,BendersGA,Andrews-PfannkochC,DenisovaEA,Baden-TillsonH,ZaveriJ,StockwellTB,BrownleyA,ThomasDW,AlgireMA,MerrymanC,YoungL,NoskovVN,GlassJI,VenterJC,HutchisonCA3rd,SmithHO.Completechemicalsynthesis,assembly,andcloningofaMycoplasmagenitaliumgenome.Science.2008,319(5867):1215-20.doi:10.1126/science.115172160年代初,美国总统Kennedy提出两个科学计划:登月计划攻克肿瘤计划

人类遗传信息的复杂性人类基因组计划(HGP,HumanGenomeProject)目标:整体上破解人类遗传信息的奥秘为什么提出HGP?“我们选择登月”(1962年Kennedy在Rice大学演讲)PrincipleofBioinformatics生命活动三要素:物质、能量、信息DNA:遗传物质(遗传信息的载体)双螺旋结构

A,C,G,T四种基本字符的复杂文本

基因(Gene):具有遗传效应的DNA分子片段DNA、基因、基因组PrincipleofBioinformatics

基因组(Genome):包含细胞或生物体的全套遗传信息的全部遗传物质

原核生物(细菌、病毒等)

真核生物(真菌、植物、动物等)人类基因组:

3.2×109bp,含有约3万个基因,10万种蛋白质。PrincipleofBioinformaticsHGP的历史回顾1984.12犹他州阿尔塔组织会议,初步研讨测定人类整个基因组DNA序列的意义1985Dulbecco在《Science》撰文“肿瘤研究的转折点:人类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987

美国能源部和国家卫生研究院(NIH)联合为“人类基因组计划”下拨启动经费约550万美元1989

美国成立“国家人类基因组研究中心”,Watson担任第一任主任1990.10

经美国国会批准,人类基因组计划正式启动JamesWatsonWalterGilbertPrincipleofBioinformaticsHGP的最初目标通过国际合作,用15年时间(1990~2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。4张图:遗传图物理图序列图基因图HGP的终极目标阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。PrincipleofBioinformatics1990人类基因组计划在美国正式启动;1991美国建立第一批基因组研究中心;1993

Sanger研究中心在英国剑桥附近成立;1997法国国家基因组测序中心成立;1998中国在北京和上海设立国家基因组中心;

1999中国获准加入人类基因组计划,承担1%的测序任务,成为

参与这一计划的惟一发展中国家;

2000.6.26中、美、日、德、法、英等6国科学家联合宣布,首次

绘成人类基因组“工作框架图”;

2001.2.12六国科学家联合在学术期刊上发表人类基因组“工作

框架图”及初步分析结果;

2001.8.26人类基因组“中国卷”的绘制工作宣告完成;2003.4.14中、美、日、德、法、英等6国科学家宣布人类基因组

序列图绘制成功,人类基因组计划的所有目标全部实现。已完成的序列图覆盖人类基因组所含基因区域的99%,精确率达到99.99%,这一进度比原计划提前两年多。至此,人类基因组计划共耗资27亿美元,比原先预计的30亿美元有明显节省。HGP13年大事记PrincipleofBioinformaticsATATGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACCAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCATATGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACCAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGAGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCDNA序列人的DNA全序列要写满1,000,000张这样的纸!

相当于13套《大英百科全书》!ALONEINHERBEAUTYDUFUWHOISLOVELIERTHANSHEYETSHELIVESALONEINANEMPTYVALLEYSHETELLSMESHECAMEFROMAGOODFAMILYWHICHISHUMBLEDNOWINTOTHEDUSTWHENTROUBLEAROSEINTHEKUANDISTRICTHERBROTHERSANDCLOSEKINWEREKILLEDWHATUSEWERETHEIRHIGHOFFICESNOTEVENSHIELDINGTHEIROWNLIVESTHEWORLDHASBUTSCORNFORADVERSITYHOPEGOESOUTLIKETHELIGHTOFACANDLEHERHUSBANDWITHAVAGRANTHEARTSEEKSANEWFACELIKEANEWPIECEOFJADEANDWHENMORNINGGLORIESFURLATNIGHTANDMANDARINDUCKSLIESIDEBYSIDEALLHECANSEEISTHESMILEOFTHENEWLOVEWHILETHEOLDLOVEWEEPSUNHEARDTHEBROOKWASPUREINITSMOUNTAINSOURCEBUTAWAYFROMTHEMOUNTAINITSWATERSDARKENWAITINGFORHERMAIDTOCOMEFROMSELLINGPEARLSFORSTRAWTOCOVERTHEROOFAGAINSHEPICKSAFEWFLOWERSNOLONGERFORHERHAIRANDLETSPINENEEDLESFALLTHROUGHHERFINGERSANDFORGETTINGHERTHINSILKSLEEVEANDTHECOLDSHELEANSINTHESUNSETBYATALLBAMBOO

这段文字说些什么?我们需要知道单词和句子标点符号在哪里?空格在哪里?语义识别ALONEINHERBEAUTYWhoislovelierthanshe?Yetshelivesaloneinanemptyvalley.Shetellsmeshecamefromagoodfamilywhichishumblednowintothedust....WhentroublearoseintheKuandistrict.Herbrothersandclosekinwerekilled.Whatuseweretheirhighoffices.Notevenshieldingtheirownlives?--Theworldhasbutscornforadversity.Hopegoesout,likethelightofacandle.Herhusband,withavagrantheart.Seeksanewfacelikeanewpieceofjade.Andwhenmorning-gloriesfurlatnight.Andmandarin-ducksliesidebyside.Allhecanseeisthesmileofthenewlove.Whiletheoldloveweepsunheard.Thebrookwaspureinitsmountainsource.Butawayfromthemountainitswatersdarken....WaitingforhermaidtocomefromsellingpearlsForstrawtocovertheroofagain.Shepicksafewflowers,nolongerforherhair.Andletspine-needlesfallthroughherfingers.And,forgettingherthinsilksleeveandthecold.Sheleansinthesunsetbyatallbamboo.语义识别佳人杜甫绝代有佳人,幽居在空谷;自云良家子,零落依草木。关中昔丧乱,兄弟遭杀戮;官高何足论?不得收骨肉。世情恶衰歇,万事随转烛。夫婿轻薄儿,新人美如玉。合昏尚知时,鸳鸯不独宿;但见新人笑,那闻旧人哭?在山泉水清,出山泉水浊。侍婢卖珠回,牵萝补茅屋。摘花不插发,采柏动盈掬。天寒翠袖薄,日暮倚修竹。

语义识别ATATGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACCAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCATATGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACACCGTACGTCCCAAAAAAGTCTCTTTCGATATACTCGCGAAGCACGACACCGTACGTCCCCGTATTAGCATCGGATCGGCCGGCGATCGTAGCTATATATACGAGCGCGCGCATCTACAGCGCTAGCTAGCGACAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAGCACGACCAGCTGGCGCATGCGAAATGCTGCATGTGCTAGVTCTAGCACAAAAAAGTCTCTTTCGATATACTCGCGATGCTAGTATACGACTAGTGCGTAGCGATCGATACTAG基因识别PrincipleofBioinformatics基因轮盘赌(GeneSweepstake)

虽然人类基因组的草图很快就要完成,但生物学家们对基因组里到底有多少基因的猜测仍有极大的不同。最近在美国纽约冷泉港召开的一个会议上,他们设立了一美元一个(次)的基因数目赌注。胜者将于2003年揭晓,他除了可获得全部赌金外,还可得到一本由DNA结构的发现者J.Watson亲笔签名的皮革封面《双螺旋》一书。如果基因组是生命的天书,那么基因就是写成这本书的词汇。生物学家们一直假设,微生物的故事较短,而人类的故事则是一部巨作,人类拥有8万到10万个基因。但是美国加州大学伯克利分校的果蝇基因组计划的主任G.Rubin指出,果蝇的基因比我们所认为的最简单的线虫少了5000个。他警告说:“生物体的复杂性并不是简单地与基因数量相关联的。”德国分子生物技术研究所的A.Rosenthal说,我们得出的结论是整个基因组有不多于4万个基因。法国的分子遗传学家H.R.Crollius通过比较现有的人类基因序列与淡水河豚基因序列,提出了更低的人类基因数估计:在27700与34300之间。美国西雅图华盛顿大学的基因学家P.Green是常用的组合基因序列数据的程序PHRED和PHRAP的发明人,他提出人类基因数大约为35000。美国国家人类基因组研究所主任F.Collins表示他同意Green的估计,将他1美元的赌金下在48011个基因上。但马里兰Rockville的基因组研究所(TIGR)的J.Quackenbush根据TIGR的人类基因指数的估计,将他的1美元赌在118259个基因上。加州IncyteGenomics公司的S.LaBrie赌的基因数是153478个,该公司在1999年9月曾宣布人类基因至少有14万个。但是支持人类基因数目是一个较小数的科学家们也不灰心,他们争论说生物体的复杂性来自于基因如何被管理或表达的,而不是基因数目本身。Rosenthal解释说:“我们不需要那么多的基因成为高等动物,”他赌的是38000个。你赌多少呢?基因轮盘赌(GeneSweepstake)TheGeneSweepstakewillrunbetween2000and2003.Therulesare:Itcosts$1tomakeabetin2000,$5in2001and$20in2002.Betsareforonenumber.Closestnumberwins,andincaseofties,thepotissplit.Ageneisasetofconnectedtranscripts.Atranscriptisasetofexonsviatranscriptionfollowed(optionally)bypre-mRNAsplicing.Twotranscriptsareconnectediftheyshareatleastpartofoneexoninthegenomiccoordinates.Atleastonetranscriptmustbeexpressedoutsideofthenucleusandonetranscriptmustencodeaprotein.AssessmentofthemethodusedtodeterminethegenewilloccurbyvotingatColdSpringHarborGenomeMeeting2002.Researcherswillbeinvitedtosubmittheirmethodstothecommunityatthistime.Assessmentofthegenenumberwilloccuronthe2003CSHLGenomemeeting.Peoplebettingshouldwritetheirname,emailandnumberintheGeneSweepstakebook,heldatColdSpringHarbor.Onebetperperson,peryear.Yeardefinedasacalendaryear.Nopencilbets(ie,youcan'tchangeyournumber).Bets165Mean61,710Lowest27,462Highest153,478LastGenesweepVotesVotedistributionPrincipleofBioinformaticsWhoswepttheGeneSweepstake?Thewinnerwasannouncedatlastweek'sHomoSapiensgeneticsmeetingatColdSpringHarborLaboratory,NewYork.Thegenechamp,LeeRowen,whodirectsasequencingprojectattheInstituteforSystemsBiologyinSeattle,Washington-beat460otherhopefulstotakehomepartofthecashpot.

Rowen'swagerat

25,947

isclosesttothecurrentreckoninginageneticdatabasecalledEnsembl,of24,847.Likeallgoodgamblers,hernumberwas"astab";onerunner-uppicked27,462becausethe27April,1962washisbirthday.Recognizinggenes-regionsofDNAthatcodeforproteins-hasprovedtougherthanexpected.Onereasonisthatpredictorprograms,whichtrawlthroughDNAforlandmarksequencescharacteristicofagene,arenotoriouslyunreliable.PrincipleofBioinformatics人类基因数目之谜原先曾经预测人类约有14万个基因,Celera公司2003年将人类基因总数定在26,383到39,114个之间,只是线虫或果蝇基因数量的两倍,人有而鼠没有的基因只有300个。根据Ensembl数据库得到的计算结果,目前的最新估计数目是2万个。基因组的大小和基因的数量在生命进化上可能不具有特别重大的意义;人类的基因较其他生物体更“有效”。人类的复杂性更主要的体现在蛋白质的复杂网络中,即蛋白质就是构成生命的基本构件。Celera公司首席科学家Venter认为:“大部分的生物学行为发生在蛋白质水平,而不是基因水平。”PrincipleofBioinformatics生物复杂性问题1、所有多细胞物种的编码基因数目差异不大约2~3万个2、物种间的细胞数量和种类差异很大

线虫~103

个人~1014个3、生物的复杂性主要由什么来控制?Howdoesasimilarnumberofgenescontrolsuchavastdifferenceincomplexity?PrincipleofBioinformatics基因组的转录情况

Transcriptionalcomplexity编码蛋白质序列proteincodingsequence人基因组的1~2%线虫基因组的~25%基因组的转录水平Transcriptionalactivity人基因组的~60%(20-30X)线虫基因组的~70%(2-3X)绝大部分的转录产物是非编码RNAThemajorityoftranscriptsarenon-codingRNA物种间的最主要差别也是非编码RNAThemajordifferencesamongdifferentorganismsarencRNAPrincipleofBioinformatics非编码RNA具有重要的生物功能SINEsasasourceofregulatoryelementsSmallRNAandRNAinterference(RNAi)线虫基因组的~25%非编码基因与疾病关系PCGEM1(aprostate-specificgenewithcellgrowth-pormotingfunction)appearstobeanoncodingfunctionalRNAgeneEvidenceforevolutionarilyconservedsdcondarystructureintheH19tumorsuppressorRNA(NAR,2000.28:1221-1227)PrincipleofBioinformaticsENCODEproject

继人类基因组计划之后,生命科学最大的国际合作计划“ENCODE(EncyclopediaofDNAElements,DNA元件百科全书)”于2007年5月发表了一系列重要研究成果,挑战了关于人类基因组的传统理论,即我们的基因组不是由孤立的基因和大量“无用DNA片段”组成的,而是一个复杂的网络系统。编码基因、调控元件以及非编码RNA之间,有着复杂的相互作用,共同控制着人类的生理活动。ENCODE工程产生了许多令人惊讶的与传统观念不同的新发现,为进一步认识整个人类基因组的功能蓝图开辟了道路。因此有必要重新考虑长期以来关于“基因”的概念和对于基因组功能元件及组织机制的认识,这将对与人类疾病相关研究产生革命性的影响。http:///ENCODENature,2007,447:799-816.PrincipleofBioinformaticsPrincipleofBioinformaticsIntroductiontoComputationalBiologyPrincipleofBioinformaticsPrincipleofBioinformatics//salzberg/PrincipleofBioinformaticsPrincipleofBioinformaticsNext-generationsequencingIlluminaSolexasequencingSOLiDsequencingHelicoshighspeedgenesequencingOxfordNanoporePacbioIontorrentchemistry人类蛋白质组计划HumanProtromeProject人类神经组计划HumanBrainProject人类基因组计划HumanPenomeProject30亿美元1,000亿美元600亿美元1995

第一个自由生物体流感嗜血菌(H.inf)的全基因组测序完成1996

启动模式生物基因组计划H.Inf全基因组Saccharomycescerevisiae酿酒酵母Caenorhabditiselegans秀丽线虫模式生物与微生物基因组计划PrincipleofBioinformatics1997大肠杆菌(E.coli)全基因组测序完成1998

完成人类基因组计划的物理作图开始人类基因组的大规模测序

Celera公司加入,与公共领域竞争启动水稻基因组计划1999.7

第5届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组水稻基因组计划PrincipleofBioinformatics1999.7

第5届国际公共领域人类基因组测序会议,加快测序速度2000Celera公司宣布完成果蝇基因组测序国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作2000.6.26

公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15《Nature》刊文发表国际公共领域结果2001.2.16《Science》刊文发表Celera公司及其合作者结果Drosophilamelanogaster果蝇Arabidopsisthaliana拟南芥PrincipleofBioinformatics2001年2月15日《Nature》封面2001年2月16日《Science》封面PrincipleofBioinformaticsAttheWhiteHouseonJune26,2000.FrancisCollins(r),DirectoroftheNationalHumanGenomeResearchInstitute,PresidentClinton,andJ.CraigVenter,PresidentofCelaraGenomics,laudedthethousandsofscientistswhocontributedtothegenomesequence.PrincipleofBioinformatics//salzberg/Next-generationsequencingIlluminaSolexasequencingSOLiDsequencingHelicoshighspeedgenesequencingOxfordNanoporePacbioIontorrentchemistryPrincipleofBioinformatics人类基因组人类基因组的组成线粒体基因组(16.6kb)细胞核基因组(3200Mb)基因外序列基因和基因有关序列约10%约90%专一或中等重复序列Non-codingDNA假基因内含子调控区域<10%>90%专一的或低拷贝数序列中度至高度重复序列20~30%70~80%分散重复序列串联重复序列/成簇重复序列约60%约40%蛋白编码基因rRNA基因tRNA基因CodingDNAPrincipleofBioinformatics已完成测序的基因组(引自http://www.ebi.ac.uk/genomes/,2015.9/2014.09/2013.09/)种类数目备注古细菌(Archaea)202/172/159真细菌(Bacteria)3316/2948/2442其中有的测定了2个以上的菌株真核生物(Eukaryota)179/177/169酵母、线虫、果蝇、蚊子、拟南芥、人等病毒(Virus)4026/3734/3339包括不同亚类或不同株系类病毒(Viroid)60/58/56包括不同亚类或不同株系噬菌体(Phage)2010/1693/1399包括不同亚类或不同株系细胞器(Organelle)6149/5388/4326包括线粒体和叶绿体质粒(Plasmid)1067/1058/1035已测序/正在测序的基因组/cgi-bin/GOLD/index.cgiPrincipleofBioinformaticsHGP的研究特色1、大协作研究:

以学科为中心以问题为中心,多学科合作2、研究的计划性和有序性:正反双方共同参与,制定更科学、更全面的研究计划4、政府与国家的作用:

美:领导与推动英:始于1989年2月,贡献为1/3左右法:始于1990年6月,贡献为3%左右日:始于1990年,贡献为7%左右德:始于1995年,贡献为7%左右中:始于1999年9月,贡献为1%左右3、商业竞争促进基础研究:

1998年Celera公司的加入PrincipleofBioinformatics5、可持续性:太空观测和基因组计划都是科学上出色的计划,每一个都是科学上迈出的一大步。但是两者之间存在着一个关键的差别:开支方面有四十倍的差别。开支的差别是至关重要的,因为这意味着可持续性。当一个计划足够便宜到成为一条可以无限向未来延伸的系列的第一个时,它是可持续的。而当一个计划太昂贵,以至不经过重大的政治斗争就无法重复时,它就是不可持续的。可持续计划带来新计划的开始,不可持续计划则标志着老时代的结束。《TheSun,theGenome,andtheInternet——ToolsofScientificRevolution》——FreemanDyson

PrincipleofBioinformaticsHGP带来的科学挑战各学科参与、协作:生命科学、数学、物理学、化学、计算机科学、材料科学以及伦理、法律等社会科学……首要科学问题

如何找到记载在基因组DNA一维结构上控制生命时间、空间的调控信息的编码方式和调节规律。应用数学、复杂系统理论、信息论、非线性科学……

催生生物信息学DNA芯片技术

交叉性技术领域:物理学、微电子信息技术、生化技术、信息技术……结构生物学

前沿领域之一:生物物理学、生物化学、晶体学、波谱学、光谱学以及X射线晶体衍射技术、核磁共振技术……PrincipleofBioinformatics§1.2生物信息学——基因组时代的呼唤PrincipleofBioinformatics物理学发展的启示生物学博物学物理学17世纪20世纪21世纪大量实验数据的积累18世纪19世纪经典物理学分类、解剖研究机械论体系完善化相对论、量子力学应用力学现代物理农业、医药实践近代生物学进化理论遗传学、分子生物学大量实验数据的积累现代生物学21世纪的生物学科学公式化?非线性物理、复杂系统?科学公式化PrincipleofBioinformaticsIsaacNewton牛顿JohannesKepler开普勒TychoBrahe第谷第一次科学浪潮天象观测大量数据行星运动定律万有引力定律航空航天技术元素与大量化合物元素周期表现代化学化工第二次科学浪潮DmitriMendeleev门捷列夫大量原子光谱数据量子论量子力学信息技术MaxKarlErnstLudwigPlanck普朗克AlbertEinstein爱因斯坦NielsBohr玻尔ErwinSchrödinger薛定谔第三次科学浪潮………ATTGCCGCGATCAGTCTGCCGATCATCCAACGATATATCGAGCATCATCCAACGATATATCGAGATCAGTCTGCCGATCATCCAAATTGCCGCGATCAGTCTGCCGATCATCCAACGATATATCGAGCATCATCCAACGATATATCGAGATCAGTCTGCCATTGCCGCGATCAGTCTGCCGATCATCCAACGATATATCGAGCATCATCCAACGATATATCGAGATCAGTCTGCCATTGCCGCGATCAGTCTGCCGATCATCCAACGATATATCGAGCATCATCCAACGATATATCGAGATCAGTCTGCCATTGCCGCGATCAGTCTGCCGATCATCCAACGATATATCGAGCATCATCCAACGATATATCGAGATCAGTCTGCCCGAGATCAGTCTGCCATTGCCGCGATCAGTCTGCCGATCATCCAACGATATATCGAGCATCATCCAACGATATATCGAGATCAGTCTGCCATTGCCGCGATCAGTCTGCCGATCATCCAACGATATATCGAGCATCATCGAGATCAGTCTGCCATTGCCGCGATCAGTCTGCCGATCATCCAACGATATATCGAGCATCATCCAACGATATATCGAGATCAGTCTGCCATTGCCGCGATCAGTCTGCCGATCATCCAACGATATATCGAGCATCATCGAGATCAGTCTGCCATTGCCGCGATCAGTCTGCCGATCATCCAACGATATATCGAGCATCATCCAACGATATATCGAGATCAGTCTGCCATTGCCGCGATCAGTCTGCCGAT基因组海量的序列和结构数据?重大的生命科学发现第四次科学浪潮?DulbeccoVenterCollinsWatson面对堆积如山的生物学数据……PrincipleofBioinformatics……新的生物学研究模式的出发点应该是理论的。科学家将从理论推测出发,然后再返回到实验中去,追踪或验证这些理论假设。……生物学家不仅必须成为计算机学者,而且也要改变他们研究生命现象的途径。——W.Gilbert,TowardsAParadigmShiftinBiology,Nature,349(1991)99PrincipleofBioinformatics传统生物学:实验科学现代生物学的发展:1、高通量数据获取日益实现自动化、半工业化

从数据库中实现数据挖掘、知识发现2、海量数据

难以完全依赖实验手段对新数据进行分析,必须借助计算机实现分析和筛选3、更复杂层次的生物学问题

复杂的基因调控网络、代谢网络;细胞间信号转导过程;生物个体全部基因表达变化……分析、筛选大量新数据生物中的复杂网络、复杂过程、复杂现象理论生物学计算生物学PrincipleofBioinformatics21世纪生命科学理论计算实验数学与物理科学生物信息学与传统生物学的关系实验永远起着决定作用生物信息学的发展离不开实验生物学的贡献实验生物学日益依赖生物信息学的指导PrincipleofBioinformatics什么是生物信息学(Bioinformatics)?

美国国家卫生研究院(NIH)的定义:Bioinformaticsisdefinedasascientificdisciplinethatencompassesallaspectsofbiologicalinformationacquisition,processing,storage,distribution,analysisandinterpretation,thatcombinesthetoolsandtechniquesofmathematics,computerscienceandbiologywiththeaimofunderstandingthebiologicalsignificanceofavarietyofdata.生物信息学是一门交叉学科。它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。

PrincipleofBioinformatics多学科交叉、互相推动发展

生物学、物理学、化学、数学、计算机科学、信息科学、系统科学·····以基因组DNA序列信息为源头,识别基因组序列中代表蛋白质和RNA基因的编码区,阐明非编码区的信息特征,破译隐藏在DNA序列中的遗传语言规律;同时,归纳、整理与基因组遗传语言信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。生物信息学/计算生物学揭示基因组信息结构的复杂性、遗传语言的根本规律生物学信息的计算机处理计算生物学/理论生物学PrincipleofBioinformatics前基因组时代的“钓鱼”和后基因组时代的“捞鱼”PrincipleofBioinformaticsWhenIgivetalkstoyoungscientistsseekingadviceaboutareasoffutureintensescientificexcitement,computationalbiologyismynumberonerecommendation.FrancisCollins,DirectorofH

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论