基因组分析与进化基因组学_第1页
基因组分析与进化基因组学_第2页
基因组分析与进化基因组学_第3页
基因组分析与进化基因组学_第4页
基因组分析与进化基因组学_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因组分析与进化基因组学

DOE(1984–1986)

1984年,White和Mendelsonhn

受美国能源部(DOE)委托在Utah州主持召开一个小型专业会议,讨论测定人类整个基因组的DNA序列的意义和前景

1985年,Sinsheimer在加州主持DOE会议,提出测定人类基因组全序列的动议,形成了DOE的“人类基因组计划(HGP)”草案

1986年,DOE在新墨西哥州讨论了HGP的可行性,随后宣布实施这一计划

1986年,诺贝尔奖获得者RenatoDulbecco(1975年度生理学医学奖)在Science发表短文《肿瘤研究的转折点:人类基因组测序》:如果我们想更多地了解肿瘤,我们从现在起就必须关注细胞的基因组。……从哪个物种着手努力?如果我们想理解人类肿瘤,就应该从人类开始。……人类肿瘤研究将因对DNA的了解而得到巨大推动。NIH(1987–1990)1987年,美国DOE和国立卫生研究院(NIH)为HGP下拨了启动经费1.66亿美元

1988年,美国在NIH成立了“国家人类基因组研究中心”,由Watson出任第一任主任

1990年10月,经国会批准,美国HGP正式启动,总体计划在15年内投入至少30亿美元进行人类全基因组分析“孤胆英雄”CraigVenter

1998年,世界上最大的测序仪生产商美国PEBiosystems公司,以其刚研制成功的300台最新毛细管自动测序仪ABI3700和3亿美元资金,成立了CeleraGenomics公司,宣称要在3年内以“人类全基因组霰弹法测序策略”测定人类基因组,并声称要专利200~400个重要基因,并将所有序列信息保密3个月。Celera公司已有雇员300多人,购买了号称“全球第三”的超大型计算机,号称拥有了超过全球所有序列组装解读力量总和的实力。就在六国共同宣布HGP工作框架图构建完成的同一天,Celera公司宣称已组装出了完整的人类遗传密码。Celera公司此举是对公益性HGP的竞争与挑战社区大学生,冲浪高手……

越战救护兵

UCSD生物学博士

NIH研究员与ClaireFraser和HamiltonSmith合作测定了流感嗜血杆菌基因组(<2M)

与JohnWhite合作建立Celera公司2000年6月26日人类基因组工作草图完成

Science2001/2/16Nature2001/2/15合成生物学基因组一个基因组(genome)是指一种生物体中的整套遗传信息,一般为一个受精卵或一个体细胞的细胞核中所有DNA分子的总和。如植物有核基因组、线粒体基因组和叶绿体基因组。基因组学研究通常包括:基因组作图,基因组测序,基因组注释,基因功能鉴定等功能基因组学(functionalgenomics)

利用结构基因组学研究所得的各种来源的信息,建立与发展各种技术和实验模型来测定基因及基因组非编码序列的生物学功能比较基因组学(comparativegenomics)

通过模式生物基因组之间或模式生物基因组与人类基因组之间的比较与鉴别,为研究生物进化和分离人类遗传病的候选基因以及预测新的基因功能提供依据。其中,着重研究生物进化的领域亦称为进化基因组学(evolutionarygenomics)1998/12/11ScienceSCIENCE291(5507)2001/2/1626383条人类基因分子功能的分布SCIENCE291(5507)2001/2/16人类基因组与小鼠染色体组间的关系基因和基因组基因组大小(bp)1.4X1071X1081X1083X109基因数量6,00012,00019,00035,000人和若干模式生物的基因组大小生物 估计基因组大小(bp) 估计基因数目 平均基因密度(bp)

人(Homosapiens) 3×109 ~30000105

小鼠(Mus

musculus) 3×109>80000 <4×104

黑腹果蝇(Drosphila

melanogaster) 1.8×108 13601 1378 拟南芥(Arabidopsisthaliana) 1×108 ~250004000 秀丽隐杆线虫(Caenorhabditis

elegans)9.7×107 19099 5079 酿酒酵母(Saccharomyces

cerevisiae)1.2×107 6034 2005 大肠杆菌(Escherichiacoli) 4.67×106 4288 1090 流感嗜血杆菌(Haemophilus

influenzae)1.8×106 1749 1030 (A)EstimatesofthecompositeparameterNeu

foraphylogeneticallydiverseassemblageofspecies.(B)TherelationshipbetweenestimatedNeu,totalgenenumber,andgenomesize.Dataforprokaryotesareplottedinblue.

Thelog-logregressionof

Neu

versusgenomesizeishighlysignificant,withaninterceptof–1.30±0.40,aslopeof–0.55±0.07,andr2=0.659,df=28.Thenumberofspeciesplotteddiffersbetweengraphsbecausegenomestructureinformationisnotavailableforallspecieswith

Neu

estimates.TheOriginsofGenomeComplexityScience302:1401-1404.11/21/2003两种测序策略基于BAC的方法先把基因组打碎成200-300kb的片段并制成BAC文库,再选择一些BAC进一步打碎成3kb左右的小片段,测序并拼接。全基因组鸟枪法把基因组直接打碎成3kb左右的小片段,测序并拼接。对拼接软件的需求能充分利用正反向测序的配对信息,避免重复序列造成的错误拼接能处理数以百万甚至千万计的数据

1)程序并行化

2)高效率比对

3)能逐步拼接基因组注释SequenceGENESCANORFFinderGENEMARKGenePrediction…BlastnFastaHomologySearchTranscriptionRegulatoryRegionDomainIdentify(HMMER,BLIMPS)Transmembrane(TMAP,TMHMM)LocalizationSites(Psort)Physical&ChemicalPara(PI/MW,EXTCOEF)Post-translationalmodifications(NetNGlyc…)ProteinAnnotation…GeneOntologyPathwayPredictedGeneOrGene开放阅读框ORF

(OpenReadingFrame)一段序列从起始密码子(startcodon)开始,到终止密码子(stopcodon)结束,而且其中不包含其它终止密码子。微生物基因发现微生物基因组中80%-90%的序列参与编码主要问题:如果有两个或更多重叠的阅读框,哪一个是基因(假定只可能有一个)最可靠的方法–同源搜索(使用BLAST或FASTA等)主要困难:在无已知同源性信息的情况下寻找基因预测软件GetORFWebAccess

http://bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlApplication(DownloadEmboss)

GETORF:AdvancedOptions

i.Codetouse:选择不同的codonusagetable,包含有:

(1)Standard

(2)Standard(withalternativeinitiationcodons)

(3)VertebrateMitochondrial

(4)YeastMitochondrial

(5)Mold,Protozoan,CoelenterateMitochondrialandMycoplasma/Spiroplasma

(6)InvertebrateMitochondrial

(7)CiliateMacronuclearandDasycladacean

(8)EchinodermMitochondrial

(9)EuplotidNuclear

(10)Bacterial

(11)AlternativeYeastNuclear

(12)AscidianMitochondrial

(13)FlatwormMitochondrial

(14)BlepharismaMacronuclear

(15)ChlorophyceanMitochondrial

(16)TrematodeMitochondrial

(17)Scenedesmusobliquus

(18)ThraustochytriumMitochondrialii.最小的开放阅读框由多少个核甘酸组成,预设值为30,也就是10个氨基酸。iii.Typeofoutput:可选择不同的输入结果,包含有:

(1)TranslationofregionsbetweenSTOPcodons

(2)TranslationofregionsbetweenSTARTandSTOPcodons

(3)NucleicsequencesbetweenSTOPcodons

(4)NucleicsequencesbetweenSTARTandSTOPcodons

(5)NucleotidesflankingSTARTcodons

(6)NucleotidesflankinginitialSTOPcodons

(7)NucleotidesflankingendingSTOPcodonsMetagenomics

(CommunityGenomics,EnvironmentalGenomics)Whoisthere?–diversity&abundanceWhattheyaredoing?–Metabolic&interactionWhytheyarethere?–EcologicalrelationsSpeciescomplexityAcidminedrainage1 100 1000 10000SeawaterHumangutSoilThecultivation-independentanalysisofthecollectivegenomesofmicrobialpopulationsobtaineddirectlyfromtheenvironmentTheComplexityofMetagenomicsAABCDA’Isolatedgenome–singlesourceofDNAMetagenome–multiplesourceofDNAXGenomeAnnotation,Metagenomics?readsassembliesgenesannotationTraditionalgenomicsreadsassembliesORFsannotationMetagenomics???

HugeMultipleorganismsFragmental

HugePartialORFsWrongORFsQ:Solution?

A:Clustering.ProteinfamiliesNovelfamiliesORFvalidation

HugeMultipleorganismsUnevencoverage真核生物的基因的完整结构

及它的表达过程transcriptionRNAsplicingproteintranslationexon1DNAexon2exon3intron1intron2promotergtgtagagupstreamdownstream5’UTR3’UTRgtgtagagPrimaryRNAtranscript3`5’MatureRNAUTSuga,uaa,uag3`aaa…5’基因识别找出在一段DNA序列中,是否存在ORF或“基因”判明基因的结构,包括起止位置,外显子/内含子边界,启动子,polyA区域,非转译区(UTR)等预测真基因和“假基因”(pseudogene)及可能的剪切位点基于同源性的基因预测法“从头开始”预测法综合使用以上两种方法:如TwinScan其它方法:如数字信号处理,Z曲线,等基因预测方法分类基于序列相似性的基因预测

将基因组序列与EST(expressedsequencetag,表达序列标记)或cDNA等相比较(用Sim4等方法),从而找出与mRNA相对应的区域。将基因组序列与蛋白质数据库相比较(用BLASTX等方法),从而找出可能的编码区。将预测得到的多肽与蛋白质数据库相比较将基因组序列与同源性相近物种的基因组相比较,找出保守区域。GENEPredictionGENESCANhttp:///GENSCAN.htmlGENEMARK

http:///GeneMark/eukhmm.cgiFGENESH

/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind

GeneScanGeneMarkFGENESH基因组整合分析平台Expglimmer(>90)ReferenceGetCDSsPredictedGeneCollectionGeneCollectionGeneDBFormatdbGeneDBFormatdbGeneBBHClustWProCalDs/DnClassificationGOclassificationKeggPathway……新技术平台的比较SequencerReadlengthHigh-throughputRunningtimeCost454GS-20100bp20Mb/run200kreads/run5.5h5000-7000USD/run0.00025USD/bp454GS-FLX200-250bp100Mb/run500kreads/run7-8h-10—30%Solexa25-35bp1000Mb/run28mreads/run2-3d3000USD/runSolid25-50bp100Mb2-4mreads/run1d?ABI3730Xl700bp70kb/run96reads/run2h150USD/run0.0025USD/bp深度测序数据分析流程基因组分析与生物信息学基因组信息学:存储、获取、处理、分配、分析和注释有关基因组的信息基因组分析的难度:基因组分析的信息量比单基因要高几个数量级一些基因组的数据尚不完备,质量也有待提高基因组分析的方法学研究还处于起步阶段生物信息学与基因组学的发展基因组进化基因组排列(genomearrangement):是指基因序列的变化(序列插入,转座等)基因组含量(genomecontent):

基因的获得(序列的趋异、复制、重组、水平转移)和基因丢失直系同源和并系同源基因原始血红蛋白基因基因复制α链β链

FrogChickmousemousechickfrog直系同源直系同源并系同源

genomeAgeneX

genomeBlysintransporterYgeneZ50%70%geneZ

geneY:orthologsgeneX

geneY:homologsgeneX

geneZ:paralogs直系/并系

直系同源体簇(COG)

直系同源基因(orthologousgene)是指在不同物种之间同源相似的基因,而并系同源基因(paralogousgene)是指一个物种内的同源基因。一个生物物种的基因组中,两个基因或开放读码在各自全长的60%以上范围内,同一性不少于30%时,称为同源体。研究直系同源基因之间或并系同源基因之间的功能关系,可以为基因组分析提供很大的帮助。例如,比较8个已完成测序的整个基因组所编码的蛋白质序列,可以发现代表不同系统发育关系并反映了不同物种的直系同源体簇(clusteroforthologousgroups,COG)。NCBICOG网页(http:///COG/)真核生物中一个信号肽酶家族的COG(登录ID0681)COG的系统发育式样基于基因含量的基因组系统发育分析计数基因组共享直系同源基因的数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论