郜刚生物信息学-02-1-生物信息学的生物学基础-2_第1页
郜刚生物信息学-02-1-生物信息学的生物学基础-2_第2页
郜刚生物信息学-02-1-生物信息学的生物学基础-2_第3页
郜刚生物信息学-02-1-生物信息学的生物学基础-2_第4页
郜刚生物信息学-02-1-生物信息学的生物学基础-2_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

§5基因组什么是基因组(genome)?

基因组(genome)是指一个细胞或病毒包含的全部遗传信息的总和。绝大部分基因组,包括所有的细胞生命形式的基因组,是由DNA组成;一些病毒具有RNA基因组;

真核生物:指一个物种的单倍体染色体所含有的一整套基因;

原核生物:一般只有一个环状DNA分子,其上所有的基因为一个基因组;真核生物细胞中的细胞器(如叶绿体、线粒体等)中的DNA也为环状,构成叶绿体基因组、线粒体基因组。基因组的大小用碱基对(basepair,bp)的数量来表示:103为kb,106为Mb。基因组大小与物种的关系

基因组的大小大致上与物种进化的复杂性相关;大多数真核生物的基因组都比原核生物的基因组大,比原核生物的基因组复杂;随着动物或植物进化程度的上升,每个单倍体的DNA含量一般趋于增加,但是存在例外(C值佯谬);

思考:为什么会出现“C值佯谬”?基因组基因组大小(kb)型式病毒MS4单链RNASV405环状双链DNAX1745环状单链DNASARS-CoV30单链RNA单纯疱疹病毒152线性双链DNAT2、T4、T6165天花267细菌支原体(M.hominis)760大肠杆菌(E.coli)4,600环状双链DNA真核生物单倍体染色体数目酵母(S.cerevisiae)13,00016线虫(C.elegans)100,0006拟南芥(A.thaliana)100,0005果蝇(D.melanognater)165,0004人(H.sapiens)3,000,00023玉米(Z.mays)4,500,00010蝾螈(A.spp.)76,000,00014不同生物基因组大小的比较基因数目与物种的关系

基因数目的多少大致上与物种进化的复杂性相关;在高等动植物中,巨大的基因组并不意味着有巨量的基因数目。

人类究竟有多少个基因?

理论上:根据基因组的大小,可具有106个基因“生物体的复杂性并不是简单地与基因数量相关联的。”(G.Rubin)5万,6万,7万,8万,14万!……?

4万

,3万,……?打赌!基因数目猜奖(GeneSweepstake)生物学家们为人类基因的数目打赌生物学家们对基因组里到底有多少基因的猜测一直有极大的不同。2000年,在纽约冷泉港召开的一个会议上,他们设立了一美元一个(次)的基因数目赌注。胜者将于2003年揭晓,他除了可获得全部赌金外,还可得到一本由J.Watson亲笔签名的皮革封面《双螺旋》一书。如果基因组是生命的天书,那么基因就是写成这本书的词汇。生物学家们一直假设,微生物的故事较短,而人类的故事则是一部巨作,人类拥有8万到10万个基因。但是UCBerkly的果蝇基因组计划的主任G.Rubin指出,果蝇的基因比我们所认为的最简单的线虫少了5,000个。他警告说:“生物体的复杂性并不是简单地与基因数量相关联的。”

德国分子生物技术研究所的A.Rosenthal说,我们得出的结论是整个基因组有不多于4万个基因。法国的分子遗传学家H.R.Crollius通过比较现有的人类基因序列与淡水河豚基因序列,提出了更低的人类基因数估计:在27,700与34,300之间。华盛顿大学的基因学家P.Green提出人类基因数大约为35,000。美国国家人类基因组研究所主任F.Collins表示他同意Green的估计,将他1美元的赌金下在48,011个基因上。但Rockville的基因组研究所(TIGR)的J.

Quackenbush根据TIGR的人类基因指数的估计,将他的1美元赌在118,259个基因上。加州IncyteGenomics公司的S.LaBrie赌的基因数是153,478个,该公司在1999年9月曾宣布人类基因至少有14万个。但是支持人类基因数目是一个较小数的科学家们也不灰心,他们争论说生物体的复杂性来自于基因如何被管理或表达的,而不是基因数目本身。Rosenthal解释说:“我们不需要那么多的基因成为高等动物,”他赌的是38,000个。你赌多少呢?基因轮盘赌(GeneSweepstake)/Genesweep/

TheGeneSweepstakewillrunbetween2000and2003.Therulesare:Itcosts$1tomakeabetin2000,$5in2001and$20in2002.Betsareforonenumber.Closestnumberwins,andincaseofties,thepotissplit.Ageneisasetofconnectedtranscripts.Atranscriptisasetofexonsviatranscriptionfollowed(optionally)bypre-mRNAsplicing.Twotranscriptsareconnectediftheyshareatleastpartofoneexoninthegenomiccoordinates.Atleastonetranscriptmustbeexpressedoutsideofthenucleusandonetranscriptmustencodeaprotein.AssessmentofthemethodusedtodeterminethegenewilloccurbyvotingatColdSpringHarborGenomeMeeting2002.Researcherswillbeinvitedtosubmittheirmethodstothecommunityatthistime.Assessmentofthegenenumberwilloccuronthe2003CSHLGenomemeeting.Peoplebettingshouldwritetheirname,emailandnumberintheGeneSweepstakebook,heldatColdSpringHarbor.Onebetperperson,peryear.Yeardefinedasacalendaryear.Nopencilbets(ie,youcan'tchangeyournumber).Bets165Mean61,710Lowest27,462Highest153,478LastGenesweepVotesVotedistributionWhoswepttheGeneSweepstake?Thewinnerwasannouncedatlastweek'sHomoSapiensgeneticsmeetingatColdSpringHarborLaboratory,NewYork.Thegenechamp,LeeRowen,whodirectsasequencingprojectattheInstituteforSystemsBiologyinSeattle,Washington-beat460otherhopefulstotakehomepartofthecashpot.Rowen'swagerat25,947isclosesttothecurrentreckoninginageneticdatabasecalledEnsembl,of24,847.Likeallgoodgamblers,hernumberwas"astab";onerunner-uppicked27,462becausethe27April,1962washisbirthday.Recognizinggenes-regionsofDNAthatcodeforproteins-hasprovedtougherthanexpected.Onereasonisthatpredictorprograms,whichtrawlthroughDNAforlandmarksequencescharacteristicofagene,arenotoriouslyunreliable.HumangenenumberwagerwonGeneticistsdrawsweepstakedespiteuncertaintyoverfinaltally

3June2003人类基因数目之谜目前已经发现和定位了26,000多个功能基因,其中尚有42%的基因尚不知道功能。原先曾经预测人类约有14万个基因,Celera公司现将人类基因总数定在26,383到39,114个之间,只是线虫或果蝇基因数量的两倍,人有而鼠没有的基因只有300个。根据Ensembl数据库得到的计算结果,目前的最新估计数目是24,847。基因组的大小和基因的数量在生命进化上可能不具有特别重大的意义;人类的基因较其他生物体更“有效”。人类的复杂性更主要的体现在蛋白质的复杂网络中,即蛋白质就是构成生命的基本构件。Celera公司首席科学家Venter认为:“大部分的生物学行为发生在蛋白质水平,而不是基因水平。”§6高等真核生物基因结构与基因预测简介人类基因组的物理结构

核基因组(nucleargenome):

由大约30亿bp组成,分为24条线性DNA分子(55~250Mb),分别包含在24条不同的染色体中(22条常染色体和2条性染色体X、Y)

线粒体基因组(mitochondriongenome):长为16,569bp的环状DNA分子,位于产生能量的细胞器——线粒体中§6.1真核生物的基因结构基因家族、假基因

多数真核生物基因表现为多拷贝(某些基因多次重复),称为基因家族(genefamily);

真核生物的基因多拷贝为大量产生RNA、蛋白质所需要;或者可以在不同组织、不同发育阶段被表达;基因家族产生的推测:进化过程中的基因加倍;由于突变导致失去功能的基因拷贝叫假基因(pseudogene)。假基因:与功能性基因密切相关的DNA系列,但由于缺失、插入和无义突变失去阅读框架而不能编码蛋白质产物。有些人类假基因可以转录但不能翻译成蛋白质。假基因的两种类型:(1)、由于一种基因的加倍而不能表达,但保留原来亲本基因的外显子及内含子;(2)、仅含有亲本基因的外显子,源于mRNA并通过逆转录而重新整合进基因组的。重复DNA序列高度重复DNA序列是多数真核生物基因组的主要成分超过90%为重复序列,不编码mRNA前体或其它RNA。(个体间的重复序列有巨大差异-->DNA指纹)重复序列分为3类:高度重复序列、中等重复序列、低重复序列。目前的一些认识:(1)、GC含量低,AT含量高。(AT的氢键弱);(2)、3'端和5'端有直接重复序列的存在。有利于形成环状结构。真核生物的基因结构内含子(intron)和外显子(exon)

真核生物的基因一般为断裂基因(interruptedgene),由内含子和外显子组成,编码区被内含子分隔成若干段;内含子-外显子结构的意义:提供编码区进行重组的机会,产生新基因,有利于真核生物的进化。IntergenicregionGeneExonIntron例子:人类第21号染色体的Contig3部分(长3,450,497bp)基因“TRPC7”的总长为62,668bp,其中编码部分总长为3,345bp,由25个外显子组成,长度范围48~354bp。人类结构基因的结构示意图人类结构基因的结构示意图人类结构基因的结构包括4个区域:(1)、外显子;(2)、内含子;(3)、前导区(位于编码区上游,相当于mRNA5’端非编码区(非翻译区));(4)、调节区(包括启动子和增强子等基因编码区的两侧,也称为侧翼序列);真核生物基因结构和转录过程与转录有关的调控信号(1)、启动子(promoter)(2)、增强子(enhancer)(3)、负性调节元件(4)、LCR(Locuscontrolregions)(基因座调控区)(5)、转录因子(6)、与转录终止有关的序列:(7)、mRNA的剪接(1)、人类细胞核基因组中编码序列不到2%,约含3万左右不同的基因,且有近1/3为多拷贝;(2)、结构基因大多含有插入序列。即大部分基因为断裂基因(interruptedgene);(3)、外显子(exon)一般不长于800bp,内含子(intron)则在30bp~数十kb不等;(4)、mRNA剪接位点(Splicesites)的识别信号:每个外显子和内含子接头区都有一段高度保守序列(consensussequence),即内含子5’端大多数是GT(称为donorsite)开始,3’端大多数是AG(称为acceptorsite)结束,称为GT-AG法则;人类基因组结构的特点(5)、尽管拥有相同的一套基因组,不同的分化细胞中所表达的基因也不同,每个细胞只表达一部分基因(例如:人脑细胞的基因表达百分比最高,为22%);(6)、转录在细胞核内进行,翻译在细胞质核糖体中进行,二者在时间空间上是分开的。内含子-外显子结构的统计研究10种真核生物的外显子和内含子数目及长度的统计结果比较(Deutsch&Long,1999)(外显子的长度单位是氨基酸,内含子的长度单位是核苷酸)平均每个基因包含外显子4.1个,内含子3.1个;基因中每1kb长的编码蛋白质区域(也称为CDS,CodingSequence)平均包含3.7个内含子.10种真核生物的外显子和内含子长度的统计分布(Deutsch&Long,1999)(外显子长度的单位为氨基酸,内含子长度的单位为核苷酸;图中横坐标表示长度,纵坐标表示频率。)外显子长度概率分布曲线的山峰处于30~40个氨基酸长度的地方,且山峰比较紧凑,而内含子的长度则大多数为40~125个核苷酸,山峰相对平缓。人(Homosapiens)的基因组:平均每个基因包含内含子4.0个(最多的是116个),外显子5.0个,每1kb的CDS平均含有5.3个内含子,是这10种真核生物中内含子数目最多、长度最大的。内含子的平均长度为3413.1bp,其中大多数为75~150bp,已知最长的内含子要大于100kb。每1kb的CDS所包含的内含子长度为6825bp。同样地,人类基因组外显子长度的概率分布要比内含子的概率分布要紧凑得多。人类基因组的外显子和内含子数目及长度的统计结果比较(Deutsch&Long,1999)(外显子的长度单位是氨基酸,内含子的长度单位是核苷酸)人类基因组外显子和内含子长度的统计分布图(Deutsch&Long,1999)(外显子长度的单位为氨基酸,内含子长度的单位为核苷酸;图中横坐标表示长度,纵坐标表示频率。)同样地,人类基因组外显子长度的概率分布要比内含子的概率分布要紧凑得多。基因预测:早期指预测DNA序列中编码蛋白质的部分,即外显子部分;现在指整个基因结构的预测,综合各种外显子预测的算法及对基因结构信号的认识,预测出可能的完整基因。基因预测(GenePrediction)基因识别(GeneIdentification)基因寻找(GeneFinding)基因注释(GeneAnnotation)ComputationalGeneIdentification、ComputationalGenePrediction(基因注释:描述基因组,并通过计算分析,辅以生物数据库和生物学知识,将原始的基因组序列数据转换成有用的生物学信息。)§6.2真核基因预测研究概况基因预测的主要目的抓住如下特征:(1)、编码蛋白质基因的区域信息;(2)、编码蛋白质基因的结构信息(包括非翻译区和调控元,以及所有与转录有关的外显子、内含子);(3)、每一转录所对应的所有可能翻译成蛋白质产物的翻译;(4)、重复序列的区域及其特征;(5)、编码非编码RNA的基因的区域。基因预测的主要内容启动子的识别翻译起始位点的识别剪接位点的识别多腺苷化信号的识别蛋白编码区的识别内含子的识别Burset和Guigo(1996)分三个层次来评估:编码核苷酸、外显子结构、蛋白质产物。(1)从编码核苷酸的水平指对于每个单个的核苷酸,将预测的状态与其真正的状态相比较,进而考察预测的效果。1、基因预测效果的评估TP(truepositive):实际编码区的核酸中被成功预测的核酸数目;TN(truenegative):实际非编码区的核酸中被成功预测的核酸数目;FN(falsenegative):实际编码区的核酸中被误测为非编码的核酸数目;FP(falsepositive):实际非编码区的核酸中被误测为编码的核酸数目。TPTNFNFPREALITYcodingnoncodingcodingnoncodingPREDICTIONTP+FNFP+TNTP+FPFN+TN基于TP、TN、FP、FN,主要引进四个参数:Sn、Sp、CC、AC。敏感性(sensitivity,Sn):特异性(specificity,Sp):Sn:实际编码区核酸序列中被成功预测的比例;Sp:预测为编码核酸序列中被成功预测的比例。条件概率:x:某个核酸的状态(即编码或非编码),F(x):该核酸被预测的状态,c:编码状态,n:非编码状态相关系数CC(CorrelationCoefficient):更全面地衡量基因预测的效果CC:取值范围[-1,1],不仅包含P(F(x)=c|x=c)和P(x=c|F(x)=c)的信息,而且也包含了P(F(x)=n|x=n)和P(x=n|F(x)=n)的信息。缺陷:不允许分母中TP+FN、TN+FP、TP+FP和TN+FN中任何一项为零。近似相关AC(ApproximationCorrelation):来作为评估基因预测的效果AC:对P(F(x)=c|x=c)、P(x=c|F(x)=c)、P(F(x)=n|x=n)和P(x=n|F(x)=n)四种条件概率的等权平均,取值范围[-1,1]。|AC|>=|CC|(2)从外显子结构的水平沿着DNA序列链,对预测出的外显子结构与实际的外显子结构进行比较。(比较的标准尚未统一,但目前用得较多的比较标准是:只有当预测的外显子结构与实际的外显子结构完全吻合(包括剪接位点的信息),才认为预测是成功的。)外显子预测的评估同样可以引进敏感性(Sn)和特异性(Sp)两个参数:Sn:DNA链上实际的外显子中被成功预测到的比例;Sp:DNA链上被预测为外显子中被成功预测到的比例。引入ME(MissingExons)和WE(WrongExons)ME:实际的外显子中完全没有预测到(即二者没有重叠的部分)的比例;WE:所预测的外显子中完全没有预测到的比例。(3)从蛋白质产物的水平将预测的基因所编码的蛋白质产物与实际的基因编码的蛋白质产物作比较。预测结果的评估目前尚无公认的统一标准。有的标准是考察被准确预测到的氨基酸序列的比例,以及被错误预测的氨基酸比例。基于内容检测的方法(searchbycontent或contentsensors)基于信号检测的方法(searchbysignal或signalsensors)基于相似性比较的方法(searchbysimilaritycomparison)2、基因预测方法简介基于内容检测的方法原理:DNA序列中的编码蛋白质区域的字符的上下文特征与非编码的区域是有区别的。由于蛋白质产物对氨基酸和同义密码子的选择的偏倚性,因此也决定了编码区序列的核苷酸组成的特性,如周期性(periodicities)、短程相关性(short-rangecorrelations)、寡核苷酸(oligonucleatide)使用的偏倚性等。基于内容检测的方法信号检测的方法就是根据人们目前对基因组结构的一些相关的位点信号的认识来识别基因。这些信号包括剪接信号、起始密码子信号、终止密码子信号、启动子信号、转录终止信号、分支点(branchpoint)等。对于真核生物的基因识别,目前应用比较广泛的软件一般都是结合上述两种方法来设计。除上述两类方法外,还有的方法结合了序列相似性数据库搜寻(sequencesimilaritysearches)技术,即对已知序列数据库的相似性比较。常用算法(1)词汇统计算法

对核苷酸序列(NucleotideWords)中词汇选用频率的统计研究。由于序列中的编码部分与非编码部分在核苷酸、密码子的选用、周期特性等存在差异性,因此可以用来区别编码区和非编码区;(Claverie&Bougueleret,1986;Bechmann,1986(2)同源比较算法将未知序列通过对已知EST(ExpressedSequenceTag,表达序列标签)数据库的相似性比较,也可以比较有效地找到基因。许多有名的基因预测软件(如GRAILⅡ)都已结合了同源比较算法;(Claverie,1993;Green,1993)(4)HMM(HiddenMarkovModel)算法

将核苷酸序列看成一个随机序列,DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。由于这些Markov模型的统计规律是未知的,而HMM能够自动寻找出它们隐藏的统计规律。对于高等生物这样复杂的DNA序列,HMM必须学习不同的基因结构的信号。典型的基于HMM的基因预测系统VEIL(JohnHopkinsUniversity)HMMgene(TechnicalUniversityofDenmark)GeneMark.hmm(GeorgiaInstituteofTech)Genie(UCSantaCruz&UCBerkeley)GENSCAN(Stanford)GenScan的HMM模型GENSCAN对某个基因的预测结果示意图:常见的HMM模型(5)动态规划算法(DynamicProgramming)

将预测出的各个可能的外显子和内含子进行拼接,组成完整的基因。并对各种可能的拼接进行计分,从而得出最可能的基因结构;(Gelfang&Roytberg,1993)(6)法则系统(Rule-basedSystem)算法(Guigo,1992)(7)语言学方法(Linguistic)(Dong&Searls,1994);(8)人工神经网络方法(ANN)(9)LDA方法(LinearDiscriminateAnalysis)(Fickett&Tung,1992);(10)决策树(DecisionTree)算法(Salzberg,1995);(11)Fourier分析(Tiwari,1997)。常用真核基因预测软件(1)、FGENEH作者:Solovyev等,1995所用算法:LDA(LinearDiscriminantAnalysis)方法(2)、GeneID作者:Guigo等,1992所用算法:法则系统(Rule-basedSystem)算法(3)、GeneParser作者:Snyder和Stormo,1993所用算法:动态规划算法(DynamicProgramming)(4)、Genie作者:Henderson等,1997所用算法:广义隐Markov模型(GeneralizedHiddenMarkovModel)方法、动态规划算法(5)、GenLang作者:Dong和Searls,1994所用算法:语言学方法(Linguistic)(6)、GENESCAN作者:Burge和Karlin,1997所用算法:隐Markov模型(HiddenMarkovModel)方法、动态规划算法(7)、HEXON作者:Solovyev等,1994所用算法:LDA(LinearDiscriminantAnalysis)方法、动态规划算法(8)、VEIL作者:Krogh等,1994所用算法:隐Markov模型(HiddenMarkovModel)方法、动态规划算法

目前常用软件的基因预测结果评估(Claverie,1997)

目前常用软件的基因预测结果评估(Rogic等,2001)目前的各种算法还存在许多缺陷需进一步改进,主要表现在以下两点:(1)、这些算法对基因中的非编码区(即内含子)和基因间的序列不加任何区别,所以预测出的基因是不完全的,而对5’和3’非翻译区(UTR)的预测基本上还是空白;(2)、这些算法的学习依赖性较强。如同源比较算法是完全依赖于已知的基因序列,而HMM之类的算法都需要对已知的基因结构信号进行学习或训练。§7原核基因组研究及基因预测方法原核生物基因组的研究意义1、揭示生命活动的基本规律——导致现代分子遗传学的许多重大发现染色体、DNA双螺旋、遗传密码、DNA复制、中心法则…原核生物基因组的研究意义2、揭示生命起源与进化的奥秘3、进行分子遗传学的良好材料4、在农业、工业和生物制药工程上的应用十分广泛作为微生物基因工程的反应器,直接运用于干扰素、人胰岛素、生长激素、乙型肝炎疫苗等现代基因工程产品的生产。原核生物基因组结构的特点1、原核生物基因组一般比真核生物基因组小得多

E.coli的基因组(4.6Mb)约为酵母基因组(12.1Mb)的2/52、绝大部分原核生物基因组由一个单一的环状DNA分子组成3、原核生物的基因通常比真核生物的少E.coli:4000多个基因,人:~30000个4、原核生物的基因绝大多数是连续基因,不含间隔的内含子;基因组结构紧密,重复序列远少于真核生物的基因组。例子:E.coliK-12

双链环状DNA分子,全基因组长为4,600kb;

目前已经定位的基因有4,289个;

非编码区占的比例约为11.4%。长开放阅读框(ORF,openreadingframe)若终止密码子出现在非编码核酸序列中,大约每21个密码子出现一次(3/64)绝大部分原核生物蛋白质的长度大于60个氨基酸;——(E.coli:蛋白质编码区域平均长度为316.8个密码子,不到1.8%的基因的长度小于60个密码子)长ORF表明该区域可能对应于一个原核生物基因的编码序列——从统计学角度来看,如果所有的密码子在随机的核酸序列中以相同的频率出现,则不含终止密码子且长度为N个密码子的序列出现的概率为(61/64)N。长度为N的ORF的95%显著性置信度等价于5%“随机”命中的可能性,即(61/64)N=0.05,这里N等于60,表示典型长度的ORF中密码子的数目。高基因密度原核生物基因组的许多信息都是为了维持细胞的基本功能,如构造和复制DNA,产生新蛋白质,以及获得和存储能量。完全测序的细菌和古细菌的基因组数据表明,其中85%到88%的核酸序列与基因的编码直接相关。例如,在E.coli中总共有4,289个基因,平均编码长度约为950bp,而基因之间的平均间隔长度只有~120bp。连续的基因结构与真核基因结构相比较,原核基因的结构相对简单。原核基因为连续基因,其编码区是一个完整的DNA片段。但原核基因的转录起始、翻译起始的调控机制比较复杂。完整的基因结构从基因的5’-端启动子区域开始,到3’-端终止区结束。基因的转录开始位置由转录起始位点确定,转录过程直至遇到转录终止位点结束,转录的内容包括5’UTR、开放阅读框以及3’UTR。基因翻译的准确起止位置由起始密码子和终止密码子决定,翻译的对象即为介于这两者之间的开放阅读框。原核生物基因组的操纵子与基因群结构原核生物的基因结构STOPATGATG…CCCTCGAAGC…ATGTranscriptionInitiationMotifCodingORFTranslationInitiationMotifUpstreamregionTextsfromcoding/noncodingregionsinDNAsequenceGTGAGGGATCGTGGGCATATTTCACAAACTTACTTTTAAAACCATACAACGAAGAAGCGGCCATAATGAACGACTCTTTACAGAATACGGATCTCATTTCACACTTCTCACATCCATTTTAGTTGGAAACACATGAAAGTGAGACCATCAGTTAAACCAATCTGCGAAAAATGTAAAGTTATTTCGCAGAAAAGGAAAAGTAATGGTGATCTGTGAAAATCCAAAGCATAAACAAAAACAAGGATAAGGTTATATAAATGAAAAGATTTCTGATTGGCGCAGGCGTCGCAGCGGTGATTTTATCAGGTTTGGTTTATTGCGGACCATCAAACCCACTCACAGGAAATGAAAGTCGCTGAGAAAATGATTGGATAAGAGATTATTGATGAAAATCAGCCGGATTCTATTGGCAGCAGTGATTTTAAGTAGTGTATTTTTCAATAACTTATTTGCAAAGTGATCATAATACTGAAATTAAAGTTGCTGCAGATCGGGTAGGGGCATAGGTGAGTTTGTATGAAATTGAAGTCTAAACTATTACTCTCTTGTCTGGCTCTAAGCACTGTGGTTCGTGGCAACAACTATTGCAAATGCACCTACACACCAAATTGAAGTTGCACAACGAGGAATGATTTAAAGCCCTCTCGATGGAAAAGATCCCTTGCTTCGCGGAGGAATTGATTATAGGCCTCTCTATCCTGGGGCCGCAAATATTCAAAGTCGAAATGAATGTCACGGAAGCCATATCTTCTGGCATTCTCGACTAGCACGGGACATATGATGGCTTGCAGGTCTTTTAAAGAGACAGCGGCGGTTTGTGACAAGTCAATCAGAAATCCTTCACCCGAGCGCTGCCGGCTGTTCATTTTCCGAAATGCTTCTATGTCTTTTTCATTCTGACGCCTGAAATATGGTCCGCGTGAAGATGTGTATCAAATACGTGAGTAATCGTTGCACCCTTCCCCTTCGCAAAATCTATAAAGAAATTCACCATACGTGTCGCATCAATAATTGCTGCTTCACCATTTGAAAAGCCAAAAATGATCGACACAGCTATGAAATCGGAGAAGAAATCATGCTTCCGAGTGAAACACGCATGGGCAGAAGGGCCAGCTTTTTTGATTTTTTTAAACTGCGCCCTTTCAAAATGGGGATTTTGATATATGTAATATGTATGAATTCTTGATTGATGATCGTATCATCAGTTATTTCAATTGCCTCAACGTCAAACTCTTGTTGCAGCGCTTTGACAAACCTTTTTACATTTCCTGTTTTACTCTCATATGTAATTAACAATGTCCCTATGAAAATACTGCCCTCTGTCCCGATCACCTCCGCCCGGATGTCATGTCCGTATGGAGAGGTTCTGCTTGCCTCGACGTCCCCCGCTGCGCCCGAGTCAAATTCAATATACGTCAGCTGAStartcodonStopcodonATGGTGTTGTAATAGTGAProteincodinggenesNoncodingsequences原核生物基因组研究的主要方法1、原核基因组的测序获得所研究生物的全基因组DNA序列测序方法:链终止法。一次测序反映只能测几百个碱基对。序列的拼接方法。2、原核基因组的序列解读通过结合计算机分析、试验验证等手段,初步定位基因及其调控区并阐明基因的功能。发展原核基因组的基因及其功能识别算法是基因组的计算机分析的重要目标。当前著名的原核基因预测软件1、GeneMark系列软件(包括最新版本GeneMarkS)Borodovsky等,1993~2001——Besemer,J.,Lomsadze,A.andBorodovsky,M.(2001)GeneMarkS:aself-trainingmethodforpredictionofgenestartsinmicrobialgenomes.Implicationsforfindingsequencemotifsinregulatoryregions.NucleicAcidsRes.,29:2607-2618.2、Glimmer2.02(Salzberg等,1999)——Delcher,A.L.,Harmon,D.,Kasif,S.,White,O.,andSalzberg,S.L.(1999)ImprovedmicrobialgeneidentificationwithGLIMMER.NucleicAcidsRes.,27,4636-4641原核基因预测算法的研究现状3、ZCURVE1.0张春霆等,1991-20034、MED系列佘振苏、朱怀球等,2004-2007其它:如EasyGene(LarsenandKrogh,2003)ORPHUS(Frishmanetal.,1998)基本方法1、Markov模型方法:用非均匀Markov模型刻画DNA序列giveanestimateoftheprobabilityforalocalsegment(suchasak-tuples)tobelongtotheclassofproteincodingsequences

如:GeneMark、Glimmer2、其它方法,如Z-curve方法、MED方法如:ZCURVE1.0、MED2.03、结合HMM方法与蛋白质相似比较的方法如:EasyGene(LarsenandKrogh,2003)

原核基因预测软件被广泛应用于原核基因组研究,提供了许多物种的基因组GenBank注释——基因位点的计算预测。当前原核基因预测存在的主要问题1、GenBank数据库提供的原核基因注释信息(基因位点、功能等)只有部分经过实验确认,其它部分只有计算预测或未实验证实的注释信息。2、GenBank数据库的注释信息存在系统性的错误,处于不断的修正之中。——Pseudoshortgenes——Genestarts——功能信息的错误——注释众说纷纭(如H.inf,148amendmentsbydifferentauthors)3、基因翻译起始位点的精确预测——原核基因转录和翻译起始机制的认识——多样性、复杂性4、短基因的预测——短于100AA——统计模型对短基因刻画的困难——短基因的生物学意义?(功能、进化历程)5、高GC、高AT含量基因组的基因预测——背景DNA噪声——基因组组分与生物进化的联系6、原核基因结构的数学模型——缺乏综合的理解——缺乏良好的模型评论1、与真核生物基因预测的研究相比,原核生物基因预测的研究走在更前面2、原核生物基因预测的方法和结果为人类基因组计划和模式生物基因组计划做出了很大的贡献,但也带来一定的后果3、原核基因的复杂结构还没有真正被了解4、原核基因的预测还有很多没有解决的问题§7原核基因结构的统计模型及基因预测新方法(2004-2007)基因预测研究的总体思路ModelPredictUnderstand对基因复杂结构信息进行统计分析,并建立合理的数学物理模型进行刻画(包括对模型的检验)。根据模型,对新测序的基因组序列,有效预测其基因结构。为基因组实验研究提供理论指导。综合实验和理论结果,探索模型揭示的生物学意义,深刻理解生物复杂系统。两段取自E.coli(EscherichiacoliK-12MG1655)的DNA序列ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA[190~255]gene=“thrL”(Aminoacidbiosynthesis:Threonine)ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA[30~98]non-codingORF§7.1原核基因结构的EDP模型取自E.coli的两段ORF的假想氨基酸序列:Codingsequence(Gene“thrL”)

ATGAAACGCATTAGCACCACCATTACCACCACCATC

MKRISTTITTTI

ACCATTACCACAGGTAACGGTGCGGGCTGA

TITTGNGAGZNon-codingsequence

ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATA

MSLCGLKKECLIGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA

AASELVTCREZ

DNA序列假想翻译序列遗传密码表基于一段DNA序列的假想氨基酸序列,引入它的熵密度分布(EntropyDensityProfile,EDP){Si}:i:Indexof20aminoacidpi:FrequencyoftheithaminoacidShannonentropy:对于任一有限长的DNA序列,都可得到它的EDP{Si},对应于20维相空间上唯一的一点。EDP:asetofmultivariateparametersDNA序列的EDP表现出编码/非编码的聚类性。在EDP的相空间上定义欧氏距离来刻画两类DNA序列(编码、非编码)的编码性:也可定义相对熵距离:500条基因和500条非编码ORF的EDP距离(取自E.coli)基于EDP思想的基因识别算法原核生物编码ORF与非编码ORF的平均EDP在相空间上的普适性

构造具有普适性的编码、非编码EDP中心;基于普适的编码与非编码EDP中心,得到该基因组的编码与非编码ORF中心;

设计迭代算法,求得该基因组的编码、非编码“根”序列(rootORFs);

根据rootORFs,识别所有ORF的编码性。EDPgenefindingalgorithmRootcoding

ORFsEDPsRepresentativecoding-EDPs’EDPsRootnon-coding

ORFsRepresentativenon-coding-EDPs’ClusteringClusteringSearchforallORFsunknownsetofORFEDPD_cD_ncD_c<D_ncD_nc<D_cCodingORFNon-codingORFEDP模型的评论描述ORF序列的整体特性,是序列编码性与相似性的统一难以实现对序列局部功能信号的刻画作为基因预测算法,有局限性:基因起始位点的预测精度较差短基因的预测精度较差当前的原核基因预测算法对基因起始位点的预测精度要远远低于基因终止位点的预测精度—Detectageneasanopenreadingframe(ORF)justwithan‘open’start;—例子:对E.coli的195条实验确认基因的预测水平:预测软件终止位点预测精度起始、终止位点同时预测的精度ORPHEUS(1998)92.8%75.9%GLIMMER2.02(1999)100%74.9%MED1.0(2004)100%68.2%§7.3原核基因结构的TIS模型精确预测基因的重要性:

——有助于研究基因表达的产物(蛋白质、功能RNA)——有助于认识基因转录和翻译的机制提高基因翻译起始位点的预测精度是精确预测基因的关键原核基因起始位点预测的困难——缺乏用于学习的数据集具有实验确认起始位点的基因数据远远不够——与基因翻译起始相关的序列特征并不强翻译起始机制的多样性、复杂性序列信号的模糊性基因起始位点(TIS)预测方法

RBSfinder

(Salzberg

etal.,2001):—inputsanentiregenomicsequenceandfirst-passannotationtotrainaprobabilisticmodelthatscorescandidateRBSsurroundingpreviouslyannotatedstartcodons.

GS-finder

(Zhangetal.,2004):—Introducedsixrecognitionvariablestodescribetheconsensussignals(e.g.,theSDsequences)inthevicinityofgenestarts,thecodingpotentialofDNAsequencesnearthestartcodon,thestartcodonitselfandthedistancefromtheleftmoststartcodontothecandidatestartcodon,respectively.—TheformerfourvariableswerederivedbasedontheZ-curvemethod,whilethelattertwovariablesweregivenasempiricalconstantsorformulas.MED-Start和MED-StartPlus(Zhuetal.,2004;Huetal.,2007)ProteinSynthesisinBacteriaFigure:Ribosome-bindingsitesonmRNAcanberecoveredfrominitiationcomplexes.Theyincludetheup

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论