




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六讲基因结构与基因预测6.1高等真核生物基因结构与基因预测简介1 基因(gene)的概念基因的概念随着科学的发展而不断发展,迄今为止,仍有各种说法。Today when we speak of a gene for some malady, a regulatory gene, a structural gene, or a gene frequency, it is entirely possible that we are deploying different gene concepts even though we are using the same term. M. R. Die
2、trich,2000从分子生物学的角度而言,一般认为基因是负载特定生物遗传信息的DNA分子片段,基因在一定条件下能够表达这种遗传信息,产生特定的生命功能。6.1.1 真核生物的基因结构2 基因的分类按功能分为:(1)、结构基因(可被转录形成mRNA,并进而翻译成多肽链,构成各种结构蛋白质、催化各种生化反应的酶和激素等)(2)、调控基因(可调节控制结构基因表达的基因)(3)、只转录而不翻译的基因(如rRNA基因、tRNA基因)3 人类基因的结构ORF(Open Reading Frame):在DNA链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列。人类结构基因的结构包括4个区
3、域:(1)、外显子;(2)、内含子;(3)、前导区(位于编码区上游,相当于mRNA5端非编码区(非翻译区);(4)、调节区(包括启动子和增强子等基因编码区的两侧,也称为侧翼序列);人类结构基因的结构示意图人类结构基因的结构示意图Contig 3 of Ch21 (Total length: 3,450,497 Bp)Gene:“TRPC7” (Total length: 62,668 Bp)Coding: 3,345 bp (1,115 AA) 25 Exons: 48354 bpIntergenic regionGeneExonIntron(1)、人类细胞核基因组中编码序列不到2,约含3万左
4、右不同的基因,且有近1/3为多拷贝;(2)、结构基因大多含有插入序列。即大部分基因为断裂基因(interrupted gene);(3)、外显子(exon)一般不长于800bp,内含子(intron)则在30bp数十kb不等;(4)、mRNA剪接位点(Splice sites)的识别信号:每个外显子和内含子接头区都有一段高度保守序列(consensus sequence),即内含子5端大多数是GT(称为donor site)开始,3端大多数是AG(称为acceptor site)结束,称为GTAG法则;人类基因组结构的特点(5)、尽管拥有相同的一套基因组,不同的分化细胞中所表达的基因也不同,每
5、个细胞只表达一部分基因(例如:人脑细胞的基因表达百分比最高,为22);(6)、转录在细胞核内进行,翻译在细胞质核糖体中进行,二者在时间空间上是分开的。4 假基因假基因:与功能性基因密切相关的DNA系列,但由于缺失、插入和无义突变失去阅读框架而不能编码蛋白质产物。有些人类假基因可以转录但不能翻译成蛋白质。假基因的两种类型:(1)、由于一种基因的加倍而不能表达,但保留原来亲本基因的外显子及内含子;(2)、仅含有亲本基因的外显子,源于mRNA并通过逆转录而重新整合进基因组的。5 重复序列超过90为重复序列,不编码mRNA前体或其它RNA。 (个体间的重复序列有巨大差异 DNA指纹)重复序列分为3类:
6、高度重复序列、中等重复序列、低重复序列。目前的一些认识:(1)、GC含量低,AT含量高。(AT的氢键弱);(2)、3端和5端有直接重复序列的存在。有利于形成环状结构。6 与转录有关的调控信号(1)、启动子(promoter)(2)、增强子(enhancer)(3)、负性调节元件(4)、LCR(Locus control regions)(基因座调控区)(5)、转录因子(6)、与转录终止有关的序列:(7)、mRNA的剪接7 内含子外显子结构的统计研究10种真核生物的外显子和内含子数目及长度的统计结果比较(Deutsch & Long,1999)(外显子的长度单位是氨基酸,内含子的长度单位是核苷酸
7、)平均每个基因包含外显子4.1个, 内含子3.1个;基因中每1kb长的编码蛋白质区域(也称为CDS,Coding Sequence)平均包含3.7个内含子.10种真核生物的外显子和内含子长度的统计分布(Deutsch & Long,1999)(外显子长度的单位为氨基酸,内含子长度的单位为核苷酸;图中横坐标表示长度,纵坐标表示频率。)外显子长度概率分布曲线的山峰处于3040个氨基酸长度的地方,且山峰比较紧凑,而内含子的长度则大多数为40125个核苷酸,山峰相对平缓。人(Homo sapiens)的基因组:平均每个基因包含内含子4.0个(最多的是116个),外显子5.0个,每1kb的CDS平均含有
8、5.3个内含子,是这10种真核生物中内含子数目最多、长度最大的。内含子的平均长度为3413.1bp,其中大多数为75150bp,已知最长的内含子要大于100kb。每1kb的CDS所包含的内含子长度为6825bp。同样地,人类基因组外显子长度的概率分布要比内含子的概率分布要紧凑得多。人类基因组的外显子和内含子数目及长度的统计结果比较(Deutsch & Long,1999)(外显子的长度单位是氨基酸,内含子的长度单位是核苷酸)人类基因组外显子和内含子长度的统计分布图(Deutsch & Long,1999)(外显子长度的单位为氨基酸,内含子长度的单位为核苷酸;图中横坐标表示长度,纵坐标表示频率。
9、)同样地,人类基因组外显子长度的概率分布要比内含子的概率分布要紧凑得多。基因预测:早期指预测DNA序列中编码蛋白质的部分,即外显子部分;现在指整个基因结构的预测,综合各种外显子预测的算法及对基因结构信号的认识,预测出可能的完整基因。基因预测(Gene Prediction)基因识别(Gene Identification)基因寻找(Gene Finding)基因注释(Gene Annotation)Computational Gene Identification、Computational Gene Prediction(基因注释:描述基因组,并通过计算分析,辅以生物数据库和生物学知识,将原
10、始的基因组序列数据转换成有用的生物学信息。)6.1.2 真核基因预测研究概况基因预测的主要目的抓住如下特征:(1)、编码蛋白质基因的区域信息;(2)、编码蛋白质基因的结构信息(包括非翻译区和调控元,以及所有与转录有关的外显子、内含子);(3)、每一转录所对应的所有可能翻译成蛋白质产物的翻译;(4)、重复序列的区域及其特征;(5)、编码非编码RNA的基因的区域。基因预测的主要内容启动子的识别翻译起始位点的识别剪接位点的识别多腺苷化信号的识别蛋白编码区的识别内含子的识别Burset和Guigo(1996)分三个层次来评估:编码核苷酸、外显子结构、蛋白质产物。(1)从编码核苷酸的水平指对于每个单个的
11、核苷酸,将预测的状态与其真正的状态相比较,进而考察预测的效果。1、基因预测效果的评估TP(true positive):实际编码区的核酸中被成功预测的核酸数目;TN(true negative):实际非编码区的核酸中被成功预测的核酸数目;FN(false negative):实际编码区的核酸中被误测为非编码的核酸数目;FP(false positive):实际非编码区的核酸中被误测为编码的核酸数目。TPTNFNFPREALITYcodingnoncodingcodingnoncodingPREDICTIONTP+FNFP+TNTP+FPFN+TN基于TP、TN、FP、FN,主要引进四个参数:S
12、n、Sp、CC、AC。敏感性(sensitivity,Sn):特异性(specificity,Sp):Sn:实际编码区核酸序列中被成功预测的比例;Sp:预测为编码核酸序列中被成功预测的比例。条件概率:x:某个核酸的状态(即编码或非编码),F(x):该核酸被预测的状态,c:编码状态,n:非编码状态相关系数CC(Correlation Coefficient):更全面地衡量基因预测的效果CC:取值范围-1,1,不仅包含P(F(x)=c|x=c)和P(x=c|F(x)=c)的信息,而且也包含了P(F(x)=n|x=n)和P(x=n|F(x)=n)的信息。缺陷:不允许分母中TP+FN、TN+FP、TP
13、+FP和TN+FN中任何一项为零。 近似相关AC(Approximation Correlation):来作为评估基因预测的效果AC:对P(F(x)=c|x=c)、P(x=c|F(x)=c)、 P(F(x)=n|x=n)和P(x=n|F(x)=n)四种条件概率的等权平均,取值范围-1,1 。|AC|=|CC|(2)从外显子结构的水平沿着DNA序列链,对预测出的外显子结构与实际的外显子结构进行比较。(比较的标准尚未统一,但目前用得较多的比较标准是:只有当预测的外显子结构与实际的外显子结构完全吻合(包括剪接位点的信息),才认为预测是成功的。)外显子预测的评估同样可以引进敏感性(Sn)和特异性(Sp
14、)两个参数:Sn:DNA链上实际的外显子中被成功预测到的比例;Sp:DNA链上被预测为外显子中被成功预测到的比例。引入ME(Missing Exons)和WE(Wrong Exons)ME:实际的外显子中完全没有预测到(即二者没有重叠的部分)的比例;WE:所预测的外显子中完全没有预测到的比例。(3)从蛋白质产物的水平将预测的基因所编码的蛋白质产物与实际的基因编码的蛋白质产物作比较。预测结果的评估目前尚无公认的统一标准。有的标准是考察被准确预测到的氨基酸序列的比例,以及被错误预测的氨基酸比例。基于内容检测的方法(search by content或content sensors)基于信号检测的方
15、法(search by signal或signal sensors) 基于相似性比较的方法(search by similarity comparison)2、基因预测方法简介基于内容检测的方法原理:DNA序列中的编码蛋白质区域的字符的上下文特征与非编码的区域是有区别的。由于蛋白质产物对氨基酸和同义密码子的选择的偏倚性,因此也决定了编码区序列的核苷酸组成的特性,如周期性(periodicities)、短程相关性(short-range correlations)、寡核苷酸(oligonucleatide)使用的偏倚性等。基于内容检测的方法信号检测的方法就是根据人们目前对基因组结构的一些相关的位
16、点信号的认识来识别基因。这些信号包括剪接信号、起始密码子信号、终止密码子信号、启动子信号、转录终止信号、分支点(branch point)等。 对于真核生物的基因识别,目前应用比较广泛的软件一般都是结合上述两种方法来设计 。除上述两类方法外,还有的方法结合了序列相似性数据库搜寻(sequence similarity searches)技术,即对已知序列数据库的相似性比较。 常用算法(1)长ORF方法 在低等生物(细菌)基因组中,蛋白质编码的基因是从起始密码ATG开始,到终止密码平均有1000bp,而长于300bp的ORF平均每36kb才出现一次。因此,只要找出序列中最长的ORF(300bp)
17、就能相当准确地预测出基因。只对基因结构比较简单的生物基因组有效;(Claverie,1997)(2)词汇统计算法 对核苷酸序列(Nucleotide Words)中词汇选用频率的统计研究。由于序列中的编码部分与非编码部分在核苷酸、密码子的选用、周期特性等存在差异性,因此可以用来区别编码区和非编码区;(Claverie & Bougueleret,1986;Bechmann, 1986(3)同源比较算法将未知序列通过对已知EST (Expressed Sequence Tag,表达序列标签)数据库的相似性比较,也可以比较有效地找到基因。许多有名的基因预测软件(如GRAIL )都已结合了同源比较算
18、法;(Claverie,1993;Green,1993)(4)HMM(Hidden Markov Model)算法 将核苷酸序列看成一个随机序列,DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。由于这些Markov模型的统计规律是未知的,而HMM能够自动寻找出它们隐藏的统计规律。对于高等生物这样复杂的DNA序列,HMM必须学习不同的基因结构的信号。典型的基于HMM的基因预测系统VEIL (John Hopkins University)HMMgene (Technical University of Denmark)GeneMark.hmm (Georgia
19、Institute of Tech)Genie (UC Santa Cruz & UC Berkeley)GENSCAN (Stanford)GenScan的HMM模型GENSCAN对某个基因的预测结果示意图:常见的HMM模型(5)动态规划算法(Dynamic Programming) 将预测出的各个可能的外显子和内含子进行拼接,组成完整的基因。并对各种可能的拼接进行计分,从而得出最可能的基因结构;(Gelfang & Roytberg,1993)(6)法则系统(Rule-based System)算法(Guigo,1992)(7)语言学方法(Linguistic)(Dong & Searls
20、,1994);(8)人工神经网络方法(ANN)(9)LDA方法(Linear Discriminate Analysis)(Fickett & Tung,1992);(10)决策树(Decision Tree)算法(Salzberg,1995);(11)Fourier分析(Tiwari,1997)。 常用真核基因预测软件(1)、FGENEH作者:Solovyev等,1995所用算法:LDA(Linear Discriminant Analysis)方法(2)、GeneID作者:Guigo等,1992所用算法:法则系统(Rule-based System)算法(3)、GeneParser作者:S
21、nyder和Stormo,1993所用算法:动态规划算法(Dynamic Programming)(4)、Genie作者:Henderson等,1997所用算法:广义隐Markov模型(Generalized Hidden Markov Model)方法、动态规划算法(5)、GenLang作者:Dong和Searls,1994所用算法:语言学方法(Linguistic)(6)、GENESCAN作者:Burge和Karlin,1997所用算法:隐Markov模型(Hidden Markov Model)方法、动态规划算法(7)、HEXON作者:Solovyev等,1994所用算法:LDA(Lin
22、ear Discriminant Analysis)方法、动态规划算法(8)、VEIL作者:Krogh等,1994所用算法:隐Markov模型(Hidden Markov Model)方法、动态规划算法 目前常用软件的基因预测结果评估(Claverie,1997) 目前常用软件的基因预测结果评估(Rogic等,2001)目前的各种算法还存在许多缺陷需进一步改进,主要表现在以下两点:(1)、这些算法对基因中的非编码区(即内含子)和基因间的序列不加任何区别,所以预测出的基因是不完全的,而对5和3非翻译区(UTR)的预测基本上还是空白;(2)、这些算法的学习依赖性较强。如同源比较算法是完全依赖于已知
23、的基因序列,而HMM之类的算法都需要对已知的基因结构信号进行学习或训练。 6.2原核基因预测方法简介原核生物基因组结构的特点1、原核生物基因组一般比真核生物基因组小得多 E. coli的基因组(4.6Mb)约为酵母基因组(12.1Mb)的2/52、绝大部分原核生物基因组由一个单一的环状DNA分子组成3、原核生物的基因通常比真核生物的少E. coli:4000多个基因,人:30000个4、原核生物的基因绝大多数是连续基因,不含间隔的内含子;基因组结构紧密,重复序列远少于真核生物的基因组。原核生物基因组的操纵子与基因群结构原核生物的基因结构STOPATGATGCCC TCGAAGC ATGTran
24、scriptionInitiation MotifCoding ORFTranslationInitiation MotifUpstream regionTexts from coding/noncoding regions in DNA sequenceGTGAGGGATCGTGGGCATATTTCACAAACTTACTTTTAAAACCATACAACGAAGAAGCGGCCATAATGAACGACTCTTTACAGAATACGGATCTCATTTCACACTTCTCACATCCATTTTAGTTGGAAACACATGAAAGTGAGACCATCAGTTAAACCAATCTGCGAAAAAT
25、GTAAAGTTATTTCGCAGAAAAGGAAAAGTAATGGTGATCTGTGAAAATCCAAAGCATAAACAAAAACAAGGATAAGGTTATATAAATGAAAAGATTTCTGATTGGCGCAGGCGTCGCAGCGGTGATTTTATCAGGTTTGGTTTATTGCGGACCATCAAACCCACTCACAGGAAATGAAAGTCGCTGAGAAAATGATTGGATAAGAGATTATTGATGAAAATCAGCCGGATTCTATTGGCAGCAGTGATTTTAAGTAGTGTATTTTTCAATAACTTATTTGCAAAGTGATCATAATACTGA
26、AATTAAAGTTGCTGCAGATCGGGTAGGGGCATAGGTGAGTTTGTATGAAATTGAAGTCTAAACTATTACTCTCTTGTCTGGCTCTAAGCACTGTGGTTCGTGGCAACAACTATTGCAAATGCACCTACACACCAAATTGAAGTTGCACAACGAGGAATGATTTAAAGCCCTCTCGATGGAAAAGATCCCTTGCTTCGCGGAGGAATTGATTATAGGCCTCTCTATCCTGGGGCCGCAAATATTCAAAGTCGAAATGAATGTCACGGAAGCCATATCTTCTGGCATTCTCGACTAGCACGG
27、GACATATGATGGCTTGCAGGTCTTTTAAAGAGACAGCGGCGGTTTGTGACAAGTCAATCAGAAATCCTTCACCCGAGCGCTGCCGGCTGTTCATTTTCCGAAATGCTTCTATGTCTTTTTCATTCTGACGCCTGAAATATGGTCCGCGTGAAGATGTGTATCAAATACGTGAGTAATCGTTGCACCCTTCCCCTTCGCAAAATCTATAAAGAAATTCACCATACGTGTCGCATCAATAATTGCTGCTTCACCATTTGAAAAGCCAAAAATGATCGACACAGCTATGAAATCGGAGAAGAA
28、ATCATGCTTCCGAGTGAAACACGCATGGGCAGAAGGGCCAGCTTTTTTGATTTTTTTAAACTGCGCCCTTTCAAAATGGGGATTTTGATATATGTAATATGTATGAATTCTTGATTGATGATCGTATCATCAGTTATTTCAATTGCCTCAACGTCAAACTCTTGTTGCAGCGCTTTGACAAACCTTTTTACATTTCCTGTTTTACTCTCATATGTAATTAACAATGTCCCTATGAAAATACTGCCCTCTGTCCCGATCACCTCCGCCCGGATGTCATGTCCGTATGGAGAGGTTCTGCTT
29、GCCTCGACGTCCCCCGCTGCGCCCGAGTCAAATTCAATATACGTCAGCTGAStart codonStop codonATGGTGTTGTAATAGTGAProtein coding genesNoncoding sequences原核生物基因组的研究意义1、揭示生命活动的基本规律导致现代分子遗传学的许多重大发现染色体、DNA双螺旋、遗传密码、DNA复制、中心法则原核生物基因组的研究意义2、揭示生命起源与进化的奥秘2、进行分子遗传学的良好材料3、在农业、工业和生物制药工程上的应用十分广泛作为微生物基因工程的反应器,直接运用于干扰素、人胰岛素、生长激素、乙型肝炎疫苗等现
30、代基因工程产品的生产。 原核生物基因组研究的主要方法1、原核基因组的测序 获得所研究生物的全基因组DNA序列 测序方法:链终止法。 一次测序反映只能测几百个碱基对。 序列的拼接方法。2、原核基因组的序列解读 通过结合计算机分析、试验验证等手段,初步定位基因及其调控区并阐明基因的功能。 发展原核基因组的基因识别算法是基因组的计算机分析的重要目标。当前著名的原核基因预测软件1、GeneMark系列软件(包括最新版本GeneMarkS) Borodovsky等,19932001Besemer, J., Lomsadze, A. and Borodovsky, M. (2001) GeneMarkS:
31、 a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions. Nucleic Acids Res., 29: 2607-2618. 2、Glimmer 2.02 (Salzberg等,1999)Delcher, A. L., Harmon, D., Kasif, S., White, O., and Salzberg, S. L. (1999) Improved microbia
32、l gene identification with GLIMMER. Nucleic Acids Res., 27, 4636-4641原核基因预测算法的研究现状3、ZCURVE 1.0 张春霆等, 1991-2003其它:如 EasyGene (Larsen and Krogh, 2003) ORPHUS (Frishman et al., 1998)基本方法1、Markov模型方法: 用非均匀Markov模型刻画DNA序列give an estimate of the probability for a local segment (such as a k-tuples) to belo
33、ng to the class of protein coding sequences 如:GeneMark、Glimmer 2.02 2、其它方法,如Z-curve方法如:ZCURVE 1.03、结合HMM方法与蛋白质相似比较的方法如:EasyGene (Larsen and Krogh, 2003) 原核基因预测软件被广泛应用于原核基因组研究,提供了许多物种的基因组GenBank注释基因位点的计算预测。当前原核基因预测存在的主要问题1、GenBank数据库提供的原核基因注释信息(基因位点、功能等)只有部分经过实验确认,其它部分只有计算预测或未实验证实的注释信息。2、GenBank数据库的注
34、释信息存在系统性的错误,处于不断的修正之中。Pseudo short genesGene starts功能信息的错误注释众说纷纭(如H. inf, 148 amendments by different authors )3、基因翻译起始位点的精确预测原核基因转录和翻译起始机制的认识多样性、复杂性4、短基因的预测短于100AA统计模型对短基因刻画的困难短基因的生物学意义?(功能、进化历程)5、原核基因结构的数学模型缺乏综合的理解缺乏良好的模型评 论1、与真核生物基因预测的研究相比,原核生物基因预测的研究走在更前面2、原核生物基因预测的方法和结果为人类基因组计划和模式生物基因组计划做出了很大的贡
35、献,但也带来一定的后果3、原核基因的复杂结构还没有真正被了解4、原核基因的预测还有很多没有解决的问题6.3原核基因结构的统计模型及基因预测新方法(2004-2006)基因预测研究的总体思路ModelPredictUnderstand对基因复杂结构信息进行统计分析,并建立合理的数学物理模型进行刻画(包括对模型的检验)。根据模型,对新测序的基因组序列,有效预测其基因结构。为基因组实验研究提供理论指导。综合实验和理论结果,探索模型揭示的生物学意义,深刻理解生物复杂系统。两段取自E.coli (Escherichia coli K-12 MG1655)的DNA序列ATGAAACGCATTAGCACCA
36、CCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA190255 gene=“thrL” (Amino acid biosynthesis : Threonine)ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA3098 non-coding ORF6.3.1 原核基因结构的EDP模型取自E. coli的两段ORF的假想氨基酸序列:Coding sequence (Gene “thrL”) ATGAAACGCATTAGCACCACCATTACCACCACCATC
37、M K R I S T T I T T T I ACCATTACCACAGGTAACGGTGCGGGCTGA T I T T G N G A G ZNon-coding sequence ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATA M S L C G L K K E C L I GCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA A A S E L V T C R E Z DNA序列假想翻译序列遗传密码表基于一段DNA序列的假想氨基酸序列,引入它的熵密度分布(Entropy Density Profile, EDP) Si :i : Index o
38、f 20 amino acidpi : Frequency of the ith amino acidShannon entropy:对于任一有限长的DNA序列,都可得到它的EDP Si ,对应于20维相空间上唯一的一点。EDP: a set of multivariate parametersDNA序列的EDP表现出编码/非编码的聚类性。在EDP的相空间上定义欧氏距离来刻画两类DNA序列(编码、非编码)的编码性:也可定义相对熵距离:500条基因和500条非编码ORF的EDP距离(取自E. coli)基于EDP思想的基因识别算法 原核生物编码ORF与非编码ORF的平均EDP在相空间上的普适性
39、构造具有普适性的编码、非编码EDP中心; 基于普适的编码与非编码EDP中心,得到该基因组的编码与非编码ORF中心; 设计迭代算法,求得该基因组的编码、非编码“根”序列(root ORFs); 根据root ORFs,识别所有ORF的编码性。EDP gene finding algorithmRoot coding ORFsEDPsRepresentative coding-EDPs EDPsRoot non-coding ORFsRepresentative non-coding-EDPs ClusteringClusteringSearch forall ORFsunknown set of
40、 ORFEDPD_cD_ncD_c D_ncD_nc D_cCoding ORFNon-coding ORFEDP模型的评论 描述ORF序列的整体特性,是序列编码性与相似性的统一 难以实现对序列局部功能信号的刻画 作为基因预测算法,有局限性: 基因起始位点的预测精度较差 短基因的预测精度较差当前的原核基因预测算法对基因起始位点的预测精度要远远低于基因终止位点的预测精度Detect a gene as an open reading frame (ORF) just with an open start; 例子: 对E. coli 的195条实验确认基因的预测水平:预测软件终止位点预测精度起始、
41、终止位点同时预测的精度ORPHEUS (1998)92.8%75.9%GLIMMER 2.02 (1999)100%74.9%MED 1.0 (2004)100%68.2%6.3.2 原核基因结构的RBS模型精确预测基因的重要性: 有助于研究基因表达的产物(蛋白质、功能RNA) 有助于认识基因转录和翻译的机制提高基因翻译起始位点的预测精度是精确预测基因的关键原核基因起始位点预测的困难缺乏用于学习的数据集 具有实验确认起始位点的基因数据远远不够与基因翻译起始相关的序列特征并不强 翻译起始机制的多样性、复杂性 序列信号的模糊性基因起始位点(TIS)预测方法 RBSfinder (Salzberg
42、et al., 2001) : inputs an entire genomic sequence and first-pass annotation to train a probabilistic model that scores candidate RBS surrounding previously annotated start codons. GS-finder (Zhang et al., 2004) : Introduced six recognition variables to describe the consensus signals (e.g., the SD se
43、quences) in the vicinity of gene starts, the coding potential of DNA sequences near the start codon, the start codon itself and the distance from the leftmost start codon to the candidate start codon, respectively. The former four variables were derived based on the Z-curve method, while the latter
44、two variables were given as empirical constants or formulas. MED-Start: Accuracy Improvement for Identifying TIS in Microbial Genomes(Zhu et al., 2004) Protein Synthesis in BacteriaFigure: Ribosome-binding sites on mRNA can be recovered from initiation complexes. They include the upstream Shine-Dalg
45、arno sequence and the initiation codon.(From Gene VIII)构造刻画原核基因TIS的4元统计模型: P1: the correlation between translation terminate site and TIS of genes P2: the sequence content around the start codon P3: the sequence content of the consensus signal related to RBS P4: the correlation between TIS and the u
46、pstream consensus signal ATGATGP1P2P3P4STPCCC TCGAAGC ATGAACAGGAGGATT AGGATT 自学习迭代系统MED-StartMED-Start算法的实现(1). Finding candidate motifs in upstream regions of predicted coding ORFs Motif (l, d): Motif: a sub-sequence that is well preserved over several sequences, and the occurrences of the motif in
47、 those sequences are called instances. The motifs in DNA or protein sequences may indicate functional connections, such as the transcription factor binding sites in non-coding regions of genes, as well as RBS in prokaryotes. We use the term, (l, d) motif, to refer to the situation where a consensus
48、string of length l, without wildcards, and the instances must differ in at most d positions from the consensus. Assume that the SD signal should be found in the upstream region of the leftmost start codons The SD signal tends to be a preserved feature in the upstream regions of bacterial gene starts
49、 Most of the start codons of the longest ORF are real gene starts. Reliable data set EcoGene dataset Link dataset Bsub1248Number of genes 8541951248Number of genes with 5-most start codons 537 (62.9%)133 (68.2%)786 (63.0%)Table: Numbers of genes whose starts are leftmost start codon for a set of rel
50、iable data We first search for (l, d) string within L bps upstream of the start codon of the longest ORF in the original annotation (the default values are l=5, d=0, L=20) In order to remove many false positive cases, the initial search is restricted to ORFs longer than 300bp. For instance, a (5, 0)
51、 string is a word of 5 alphabets with zero variation that appears in many sequences within 20 bp upstream of the start codons. We select several strings with the highest frequency of occurrence as the candidate motifs. In the next iteration step, the search for candidate motifs will be conducted wit
52、hin L bps upstream regions of the adjusted start sites that may not be the start codon of the longest ORFs. The training sequences, i.e. L bps long upstream regions of start sites of all the training ORFs are updated constantly until the iteration reaches convergence. (2). Determining hit motifs and
53、 their alignment weight matrix For each candidate motif, search for its (l, 1) instances. They are regarded as candidates for SD signal-like substring. Calculate the distribution of the location of the occurred instance to the start codon, which will be referred to as the spacer distribution. Choose
54、 the one having highest , to be so-called hit motif . Use deviation of spacer distribution to characterize each candidate motif. If there exists more than one candidate motif having nearly the same to the highest one, the algorithm will select all of them, but at most three motifs, as the hit motifs
55、. After hit motifs are determined, compute the positional weight matrix of each hit motif, by a multiple alignment of all its (l, 1) instances occurred within training sequences. By the assumption that the hit motifs should be similar to a substring of SD sequence, the algorithm calculates the align
56、ment weight matrix of 3+l+2 bp size of window around the hit motif. To detect the context feature of start codon fragments around starts. Calculate the positional probability within the alignment windows around start codon with length of (4+3+15) bp. We may represent the weight matrix by wSD(k)(bi,
57、i) for biA, C, G, T, where (k) means the kth iterative step and i means position within these alignment windows and (4+3+15) i 1. Despite the difficulty of unknown true start codons, we can reach an approximation through this weight matrix, because nucleotides occur more randomly around the false st
58、art codons.(3). Weight matrix for start codon context(4). Weights for potential start codons behind the leftmost start codon Not all the start codons have equal possibility to be selected as true gene start, different weights should be assigned to different start codons when they are investigated wh
59、ether to be true translation initiation sites Note m is the index of start codons, define wm(k) as the weight of the mth start codon being true gene start site, k is the iterative step. Describes the likelihood for a start codon of order m counting from the left most one to be a true start site. For
60、 k=1, i.e. in the first iterative step, as the initial condition, we set an equal weight 1.0 to each wm(k) , i.e. w1(1) = w2(1) =1.0. (5). RBS score for start codon and the most-likely start codon ATGATGP1P2P3P4STPCCC TCGAAGC ATGAACAGGAGGATT AGGATT Each of the above four measurements translates to a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年常州工程职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025年山东商务职业学院高职单招高职单招英语2016-2024历年频考点试题含答案解析
- icl相关知识课件
- 2025年宁夏职业技术学院高职单招(数学)历年真题考点含答案解析
- 2025年北京市顺义区高三一模数学试卷(含答案解析)
- 血友病的护理
- 脑血栓的诊断
- AFP防治知识培训课件
- 护理文化与护士
- 2019交通安全课件
- 消化内镜进修总结汇报
- 山东省临沂市河东区2023-2024学年七年级下学期期中测试历史试题
- 江苏省昆山、太仓、常熟、张家港市2023-2024学年下学期七年级数学期中试题
- 生物地球化学性疾病试题
- 休闲与旅游农业课件
- 感觉障碍护理课件
- 体育运动员参赛健康状况证明模板
- 教师的挑战:宁静的课堂革命
- 菲亚特博悦说明书
- 空调维保服务方案(技术方案)
- 高空发光字安装应急预案
评论
0/150
提交评论