




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于识别的ag密码子的识别
近年来,人们广泛使用了人类伦格文学调查序列并确定新基因和基因产物的方法。基因编码范围的两个基本特征反映在初始密码子和最终密码子上。一旦初始密码子确定,沿着阅读框,终止密码子也很容易确定。因此,在确定完整基因的过程中,可以确定从初始秘密符号中识别的密码。真核生物mRNA绝大部分遵循第一AUG定律,将最靠近5′端的AUG作为起始密码子.但是得到的cDNA序列中,并不知道序列的第一个AUG是否真正的起始密码子.事实上,很多得到的序列的第一个AUG不是起始甲硫氨酸密码子,若将此当作起始密码子,得到的基因就不完整.本文分析了AUG密码子上下文序列的一些特征,并构造一些数学模型,计算表征这些特征的量化参数.然后,从模式识别的角度出发,将起始密码子和非起始作用的甲硫氨酸密码子视为二个模式类.将计算出的每一个参数视为序列的一维特征,考察二类甲硫氨酸密码子上下文序列在每一个特征轴上的分布情况.在此基础上,应用费歇线性判别法进行分类器的设计并分别用自检验法和他检验法进行分类器错误率的估计,从而进一步研究二类甲硫氨酸密码子在由上述方式构成的多维特征空间中的可分性.1材料和方法1.1实验数据的调用实验中所涉及的数据,由站点http://biochem.otago.ac.nz:800/Transterm的Transterm数据库下载了10965个含起始密码子的序列的AccessionNumber,然后用此10965个AccessionNumber从GENBANK数据库(Release113.0,1999年8月发表)中调用满足下列条件的相关数据:1)序列都是人类mRNA/cDNA序列.2)起始密码子为AUG/ATG.3)有终止密码子.4)起始密码子与终止密码子之间的碱基数目是3的倍数.5)编码区的长度应大于240bp.6)在起始密码子的上游序列长度大于45bp.并将所得的序列作全长的对齐比较,剔除用WU-BLAST2.0软件包(华盛顿大学提供,2.0a19MP-WashU版本)所得P值小于1.0E-100的同源性大的序列.其中共有1640条序列满足上述条件.从这些序列中,我们选取了1640个属于起始密码子类的数据,18244个属于非起始作用的甲硫氨酸密码子类但也满足上述条件的数据作为实验数据.1.2密码子位置权重矩阵据Kozak等人的研究,起始AUG上下文序列中以GCCACCAUGG的利用率为高,在起始密码子两侧序列具有一定的保守性.对不同密码子在起始密码子两侧不同位置出现的概率进行统计,可得到密码子的位置权重矩阵.位置权重矩阵能够反映所研究序列的碱基和密码子的保守性.本实验在进行分类器设计时,密码子位置权重矩阵(用CPW来表示)是其中之一的特征.1.3结构方程的建立DNA序列是由A,C,G,T4个字母构成,可通过Z曲线理论,将其映射为1条三维曲线或者3条相互独立的数字序列.考虑一段从5′端到3′端有N个碱基的DNA序列,碱基A,C,G,T的数量分别定义为An,Cn,Gn,Tn,Z曲线用一系列点Pn连接而成.Pn的3个坐标值用Xn,Yn,Zn表示.Xn,Yn,Zn分别如以下表示:⎧⎩⎨⎪⎪Xn=2(An+Gn)−n,Yn=2(An+Cn)−n,Zn=2(An+Tn)−n,n=1,2,⋯N,{Xn=2(An+Gn)-n,Yn=2(An+Cn)-n,Ζn=2(An+Τn)-n,n=1,2,⋯Ν,这里A0=C0=G0=T0=0,所以X0=Y0=Z0=0.Z曲线是1条三维的空间曲线,DNA序列与Z曲线之间有着一一对应的关系.它包括3个分量:Xn,Yn,Zn,并且每个分量都有清楚的生物学含义:X分量代表DNA序列中嘌呤和嘧啶的分布;Y分量表示含氨基酮基的碱基分布;Z分量表示强弱氢键的碱基分布.利用Z曲线将字母信号变换到数字信号,就可以从数字信号的角度对序列进行分析.1.4编码区与上界区域起始密码子上游序列是5′UTR区域,下游序列是编码区;非起始作用的甲硫氨酸密码子上下游序列都是编码区.所以这二类密码子的差别主要就在于上游序列,本实验以编码区与5′UTR区域性质的差异作为判别的参量.1.4.1序列的序列计算在真核生物的编码区中,具有较强3的周期性:而5′UTR区域3的周期性弱.可构造一个数学模型,将3的周期性用一个具体的数值来衡量.将序列A(n)(n=1,2,…N)与序列B(n)(n=1,2,…,N)作循环相关后得到序列R(n)(n=1,2,…N),序列A(n),B(n),R(n)的方差分别为V(A),V(B),V(R);则令s=V(R)V(A)⋅V(B)√.s=V(R)V(A)⋅V(B).称s为共性系数,表征序列A(n),B(n)在相同性质上的相似程度.s越小,则表示序列A(n),B(n)在共同性质上的相似程度越大.取序列A(n)为所要研究的序列,B(n)为具有3的周期性的典型序列(1,0,0,1,0,0,…),则所得到的s即表征序列3的周期性的强弱.根据实验的结果看,将序列用Z曲线理论变换为X,Y,Z这3个分量,编码区与非编码区3的周期性的差异主要体现在Z分量上,取Z分量的共性系数(用SZ来表示)为特征参量.1.4.2编码区内不同立码子的碱基编码区序列具有三联体编码特性,根据每个碱基在三联体中所处的位置不同,可以将其分为3个子序列,分别称其为第一,第二,第三子序列.由于编码区具有以下性质:编码区密码子基本上都是以R(嘌呤)为第一个碱基;在编码区内G,C位于密码子第三个碱基可能性较多.将第一子序列变换成Z曲线,则X分量曲线的斜率(用KX表示)较大;将第三子序列变换成Z曲线,则Z分量曲线的斜率(用KZ表示)较小.为了与编码区相比较,可将非编码区以相同方式拆成3条子序列,并对其作相同处理,得到二者性质的差异.1.4.3编码区所编码氨基酸的亲疏水性若把非编码区也看成由三联体密码子连接而成,那么由这些密码子所编码的氨基酸的亲疏水性信息与真正编码区所编码氨基酸的亲疏水性信息是有差异的.由此可以得到一个密码子(或者氨基酸)的信息值,本实验将上下游序列氨基酸信息值(用Iup和Idown表示)作为判别参量.1.5分类设备的设计和可分离性的研究1.5.1密码子分级判断为了进一步研究二类密码子在6个特征参量所构成的多维特征空间中的分布,本实验用费歇判别分析进行二类密码子的分类器的设计以探讨二者在此特征空间的可分性.以序列的6维特征构成的向量作为输入向量,输出向量为一维.用费歇判别准则对二类密码子序列进行训练,训练后可以得到6个权重因子,用以下式子可作为分类器的分类标准:Score=Wcp*CPW+Ws*SZ+Wkx*KX+Wkz*KZ+Wup*Iup*+Wdown*Idown-Scoref,其中Scoref是指一个标准判别值.分类时将待分类样本的特征参量作为输入,计算输出的Score值,若Score≥0,则认为待分类样本为起始密码子;否则认为待分类样本为非起始作用的甲硫氨酸密码子.1.5.2方法的检验设计考虑到在研究的问题中,所能得到的样本量是有限的,分别采用自检验法和他检验法来估计分类器的错误率并研究这二类密码子的可分性.自检验法,即利用所有的样本设计分类器,再利用所有样本进行检验.这种方法估计的结果往往偏于乐观,但也可从一定程度上说明样本在特征空间上的可分性.他检验法,即所有样本中取出若干样本,用这些取出的样本来设计分类器,然后剩下的那些样本去检验.当样本数目较大时,采用他检验法可以较好地估计分类器的性能.在本实验中作他检验时,取出817条序列来设计分类器,然后用剩下的823条序列去检验.2分类器性能对比本实验用费歇判别准则进行分类器的设计,这是一种线性分类器的设计方式.同时对单个特征也进行分类器的设计,并用他检验法对分类器的准确率进行估计(见表1),对这些分类器的性能作个比较,从而进一步研究二者在特征空间的可分性.由表格中的分类器准确率结果可以看到,虽然只用单个特征也能分类,但所用的特征参量越多,准确率越高,分类器的性能也越好.另外,从中还可知道,在这些特征参量中,位置权重是主要因素.提示在人类肽链合成的起始机制中,起始密码子上下文的匹配是具有决定作用的.在分类器的设计时,当分类标准的Scroef不同时,分类器的准确率不同,分类器的性能也不同.图1表示用6个特征值进行分类器设计时,取不同的分类标准时的分类器的性能图.由图1(第678页)可看到,如果Scoref值小于0.9时,可以将起始密码子接近100%地判别出来,但同时非起始作用的甲硫氨酸密码子的判别准确率却非常接近于零.而如果Scoref值大于1.3时,可以将非起始作用的甲硫氨酸密码子接近100%地判别出来,但同时起始密码子的判别准确率却非常接近于零.通常情况下,这二类密码子的识别准确率是相互对立的.在实际应用中,需要找一个平衡点.为此,我们能找到一个阈值,在此基础上的这二类密码子的识别准确率是相等的.结果显示,这时候的识别准确率是75.70%.也可以这样说,给出任意一条序列,分类器能够正确识别的可能性是75.70%.按照上述同样的方法,若采取自检验法对分类器的性能进行估计,识别的准确率为75.40%.3生物基生产中的二元密度密码子在真核生物的mRNA/cDNA序列中,起始密码子和非起始作用的甲硫氨酸密码子的形式都是AUG/ATG.同时在5′UTR和3′UTR区域都存在三联碱基AUG/ATG的形式.在本实验中对实验数据进行统计,满足相同条件的三联碱基AUG/ATG的形式中,5′UTR区域中有277个,起始密码子1640个,非起始作用的框内甲硫氨酸密码子18244个,3′UTR区域中有733个.也就是说,5′UTR和3′UTR区域中三联碱基AUG/ATG形式只占AUG/ATG形式总数的4.83%,而5′UTR区域中更是只有1.32%.而约95%都是要进行分类的二类密码子.在实际应用中,进行cDNA序列全长判别时,所需要判断的就是实验中讨论的二类密码子.随着生物信息学的不断进展,发展新算法和方法来对基因结构进行预测日益受到重视,Salamov等设计了一种在一条全长序列中识别真正起始密码子的算法,其算法是将起始密码子当成一类,而编码区内的甲硫氨酸密码子,5′UTR区域的ATG,3′UTR区域的ATG这3种形式都当作另一类,其准确率为67%.但是该算法是将序列全长特征和ATG上下文特征都考虑进去,与Salamov等设计的算法不同的是,本实验中算法不考虑全长特征,只根据ATG上下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国雕塑试题及答案大全
- 新疆呼图壁县第一中学2025届高二物理第二学期期末联考模拟试题含解析
- 浙江省杭州外国语学校2024-2025学年高二下生物期末达标检测模拟试题含解析
- 浙江省衢州市2024-2025学年物理高二下期末复习检测试题含解析
- 云南省丽江市玉龙县第一中学2025届高二下生物期末质量跟踪监视模拟试题含解析
- 浙江平阳中学2025届物理高二下期末经典试题含解析
- 盐城市阜宁县高二上学期期中考试物理(必修)试题
- 高端厂房租赁中介服务佣金合同模板
- 水电工程场地平整与专业施工机械租赁合同
- 汽车维修钣喷行业场地租赁与设备维护合同
- 大学新生社团招新报名表通用版
- 文化艺术中心装饰装修工程施工方案(144页)
- 神话故事相关的英语习语
- 国家开放大学《教育心理学》形成性考核册参考答案
- 调味品QS审查细则
- 《淹溺急救》PPT课件(2022版)
- 四川省职工住房补贴实施办法
- JYC全自动变频抗干扰介质损耗测试仪
- 初期流动管理计划书
- 报考广东警官学院考生政审表
- 《加工配方设计》PPT课件.ppt
评论
0/150
提交评论