




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DNA序列的分类方法摘要:本文通过对20个已知类别的DNA序列进行统计分析,由浅入深进行研究,建立了五种DNA序列分类的模型。模型一利用单个碱基在序列中的含量不同,提出单碱基分类标准;模型二根据碱基c,g的百分比之和与碱基a,t的百分比之和的比值a=(C+G)/(A+T进行分类;模型三根据各序列中氨基酸分布不同引入分类参数P得到分类标准;模型四把DNA序列中氨基酸含量分布转化为空间向量的距离关系,对未知类别的DNA相对于不同类别集合的距离进行分类;模型五利用模糊聚类分析法对DNA进行分类.关键词:DNA分类模糊聚类分析一、问题的提出及分析1953年,诺贝尔奖获得者沃森(Watson)和克里克(Crick)创造了DNA链的双螺旋模型,并提出遗传信息由DNA传递给蛋白质的基本法则一一中心法则.DNA(脱氧核糖核酸)链是由四种不同的核苷酸(a,t,g,c)排列而成,在DNA中,每三个核苷酸顺序组成一种氨基酸,共64种排列方式对应着20种氨基酸(其中有些不同排列对应同一种氨基酸).对于一个DNA来说,我们完全可用一个由a,t,g,c四个字母所组成的一个序列来完全表述不同核苷酸在DNA中的含量及排序方式.不同氨基酸的含量的分布与排序都表示不同生命特性的重要性质.我们对DNA进行分类时,就应该考虑分布与排序所表示出来的特性,而将特性相近的DNA分为一类.在本文,我们主要是根据不同核苷酸的分布及不同氨基酸的分布所表现出来的相似性,对DNA进行分类.二、模型的基本假设与符号说明(一)基本假设题中所列40个数据为40个不同DNA的40个片段,且包含着每个DNA中我们所关注的主要信息;182个DNA序列也为182个DNA中的片段,其中包含着以上40个数据中我们所关注的主要信息;上面的所有DNA序列起始处都为一个完整氨基酸的起始处,每三个一组代表着不同氨基酸的排列.
(二)符号说明a,t,g,c分别表示腺嘌吟,胸腺嘧啶,鸟嘌吟,胞嘧啶;A,T,G,C表示DNA片段中分别含a,t,g,c的百分比含量;a,t,g,c中任意3字符的组合为一个氨基酸(包括终止符);a=(C+G)/(A+T);Q赖氨酸的百分比含量(第11号)+苯丙氨酸的百分比含量(第14号)B=:———:————-—精氨酸的百分比含量(第2号)+甘氨酸的百分比含量(第8号)三、模型的建立与求解模型一单碱基分类法通过对A,B类DNA序列的细致观察,容易看出,A类的碱基g的个数较多,而B类中碱基t的个数明显多于其他碱基,于是我们对A,B类序列进行统计得到表1.表1ATGC0.29730.13510.39640.17120.27030.1532ATGC0.29730.13510.39640.17120.27030.15320.41440.16220.27030.06310.45050.21620.42340.28830.18020.10810.23420.10810.42340.23420.35140.12610.39640.12610.35140.18920.36040.09910.27930.18920.36940.16220.20720.15320.43240.20720.18180.13640.40910.2727A类中碱基百分比含量ATGC0.35450.50000.10000.04550.32730.50000.14550.02730.25450.51820.12730.10000.30000.50000.11820.08180.29090.64550.063600.36360.46360.09090.08180.35450.26360.13640.24550.29090.50000.09090.11820.21820.56360.07270.14550.20000.56360.06360.1727B类中碱基百分比含量g的百分比大于0.36,而B类除倒数第4个数据(第17个序列)中的t的百分
比含量大于0.45,g的百分比含量小于0.146.由此得到分类标准为:若T<0.2636且G>0.1802,则该序列属于A类;若T>0.2883且G<0.1802,则该序列属于B类.对21〜40序列进行统计得到表2.表221〜40序列中碱基百分比含量ATGC0.27430.36280.16810.19470.28850.22120.25000.24040.17650.18630.38240.25490.20870.40870.19130.19130.24760.21900.30480.22860.21930.38600.18420.21050.23080.23080.31650.20190.25640.44440.15380.14530.14850.18810.44550.21780.28970.25230.21500.24300.24110.35710.22320.17860.17430.33030.26610.22940.27030.33330.20720.18920.23530.16170.36270.23530.24270.20390.33980.21360.22860.20950.25710.30480.21360.20390.33010.25240.22220.43590.17090.17090.27360.23580.20750.28300.19830.43100.17240.1983根据序列21〜40的数值结果(见表2),对序列21〜40进行分类可得如下结果:A类:22,23,25,27,29,30,34,35,36,37,39(共11个);B类:21,28,38,40(共4个);评析:此模型易于辨别,对于某些特征较显著的DNA序列的分类较有效,但对DNA中深入的研究缺少足够的理论支持,于是我们对模型进行进一步改进.模型二:参变量a分类法根据DNA基因技术理论,不同来源的DNA序列a=(C+G)Q+T)的值□不同,引进参数a=(c+G)(A+T),得到A类,B类以及序列21〜40关于a的数据(见表3、表4).表3A、B类关于a的数据表a=(C+G)(A+T)A1.31251.36172.00000.40511.92111.09430.85001.13461.77502.1429B0.17020.20880.29410.25000.06800.20880.61760.26440.27910.3095表4序列21〜40关于a的数据表a=(C+G)(A+T)21〜300.56940.96231.75680.61971.14290.65221.16670.42681.97060.844831〜400.67160.98180.65671.48781.23911.28261.39530.51950.96300.5890通过以上数据的分析,我们发现A类中a的值在0.85〜2.1429之间(除第4个数据外),B类中a的值在0.1702〜0.6176之间,我们认为A类具有a>0.85这一特征,即B类中含有碱基a、t的数量较c、g多,以a为标准对序列21〜40进行分类可得A类:22、23、25、27、29、32、34、35、36、37、39(共11个);B类:21、24、28、38、40(共5个);评析:根据来源不同的DNA序列中,碱基a、t的数量与c、g的数量比例的不同,制定一个较为合理的标准,来区分序列21〜40,且具有实际的生物意义H和价值.
模型三:氨基酸含量分类法我们尝试从氨基酸的分布着手,找出属于A类(或B类)DNA的数据特征,就认为未知DNA序列只有A类(或B类)的性质.我们对A类和B类DNA序列统计出20种氨基酸(剔除休止符)的分布,考虑各DNA序列长度的不同,对20种氨基酸的百分比的分布绘图,如图所示(含数据):(cga、氨酸类中赖氨酸(aaO、aag)和苯丙氨酸(ttt、切七捉)为特征氨基酸,引入参数&二赖氨酸的百分比含量(第11号)+苯丙氨酸的百分比含量(第14号)P=精氨酸的百分比含量(第2号)+甘氨酸的百分比含量(第8(cga、氨酸类中赖氨酸(aaO、aag)和苯丙氨酸(ttt、切七捉)为特征氨基酸,引入参数并求得A、B类以及序列21〜40关于P的数值(见表5、表6).表5A、B类关于P的数值表A、B类关于P的数值A0.33330.181801.40000.30770.10000.38460.23530.09090.3333B3.33333.0000811.00018.0005.00001.50006.50008.50008表6序列21〜40关于p的数值表序列21〜40中的P值21〜302.00000.60000.384612.0000.62504.0000.87505.0000.07691.500031〜401.60002.25001.60000.33330.40000.5000.71431.8001.00004.000容易得出分类标准为:当0<P<1.4,则序列属于A类;当0<P<1.4,则序列属于B类;当1.4<p<1.5时,则序列无法区分.根据上述分类标准,对序列21〜40进行分类得:A类:22,23,25,27,29,34,35,36,37,39(共10个)B类:21,24,26,28,30,31,32,33,38,40(共10个)模型四:中心距离分类法对任何的DNA序列中的各种氨基酸的百分比含量,容易统计求得,不妨设氨基酸的向量S=(s,s,…,s),则S为一个20维的向量,对于己知的DNA序ii1i2i20i列,A,B类氨基酸的含量百分比和均值分别为:Sa=(sa,S»…,sn0),i=1,2,•••,10;Sb=(sb,sb,…,sb),i=1,2,•••,10;Sa=£区Sa,j=1,2,...,20;i=1Sb=—区Sb,j=1,2,...,20.j10iji=1A类DNA序列氨基酸的空间重心为Sa=(Sa,Sa,…,Sa);1220B类DNA序列氨基酸的空间重心为Sb=(牛,袂,…,S".我们定义Si到A,B中序列的氨基酸向量重心的中心距离分别为:d(i)=无S—SA|,i=1,2,...,10.j=1da)=无|s.—SBI,i=1,2,...,10.j=1A类中各序列的氨基酸向量到B序列的氨基酸向量重心的距离分别为d⑴=无|S.a—Sb|,i=1,2,...,10;j=1B类中各序列的氨基酸向量到A序列的氨基酸向量重心的距离分别为da)=£|Sb—Sa|,i=1,2,...,10.j=1我们认为两个DNA序列的氨基酸向量的距离越近,则这两个序列的氨基酸拟合程度越高,这样确定如下分类准则:DNA序列的氨基酸向量与A的重心5人的距离d<0.7733时,则序列属于A类;DNA序列的氨基酸向量与B的重心Sb的距离d<0.6660时,则序列属于B类;否则说明该DNA序列无法归类.应该说明的是,由数值结果(见下表)知,这种准则不会将己知的A类归于B类,己知的B类中的序列归于己知的A类.数据结果如下:dAB1.13541.12031.41740.71351.19551.17111.02781.19091.21861.1494dBA1.12871.17031.14441.13461.34201.05710.87041.16811.22281.2715根据序列21-40的如下的数据结果:dA0.59040.41660.69910.77330.45850.50570.64710.62390.50710.5185dB0.44160.61750.43850.43650.60130.38060.6660.37920.53020.631721-30dA0.87650.75210.73521.11690.71841.01590.50160.98000.78600.962831-40dB0.99910.95380.71690.60410.50810.87460.79011.05510.82330.9888用上述的分类准则对序列21-40进行分类得:A类:27,34,35B类:28评析:模型四引入DNA的氨基酸向量到己知类别(A类,B类)重心的距离,提出分类准则,对未知DNA序列进行分类,具有很好的新意,这样就把一个DNA序列的排列问题转化为一个空间向量的距离问题.若某DNA中序列的氨基酸含量的百分比向量到己知的类别的重心距离小,则说明这个DNA中的序列各种氨基酸含量的百分比与己知类别的氨基酸含量的百分比拟合程度较高,则归入己类别,具有很高的生物学参考价值.模型五:模糊聚类分析分类法如题目已知:DNA序列1〜20,按一定的方法分成A,B二类,我们用模糊聚类分析方法建立A,B二类合并后的20个序列的相似矩阵R=气人小,其中ZSab-SABSab-SABik'jkjr=~:—,jZ(Sab-Sab)2■:Z(Sab-Sab)2Vikjkj)'k=1'k=1然后通过平方法求其他传递闭包R',我们取入水平为0.73,这样将20个序列分为二类#类和Bf类,与原来的A、B两类唯一区别是A类中序列4通过处理后划分到B,类中去,这种分类方法与原来已分好的A,B类所形成的差异,其原因可能有以下几种原来的分类方法有误序列4数据有误数据信息特征的提炼不够当然我们用某些特殊方法使得分类结果与原来假定的分类吻合.如凡以gt开头的序列划分为B类,但这仅仅是一种数字游戏,看不出实际的意义,而且对后面的数据划分无从下手.为了避免A中序列4的异类特性对A类整体特征的影响,我们将它从A类中删除,只留下其余9个序列作为进一步分析的对象.我们将待分类的20个序列的集合定义为C.C中序列C与A中(或B中)每个元素a(i=1,...,9)或b(i=1,...,10)的相关系数的平均值定义为r(或r「对于C中任一元素c,如r>r,且r>0.6,则认为c隶属于A类:如iiaibiair>r,且r>0.6,则认为c隶属于B类。今用Matlab程序可求得20个隶属ibiaibi数:r=ia0.67630.58280.79780.52160.68470.54980.72600.54190.79590.56960.58420.55540.66070.82040.71630.52000.73600.65780.49040.3797r=ib0.80350.60820.56870.74440.59590.76850.72600.74420.47160.51840.71840.75210.72090.48600.45150.59530.71610.78650.51730.7641取k=0.6用上述方法对序列21~40进行分类,结果为A类:23,25,27,29,34,35,37B类:21,24,26,28,31,32,33,38,40不可分类:22,30,36,39对182种序列进行分类如下:A类:51213151617192021273233363839414244495153555859646768697173757779828384878889909193100104106109112115117118124134136137138141145147155158171B类:1234678910111418222324252628293031343537404346474850525456576062636566707
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 羽毛球教练员合作合同
- 租赁合同中的房屋维修责任划分
- 施工项目劳务分包合同增订版
- 房地产业共同投资合同协议书
- 植物学考试题(含参考答案)
- 销售合同履约保证金范本
- 企业员工餐厅厨师服务合同范本
- 水利工程合同:咨询服务指南
- 老年危重病的护理
- 商品房买卖合同协议书
- 班组工程量结算书
- 生产件批准申请书
- 环境监测考试知识点总结
- 爵士音乐 完整版课件
- 嘉兴华雯化工 - 201604
- 冀教版七年级下册数学课件 第8章 8.2.1 幂的乘方
- XX公司“十四五”战略发展规划及年度评价报告(模板)
- 计算机辅助设计(Protel平台)绘图员级试卷1
- 除法口诀表(完整高清打印版)
- 河北省城市建设用地性质和容积率调整管理规定---精品资料
- 讲课实录-洛书时间数字分析法
评论
0/150
提交评论