DNA序列的分类方法_第1页
DNA序列的分类方法_第2页
DNA序列的分类方法_第3页
DNA序列的分类方法_第4页
DNA序列的分类方法_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、DNA序列的分类方法摘 要:本文通过对20个已知类别的DNA序列进行统计分析,由浅入深进行研究,建立了五种DNA序列分类的模型。模型一利用单个碱基在序列中的含量不同,提出单碱基分类标准;模型二根据碱基c,g的百分比之和与碱基a,t的百分比之和的比值进行分类;模型三根据各序列中氨基酸分布不同引入分类参数得到分类标准;模型四把DNA序列中氨基酸含量分布转化为空间向量的距离关系,对未知类别的DNA相对于不同类别集合的距离进行分类;模型五利用模糊聚类分析法对DNA进行分类关键词:DNA 分类 模糊聚类分析一、 问题的提出及分析1953年,诺贝尔奖获得者沃森(Watson)和克里克(Crick)创造了D

2、NA链的双螺旋模型,并提出遗传信息由DNA传递给蛋白质的基本法则中心法则DNA(脱氧核糖核酸)链是由四种不同的核苷酸(a, t, g, c)排列而成,在DNA中,每三个核苷酸顺序组成一种氨基酸,共64种排列方式对应着20种氨基酸(其中有些不同排列对应同一种氨基酸)对于一个DNA来说,我们完全可用一个由a, t, g, c四个字母所组成的一个序列来完全表述不同核苷酸在DNA中的含量及排序方式不同氨基酸的含量的分布与排序都表示不同生命特性的重要性质我们对DNA进行分类时,就应该考虑分布与排序所表示出来的特性,而将特性相近的DNA分为一类在本文,我们主要是根据不同核苷酸的分布及不同氨基酸的分布所表现

3、出来的相似性,对DNA进行分类二、模型的基本假设与符号说明(一)基本假设 (1)题中所列40个数据为40个不同DNA的40个片段,且包含着每个DNA中我们所关注的主要信息;(2)182个DNA序列也为182个DNA中的片段,其中包含着以上40个数据中我们所关注的主要信息;(3)上面的所有DNA序列起始处都为一个完整氨基酸的起始处,每三个一组代表着不同氨基酸的排列(二)符号说明a, t, g, c分别表示腺嘌呤,胸腺嘧啶,鸟嘌呤,胞嘧啶; 表示DNA片段中分别含a, t, g, c的百分比含量; a, t, g, c中任意3字符的组合为一个氨基酸(包括终止符);=三、模型的建立与求解 模型一 单

4、碱基分类法 通过对A,B类DNA序列的细致观察,容易看出,A类的碱基g的个数较多,而B类中碱基t的个数明显多于其他碱基,于是我们对A,B 类序列进行统计得到表1表1A类中碱基百分比含量 B类中碱基百分比含量0.29730.13510.39640.17120.35450.50000.10000.04550.27030.15320.41440.16220.32730.50000.14550.02730.27030.06310.45050.21620.25450.51820.12730.10000.42340.28830.18020.10810.30000.50000.11820.08180.234

5、20.10810.42340.23420.29090.64550.063600.35140.12610.39640.12610.36360.46360.09090.08180.35140.18920.36040.09910.35450.26360.13640.24550.27930.18920.36940.16220.29090.50000.09090.11820.20720.15320.43240.20720.21820.56360.07270.14550.18180.13640.40910.27270.20000.56360.06360.1727上述表格中的数据表明,除第4个数据外,A类中

6、的t的百分比都小于0.19,g的百分比大于0.36, 而B类除倒数第4个数据(第17个序列)中的t的百分比含量大于0.45,g的百分比含量小于0.146由此得到分类标准为:若且,则该序列属于A类;若且,则该序列属于B类对2140序列进行统计得到表2 表2 2140序列中碱基百分比含量0.27430.36280.16810.19470.28850.22120.25000.24040.17650.18630.38240.25490.20870.40870.19130.19130.24760.21900.30480.22860.21930.38600.18420.21050.23080.23080.

7、31650.20190.25640.44440.15380.14530.14850.18810.44550.21780.28970.25230.21500.24300.24110.35710.22320.17860.17430.33030.26610.22940.27030.33330.20720.18920.23530.16170.36270.23530.24270.20390.33980.21360.22860.20950.25710.30480.21360.20390.33010.25240.22220.43590.17090.17090.27360.23580.20750.28300.

8、19830.43100.17240.1983根据序列2140的数值结果(见表2),对序列2140进行分类可得如下结果:A类:22,23,25,27,29,30,34,35,36,37,39(共11个);B类:21,28,38,40(共4个);评析:此模型易于辨别,对于某些特征较显著的DNA序列的分类较有效,但对DNA中深入的研究缺少足够的理论支持,于是我们对模型进行进一步改进模型二:参变量分类法根据DNA基因技术理论,不同来源的DNA序列的值不同,引进参数,得到A类,B类以及序列2140关于的数据(见表3、表4)表3 A、B类关于的数据表A1.31251.36172.00000.40511.9

9、2111.09430.85001.13461.77502.1429B0.17020.20880.29410.25000.06800.20880.61760.26440.27910.3095表4 序列2140关于的数据表21300.56940.96231.75680.61971.14290.65221.16670.42681.97060.844831400.67160.98180.65671.48781.23911.28261.39530.51950.96300.5890通过以上数据的分析,我们发现A类中的值在0.852.1429之间(除第4个数据外),B类中的值在0.17020.6176之间,

10、我们认为A类具有0.85这一特征,即B类中含有碱基a、t的数量较c、g多,以为标准对序列2140进行分类可得A类:22 、23 、25、 27、 29、 32、 34、 35、 36、 37、 39(共11个);B类:21 、24、 28、 38、40(共5个);评析:根据来源不同的DNA序列中,碱基a、t的数量与c、g的数量比例的不同,制定一个较为合理的标准,来区分序列2140,且具有实际的生物意义和价值模型三:氨基酸含量分类法我们尝试从氨基酸的分布着手,找出属于A类(或B 类)DNA 的数据特征,就认为未知DNA序列只有A类(或B类)的性质我们对A类和B类DNA序列统计出20种氨基酸(剔除

11、休止符)的分布,考虑各DNA序列长度的不同,对20种氨基酸的百分比的分布绘图,如图所示(含数据):按生物学理论对氨基酸进行分析,由分布图形可以断定,A类中精氨酸(cga、cgg、cgc、cgt、aga、agg)和甘氨酸(ggc、ggt、gga、ggg),B类中赖氨酸(aaa、aag)和苯丙氨酸(ttt、ttc)为特征氨基酸,引入参数=并求得A、B类以及序列2140关于的数值(见表5、表6)表5 A、B类关于的数值表A、B类关于的数值A0.33330.181801.40000.30770.10000.38460.23530.09090.3333B3.33333.000011.00018.0005

12、.00001.50006.50008.5000表6 序列2140关于的数值表序列2140中的值21302.00000.60000.384612.0000.62504.0000.87505.0000.07691.500031401.60002.25001.60000.33330.40000.5000.71431.8001.00004.000容易得出分类标准为:当01.4,则序列属于 A类;当01.4,则序列属于B类;当1.4时,则序列无法区分.根据上述分类标准,对序列2140进行分类得:A类:22,23,25,27,29,34,35,36,37,39(共10个)B类:21,24,26,28,30

13、,31,32,33,38,40(共10个)模型四:中心距离分类法对任何的DNA序列中的各种氨基酸的百分比含量,容易统计求得,不妨设氨基酸的向量,则为一个20维的向量,对于己知的DNA序列,A,B类氨基酸的含量百分比和均值分别为:;A类DNA序列氨基酸的空间重心为;B类DNA序列氨基酸的空间重心为我们定义到A,B中序列的氨基酸向量重心的中心距离分别为:A类中各序列的氨基酸向量到B序列的氨基酸向量重心的距离分别为;B类中各序列的氨基酸向量到A序列的氨基酸向量重心的距离分别为我们认为两个DNA序列的氨基酸向量的距离越近,则这两个序列的氨基酸拟合程度越高,这样确定如下分类准则:(1)DNA序列的氨基酸

14、向量与A的重心的距离时,则序列属于A类;(2)DNA序列的氨基酸向量与B的重心的距离时,则序列属于B类;(3)否则说明该DNA序列无法归类.应该说明的是,由数值结果(见下表)知,这种准则不会将己知的A类归于B类,己知的B类中的序列归于己知的A类.数据结果如下:dAB1.13541.12031.41740.71351.19551.17111.02781.19091.21861.1494dBA1.12871.17031.14441.13461.34201.05710.87041.16811.22281.2715根据序列21-40的如下的数据结果:dA0.59040.41660.69910.7733

15、0.45850.50570.64710.62390.50710.5185dB0.44160.61750.43850.43650.60130.38060.6660.37920.53020.631721-30dA0.87650.75210.73521.11690.71841.01590.50160.98000.78600.962831-40dB0.99910.95380.71690.60410.50810.87460.79011.05510.82330.9888用上述的分类准则对序列21-40进行分类得:A类:27,34,35B类:28评析:模型四引入DNA的氨基酸向量到己知类别(A类,B类)重心

16、的距离,提出分类准则,对未知DNA序列进行分类,具有很好的新意,这样就把一个DNA序列的排列问题转化为一个空间向量的距离问题.若某DNA中序列的氨基酸含量的百分比向量到己知的类别的重心距离小,则说明这个DNA中的序列各种氨基酸含量的百分比与己知类别的氨基酸含量的百分比拟合程度较高,则归入己类别,具有很高的生物学参考价值.模型五:模糊聚类分析分类法如题目已知:DNA序列120,按一定的方法分成A,B二类,我们用模糊聚类分析方法建立A,B二类合并后的20个序列的相似矩阵,其中,然后通过平方法求其他传递闭包,我们取水平为0.73,这样将20个序列分为二类类和类,与原来的A、B两类唯一区别是A类中序列

17、4通过处理后划分到类中去,这种分类方法与原来已分好的A,B类所形成的差异,其原因可能有以下几种(1) 原来的分类方法有误(2) 序列4数据有误(3) 数据信息特征的提炼不够当然我们用某些特殊方法使得分类结果与原来假定的分类吻合如凡以gt开头的序列划分为B类,但这仅仅是一种数字游戏,看不出实际的意义,而且对后面的数据划分无从下手为了避免A中序列4的异类特性对A类整体特征的影响,我们将它从 A类中删除,只留下其余9个序列作为进一步分析的对象 我们将待分类的20个序列的集合定义为C C中序列与A中(或B中)每个元素或的相关系数的平均值定义为(或) 对于C中任一元素,如,且,则认为隶属于A类:如,且,

18、则认为隶属于B类。今用Matlab程序可求得20个隶属数:取用上述方法对序列进行分类,结果为A类:23,25,27,29,34,35,37B类:21,24,26,28,31,32,33,38,40不可分类:22,30,36,39对182种序列进行分类如下:B类: 四、模型的分析模型1:仅考虑t,g 的含量,特性突出,判断简便,但信息应用不够,可能造成分类不准确模型2:该分类方法是DNA的分类的常用方法,它具有实际意义模型3:对某两种氨基酸含量的分析,能迅速判断出主要特征,同样有信息利用不够的缺陷模型4:对20个氨基酸的含量进行统计分析,用多元统计的方法分类,能有效的进行分类,但存在边缘模糊不清的缺点模型5:用模糊聚类分析方法对20 个氨基酸含量分类,同类元素相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论