DNA序列问题模型详解_第1页
DNA序列问题模型详解_第2页
DNA序列问题模型详解_第3页
DNA序列问题模型详解_第4页
DNA序列问题模型详解_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2015年芜湖三校数学建模竞赛题目DNA序歹U问题模型摘要DNA 序列是由 A,T,G,C 四个表示 4 种碱基的字符组成的序列。本文研究 DNA 序列的结构找出序列间的差异和对八个物种的 DNA 序列进行分类。对于问题一首先对数据运用数理统计方法对数据进行计算,得到八个物种的DNA 序列的碱基的丰度、碱基的重复出现情况、碱基之间的相邻情况、不同碱基的丰度之比的四个特征,通过对这四个特征作出相应的散点图比较得出八个物种的 DNA 序列间的差异:Human、OpossumLemur、Rat 等 4 种 DNA 序列的长度相同,其他四种 DNA 序列的长度各不相同,每种 DNA 序列四种碱基的的重

2、复情况也各不相同;G 碱基的丰度相对于本序列的其他碱基的丰度都要高,碱基 A 的丰度在各个序列中丰度差不多,其他三种碱基在序列中波动性较大,差异性较大;8 种 DNAJ 歹 1中 GGGT 的相邻的状况比较明显;各个 DNAff 列中碱基丰度比fGC、fGT、fCT含量差不多且都含量比较高;其中,DNA 序列中心、总、fGA含量差不多且都含量比较低对于问题二我们首先通过对问题一散点图的分析选取以碱基的丰度和碱基间的丰度之比为分类的指标,构建为分类的特征向量,但这些特征向量之间存在着一定的相关性,我们运用 R 型聚类选择出相关性程度差的特征向量为 Q 型聚类的指标。通过 Q 型聚类我们将这 8

3、种 DNA 序列分为 3 种分类方式,通过禾I用 means方法,检验各类别在所有变量上的差异,再利用单因素方差分析最终确定将 8 种 DNAff列分为四类。分类结果如下:第一类:Human、Mouse第二类:Goat、Rabbit;第三类:OpossumLemur、Rat;第四类:Gallus。关键词:数理统计;R 型聚类;Q 型聚类;means法;单因素方差分析法1问题重述DNA 序列是由 A,T,GC 四个表示 4 种碱基的字符组成的序列。 研究 DNA 序列的结构及序列中隐藏的规律,成为生物信息学的重要研究课题。根据表 1中八个物种的 B-球蛋白基因的第一个外显子序列,请解决以下问题:

4、1,建立数学模型刻画序列间的差异;2.对表 1 中八个物种的 DNAff 列进行分类。2基本假设1)假设所给的 DNAff 列片段中没有断句和标点符号;2)假设具有特殊碱基的 DNAff 列中,特殊碱基可以剔除,其影响可以忽略;3)8 个物种 DNAff 列具有共同的特征;4)假设给定的 DN 符列均是从全序列中随机截取出来的,无法确定序列的起始位无法从序列中辨认出氨基酸,所以,在对 DNA 序列分类时,从碱基层次上进行分类,而不是从氨基酸层次上分类;5)不考虑碱基序列的编码区和非编码区的区别;6)题目中所给的样本信息量足够大;7)题目附录中所给的数据真实可靠。3符号说明i:各个 DNAff

5、列中碱基 i 出现的数量,i 为 A、T、C 或 GNi:第 i 个 DNAff 列的总碱基数目Fi:各个 DNAJ 列中碱基 i 的丰度,i 为 A、T、C 或 Gfj:各个 DNAJ 列中碱基 i 和碱基 j 的比值,i,j 为 A、T、C 或 GXi:DNAff 列中 A、GGT 的重复次数矩阵X2:DNAff 列中 A、C、GT 的所占百分量矩阵XXi:第i个 DNAff 列相邻碱基占序列相邻情况的百分比,X 为 A、C、T 或 GY:R 型聚类的特征向量Z:DNAJ 列中四个碱基之间丰度比矩阵4模型的建立及求解(一)问题一模型的建立及求解1)问题分析首先对数据运用数理统计方法对数据进

6、行计算,得到八个物种的 DNA 序列的碱基的丰度、碱基的重复出现情况、碱基之间的相邻情况、不同碱基的丰度之比(如碱基 A 与碱基 T 的丰度之比)的四个特征,通过对这四个特征作出相应的散点图比较得出八个物种的 DNA 序列间的差异。2)模型建立及求解(1)碱基重复出现的情况运用 matlab 求出 8 种物种 DNAff 列各自的碱基的重复出现的结果(即每种 DNAff列中碱基的个数)和每种 DNAff 列的碱基数目(即序列的长度)。(matlab 运算的程序代码见附录一)其运算的结果如下:XiN8=92Human、OpossumLemur、Rat 等 4 种 DNA 序列的长度相同,其他四种

7、 DNA 序列的长度各不相同;同时每种 DNA 序列四种碱基的的重复情况也各不相同,其中,HumanGoat、MouseRabbit 碱基 A 的重复情况一样; Gallus、 Lemur 碱基 A 重复情况一致; Lemur、 Moused基 T 的重复情况一致;OpossumMouse 碱基 C 的重复情况一致;HumanGoat、Lemur 碱基 G的重复情况一致;Gallus、Mouse 碱基的重复情况一样;其他物种碱基重复情况各不相同。(2)碱基的丰度对 8 种 DNA 序列碱基丰度的分析,i 中 A 碱基丰度的计算:巳=讶 N(4-1)其他碱基 T、GG 运算方式一样。通过 mat

8、lab 计算出 8 种序列的中 A、T、C、G 四种碱基的丰度结果如下(matlab 运算的程序代码见附录一):X2=0.18480.22830.20650.38040.19770.19770.19770.40700.22830.23910.21740.31520.20880.16480.25270.37360.20650.25000.16300.38040.18090.24470.21280.36170.18890.22220.17780.41110.21740.22830.19570.3587并运用matlab作出8种DNA序列四种碱基丰度的散点图(matlab运算程序代码见附录)如图4-

9、1所示。N1=921721193517171735212220291915233419231535172320341720163720211833N2=86N3=92N4=91N6=94N7=90N5=92图4-14种碱基的丰度散点图通过上述散点图可知每种序列的碱基丰度各有不同, G 碱基的丰度相对于本序列的其他碱基的丰度都要高,碱基 A 的丰度在各个序列中丰度差不多,其他三种碱基在序列中波动性较大,差异性较大。(3)碱基之间的相邻情况运用 matlab 计算出 DNAff 列相邻碱基的情况,分别为各个序列的AAACAGAKCACCCGCKGAGCGGGTTATGTGTT 的相邻次数占各条序列

10、相邻情况的百分比, 即如表4-1格式, 运用matlab计算DNAff列相邻碱基占序列相邻情况的百分比结果如下(matlab运算程序代码见附录二):表4-1相邻碱基在序列的排列情况碱基 A碱基 C碱基 G碱基 T碱基 AAAACAGAT碱基 CCACCCGCT碱基 GGAGCGGGT碱基 TTATCTGTTDNA 序列相邻碱基占序列相邻情况的百分比:XXi=0.04710.04710.08240.0235. .24682468八种DNADNA序列O O丁朴亲X=0.18480.22830.20650.38401.23541.11742.05880.90451.68201.85960.19770

11、.19770.19770.40701.00001.00002.05881.00002.05872.05870.22830.23910.21740.31521.04730.95231.38100.90921.31831.44990.20880.16480.25270.37360.78931.21021.78951.53342.26701.47840.20650.25000.16300.38041.21070.78931.84210.65201.52162.33370.18090.24470.21280.36171.35271.17632.00000.86961.47811.69970.18890

12、.22220.17780.41111.17630.94122.17650.80021.85012.31210.21740.22830.19570.35871.05010.90021.65000.85721.57121.8329;d=pdist(X);z=linkage(d,average);h=dendrogram(z);set(h,color,k,linewidth,1.3);T=cluster(z,maxclust,6);fori=1;6tm=find(T=i);tm=reshape(tm,1,length(tm);fprintf(第类的有sn,i,int2str(tm);endans=6

13、第1类的有5(五)、Q 型聚类分析 matlab 程序x=y=pdist(x);z=linkage(y,average);h=dendrogram(z);set(h,color,k,LineWidth,1.3)fork=3:5fprintf(划分成%d类的结果如下:n,k)T=cluster(z,maxclust,k);fori=1:k;tm=find(T=i);tm=reshape(tm,1,length(tm);fprintf(第类的有sn,i,int2str(tm);endifk=5breakendend划分成3类的结果如下:第1类的有358第2类的有1267第3类的有4*划分成4类的结

14、果如下第1类的有16第2类的有27第3类的有358第4类的有4*划分成5类的结果如下第1类的有5第2类的有380.22810.73220.9982-0.1396-0.1139-0.8603-0.0747-0.00700.22811.06590.6122-0.4025-0.9091-0.1215-1.2530-2.03051.37000.74342.28171.71820.9999-1.5228-1.2636-1.1118-0.61630.81141.13701.4619-0.2740-0.75250.0111-0.4788-0.0838-0.54120.41250.2281-0.7606-0.

15、9400-0.3217-0.4609-0.05460.5322-1.2621-1.17811.3427-0.52591.2790-0.1333fprintf(*n);第3类的有16第4类的有27第5类的有4(六)、spss 对三种分类结果各自的平均数的结果碱基T T丰度碱基C C与A A碱基比碱基G G与A A碱基比碱基C C与T T碱基比碱基G G与T T碱基比碱基G G与C C碱基比*Average*AverageLinkage(BetweenGroups)Linkage(BetweenGroups)AverageLinkageGroups)(Between碱基T丰度碱基C与A碱基比碱基G

16、与A碱基比碱基C与T碱基比碱基G与T碱基比碱基G与C碱基比1均值.2365001.1468826.274690.8870741.5800671.779641N222222标准差.0115966.0416601.3224715.0246606.1441514.11302832均值.209950.9706195.020452.9000901.9544052.185412N222222标准差.0173241.0415505.0533394.1412941.1474599.17923303均值.233700.9262204.155877.8832241.4447281.641385N222222标准差

17、.0076368.0368203.0214901.0367961.1788283.27085414均值.1648001.2102495.7962121.5333742.2669901.478433N111111标准差.5均值.250000.7893463.822500.6520001.5216002.333742N111111标准差.总计均值.2218881.0108805.065094.9407691.7183741.878131N888888标准差.0281154.1455103.9833943.2597231.3192954.3393150碱基T T丰度碱基C C与A A碱基比碱基G G

18、与A A碱基比碱基C C与T T碱基比碱基G G与T T碱基比碱基G G与C碱基比*Average*AverageLinkage(BetweenGroupsLinkage(BetweenGroupsAverageLinkageGroups)(Between碱基T丰度碱基C与A碱基比碱基G与A碱基比碱基C与T碱基比碱基G与T碱基比碱基G与C碱基比1均值.2365001.1468826.274690.8870741.5800671.779641N222222标准差.0115966.0416601.3224715.0246606.1441514.11302832均值.209950.9706195.0

19、20452.9000901.9544052.185412N标准差2.01732412.04155052.05333942.14129412.14745992.17923303均值.239133.8805954.044751.8061491.4703521.872171N标准差3.01085003.08320263.19307393.13600933.13401333.44324634均值.1648001.2102495.7962121.5333742.2669901.478433N标准差1.1.1.1.1.1.总计均值.2218881.0108805.065094.9407691.7183741.878131N888888标准差.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论