




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2015年“深圳杯”全国大学生数学建模竞赛DNA序列毛西露,陈洁(重庆三峡学院,重庆万州404100;重庆三峡学院,重庆万州404100)(联系方式联系方式摘要:本文通过对DNA分子的研窕分析,对其进行简单及更深入的分类。由提示,将20个DNA单分子链中“TAGC”数量及百分含量数学统计,并运用欧式和马氏距离判别分析分析,检验两种的准确性,选出较高优化的方式科学地把要求的DNA序列分为A类,B类,依据此方法完成后20个及182个自然DNA分子单链的分类。得出了所求20个人工制造序列及182个自然序列的分类结果如下:、20个人工序列:A类:21
2、、24、26、28、30、31、32、33、38、40。B类:22、23、25、27、29、34、35、36、37、39。(2)经检验欧式优化度高,欧式进行对182个自然DNA分子分类:A类:4、5、6、8、9、11、13、14、15、16>17、18、19、20、21、27、29、31、32、33、35、36、38、39、41、42、44、45、46、47、49、52、53、55、58、59、60、61、62、64、66、67、68、69、70、71、73、77、79、81、82、87、89、90、91、93、95、96、100、101>104、105、106、108、109、1
3、10、112>115、117.118、120、124、132、134、135、136、139、141、145、148、150、154、155、158、172、173、177.B类:1、2、3、7、10、12、22、23、24、25、26、28、30、34、37、40、43、48、78、80、83、84、85、86、92、50、51、54、56、57、63、65、72、74、75、76、94、97、98、99、102、103、107>111、113、114、116、119、121、122、123、125、126、127、128、129、130、131、137、138、140、142、
4、143、144、146、147、149、151、152、153、156、157、159、160、161、162>163、164.165、166、167、168、169、170、171174、175、176、178、179、180、181、182。一、问题重述人类基因组计划中DNA全序列草图由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究发现DNA序列具有一些规律性和结构。例如,在全序列中有一些
5、是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间只有相关性,等等.这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)请从20个已知类别的人工制造的序列(其中序列标号110为A类,11-20为B类)中提取特征,构造分类方法,并用
6、这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号2140)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入)。2)同样方法对182个自然DNA序列(它们都较长)进行分类,写出结果。二、模型假设特定量的假设简单的数量统计及提取:1、对分析的及将要分析的所有DNA分子能将其分成A类、B类或不判断分类;2、不考虑特殊密码子的变异问题及书写密码子的格式;3、不考虑碱基序列的非编码区和编码区的区别;4、题目中所给的样本信息量足够大。三、特定符号的说明特定量的假设:Xij表示第i条DNA单链分子中碱基j的百分比含量,其中j
7、=1(表示碱基A的含量)2(表示碱基C的含量),3(表示碱基G的含量),4(表示碱基T的含量)。Gi表示由某些具有相同属性的个体组成的类Ka表示A类集合的几何中心Kb表示B类集合的几何中心样本Da点X1到Ka的欧氏距离样本Db点X,ljKb的欧氏距离Ma,a的均值si,a的协方差Pbb的均值,s2,b的协方差nl,n2a,b的自由度Q检验统计量、模型的分析1、针对题目给出A、B类DNA单链分子的特征提取(1)、减基“ATGC”含的分析,如数据所示:A类:1-10条链DNA碱基统计表1组2组3组4组5组6组7组8组9组10组总计A33303047263939312320318T151732121
8、421211715171C191824122614111823301951-10各组碱基的百分比折线图G44465020474440414845425有以上数据显示,T+C总含量在33%左右,A+G总含量在67%左右。B类:11-20条链DNA碱基统计表1组2组3组4组5组6组7组8组9组10组总计A39362833324039322422325C531190927131619112G11161413一10151087111T55555755715129556262552由以上各碱基含量的数据可将后2140归化成A、B类。A类:21、24、26、28、30、31、32、33、38、40。具体统
9、计数据如下:DNA碱基统计表ATCG总和A%T%C%G%21组3141221911327.43%36.28%19.47%16.81%24组2417222211520.37%40.87%19.13%19.13%26组25112-12111421.93%38.60%21.05%18.42%28组3052171811725.64%44.44%14.53%15.38%30组3127262310728.97%25.23%24.30%21.50%31组2740202511224.11%35.71%17.86%22.32%32组1936252910917.43%33.03%22.94%26.61%33组30
10、37212311127.03%33.33%18.92%20.72%38组2651202011722.22%43.59%17.09%17.09%40组2350232011619.33%43.10%19.83%17.24%各组碱基的百分比折线对于A类来讲:A+T含量较高达63%左右,C+G含量较低在37%左右。B类:22、23、25、27、29、34、35、36、37、39。具体统计数据如下;DNA碱基统计表ATCG总和A%T%C%G%22组3023252610428.85%22.12%24.04%25.00%23组3124262710828.70%22.22%24.07%25.00%25组322
11、5272811228.57%22.32%24.11%25.00%27组3326282911628.45%22.41%24.14%25.00%29组3427293012028.33%22.50%24.17%25.00%34组3528303112428.23%22.58%24.19%25.00%35组3629313212828.13%22.66%24.22%25.00%36组3730323313228.03%22.73%24.24%25.00%37组3831333413627.94%22.79%24.26%25.00%39组3932343514027.86%22.86%24.29%25.00%A+
12、TC+G碱基的百分比折线图A+TC+G对于B类来讲:C+G含量较高达56%左右,A+T含量相比较低在44%左右。五、模型的建立和求解1)、模型一:Euclid(欧式距离)分类模型的建立和求解在欧氏距离(Euclid)分类模型中,把每个样本视为三维空间的一个点,以其到不同集合几何中心的欧氏距离作为判据.具体的算法如下:(1)计算属于A类与属于B类的10个样本点的集合各自的几何中心,1018Ka=Iogxij+Kb=而全殉+Ka(i,2)=18%Ka(i,4)=15%Kb(i,2)=10.18%Kb(i,4)=50.18%由的数据可以得出Ka的中心值Ka(i,1)=29%Ka(i,3)=38%由的
13、数据可以得出Kb的中心值Kb(i,1)=29.55%Kb(i,3)=10.00%对于给定的样本点Xij,分别计算该点到Ka的欧氏距离Da二|Ka-Xij|,及该点到Kb的欧氏距离D欧|kb-Xij|;(2)判别准则如下:a若Da>Db,则将Xij点判为A类;b.若DaDb,则将Xij点判为Bc.若Da=Db,则将Xij点判为C类(C类为不可判别类)。用上述算法对已知样本的20个DNA单链分子进行分类,得到的分类结果是,A类:1235678910B类:411121314151617181920其中只有A4被错分为B类,其准确率达到95%,在可接受范闱内,该模型可信赖。用该模型对样本后给出的
14、20个进行分类,得到的分类结果是,A类:222325272930323435363739B类:2124262831333840用上述算法对未知的自然序列182个进行分类,得到的结果见附表2)、模型二:由于马氏距离具有统计意义,在距离判别分析时经常应用马氏距离.在马氏距离分类模型表示数据的协方差距离,也可以表述为两个服从同一分布并且其协方差矩阵为Z的随机变量间的差异程度。(1)首先要判别两个总体的协方差矩阵是否相等H。:Sj=ScH:$产S,Q=1,2)检验统计量:P是向最维数q=(n.-l)lnIS|-lnIS.|-p+titss.)/(p(p+l)/2)(i=U)对给定的a,查卡方分布表得到
15、临界值入若Qo<X,则接受Ho,否则拒绝以(2)计算属于A类与属于B类的10个样本点的集合指标各自的协方即,设S表示指标的协差阵即:由己学的Matlab求协方差SoSl=cov(A),S2=cov(B)由己学的Matlab求p,Panean(A),pb=mean(B),计算总体的协方差矩阵s=(RT)*S】+(n-1)、,其中1,n2分别为两个样本的容量样品X到总体G的马氏距离定义为:d=(x-pa)S-1(x-pa)9-(x-pb)S1(x-pb)9(3).判别准则如下:ad<0,则将点判为A类:b.d>0,则将X1点判为B类:c.若d=0,则将点判为C类(C类为不可判别类
16、)。用上述算法对已知样学习样本A1-A20进行分类,结果是A类:21、24、26、28、31、33、38、40B类:22、23、25、27、29、30、32、34、35、36、37、39六、模型的误差分析和检验误差分析:1、系统误差由于我们假设用4种碱基a、c、g、t的含量作为指标来判别类别是充分的,这当然与实际情况是不符合的,实际分类过程中,评价一种分类的好坏,还要考虑到其它的因素,如:碱基的结构:碱基a、c、g、t的内部结构及其生化性没有予以予考虑;碱基的环境:包括内环境、碱基在不同细胞的表达等都可能对其产生一定的影响。2.在问题一中,对所给的A1A40的DNA序列,我们采用从中提取特征,
17、构造分类模型的方法,但这是不充分的,必然会引起误差。检验:运用Matlab和SPSS等软件都可以进行判别分析。运用上面算法对己知类别的训练本进行判定,结果为:A类:1,2,3,5,6,7,8,9,10B类:4,11,12,13,14,15,16,17,18,19,20只有第4个样本发生了误判,故正确率为95%,值得信赖。距离判别方法简单实用,容易实现,并且结论的意义明确。但是,马氏距离判别没有考虑:(1)各总体本身出现的可能性在距离判别中没有考虑;(2)错判造成的损失在距离判别中也没有考虑。通过分析比较,欧式分类模型较优化。七、模型的改进与推广模型的优缺点:优点:利用MATLAB软件对数据进行
18、处理并作出各种平面图,简便,直观、快捷:运用多种数学软件进行计算,取长补短,使计算结果更加准确:本文建立的模型与实际紧密联系,使模型更贴近实际,通用性强。我们没有使用单一的模型对问题进行分析求解,而是综合运用了多种数学模型;增加了一定得检验环节,使我们所得到的数据更加合理可信,增加了论文的实际参考价值;(6)发现异常值剔除,有助于结果的合理性。缺点:对附件1中的DNA的序列分类,我们把从中提取特征,构造分类方法,作为充分必要条件,增加了误差;检验序列只有20列,运用的数据不是很多,不够精确:忽略了碱基存在的内环境因素及其生化结构的影响。在实际中,DNA序列分类是一个复杂的数学问题,存在着大量的
19、不确定性。模型的推广:在我们的模型基础上提出的分类方法可以很好的验证已知的20个序列,并且很好的完成了对未知类型序列的分类,我们认为这种模型,同时考虑了序列中元素的局部性质和序列的全局性质,具有相当的实际背景,当我们知道分类标准的更多信息时,我们可以很方便的调整模型中的参数,使之符合新的情况,具有很好的自学习性,但这个模型比较复杂,在实际计算中参数选择需要花费大量计算时间进行搜索.。Av参考文献1姜启源,谢金星,叶俊.数学模型(第三版)M.北京:高等教育出版社,20032薛薇,基于SPSS的数据分析中国人民出版社2006张韵华.Mathematica符号计算系统实用教程(第一版)M.合肥:中国
20、科技大学出版社,1998九、附录Matlab程序1:欧氏距离对A21A40DNA待测序列分类、对自然182个DNA进行分类,以此程序的进行A1-A20DNA分子的检验:functionf=fun(xl,xla,xlb)countA=zeros(1,20);countB=zeros(1,20);countN=zeros(1,20);ja=l;jb=l;jn=l;fori=l:20da=sqrt(xl(i,l)-xla(l,1).2+(x1(i,2)-xla(l,2).*2+(x1(i,3)-xla(l,3).-2+(xl(i,4)-xla(l,4)2);db=sqrt(xl(i,1)-xlb(l
21、,1).*2+(x1(i,2)-xlb(l,2).*2+(x1(i,3)-xlb(l,3).2+(xl(i,4)-xlb(l,4).-2);if(da<db)countA(l,ja)=i+20:ja=ja+l;endif(da>db)countB(l,jb)=i+20;jb=jb+l;endif(da=db)countN(l,jn)=i+20;jn=jn+l;endendcountAcountBcountNxla=0.290.150.18038;xlb=0.29550.50180.10180.10;xi=0.2743036280.19470.1681;0.28850.22120.2
22、4040.25;0.28700.22220.24110.25;0.20870.40870.19130.1913;0.28570.22320.24110.25;0.21930.38600.21050.1842;0.28450.22410.24140.25;0.25640.44440.14530.1538;0.28530.22500.24170.25;0.28970.25230.24300.2150;0.2411035710.17860.2232;0.17430.33030.22940.2661;0.27030.33330.18920.2072;0.28230.22580.24190.25;0.2
23、8130.22660.24220.25;0.28030.22730.24240.25;0.27940.22790.24260.25;0.22220.43590.17090.1709;0.27860.22860.24290.25;0.19830.43100.19830.1724;fbn(xiKlaXb)countA=Columns1tluougli113032343536372223252729Columns12tlirougli20390000countB=Cohnims1tluougli112124262831333840Columns12tlirougli20countN=Columns1
24、through1100000000000Columns12tlirougli20000000000Matlab程序1:马氏距离对A21A40DNA待测序列分类、对自然182个DNA进行分类,以此程序的进行A1-A20DNA分子的检验:functionf=fun3(a,b,x)countA=zeros(20,1);countB=zeros(20,1);countN=zeros(20,1);ml=mean(a);m2=mean(b);sl=cov(a);s2=cov(b);s=(sl+s2)/2;A=1;B=1;N=1;fori=l:20d=(x(i,:)-ml)*inv(s)*(x(i,:)-m
25、l)1-(x(i,:)-m2)*inv(s)*(x(i,:)-m2)>ifd>0countB(B,1)=i+20;B=B+1;endifd<0countA(A,l)=i+20;A=A+1;endifd=0countN(N,l)=i+20;N=N+1;endendcountAcountBcountN»a=33,15,19,44;30,17,18,46;30,7,24,50;47,32,12,20;26,12,26,47;39,14,14,44;39,21,11,40;31,21,18,41;23,17,23,48;20,15,30,45;»b=39,55,5
26、,U;36,55,3,16;28,57,11,14;33,55,9,13;32,71,0,7;40,51,9,10;39,29,27,15;32,55,13,10;24,62,16,8;22,62,19,7;»X=31,41,22,19;30,23,25,26;18,19,26,39;24,47,22,22;26,23,24,32;25,44,24,21;24,24,21,35:30,52,17,18;15,19,22,45;31,27,26,23;27,40,20,25;19,36,25,29;30,37,21,23;24,17,24,37;25,21,22,35;24,22,32
27、,27;22,21,26,34;26,51,20,20;29,25,30,22;23,50,23,20;>>fun3(a,b,x)countA=Columns1through112124262831333840Columns12through20countB=Columns1through112223252729303234353637Columns12through2039countN=Columns1through11Columns12through20经欧式与马氏的程序检验,发现欧式具有较高的分辨度,因此选择欧式对对自然182个DNA进行分类(程序同上省略):对自然182个D
28、NA进行分类:x=271,289,314,247;340,359,282,298;304,307,236,292;271,334,355,352;186,169,363,374;375,330,331,336;390,365,152,223;267,269,493,429;313,276,252,302;405,343,191,216:321,428,399,410;414,319,178,299;176,157,437,376;236,263,310,371;256,162,428,402;169,148,514,449;359,317,263,321;253,272,392,390;284
29、,299,360,390372,339,419,489;314,340,314,382;460,528,267,379:514,540,283,341;489,510,30。388;449,461,344,451;483,519,335,370;353,304,385;458,454,466,404;388,374,332,376;400,421,457,533;453,345,287,250;399,427,452,537;340,331,375,450;558,550,170,220;393,438,446,541;276,350,424,450;550,512,362,4127;441,
30、400,349,400;500,581,461,394;283,254,564,541;523,501,311,361;537,421,365,387;408,414,432,470;500,449,366,462;542,612,382,432;375,447,547,614;512,581,463,492;547,592,438,495;439,361,496,504;367,367,730,649;570,501,477,566;339,322,592,563;510,462,680,626;517,503,398,420;449,552,675,695;720,546,216,371;
31、616,613,586,597;450,387,790,800;584,603,813,856;502,523,1031,942;434,464,1140,1062:409,327,612,530;822,799,825,714;379,346,596,565;811,488,279,337;735,669,243,301;787,1076,644,670;565,491,398,518;827,860,875,812;378,330,673,623;700,579,362,375;618,884,1082,896;678,765,1036,1005;661,560,372,459;650,6
32、61,318,471;1056,1202,541,762;623,686,372,443;484,518,495;634,624,479,541;437,417,632,744;566,674,1290,1170;673,669,1159,1179;1096,1320,685,678;725,520,527,617;1171,1023,906,797;986,1028,1037,1022;1311,1069,1136,1028;817,661,438,552:835,735,341,567;832,659,443,623;519,505J96,805;1088,1108,1133,1295:8
33、24,728,545,471;1472,859,975;395,369,981,889;1125,1150,1128,1215;627,677,667,866;1348,1602,857,960;1232,1241,1296,1226;420,494,948,985;1095,906,466,513;844,1017,1291,1159;412,410,1042,1036;1315,1642,1627;848,896,626,664;453,432,1019,1096,953,1060,1735,1772;921,1109,739,562;678,527,1048,947;1057,1043,708,790;1640,1833,959,1098;1471,1731,1110,1230:13
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国汽车用塑料行业市场调查报告
- 2024年中国低空油烟净化器行业调查报告
- 中国樟脑磺酸钠行业市场调查报告
- 中国棉纺经纱管行业市场发展前景及发展趋势与投资战略研究报告(2024-2030)
- 2025年中国转向器托架行业市场发展前景及发展趋势与投资战略研究报告
- 2025年中国一位无级调光器行业市场发展前景及发展趋势与投资战略研究报告
- 2020-2025年中国林木培育和种植市场前景预测及未来发展趋势报告
- 纯化水水质检验报告
- 2021-2026年中国自动化药房设备行业全景评估及投资规划建议报告
- 2025-2030年中国世纪情酒行业深度研究分析报告
- 低空经济八大应用场景与实践案例解析方案
- 广东省深圳市福田区2023-2024学年一年级下学期语文期末试卷(含答案)
- 2025年物业管理员(中级)职业技能鉴定试卷(含物业设施设备维护案例)
- 下肢功能锻炼的护理方法
- 核电站清洁维护派遣及环境监测服务合同
- 行政管理学科试题及答案分享
- 江苏南通2025年公开招聘农村(村务)工作者笔试题带答案分析
- 《公司法教学课件》课件
- 造价咨询保密管理制度
- 支吊架厂家抗震支架安装规范图集
- 2025年江苏瑞海投资控股集团有限公司招聘笔试参考题库含答案解析
评论
0/150
提交评论