




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、DNA序列的分类和比对摘要问题一:利用MATLAB对24个DNA序列进行两两对比,将第i个与i后面的 所有序列进行比较(i=1,224),筛选出相似度85%的比对序列分为同一类。问题二:为了从题目中的24个碱基对的DNA序列中找出含有52个碱基对的 新序列 CTACCGCCTCGGAAACGGCGTGTGTGGAATTGTGGCATTAAATTCTTTCACT 的进化来 源,本文用了递推序列比对法,利用MATLAB软件,将新序列与24个DNA序列化 为矩阵形式,将新序列从左到右以单位1的间隔移动,每移动一次,就将重叠部 分的碱基比对一次。最后找出相似度最高的DNA序列。关键词:序列比对MATL
2、AB 子序列矩阵相似度一、问题重述下面的24个DNA序列(附录一)是来自不同物种的一个基因片段,请将它 们分类。另外,如果有一个新的序列“ CTACCGCCTCGGAAACGGCGTGTGTGGAATTGTGGCATTAAATTCTTTCACT” 请判断它最可能是哪个序列的一部分进化来的。二、问题分析问题一:利用MATLAB对24个DNA序列进行两两对比,将第i个与i后面的 所有序列进行比较(i=1,224),筛选出相似度较高的序列分为同一物质。利用MATLAB设计程序,将24个DNA序列两两比较:先用N1与、N3.N24进行 比较,再用N2与N、N4.N24比较,以此类推,直到比对完。问题二
3、:将所有序列用一维矩阵形式表示,由于新序列只有52个碱基对, 故对DNA序列进行分割后,相减得到一维矩阵。一维矩阵里的元素中,0代表重 叠部分。其他不为0的元素均代表不重叠部分。根据元素0的分布,很容易可以 看出相同碱基对的连续性。选择标准:若两个0相邻则附值1,间隔1赋值0.5”1, 间隔2赋值0.52,以此类推。直到间隔数大于5时,则将它剔除。以此标准将 各个赋值相加。最后比较相似度(S=L/52*100%)大小得出结论。三、问题假设假设一:所有碱基对都准确无误;假设二:不考虑碱基序列的非编码区和编码区的区别;假设三:将DNA序列中除A、T、G、C外的碱基进行转化,对结果没有影响四、符号说
4、明M新序列矩阵Ni第i个DNA序列J重叠部分相减得到的矩阵S相似度L连续性程度五、模型的建立与求解5.1模型一5.1.1模型的建立1、利用MATLAB设计程序,将24个DNA序列两两比对:先用 N1与N2、N3.N24进行比对,再用N2与N3、N4.吃比对,以此类推,直到比对完。2、比对方法举例子:新序列CAT;已知序列ATTGCATCCGT比对:ATGCTAT1CTA2CTA3CTA4CTA5CTA3、相同碱基判断方法:按以上方法一一比对,将重叠部分相减得矩阵J。提取出含0元素最多的矩阵,再用这个矩阵中0元素的个数除以两个比对序列中较短的碱基个数,从而的到相似度。2、计算出各个比对的相似度,
5、提取出相似度大于等于85%的比对,定义为同类DNA序列。5.1.2模型一的求解1、利用MATLAB (程序一)得到,各个比对的相似度为: TOC o 1-5 h z 234 5 6 7 8 9 10 111210.423610.26090.4481140.43860.330.5043150.42130.60370.38580.6143160.42320.32130.55950.46770.4749170.43020.27520.57690.67860.45440.3113180.27560.27950.50570.41710.30540.48780.453190.42050.29480.312
6、10.32660.44360.30350.31070.31361100.41360.32050.49630.51990.46680.47120.47860.47560.38851110.38060.66140.28350.43860.33760.60550.29910.28550.45230.49481120.31320.66140.28350.28430.28940.28120.29910.28550.45230.494811130.28790.29680.28210.28140.27940.2740.28350.28130.44940.31610.61440.6144140.3610.60
7、090.28350.36140.34330.60690.28350.28550.44360.46380.61230.3796150.3610.57490.34270.680.34330.58540.32050.3040.4480.51110.5710.5736160.45440.2780.47680.36920.49930.4260.59940.51420.31690.30190.52170.2975170.39790.2790.35680.36420.33920.37590.39210.40680.29220.3250.47870.2878180.41370.2980.37130.3860.
8、34530.39580.40230.42510.30130.32410.51790.3046190.44240.50720.46120.53710.44960.55520.54840.50430.45520.47420.54920.5530200.43680.59510.54580.61710.48790.65850.62110.49430.45520.4860.63110.6341210.54920.50.37660.50570.4780.53230.50710.36650.38580.40180.53830.5420220.43540.59080.5430.61570.48790.6557
9、0.61820.49150.45230.4830.6270.6300230.49440.57060.28210.590.44960.64420.60830.32530.43790.47270.69810.7029240.49440.57060.28210.590.44960.64420.60830.32530.43790.47270.35250.3480131415161718192021222324131140.97921150.60330.59861160.2930.50970.5591170.29960.4640.49340.59191180.30620.50.52120.52770.9
10、7561190.55760.55620.53440.5830.94130.97561200.61860.60820.61270.63230.51690.54890.5521210.5090.50550.51620.54110.52570.54560.50410.64051220.61720.60680.61270.63380.51540.54720.5520.9960.64461230.61860.61510.38570.61580.39060.40390.55210.61710.59130.61571240.33980.3630.37980.61580.39060.40390.5560.62
11、020.59430.618911由上表,将每一列中相似度大于85%的比对分为同一类,可得:(11,12);(13,14); (17,18,19); (20,22); (23,24),其余的各自成一类。5.2模型二5.2.1模型二的建立1、将新序列转换成矩阵形式:M=( C T A C C G C C T C G G A A A C G G C G T G T G T G G A A T T GT G G C A T T A A A T T C T T T C A C T)2、比对方法举例子:新序列CAT;已知序列ATTGCATCCGT比对:ATGCTAT1CTA2CTA3CTA4CTA5CTA
12、6CTA7CTA8CTA9CTA即从左往右一一比对,将重叠部分相减得矩阵J。找出每组比对中含有最多 0元素的矩阵及其个数,观察分析矩阵J中0的分布。3、算出结果矩阵的相似度0的连续性L运算:若两个0相邻则附值1,间隔1赋值0.5”1,间隔2 赋值0.5”2,以此类推。直到间隔数大于5时,则将它剔除。以此标准将各个赋 值相加。相似度:S=L/524、比较相似度,相似度最大的DNA序列即为新序列的进化来源。5.2.2模型二的求解1、由matlab程序得出数据整理得如下表格:DNA序列号最大0元素数序列起始位置126222229213326212214430211526213215630212730
13、2118302089234591022517112924412292441328243142824315272521627149172718418271171927259202724521262452227245232624424262372、由程序得第一组中含0元素最多的矩阵如下:J1=(0 -13 6 17 0 0 0 0 -17 0 0 0 0 0 0 0 0 0 17 0 0 0-17 0 0 0 -4 2 2 -13 0 0 -13 -4 -6 1719 -13 -17 2 19 19 -17 0 17 -17 -17 -19 17 19-2 0)由此可求相似度S:L1=17.687
14、5S2=L1/52=0.35275同理得L2、L3L24的值分别为:21.1875、18.0625、23.1565、19、20.0625、23.15625、23.875、22.6875、12.59375、14.15625、22.09375、22.09375、20.15625、20.15625、18.65625、18.65625、18.65625、18.65625、18.65625、 18.375、18.65625、18.0625、18.0625.故S2、S3S24的值如下:DNA序列相似性10.3527520.4237530.3612540.4631350.3860.4012570.46312
15、580.477590.45375100.251875110.283125120.441875130.441875140.403125150.403125160.373125170.373125180.373125190.373125200.373125210.3675220.373125230.36125240.361253、从上表可以得出,与新序列最相似的是第8个DNA序列。五、模型的优缺点及推广模型优点:1、主要利用MATLAB软件,用较简单的方法对DNA序列进行比对得出结果。2、可以很容易看出DNA序列比对时相同部分的分布,有利于对连续性进行判断。3、用表格分析,简单明了,快速得到结论。
16、模型缺点:1、对于模型二,单独用MATLAB软件比对,精确度不高。模型推广:1、此模型的可行度较高,可以满足实际应用。2、用此模型,可准确地对DNA序列进行比对,从而判断两个DNA序列的相似性。附录一:模型一程序:l;j=input(please input a DNA number :) ;作比较a=l(j);a=char(a);b=l(j+1:24);for k=1:24-jd=char(b(k);n=length(a);m=length(d);if n=mh=a;d;elseh=d;d=a;n=length(h);m=length(d);endf=zeros(1,n-m+1);for i
17、=1:n-m+1e=h(i:m+i-1);g=sum(e-d=0);f(i)=g;endt24-j=;%l为导入的数据,格式为cell%输入任意一条序列j,j将和其后所有序列%取出第j条序列%格式转换%取出j后面所有序列%将长序列设为a,段序列设为d%建立1x(n-m+1)零矩阵%两序列相减,算出零的个数为h%h存放在f矩阵中%建立元胞t,用于存放矩阵ftk=f; %将矩阵f中最大元素取出与较短序列的个数作比较,算出改两端序列的最 大相似度pp=max(char(tk)/mend模型二程序:for j=1:n%替换序列中变异序列为碱基Aif a(j)=A&a(j)=G&a(j)=C&a(j)=Ta
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年仙居县人民医院招聘工作人员考试真题
- 中标后催业主签合同范例
- 2024年新疆昌吉学院(团队)引进笔试真题
- 乡村承包开发合同范本
- 人员反聘合同范本
- 云梯租赁合同范本
- app开发服务合同范本
- 劳务合同范例放牧
- 《五、标明引用内容的出处》教学设计教学反思-2023-2024学年初中信息技术人教版七年级上册
- 农村电器购销合同范本
- 2024年南京机电职业技术学院单招职业技能测试题库及答案解析
- 投标技术服务和质保期服务计划
- 教学评一体化
- 2023年全国高考体育单招考试英语试卷试题真题(精校打印版)
- 音乐欣赏与实践(中职音乐)全套教学课件
- 粤语活动策划方案模板范文相关7篇
- 苏教版三年级数学下册教学计划及进度表
- 财务管理中的财务指标
- 2016-2023年青岛酒店管理职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 中国春节ppt英文版 Chinese New Year
- 高中数学《6.2 排列与组合》课件与导学案
评论
0/150
提交评论