北邮生物信息基础大作业_第1页
北邮生物信息基础大作业_第2页
北邮生物信息基础大作业_第3页
北邮生物信息基础大作业_第4页
北邮生物信息基础大作业_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学信息与通信工程学院《生物信息基础北京邮电大学信息与通信工程学院《生物信息基础(?014)》课程大作业北京邮电大学信息与通信工程学院《生物信息基础北京邮电大学信息与通信工程学院《生物信息基础(2014)》课程大作业#gi|30962102|emb|AJ3146021|CCTGAGAGAGCCAGTCAAGAAGCCAT.ACACGJ3AGGC^AGCAT3ATGA1059gi|610977S9|dbj|AB1902901|CCTGAAAGAGCCAGTGAAAAAGCCGGACACrGAGGC・CAGCATGATOA1006gi|2346635Sfcb|AF349413.3|CX:TGAGAGAGCCGGTGAAAAAGCCA^ACACTGAGGC-IAGCATGATGA1063gi|321S6925fcb|AY305027.1|CCTCATGGAGGAGCAGAAGAAGCCTT・TIACCGAGGC・CAGCATGATGA1174gi|2073112|dbj|AB003356.1|CCTCATGAAGGAGCTGAAGAAGCCCrTCACCGAGGA・CAGCATGATGA1268gi|14530S317feb|EF5305921|CCTGAAAGAGCAGGTGCAGAAGCCGGACACrGAGGC・CAGCATGATOA457gi|89037528|ief|NW_925528.1|TTTCAGACAGTTTC匚…・ACCTGTATCACCCAAGGTGCAGTTTGATGT1056通过以上多序列的比对结果,我们可以轻松地发现多条序列中,发生了变异的部分。由于序列已经对齐,发生了变异的部分必然是空位、插入或者替换中的一种。我们设计算法,遍历一遍对齐后的各条序列,即可轻松的找到变异位点。三、基因编码区域识别1、1、问题建模由于已经给出了基因编码区域和基因非编码区域的片段(训练样本),我考虑使用一阶马氏链来判别两个目标序列的区域,其中,一阶马氏链是根据碱基的排列顺序做转移的。选择一阶马氏链碱基排序的原因有二:一是实验的样本太少,我考虑了对于氨基酸密码子做转移概率矩阵,但是计算得到的矩阵很多都是0元素,这对最终的计算结果影响很人,我也尝试了二阶和更高阶次的马氏链,同样由于训练样本太少,转移概率中概率为0的点太多,故不采纳高阶方案;二是在题目中,明确给出了该病毒RNA具有特定的排列顺序的条件,所以不对密码子做转移概率计算。参数估计与计算过程参数估计与计算过程首先,根据给出的基因编码区域和基因非编码区域的片段,可以算出两个区域片段的各个碱基对分布概率*这里利用大数定理,使用频率逼近概率。然后,最后,计算相邻两个碱基对出现的频率,并以此作为一阶马氏链的转移概率由两个目标序列的排列,我们可以利用公式:np(s)=p(sJ》p(Si+i|Si)i=l来计算序列S出现的概率,

3、实验结果在编码区中,四个碱基的分布概率:符号AUGC概率0.3846015380.30770.1538在非编码区中,四个碱基的分布概率:符号AUGC概率0.15380.3077007690.4615在编码区中,各个碱基的转移概率矩阵:AUGCA0.39130.30430.30430U0.444400.55560G0.21050.10530.15790.5263C0.555600.44440在非编码区中,各个碱基的转移概率矩阵:AUGCA0001.0000U000.06250.9375G01.000000C0.34480.51720.10340.0345计算得,S1序列在编码区出现的概率为16332e-06.在非编码区出现的概率为0,S2序列在编码区出现的概率为0,在非编码区出现的概率为6.4733—04。所以,我们认为S1序列属于编码区’S2序列属于非编码区。在判定过程中,我们发现了两个概率为0的现彖,一个是S1在非编码区的概率,另一个是S2在编码区的概率。出现这两个0概率的原因为,由于训练集过小,无法保证所有的碱基组合都出现过,这样就有部分转移概率为0。注:本部分计算所用的matlab源程序已在附录中给出。在大三上半学期,我有幸选修了《生物信息基础》这门专业选修课。选修这门课的原因主要有二,一是我希望未来可以在模式识别领域继续深造,希望可以考取我校模式识别实验室的研究生,所以希望通过这门选修课,让我对模式识别的基本理论和基本算法有所了解:二是去年四月,我参加了2014深圳杯大学生数学建模夏令营.竞赛题目中有一道关于基因组测序的题目(B题),引起了我很大的兴趣。通过这学期《生物信息基础》课程的学习,我对于生物信息处理有了很深的理解。我们的课程从生命的演化与中心法则讲起,包含生物信息数据库、序列分析、基因组学与基因识别和隐式马尔科夫模型,让我对当今科技的前沿——生物信息处理这门学科,有了较为深刻的了解。在这其中,我最感兴趣的部分是:序列分析中的多序列比对部分。这一部分面向实践,涉及到了之前讲述的许多知识。通过这一部分的学习,我对之前讲到的两条序列的比对有了更深的认识。而多序列比对可以推测各个序列的进化历史,这让我觉得很神奇。在本次人作业中,我运用了ClustaIW2网站的在线多序列比对,更加认识到了这种方法的用武之地。关于这门课程的学习,我有一个小小的建议:目前,我们这门课程中理论知识较多,主要面向的是各个算法的思想核心。这些思想核心是支撑算法的关键,但是对于我们未入门的本科生来说,可能有些枯燥乏味。对此,我建议老师可以加入适当的课堂演示/小实验环节・比如需要人家到生物信息数据库查询某种生物的DNA序列:或者给出两条真正生物体的DNA序列,让人家使用开源软件对其进行相似度分析;或者给出两条DNA序列,让大家设计MATLAB程序鉴别DNA序列的编码区。这样,课程会变得更加生动。最后,感谢李老师在这半年中持之以恒的谆谆教导,这让我收获良多!参考文献:生物信息学概论.清华大学出版社.DanE.Krane&MichaelL.Rajrmer生物信息学分析实践.科学出版社.吴组建模式识别(第三版).清华大学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论