




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学信息与通信工程学院《生物信息基础北京邮电大学信息与通信工程学院《生物信息基础(?014)》课程大作业北京邮电大学信息与通信工程学院《生物信息基础北京邮电大学信息与通信工程学院《生物信息基础(2014)》课程大作业#gi|30962102|emb|AJ3146021|CCTGAGAGAGCCAGTCAAGAAGCCAT.ACACGJ3AGGC^AGCAT3ATGA1059gi|610977S9|dbj|AB1902901|CCTGAAAGAGCCAGTGAAAAAGCCGGACACrGAGGC・CAGCATGATOA1006gi|2346635Sfcb|AF349413.3|CX:TGAGAGAGCCGGTGAAAAAGCCA^ACACTGAGGC-IAGCATGATGA1063gi|321S6925fcb|AY305027.1|CCTCATGGAGGAGCAGAAGAAGCCTT・TIACCGAGGC・CAGCATGATGA1174gi|2073112|dbj|AB003356.1|CCTCATGAAGGAGCTGAAGAAGCCCrTCACCGAGGA・CAGCATGATGA1268gi|14530S317feb|EF5305921|CCTGAAAGAGCAGGTGCAGAAGCCGGACACrGAGGC・CAGCATGATOA457gi|89037528|ief|NW_925528.1|TTTCAGACAGTTTC匚…・ACCTGTATCACCCAAGGTGCAGTTTGATGT1056通过以上多序列的比对结果,我们可以轻松地发现多条序列中,发生了变异的部分。由于序列已经对齐,发生了变异的部分必然是空位、插入或者替换中的一种。我们设计算法,遍历一遍对齐后的各条序列,即可轻松的找到变异位点。三、基因编码区域识别1、1、问题建模由于已经给出了基因编码区域和基因非编码区域的片段(训练样本),我考虑使用一阶马氏链来判别两个目标序列的区域,其中,一阶马氏链是根据碱基的排列顺序做转移的。选择一阶马氏链碱基排序的原因有二:一是实验的样本太少,我考虑了对于氨基酸密码子做转移概率矩阵,但是计算得到的矩阵很多都是0元素,这对最终的计算结果影响很人,我也尝试了二阶和更高阶次的马氏链,同样由于训练样本太少,转移概率中概率为0的点太多,故不采纳高阶方案;二是在题目中,明确给出了该病毒RNA具有特定的排列顺序的条件,所以不对密码子做转移概率计算。参数估计与计算过程参数估计与计算过程首先,根据给出的基因编码区域和基因非编码区域的片段,可以算出两个区域片段的各个碱基对分布概率*这里利用大数定理,使用频率逼近概率。然后,最后,计算相邻两个碱基对出现的频率,并以此作为一阶马氏链的转移概率由两个目标序列的排列,我们可以利用公式:np(s)=p(sJ》p(Si+i|Si)i=l来计算序列S出现的概率,
3、实验结果在编码区中,四个碱基的分布概率:符号AUGC概率0.3846015380.30770.1538在非编码区中,四个碱基的分布概率:符号AUGC概率0.15380.3077007690.4615在编码区中,各个碱基的转移概率矩阵:AUGCA0.39130.30430.30430U0.444400.55560G0.21050.10530.15790.5263C0.555600.44440在非编码区中,各个碱基的转移概率矩阵:AUGCA0001.0000U000.06250.9375G01.000000C0.34480.51720.10340.0345计算得,S1序列在编码区出现的概率为16332e-06.在非编码区出现的概率为0,S2序列在编码区出现的概率为0,在非编码区出现的概率为6.4733—04。所以,我们认为S1序列属于编码区’S2序列属于非编码区。在判定过程中,我们发现了两个概率为0的现彖,一个是S1在非编码区的概率,另一个是S2在编码区的概率。出现这两个0概率的原因为,由于训练集过小,无法保证所有的碱基组合都出现过,这样就有部分转移概率为0。注:本部分计算所用的matlab源程序已在附录中给出。在大三上半学期,我有幸选修了《生物信息基础》这门专业选修课。选修这门课的原因主要有二,一是我希望未来可以在模式识别领域继续深造,希望可以考取我校模式识别实验室的研究生,所以希望通过这门选修课,让我对模式识别的基本理论和基本算法有所了解:二是去年四月,我参加了2014深圳杯大学生数学建模夏令营.竞赛题目中有一道关于基因组测序的题目(B题),引起了我很大的兴趣。通过这学期《生物信息基础》课程的学习,我对于生物信息处理有了很深的理解。我们的课程从生命的演化与中心法则讲起,包含生物信息数据库、序列分析、基因组学与基因识别和隐式马尔科夫模型,让我对当今科技的前沿——生物信息处理这门学科,有了较为深刻的了解。在这其中,我最感兴趣的部分是:序列分析中的多序列比对部分。这一部分面向实践,涉及到了之前讲述的许多知识。通过这一部分的学习,我对之前讲到的两条序列的比对有了更深的认识。而多序列比对可以推测各个序列的进化历史,这让我觉得很神奇。在本次人作业中,我运用了ClustaIW2网站的在线多序列比对,更加认识到了这种方法的用武之地。关于这门课程的学习,我有一个小小的建议:目前,我们这门课程中理论知识较多,主要面向的是各个算法的思想核心。这些思想核心是支撑算法的关键,但是对于我们未入门的本科生来说,可能有些枯燥乏味。对此,我建议老师可以加入适当的课堂演示/小实验环节・比如需要人家到生物信息数据库查询某种生物的DNA序列:或者给出两条真正生物体的DNA序列,让人家使用开源软件对其进行相似度分析;或者给出两条DNA序列,让大家设计MATLAB程序鉴别DNA序列的编码区。这样,课程会变得更加生动。最后,感谢李老师在这半年中持之以恒的谆谆教导,这让我收获良多!参考文献:生物信息学概论.清华大学出版社.DanE.Krane&MichaelL.Rajrmer生物信息学分析实践.科学出版社.吴组建模式识别(第三版).清华大学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年平凉职业技术学院高职单招高职单招英语2016-2024历年频考点试题含答案解析
- 2025年安徽粮食工程职业学院高职单招(数学)历年真题考点含答案解析
- 2025年安徽中澳科技职业学院高职单招职业适应性测试历年(2019-2024年)真题考点试卷含答案解析
- 2025年天津滨海汽车工程职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- GMP基础知识课件
- 737机型培训课件
- 【名校密卷】人教版数学四年级下册期中测试卷(一)及答案
- 苏州工业职业技术学院《广告与数字营销》2023-2024学年第二学期期末试卷
- 平顶山职业技术学院《消防管理学》2023-2024学年第二学期期末试卷
- 上海电力大学《第二外语(三)(法)》2023-2024学年第二学期期末试卷
- 《红楼梦黛玉葬花》课件
- (T8联考)2025届高三部分重点中学12月第一次联考评英语试卷(含答案详解)
- 2024年10月高等教育自学考试02382管理信息系统试题及答案
- 消防预埋合同模板
- 2025年高考政治一轮复习知识清单选择性必修三 《逻辑与思维》重难点知识
- 国开2024年秋中国建筑史(本)终考任务答案
- 新生儿败血症(共22张课件)
- 颂钵疗愈师培训
- DB5116T23-2024建设工程项目海绵城市专项设计规程
- 律师事务所律师事务所风险管理手册
- 2023中华护理学会团体标准-注射相关感染预防与控制
评论
0/150
提交评论