一种基于结构序列藕合模块辨别人类miRNA前体的新方法_第1页
一种基于结构序列藕合模块辨别人类miRNA前体的新方法_第2页
一种基于结构序列藕合模块辨别人类miRNA前体的新方法_第3页
一种基于结构序列藕合模块辨别人类miRNA前体的新方法_第4页
一种基于结构序列藕合模块辨别人类miRNA前体的新方法_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一种基于结构序列藕合模块辨别人类miRNA前体的新方法,刘秀芹 2009.11.15,miRNA的产生,内容提要,miRNA概述,Mirident方法流程结果,与已有的方法的比较,讨论,miRNA的产生中心法则,Protein Gene,mRNA,Protein,miRNA gene,蛋白基因1,miRNA基因,DNA序列,转录,翻译,转录,pri-miRNA,miRNA的产生,行使功能,miRNA的产生,miRNA概述,长约2025碱基的单链RNA,功能:在对mRNA进行转录后调控 mRNA 降解 阻止mRNA翻译成蛋白,通过影响mRNA从而对生物体的生长、发育起到重要作用,与肿瘤的形成有很

2、大关系。,miRNA的发现:,试验的方法,计算方法(分类算法),各种机器学习方法用于预测miRNA. SVM, 随机树,线性规划,隐马氏模型等。,2. 机器学习的方法的关键之一是选取合适的特征。常用的特征: 序列特征(如,保守性,G C含量,) 结构特征(臂的长度,loop长度),本文想法: 充分挖掘序列和结构耦合的特征。 用耦合特征辨别miRNA和假pre-miRNA.,已有方法的局限性:,受对miRNA认识的限制,一般分别考虑序列和结构的性质,大部分没有充分考虑序列和结构之间的相互关系,Mirident方法流程,准备序列结构(sequence-structure),寻找耦合特征,用线性SV

3、M对特征进行排序,用支持向量机训练分类器,进行预测,1. 阳性集合准备,(1) hsa.fa是human的678条pre-miRNA序列(hairpin.fa 是所有物种的pre-miRNAs,用hsa.py取出人的)。,(2) 去重复率高于90%的序列,剩638条(quxiangsilian.py)。,(3) 计算二级结构,去多环,剩608条。,算法步骤,(5)用软件 teiresias找457条公共特征(457/608=75%)。,(4)把每个位点的二级结构放在相应的位点后面,形成sequence-structure.,(.(.(.(.).).).).,hsa-mi-320-1 MI000

4、8190 Homo sapiens mi-320-1 stem-oop,UUCUCGUCCCAGUUCUUCCCAAAGUUGAGAAAAGCUGGGUUGAGAGGA,U(U(C(U(C(G(U.C(C(C(A(G(U(U(C.U(U(C(C.C(A(A.A.G.U.U )G)A.G)A)A)A.A)G)C)U)G)G)G)U.U)G)A)G)A)G)G.A.,ULULCLULCLGLUDCLCLCLALGLULULCDULULCLCDCLALADADGDUDURGRADGRARARADARGRCRURGRGRGRUdURGRARGRARGRGDAD,L代表( R代表) D表示.,2. 阴性

5、集合准备,(1)、在ucsc下载refseq.fa,(2)、过滤剩11426条,(3)、去重复序列,只剩7898条,(6)、用teiresias找457条(457/608=75%)共有的motifs(L=4,W=12,K=457),(5)、把每个位点的二级结构放在相应的位点后面,形成sequence-structure.,(4)、随机抽取608条,计算二级结构。,3. Libsvm分类:,(1) 把阴性和阳性集合中得到的特征放到一起形成head.txt. 在阳性阴性集合中提取特征向量。,(.(.(.(.).).).).,hsa-mi-320-1 MI0008190 Homo sapiens m

6、i-320-1 stem-oop,UUCUCGUCCCAGUUCUUCCCAAAGUUGAGAAAAGCUGGGUUGAGAGGA,U(U(C(U(C(G(U.C(C(C(A(G(U(U(C.U(U(C(C.C(A(A.A.G.U.U )G)A.G)A)A)A.A)G)C)U)G)G)G)U.U)G)A)G)A)G)G.A.,ULULCLULCLGLUdCLCLCLALGLULULCdULULCLCdCLALAdAdGdUdU RGRAdGRARARAdARGRCRURGRGRGRUdURGRARGRARGRGdAd,L代表( R代表) D表示.,抽取特征向量的过程:,特征 LUL.C在序列h

7、sa-mi-320-1 中的特征向量的分量为2.,它的特征向量为:,(2,2,4,2,2,1,1,3,2,4,0,3,2,2,2,2,1,3,2,3,2,2,0,0,1,4,3,2,0,0,2,1,2,1,2,3,2,4,2,2,1,0,1,4,3,4,3,1,2,4,1,1,2,3,3,0,2,0,3,0,1,2,2,7,1,1,1,2,2,1,6,2,0,1,1,3,3,0,2,2,2,1,2,1,1,1,2,3,2,1,2,6,3,3,2,1,2,0,2,3,4,0,0,0,1,1,1,1,0,2,3,1,3,1,1,3,2,4,1,0,3,1,3,3,0,3,3,2,2,3,3,2,1

8、,3,0,0,5,1,2,2,2,1,1,0,1,2,2,1,3,1,1,1,2,2,1,1,1,2,3,3,2,0,2,4,4,1,2,1,3,6,3,2,3,1,1,1,0,3,1,0,3,2,2,3,4,1,0,3,1,1,3,4,0,1,0,1,1,2,1,3,2,0,1,2,2,0,1,2,2,1,1,0,1,1,3,3,1,0,2,3,0,1,3,0,1,0,0,1,1,2,1,1,1,1,2,3,3,1,2,0,3,2,1,1,0,1,0,2,2,1,2,0,1,1,0,0,2,4,1,0,3,1,1,2,1,1,1,1,0,0,4,3,0,0,1,0,0,3,3,2,3,2,1

9、,1,2,3,2,1,3,2,1,2,2,4,2,3,1,0,2,0,2,1,1,3,1,0,2,1,2,0,0,2,1,2,2,4,2,0,1,0,1,0,2,0,3,1,0,1,4,4,3,2,5,2,3,2,2,1,2,5,0,4,1,2,1,1,1,2,2,3,2,5,2,0,0,0,2,0,2,2,2,2,2,1,1,2,3,1,2,1,0,4,2,0,0,1,3,2,0,0,0,1,2,2,2,1,1,1,2,3,1,1,2,1,2,3,0,0,1,3,2,0,2,0,2,2,5,0,1,3,0,2,3,1,0,1,5,0,1,4,2,0,0,2,3,1,4,1,2,0,2,0,1

10、,2,2,1,2,1,1,3,0,3,2,3,2,1,0,1,2,1,3,2,2,0,1,1,2,1,2,1,0,1,5,3,0,0,1,2,1,0,0,0,2,3,3,2,1,1,2,1,2,2,2,3,2,1,0,1,0,2,2,1,1,1,0,1,2,1,0,2,1,2,1,0,1,0,1,4,0,1,0,1,0,3,2,1,0,1,2,4,0,3,2,5,0,2,3,1,1,0,0,1,0,1,1,2,1,3,2,1,1,1,1,3,3,0,1,1,2,1,0,1,1,2,1,2,0,3,1,2,1,3,0,4,2,1,2,3,1,1,2,3,0,0,0,2,3,1,1,2,2,2,4

11、,1,2,1,2,0,1,0,0,2,0,0,3,0,2,1,1,1,0,0,1,1,0,0,0,2,2,2,1,0,2,2,1,2,1,1,4,5,2,1,0,1,1,2,1,3,1,0,1,3,0,0,2,0,2,1,1,4,2,0,4,0,0,1,0,1,1,2,2,0,1,0,2,3,2,0,3,4,1,1,1,1,2,0,0,1,0,2,0,1,0,4,3,0,3,1,1,3,2,0,1,0,1,0,1,1,1,2,1,0,0,0,0,0,2,0,2,1,1,2,1,1,2,0,1,3,2,0,3,0,1,2,0,3,1,2,0,0,2,3,2,0,1,1,3,0,5,2,0,1,3

12、,4,1,1,1,2,2,1,1,0,1,0,2,3,5,3,2,0,2,1,4,2,0,0,1,1,2,1,0,1,4,3,4,0,0,1,0,1,0,0,0,2,0,3,2,1,2,4,1,2,5,1,2,0,1,0,2,2,3,0,0,1,2,4,3,2,2,1,6,0,3,1,1,3,3,1,1,0,0,2,2,0,0,1,1,0,1,0,2,0,0,3,1,1,1,2,1,0,1,1,1,1,1,2,2,0,0,1,0,4,0,0,4,0,2,3,1,0,2,1,1,0,2,0,1,3,1,4,0,1,1,2,3,1,2,1,1,1,2,1,0,0,2,1,3,1,2,1,1,1,2

13、,0,1,0,2,0,3,3,0,3,1,3,0,4,1,1,1,0,2,2,0,0,0,0,0,1,2,2,1,2,2,3,0,4,0,0,3,1,2,2,1,1,0,2,0,0,3,1,0,0,3,3,1,0,0,3,3,1,1,1,0,2,0,1,1,0,1,1,0,2,1,0,2,0,2,0,0,1,2,0,3,2,2,1,0,1,1,0,3,1,0,0,0,3,2,0,0,1,0,2,3,4,1,2,0,3,2,0,1,0,1,1,1,0,0,0,1,2,1,1,2,3,3,0,4,2,1,2,1,5,1,1,0,1,0,2,1,2,1,1,4,0,0,0,1,2,3,1,1,1,1

14、,0,1,2,2,1,1,0,0,1,2,0,1,0,0,2,0,0,0,0,2,5,3,2,1,0,1,0,3,4,3,0,0,1,2,1,3,2,0,3,1,2,0,1,3,0,1,2,0,3,1,1,1,0,0,0,0,0,1,2,1,1,2,3,3,1,1,1,1,3,1,2,0,4,1,4,0,1,1,1,3,1,1,1,2,0,2,3,1,1,3,0,4,2,1,1,1,1,1,1,0,2,2,2,1,1,1,0,2,1,0,2,1,0,2,2,1,0,0,0,1,2,1,2,1,0,0,2,0,2,4,0,0,1,0,3,0,0,1,3,1,3,1,5,2,2,2,2,0,0,0

15、,1,1,3,0,0,1,2,1,2,3,2,0,1,3,1,3,2,5,0,3,2,3,1,0,2,2,0,2,4,3,1,2,2),(2).用特征矩阵作线性libsvm,按 绝对值大小经行排序。,(3).在608个阳性集合中随机选取4/5,在608个阴性集合中随机选取4 /5放在一起作为训练集,剩余的作为测试集。,(4).选取前面的1300特征做高斯核libsvm.(试了选取不同个数的特征个数)。,(5). 结果,ACC=97.9839%, sp=99.1935%, se=96.774% , AUC=0.9929%,与已有的方法的较:,特征的位置分布:,讨论:,1.本文的新意在于把序列和序列的二级结构耦合在一起,用软件Teiresias找到了一些miRNAs的特征。有序列和结构耦合在一起的特征(以往的特征序列结构都是分开的)。,4.用线性libSVM对特征进行排序。选

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论