转录组测序以及常用算法简介.docx_第1页
转录组测序以及常用算法简介.docx_第2页
转录组测序以及常用算法简介.docx_第3页
转录组测序以及常用算法简介.docx_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

转录组测序以及常用算法简介转录组测序,也被称为“全转录组鸟枪法测序”(WTSS),由于转录组测序的高覆盖率,它也被称为深度测序。它主要利用新一代高通量测序技术,对物种或组织的RNA反转录而成的cDNA文库进行测序,并得到相关的RNA信息。其研究对象为特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。它是指用新一代高通量测序技术,对物种或组织的RNA反转录而成的cDNA文库进行测序,并得到相关的RNA信息。转录组测序根据有无基因组参考序列分为:有参考基因组的转录组测序,和无参考基因组的de novo测序。如果有基因组参考序列,可以把转录本映射回基因组,确定转录本位置、剪切情况等更为全面的遗传信息,而这些遗传信息可以广泛应用于生物学研究、医学研究、临床研究中。虽然转录组测序和基因组测序的步骤大体相同,但是在文库制备和分析方法上却有很大的区别。在生物信息学领域,序列比对作为识别DNA、RNA和蛋白质相似区域的有效手段,有助于我们更好地研究其结构、功能以及进化方向的关系。下图简要说明了转录组测序的主要流程:首先将细胞中所有的反转录产物转化为cDNA文库,再将cDNA随机剪切为小DNA片段,并在两端加上接头(Adapter),所得序列通过比对(有参考基因组)或者从头组装de novo(无参考基因组),形成全基因组范围的转录谱。图1 转录组测序流程图常用算法简介TopHat(/software/tophat/index.shtml)TopHat是Cole Trapnell等人于2009年发表在Bioinformatics上的基于Bowtie的转录组测序比对算法,是马里兰大学生物信息和计算机生物中心,以及加利福尼亚大学伯克利分校数学系和分子细胞生物学系以及哈佛大学的干细胞与再生生物学系联合开发的结果。它通过超快的高通量短序列比对RNA序列来识别剪切位点。图2 TopHat流程图TopHat首先先用Bowtie将RNA序列与整个参考基因组进行比对,找到匹配的序列,再用Maq合并匹配的序列,对外显子进行选择性的拼接。Bowtie在进行比对时可以兼容一定量的错误(默认值=2)。TopHat使用每个碱基2比特的编码方法对庞大的基因数据进行了有效地储存和管理,因此允许Bowtie在哺乳动物基因组序列比对时,只使用2GB左右的内存。TopHat可以发现大部分新的剪接位点,但如果外显子相距比较长,或者内含子为非经典内含子,TopHat则无法有效地发现。RUM(/RUM)RUM(RNA-Seq Unified Mapper)是Gregory R.Grant等人于2011年发表在Bioinformatics上的转录组测序比对算法。运算分为三个阶段,首先先用Bowtie把所有序列(reads)分别与参考基因组和转录组进行比对,合并结果后,把无法匹配的序列再用Blat(Blast Like Alignment Tool)与参考基因组进行比对,合并后得到最终结果。RUM很好地利用了Burrows-Wheeler压缩算法的高效快速,以及Blat的敏感性。Blat之前被认为不适合用作短序列的比对,而且由于速度太慢,也不适合进行大规模运算。但是Blat可以高效地进行短序列比对,识别新的剪切点。随着科技的发展,计算资源成本逐渐降低,比对序列的长度增加,使得Blat可以被更好地应用。图3 RUM流程图MapSplice(/p/bioinfo/MapSpliceManual)MapSplice是Kai Wang等人于2010年发表Nucleic Acids Research上的具有高度特异性和敏感性的转录组测序比对算法。由于大多数内含子剪切位点具有GT-AG模式,即经典剪切位点,为保证准确性并节省时间,TopHat只报告含有经典剪切位点的内含子。MapSplice并不依赖剪切位点的特性或内含子的长度,它可以更好地检测到新的经典剪切位点和非经典剪切位点。MapSplice在比对的质量与序列的多样性之间做了一个很好的权衡。算法分为两个步骤:标记比对(tag alignment)和拼接推理(splice inference)。在第一阶段,被标记的mRNA与参考基因组G进行比对,产生可能的组合。之后,出现一个或者更多标记比对的剪接位点被筛选出来进行分析,根据比对的质量和多样性打分。STAR(/p/rna-star/)STAR(Spliced Transcripts Alignment to a Reference)是Alexander Dobin等人于2013年发表在bioinformatics上的一个快速普适的转录组测序比对算法。STAR可以准确比对由三代测序技术产生的长序列。与大部分比对软件不同,STAR不是单纯的由DNA短序列比对软件扩展而来的(比如TopHat就是由Bowtie扩展而来),它直接用非连续序列进行比对,在速度方面也有所提升。算法由两部分组成:种子搜索(seed search)和聚类、拼接、打分(clustering/stitching/scoring)。STAR进行种子搜索的核心是MMP(Maximal Mappable Prefix),与大型基因数据比对工具Mummer和MAUVE的Maximal Exact Match概念相似,通过运行非压缩的后缀数组(suffix array, SAs)实现。MMP可以发现不同的不匹配序列,但是与Mummer和MAUVE不同,在MMP中,只有不匹配的序列进入第二轮搜索。MMP的这一特性使得STAR的运行速度有了非常显著的提高。根据用户对匹配、不匹配、插入缺失、间隔定义的分值评估比对结果并打分,选择分值最高的结果输出。GSNAP(/gmap/)GSNAP(Genomic Short-read Nucleotide Alignment Program)是由Thomas D.Wu等人于2010年发表在bioinformatics上的一个快速、SNP兼容的转录组测序比对算法。它可以利用概率模型或者已知剪接位点的数据库发现非常短的以及很长的剪接序列。值得一提的是,GSNAP是本次所介绍的五种算法中唯一使用哈希算法的(Hash Table),由于哈希算法需要较大的内存空间,对设备的物理内存和运算性能要求较高。比如,SOAP需要大约14GB的内存来运行人类基因组的数据。为此,GSNAP采用了基因抽样的方法(sampling the genomic oligomers),每3nt取出12mers作为索引,从而把所需内存由14GB缩短到4GB。GSNAP采用的算法结构决定了其比对过程是基于核苷酸寡聚物层面的,而采用Burrows-Wheeler压缩转换算法的算法大多是基于核苷酸层面的。ReferenceGregory R. Grant. (2011). Comparative analysis of RNA-Seq alignment algorithms and the RNA-Seq unified mapper (RUM). Bioinformatics, 27(18), 2518-2528.Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet, 2009, 10(1): 57-63.祁云霞, 刘永斌, 荣威恒. 转录组研究新技术:RNA-Seq及其应用.遗传2011,33(11):1191-1202Zhao S, Fung-Leung W-P, Bittner A, Ngo K, Liu X (2014) Comparison of RNA-Seq and Microarray in Transcriptome Profiling of Activated T Cells. PLoS ONE 9(1): e78644. doi:10.1371/journal.pone.0078644Yiu, S. Structural Alignment of RNA with Complex Pseudoknot Structure. Journal of Computational Biology, 97-108.Kim, D., Pertea, G., Trapnell, C., Pimentel, H., Kelley, R., Salzberg, S. L. (2013). TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletionsand gene fusions. Genome Biology, 14(4). doi:10.1186/gb-2013-14-4-r36Trapnell, C., Pachter, L., & Salzberg, S. L. (2009). TopHat: discovering splice junctions with RNA-Seq. Bioinformatics/computer Applications in The Biosciences.doi:10.1093/bioinformatics/btp120Kent, W James (2002). BLAT-the BLAST-like alignment tool. Genome Research 12 (4): 656664. doi:10.1101/gr.229202. PMC 187518. PMID 11932250Wang, K., Singh, D., Zeng, Z., Coleman, S. J., Huang, Y., Savich, G. L,et alJ(2010). MapSplice: Accurate mapping of RNA-seq reads for splice junction discovery.Nucleic Acids Research. doi:10.1093/nar/gkq622Dobin, A., Davis, C., Schlesinger, F., Drenkow, J., Zaleski, C., Jha, S., Batut, P., Chaisson, M., Gingeras, T(2013). STAR: ultrafast universal RNA-seq aligner.Bioinformatics. 29(1): 1521. doi: 10.1093/bioinformatics/bts635Wu, T. D., & Nacu, S. (2010). Fast and SNP-tolerant detection of complex variants and splicing in short reads. Bioinformatics/computer Applic

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论