



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SCIENCECHINALifeSciencesDecember2011Vol.54No.12:1121-1128doi:10.1007/s11427-011-4255-xOverviewofavailablemethodsfordiverseRNA-SeqdataanalysesCHENGeng,WANGCharles&SHITieLiu这是发在中国科学*生命科学辑(英文版)的一篇综述文章。摘要比较简练:“RNA-seq技术正广泛用于各种转录组研究;然而,分析和解释RNA-seq数据面临着严峻挑战。随着高通量测序技术的发展,测序成本随着测序通量急剧增加而大幅度下降。但是测序reads仍然长度
2、很短并包含着各种测序错误。同时,错综复杂的转录组总是比我们预期的更复杂。这些挑战都急需有效地生物信息学算法来高效处理大量转录组测序数据和进行相关研究。本文概述了一些转录组测序的常规应用及其相关分析策略,包括短reads映射,外显子剪接位点检测,基因或亚型表达定量,差异表达分析和转录组重构。”开头是一些常见的背景介绍:“RNA-seq是转录组研究的一种强有力的技术。它使我们能研究在不同组织不同阶段以及不同条件下生物体的基因活性。相比于微阵列技术,RNA-seq能捕获理论上一个细胞的快照中几乎所有表达的转录本,而微阵列依赖于先验信息、不能检测新剪接体、新基因和新转录本。此外,RNA-seq具有很低
3、的背景噪音和很高的灵敏度,所需RNA样本更少,正随着技术的快速进步变得更划算。RNA-seq的这些优点使我们能更全面地说明转录组的复杂性并生成关于各物种的一个空前的转录组全景图。迄今为止,RNA-seq已经用于大量物种的各类研究,如推断可变剪接、定量基因和转录本的表达、检测基因融合、揭示lncRNAs和表达的外显子中的SNV$尽管RNA-seq对这些研究有很大助益,但它仍面临很多来自测序技术自身和数据的生物信息学分析的挑战。具体来说,RNA-seq有文库构建的偏倚,链特异性文库仍然不太容易生产但对决定转录本定向很重要。而且,RNA-seq产生了大量数据,read长度通常较短而且存在测序错误。这
4、些方面对有效处理大量RNA-seq数据的相应方法和算法构成挑战。参考基因组序列对于准确地进行各种RNA-seq研究是至关重要的,因为它提供了reads映射的模板。参考序列上的相关注释能够指导算法来优化对结果的分析。由于目前的测序技术主要用于模式生物和研究中涉及的一般物种,很多其他生物仍待测序、缺乏可用的参考基因组。此外,尽管一些生物的基因组被测过序,但是其参考基因组仍有空隙没有补全或者其参考基因组没有被很好地注释。对于这些有相对完整和高质量基因组的生物来说,我们能直接映射RNA-seqreads到参考序列上并进行各种转录组研究。但是,对于那些没有参考基因组或者其参考基因组不完整的生物来说,需要
5、其他方法来完成相关研究。在本综述中,我们提供了对目前进行各种转录组研究的可用方法的一个概述,这些方法可利用转录组测序数据,包括短read映射、外显子剪接位点检测、基因或亚型表达定量、差异表达分析和转录组重构。考虑到一些物种有建好的参考基因组,而大多数其它物种仍没有相应的可用参考序列,所以我们还提供了为达到相应研究目标的不同策略的相关建议。”1、RNA-seq的应用将摘要所说的几点应用领域展开,依逻辑顺序,首先是短read映射:“转录组测序reads通常首先映射到基因组或转录组序列上,而reads比对对基于首先映射的分析方法来说是一个基础和关键的步骤。基因组序列的复杂性对于短reads的映射准确
6、度有直接影响。原核基因组较小而且其基因组序列不像真核的那么复杂。但是,哺乳类基因组通常很大、包含很多重复性和同源性序列。这些高度的序列相似是短reads映射的巨大挑战。而且,来自剪接位点的reads需要劈成片段以跨过内含子然后映射到参考基因组序列上。然而外显子和内含子长度差别很大,这些差别造成了开发性能优良的跨基因组映射算法的困难。假设内含子过短或过长,就要花更多的计算时间来搜索其真正边界和正确地映射这些片段。如果外显子比read长度更短,则带有这些外显子的read在映射时就需要劈成多个片段,这会进一步使过程复杂化。此外,对于35-400bp长白reads来说,其中的测序错误和reads的大量
7、性也增加了比对的困难度和含糊不清。于是,快速精确地映射这些短read序列对于有效处理RNA-seq数据和完成各种分析人物来说是至关重要的。RNA-seq的短read映射器可分成拼接型和不拼接型。不拼接型read映射器适合于比对read到已知转录本数据库来定量基因或亚型的表达。拼接型映射器通常用于比对read到参考基因组,考虑到内含子而允许大空隙。这些拼接型read比对器首先使用不拼接型比对器将read比对到参考基因组,然后把未映射的read劈成更短的片段并独立地映射它们以跨过可能的内含子。它们通常用于推断外显子剪接位点,下一节将会介绍。目前,两种经典的方法广泛用于不拼接短短read映射器:Ha
8、shLook-upTable算法和基于Burrows-WheelerTransform的方法。基于散列的实现(如MaqZOOMRMAPSeqMap和SOAP可根据内存消耗进一步分成两类。一类的内存使用依赖于reads的长度和数目,另一类依赖于基因组大小和种子长度。BWTT法能显著地减少所需内存并显著地加快映射速度(如Bowtie、SOAP牙口BWA。基于散列和BWT的方法都可用于处理短reads,但由于其比对短reads的方式不同而呈现出性能上的差异。这些差异包括内存消耗、耗时(或速度)、read读长支持、映射reads数目以及比对准确度。实践中,使用BWT方法来索引参考基因组能减少内存使用并
9、获得更高的映射速度,而基于散列的方法能达到更好的映射灵敏度和准确度。当映射短reads到参考序列时,要考虑很多因素。由于测序错误,reads中的一些核甘酸可能是错误的并会影响reads映射。需要一个预处理来去除低质量碱基或reads。尽管很多短reads比对器允许错配,但只有少数几个支持有空隙的比对(对于考虑插入缺失是很重要的)。此外,一些软件在reads比对时考虑了碱基质量而另一些则没有。另一个大的挑战是同源基因家族、重复序列和同一基因的可变剪接亚型之间高度的序列相似性会引起映射的歧义性,并导致一些reads映射到多个位置。这些因子会影响下一步的分析,如可变剪接检测、基因或亚型表达定量。因此
10、,解决这些read映射难题对于首先映射的相关研究是至关重要的。为处理多映射reads也提出了一些方法,如按唯一比对reads数目的比例分配,利用生成性统计模型和相关推断方法来解决reads映射不确定性的计算问题。”其次是外显子剪接位点检测:“可变剪接在真核基因转炉过程中非常普遍,对于基因组产生各种RNA冰确保相关机体功能正常非常重要。目前只有少数模式生物具有相对良好注释过的外显子剪接位点,大多数物种的基因组尚未测序或很好地注释。然而,即使对于那些很好注释过的模式生物,其参考基因组的基因注释也是不完整的。Trapnell等通过分析小鼠肌细胞系的RNA-seq数据,检测到数千个先前未注释到的转录本
11、。Guttman等从小鼠胚干细胞的转录组数据研究揭示了超过一千个大间区ncRNAs此外,检测到的外显子剪接位点对于进一步推断基因亚型和定量基因或亚型的表达是至关重要的。因此,精确检测外显子剪接位点对于进一步分析极其重要。RN颂接造成了正确映射reads到参考基因组的主要挑战。为鉴定外显子剪接位点,软件必须支持reads的拼接映射,因为跨剪接位点的reads需要劈成更小的片段,以映射到被可能的内含子分开的不同外显子上。已经开发了一些检测剪接位点的软件。TopHat用bowtie比对RNA-seqreads到基因组上,然后根据映射结果预测剪接位点。由于大多数内含子具有GT-AG模式,为保证准确性并
12、节省时间,TopHat只报告跨GT-AG型内含子短于75bp的reads比对。TopHat将会支持用更长的reads搜索GC-AG和AT-AC型内含子。SpliceMap不依赖于基因结构的现有注释,能高度准确地检测新剪接位点。MapSplice是另一款有效的软件,可以快速检测高敏感性和特异性的剪接位点,它不依赖于剪接位点特征或内含子长度。最近SOAPsplice也开发出来了,可稳健地检测剪接位点而无需已知剪接位点的信息。该软件可用于从头预测剪接位点,来研究可变剪接机制。因为这些策略都需要首先映射RNA-seqreads到参考基因组,所以只适用于那些具有可用参考序列的物种。”第三是基因和亚型表达
13、定量“RNA-seq技术之前,微阵列是研究基因表达谱的主流技术。但是在定量基因表达时,微阵列局限于基因水平。相反,RNA-seq对基因和亚型水平的基因表达都能估计。很多多外显子基因在表达时会产生多种亚型,不同亚型有不同作用。为了全面理解复杂的转录组,必须在亚型水平研究基因。我们先前的工作表明亚型水平的表达研究能使我们更详细地探索可变剪接机制,更全面地解释基因表达的复杂性。而且,RNA-seq可用于任何物种未注释的基因和亚型,而微阵列依赖于先验信息只能定量已知基因。RNA-seq的这些优点使得它对于注释新测序的基因组和检测基因注释不完整的物种的新基因和亚型来说,十分有用。到目前为止,已有很多基于
14、RNA-seq数据的软件可用于基因表达分析。一些为定量已知基因或亚型而设计,另一些无需预先的基因结构注释信息。Cufflinks将比对结果组装成一个较差质量的转录本集合然后基于映射上的reads数目来估计这些转录本的相对丰度。Cufflinks可根据reads映射到参考基因组的结果来预测新基因和亚型。Scripture能够从头重构转录组并定量转录本表达。MISO(MixtureofIsoforms)是一个概率论框架,用推断的reads到亚型的分配来估计这些亚型的丰度。ALEXA-Seq是关于可变表达分析的方法,也可定量亚型的表达。除了这些算法外,还有其他一些软件可用于基因表达分析。用户可根据需
15、要和研究目标来选择对应的软件执行其分析任务。基因或亚型的表达定量精确性很大程度上取决于RNA-seqreads的映射结果。参考基因组序列通常有很多重复性和同源性序列,而这些序列会引起部分reads映射的模糊性。而且,把这些reads跨过剪接位点分配到正确的参考基因组位置上是困难的。考虑到这些方面,精确定量基因或亚型表达的最好方法是直接映射reads到转录组序列上。但是转录组是复杂的,难以为一个物种构建一个绝对的完整的转录本数据库,即使对很好研究过的物种如任何小鼠也是如此。不过,如果我们只想研究已知转录本的表达谱,直接映射转录reads到这些已知的转录本上来定量其表达水平是最好的选择。”第四点就
16、到了差异表达分析“在不同条件下,真核基因会表达出大量不同水平不同种类的亚型来满足机体需求。如果我们想评估两个不同状态或样本之间基因或亚型的表达变化,我们可以进行差异表达分析来检测差异表达基因或亚型。RNA-seq的成本在迅速减少,其相对于微阵列的优势使得它在基因和亚型表达研究中愈发流行。此外,RNA-seq可用于检测差异表达基因和亚型,而微阵列只能检测差异表达基因。因为多外显子基因可编码不同功能的亚型,所以在为研究选择恰当的技术时这是一个重要的考虑因素。尽管测序多个样品相对于微阵列仍然相对较贵,但无容置疑的是RNA-seq终将取代微阵列。对于RNA-seq来说,基因或转录本的表达水平与映射上的
17、reads数有关,而对于微阵列,这反映为杂交过程后获得的荧光水平。如果两个不同实验条件下观测到的一个基因或转录本的read数差异或变化是统计显著的,则这个基因或转录本可认为是RNA-seq数据中差异表达的。但是在进行差异表达分析时,应该考虑到RNA-seq的一些偏倚,如测序深度、样本间计数分布和基因或转录本长度。通常,测序深度越高,计数越高。同时,样本间计数分布也会有差异。而且,相应转录本的read计数与转录本长度和对应RNAB!达水平的乘积成比例。在断定真正的差异表达基因或亚型时应该考虑到这些RNA-seq偏倚。越来越多的策略被设计出来,以使用RNA-seq数据从所研究的不同条件下基因或转录
18、本集合检测差异表达标签。这些方法可根据是否使用参数模型而分成两类。参数方法基于已知概率分布如二项、Poisson、负二项。相反,非参数方法没有关于数据分布的假设。最近,Tarazona等提出了一个有力的非参数方法NOIseq,对真实数据的噪音分布进行建模,能在测序深度变化时表现稳健。这些测试结果表明,它比大多数现有参数方法(baySeq、DESeqedgeR)在针对测序深度改变时更灵活。DESeqedgeR和baySeq使用负二项分布,而Taranona等说明了这些方法高度依赖于测序深度而NOIseq则不。”第五部分才轮到转录组重构“转录组是一个或一群细胞产生的总RNAs包括各种编码或非编码R
19、NA$为获得一个有机体的全转录组,RNA-seq是一个明智而实用的选择。目前,主要有两类重构转录组的策略。首先是基因组引导的方法,先映射所有转录组测序reads到参考基因组上,然后根据reads映射信息把比对上的reads组装成转录本或片段。Cufflinks和Scripture这样的程序就是这种策略。它们都用拼接的reads直接来重构转录组并有着相似的计算要求。尽管它们在组装构图的概念上类似,但是把图处理成转录本时有所不同。Cufflinks的过程基于最大精度而Scripture基于最大敏感性。基因组引导的方法需要相对完整和高质量的参考基因组,对于所研究物种来说是已经建立和可用的。另一种重构
20、转录组的方法是独立于基因组的方法,无需参考基因组,直接组装reads成转录本。像Velvet,Trans-ABySS,Trinity和Oases(未发表)都是基于这种独立于基因组的方法。有意思的是Veket可用于从头组装基因组和转录组。从头组装软件主要使用deBruijngraphs对来自reads的k-mers进行建模。然后应用一系列算法解析deBruijn图并最终组装reads为contigs或scaffolds。总的来说,基因组引导的方法更适合于具有高质量组装的可用参考基因组的物种,而独立于基因组的方法可用于任何物种,不论其有无可用的参考序列。如果一个基因表达了、其转录本被测序了,来自该
21、基因的reads应该比对到基因所处的对应位置。该表达基因会被基因组引导的方法检测到,无论该基因在何种水平表达。然而,基因组序列(尤其是哺乳动物基因组)通常包含很多重复性和桐原序列,同一基因编码的亚型序列非常相似。这些因素会导致基因组引导的方法在reads映射阶段的模糊性,也会导致那些独立于基因组的策略的组装失败。此外,独立于基因组的方法会因为算法的限制,主要地重构那些中等或高表达的转录本,而难以获得低表达的转录本,除非测序深度很大。采用哪种策略很大程度上依赖于研究目标、可用性,物种参考基因组的质量和完整性。如果一个物种有一个高质量相对完整的参考基因组,则基因组引导的方法是基因表达分析的最佳选择
22、。然而,对于那些无可用参考基因组的物种(这仍是已知植物中的主体)来说,独立于基因组的方法是更合理的选择。值得注意的是重复性序列、测序技术和组装算法的局限是所有独立于基因组的方法在组装基因组时的主要挑战。而且,即使对于很好研究过的模式物种,其参考基因组也仍可能不完整并包含空隙和误组装区域。在我们先前研究中展示了相当数量的人类基因在参考基因组上缺失,而在人脑组织和10和混合细胞系里表达。因此,要构建一个完整的转录组,从头组装策略对于捕获那些不能从基因组引导的方法中得到的转录本来说是至关重要的,这是由于参考基因组序列不完整或误组装。因此,组合着两类方法能让我们构建任何物种更全面的转录组。”最后作者对全文进行了总结性陈述:“RNA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024成都信息工程大学辅导员招聘笔试真题
- 2025年加脂剂项目发展计划
- 2024年合阳县社区工作者招聘真题
- 2025秋统编版(2024)道德与法治一年级上册第一单元《4平平安安回家来》教学设计
- 2024年广西壮族自治区农业农村厅下属事业单位真题
- 2025年事业单位招聘考试公共基础知识仿真模拟考试试卷(四套)【答案】
- 2025年三明市三元区沪明小学招聘校聘教师考试试题【答案】
- 消防应急预案(15篇)
- 湘艺版二年级音乐下册《月圆曲》教案
- 2025年工程项目管理服务项目建议书
- 酒店服务流程与空间布局优化
- (2025)医疗护理员理论考试试题含答案
- 2025年广西中考语文试题卷(含答案)
- 建设工程法律培训
- 2025年南京市中考数学真题试卷
- 2025年呼伦贝尔农垦集团有限公司招聘笔试参考题库含答案解析
- 2025年重庆市中考数学试卷真题(含标准答案)
- 2024广西专业技术人员继续教育公需科目参考答案(97分)
- 四川省地质灾害治理工程常用资料表格
- 人教版九年级数学上册教材解读分析精编ppt
- 电子秤cal标定方法
评论
0/150
提交评论