版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、RNA-seq 数据差异表达分析方法的比较BMC Bioinformatics 2013, 14:91 doi:10.1186/1471-2105-14-91A comparison of methods for differential expression analysis of RNA-seq dataCharlotte Soneson ( Mauro Delorenzi ( 摘要说的背景是:“发现条件间差异表达的基因是理解表型变异的分子基础的一个有机部分。过去几十年中,DNA 微阵列被广泛用于定量不同基因的mRNA 丰度,更近期的 RNA-seq 作为一个强有力的竞争者冒了出来。随着测
2、序成本持续下降,可以想象使用RNA-seq 做差异表达分析会迅速增加。为了探索可能性和解决这种 相对新型的数据提出的挑战,大量软件包特别为RNA-seq 数据的差异表达分析开发出来了。”而本文的结果是:“我们广泛比较了RNA-seq 数据的差异表达分析的7种方法。所有方法都可以在R 框架下免费获得,并以一个计数矩阵作为输入,计数即每个样品中映射到每个感兴趣的基因组特征上的reads 数目。我们基于模拟数据和实际RNA-seq 数据评价了这些方法。”结论就是:“极小样本量仍是RNA-seq 实验的普遍状况,对所有评价方法造成了困难;而任何在这样的条件下获得的结果都应该谨慎解释。对于更大的样本量,
3、组合稳定方差变换和limma 方法来进行差异表达分析会在很多不同的条件下表现良好,正如非参数的SAMseq 方法一样。” 到2013年还说这种话,这些结论实在有点鸡肋啊 貌似为SAMseq 摇旗呐喊来的不过:比较了11种软件包,这还是前所未有的:DESeq 、edgeR 、NBPSeq 、TSPM 、baySeq 、EBSeq 、NOISeq 、SAMseq 、 ShrinkSeq 这9种可直接处理计数数据,另两种分别是voom(+limma和vst(+limma,转换数据后用limma 做差异表达分析。正如很多文章已经提到的那些,RNA-seq 比起微阵列有三大优点:1、更大的动态范围2、更
4、低的背景噪音3、能检测和定量先前未知的转录本及亚型RNA-seq 也有一些难题:1、样本内不均匀性:基因组区域之间核苷酸组成的变异性导致沿基因组的read 覆盖深度并不均匀;2、同样表达水平下,长基因比短基因有更多的reads ;3、对于条件之间的表达差异,分别对各个基因进行差异表达分析,而忽略了样本内的偏倚(它们被假设对所有样本有类似的影响)4、样本间不均匀性:测序深度或文库大小5、少数高表达基因抑制了其他基因的read 计数比例,可能导致低表达基因的差异表达假阳性相应的解决办法是:1、对上述4,5两点,估计样本特异的归一化因子,用于重新调整观测计数。这些归一化方法是为了使样本间的非差异表达
5、基因的归一化计数是相似的。本研究中 使用的是DESeq 包中的TMM 方法。归一化因子和TMM 两种方法的性能相似,也是仅有的两个在文献9的评价中对所有度量都提供了满意结果的方法。2、对于2、4两点,基因长度和文库大小,有的软件采用了RPKM 或相关的FPKM 方法。只有非参数方法才适用于RPKM 值。致命的假设:大部分基因在样本间的表达是相等的。于是差异表达基因分成上调、下调及其之间的或多或少相等的三部分。差异表达已经提出的模型中,Poisson 分布和负二项分布最常见,还有分布也被提出来。Poisson 分布很适合技术变异的分析;而更高的生物学变异需要合并过离散的分布,如负二项分布。RNA
6、-seq 数据的差异表达分析仍处于它的婴儿期,需要不断提出新的方法来。目前没有一致认可的表现最好的方法,只发表了很少的现有方法的广泛比较。文 献19中,依照区分真实差异/非差异表达基因的能力比较了四种参数方法。还有研究评价了测序深度的影响,并与样本量进行了比较,并发现后者的影响相当大。本文中比较了为不同条件下RNA-seq 数据的差异表达分析开发的11种方法。其中9种直接对计数数据进行建模,而另两个先对计数进行变换再应用微阵列数 据的差异表达分析的传统方法。研究限于R 框架下实现的可应用于计数矩阵的可用方法。进一步我们聚焦于发现两条件之间的差异表达基因,因为这是最常见的应 用,虽然大多数方法也
7、允许更复杂的试验设计。对NB 和Poisson 分布模拟的数据和分别加了一些例外点的数据共四种数据集,研究了在不同实验条件下方法的下列方面:1、排序真实DEGs 在nonDEGs 之前的能力;2、在给定水平控制I 型错误和假发现率的能力;3、计算时间。对于真实RNA-seq 数据,比较了DEGs 集,各自的数目和重叠的数目。还研究了不同方法获得的基因排序的一致性。六种方法有名义p-value (edgeR 、DESeq 、NBPSeq 、TSPM 、voom+limma、vst+limma),我们定义分数值为1- pvalue。对于SAMseq ,定义平均Wilcoxon 统计量的绝对值为排序
8、分值,而对于baySeq 、EBSeq 、ShrinkSeq 使用估计的差 异表达后验概率,或者等价地,1-BFDR ,其中BFDR 表示估计的Bayesian FDR。对于NOISeq ,使用统计量q_NOISeq。所有这些分数都是双侧的,即不被差异表达的方向影响。给定上述分数的阈值,我们就选择出阈值以上 的为DEGs ,其余的为non-DEGs 。SAMseq 使用了重抽样策略使文库大小一致,因此隐含假设了所有归一化因子是相等的,在整体上调的模拟研究中表现最好。上下调基因都有的时候,所有方法 的AUC (Area under the ROC curve (AUC,Receiver Oper
9、ating Characteristic)性能类似。TSPM 和EBSeq 在所有方法中表现出最强烈的样本量依赖性,其次是SAMseq 和baySeq 。对于最小样 本量(每条件下2样本),最佳结果是DESeq 、edgeR 、NBPSeq 、voom+limma和vst+limma。 当所有DEGs 上调时,baySeq 结果的变异性很高;而DEGs 向不同的方向调整时这种变异就会减小。将真实DEGs 排的很靠前的方法是基于变换的voom+limma和vst+limma方法和ShrinkSeq ,但是TSPM 和NOISeq 还会把一些 真实的nonDEGs 排的很靠前。SAMseq 也表现
10、不错,但是有一些真实DEGs 和nonDEGs 被返回靠前的相同的值。实在是相当繁琐,直接看结论吧Conclusions文本评价和比较了11种RNA-seq 数据的差异表达分析方法。主要结果如下:Table 2 Summary of the main observationsDESeq - Conservative with default settings. Becomes more conservative when outliers are introduced.- Generally low TPR.- Poor FDR control with 2 samples/condition
11、, good FDR control for larger sample sizes, also withoutliers.- Medium computational time requirement, increases slightly with sample size.edgeR - Slightly liberal for small sample sizes with default settings. Becomes more liberal when outliers are introduced.- Generally high TPR.- Poor FDR control
12、in many cases, worse with outliers.- Medium computational time requirement, largely independent of sample size.NBPSeq - Liberal for all sample sizes. Becomes more liberal when outliers are introduced. - Medium TPR.- Poor FDR control, worse with outliers. Often truly non-DE genes are among those with
13、 smallest p-values.- Medium computational time requirement, increases slightly with sample size.TSPM - Overall highly sample-size dependent performance.- Liberal for small sample sizes, largely unaffected by outliers.- Very poor FDR control for small sample sizes, improves rapidly with increasing sa
14、mple size.Largely unaffected by outliers.- When all genes are overdispersed, many truly non-DE genes are among the ones with smallest p-values. Remedied when the counts for some genes are Poisson distributed.- Medium computational time requirement, largely independent of sample size.voom / vst- Good
15、 type I error control, becomes more conservative when outliers are introduced. - Low power for small sample sizes. Medium TPR for larger sample sizes.- Good FDR control except for simulation study B04000. Largely unaffected byintroduction of outliers.- Computationally fast.baySeq - Highly variable r
16、esults when all DE genes are regulated in the same direction. Less variability when the DE genes are regulated in different directions.- Low TPR. Largely unaffected by outliers.- Poor FDR control with 2 samples/condition, good for larger sample sizes in the absence of outliers. Poor FDR control in t
17、he presence of outliers.- Computationally slow, but allows parallelization.EBSeq - TPR relatively independent of sample size and presence of outliers.- Poor FDR control in most situations, relatively unaffected by outliers.- Medium computational time requirement, increases slightly with sample size.
18、NOISeq - Not clear how to set the threshold for qNOISeq to correspond to a given FDR threshold.- Performs well, in terms of false discovery curves, when the dispersion is different between theconditions (see supplementary material.- Computational time requirement highly dependent on sample size.SAMs
19、eq - Low power for small sample sizes. High TPR for large enough sample sizes. - Performs well also for simulation study B04000.- Largely unaffected by introduction of outliers.- Computational time requirement highly dependent on sample size.ShrinkSeq - Often poor FDR control, but allows the user to
20、 use also a fold change threshold in the inference procedure.- High TPR.- Computationally slow, but allows parallelization.没有哪种单独的方法对所有情形都是最优的,特定情形下方法的选择取决于实验条件。本文评价的这些方法中,基于稳定方差的变换与limma 组合的方法在很多 情况下都表现不错,而且不受例外点影响、计算很快,但是要求每条件下至少3个样本来提供充分的检定力。而且在两条件下散度不同时表现更糟糕。非参数方法 SAMseq 在大样本量时是性能最优的方法,需要至少每条件下4-5个样本提供充分的检定力。对于高表达基因,SAMseq
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Mumeose-K-生命科学试剂-MCE-2774
- 5-Fluoro-THJ-生命科学试剂-MCE-6389
- 2025年度环保型空调拆卸作业安全协议书
- 2025年度文化创意产业居间代理协议
- 二零二五年度父母出资购房子女房产份额分配协议
- 2025年度无房产证房屋买卖风险评估合同
- 二零二五年度砍树承包合同及林业资源管理实施协议
- 二零二五年度企业食堂档口租赁合同与员工餐饮补贴协议
- 高标准实验环境下的安全防护措施探讨
- 临时用电安全合同协议
- 设计单位-质量管理体系
- 2024版《供电营业规则》学习考试题库500题(含答案)
- 福建省医院大全
- GB/T 16659-2024煤中汞的测定方法
- 闪蒸罐计算完整版本
- (高清版)DZT 0073-2016 电阻率剖面法技术规程
- 完整2024年开工第一课课件
- 货运车辆驾驶员安全培训内容资料完整
- 高一学期述职报告
- 风神汽车4S店安全生产培训课件
- ICU患者的体位转换与床旁运动训练
评论
0/150
提交评论