华大结题报告-1.25lncrna单样品预测多定量差异分类注释_第1页
华大结题报告-1.25lncrna单样品预测多定量差异分类注释_第2页
华大结题报告-1.25lncrna单样品预测多定量差异分类注释_第3页
华大结题报告-1.25lncrna单样品预测多定量差异分类注释_第4页
华大结题报告-1.25lncrna单样品预测多定量差异分类注释_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目编 物分析内成对差异方单样品预测;多样品定量差异;分类注组间差异方数据库版本样品组装评估样品预测统计差异结果统计D分类注释统计

分类注释类数上下mRNA前体预产品说产品说明:在生物体尤其是哺乳动物存在大量非编码的RNA序列,长链非编码RNA(ongnoncodngRNA)做为非编码RNA中的种,常与表达调控有关,并在多种疾病中起到关键作,是近年来的研究热点。由于ncRNA存在较高的时空特异性和组织特异性,在novencRNA预测方向有很大的潜力,并为下游ncRNA功能分析提供数据来源;随着高通量 展,越来越多的ncRNA序列被鉴定出来,如何将这些ncRNA与其调控的mRNA关联起来,并预测其潜在的功能,亦是我们关注的重点。ncRNAseq是利用高通量 究ncRNA的有效工具,基于参考序列的组装有助于我们发 特异的novencRNA转录本,而基于reads比对的定量分析更加精确,在基础研究、临床诊断和药物研发等领域都有应用实验简图1为长链非编码RNA实验流程图。样品提取总RNA后,我们提供两种可选策略:总RNA去除核糖体RNA,已最大限度保留所有ncRNA;以及总RNA去核糖体RNA,再去含poyA的于部种 接头,然后通过UNG(UracNGycosyase)酶降解第二条链[2]。然后用琼脂糖凝胶电泳进行片段大小选择,进行PCR扩增。最后建好的 文库用umnaHSeqTM 信息分析图2信息分析三大模ne单样品预图2a信息分析流程图之单样品预测模下机rawdata先经过滤处理,去除低质量和接头得到ceandata,因试剂盒去除rRNA效率可能有差异,故我们用比对去除含有rRNA的reads,之后将过滤完rRNA的reads比对到参考因组,再进行转录本重构,过滤、覆盖度较低的序列,这些序列可能为背景噪声的污染,接着比较组装的转录本与已知的和参考序列,得到所有ne的转录本,经过d和nnd部分,从而得到最终预测的。多样品定量差异分图2b信息分析流程中图之多样品定量差异模对于多样品的项目,我们会将单样品的预测结果进行合并去冗余进行再组装,去除单样品组装中可能存在的错误,并优化组装结果,并用对ncRNA进行再次的预测过滤,之后对已知的和本次分析中预测的ncRNA进行定量及差异表达分析,针对得到的显著差异表达的ncRNA,进行 热图,寻找ncRNA表达趋势特征。分类注我们根据ncRNA与参考转录本的位置关系进行区分,针对不同的分类采用不同的功能预测策略。分类为反义转录本的ncRNA,将采用对ncRNA与mRNA进行结合区域的预测,计算其 行mRNA前体的预测;此外,我们还将根据不同的结构及序列特征对ncRNA进 分类预测,可能对其功能的发掘有定指导意义质量评样品T4075碱基组成情样品T4075碱基质量情样品T4119碱基组成情样品T4119碱基质量情比对统

PE SE PE SE(5393853(0(5595879(0(9796315(1(5483033(0 组的tophat比对统计

(100(10(76(12(100(10(76(13(100(10(77(12(100(9(77(12(100(14(68(17(100(13(67(18(100(13(73(12(100(12(73(13样品预单样品的转录本覆盖度统计图N4075novencRNAgtfN4119novencRNAT4075novencRNAgtfT4119novencRNA单样品预测结果的编码能力N4075N4119checkT4075checkT4119check表达量分析结定量表达分类统计表及图 9134(955864(1713954(73所有样品表达量结果aexpressonx结果文件示意如下(格式详见dffreadmechgene10011008105311104114差 筛差 上下调统计

所有表 结果列表N4075vsT4075geneexpdff(对结果进行的可视化见 显著差 结果示意如下(格式详见dffreadmechpq320e00420930组间差 筛组间差 上下调统计组间显著差 结果列表所有组间表 结果列表0000我们还对涉及组间分析的所有样品,在两两样品间进行表达量的相关性分析,结果 表达模式聚类分表达模式聚类分析报告基于碱基配对的lncRNA-mRNA结果文件ARNApexa 结果文件UDStreamannox+UPSTREAMUPSTREAM+UPSTREAMDOWNSTREAM与已知前体比对结果及二级结构图与已知前体比对结果示意如下(格式详见premRNAreadmech qsqsb预测前体结果及二级结构图hsaeve1预测前体结果示意如下(格式详见premRNAreadmech 0 已知前体和预测前体的二级结构图示意如下(所有结果在上面已给 预结果文件yxs结果文件示意如下(格式详见famyreadmechR0MATR0MATR0MATR01

粗斜体

个软件或某软

加下划线的斜体,特指 。例如,人 2信息分析方法描1.基本数据统 原 数 GAAGGGAGGACGCGCAGCG ACGGCCA 空间会省略第三行“+后面的序列名称),由 第2行每个碱基,第四行每个字符对应的ASC值减去64,即为该碱基的 错误率 质量值简明对应关系。如 错误率用E表示,碱基质量值用sQ表示,则有下列关系 错误率 质量值简明对应关错误 质 对应字00

数据质控和过为了保证数据质量,要在信息分析前对原始数据进行质控,并且通过数据过滤来减少数据噪2121数据过2122碱基组成和碱基质量分我们也会对过滤后的数据画碱基组成和质量值分布图,来直观地看数据质量情况。图,碱基和碱基的比例不等,质量不合格;图则是碱基组成情况良好的结果,但因为A是链特异建库,所以实际碱基组成图比起图没那么致,有定程序的偏离,属于正常。对于碱基质量,图是较差的;而图中大多数碱基质量都大于情若不合格,需要重新 。 图3b数据的碱基组成情况。X轴上,190bp代表read1的碱基位置,91180bp代表read2的碱基位置。碱基组成平衡的情况下,A、T曲线重合,G、C曲线重合。这 图a的碱基质量分布。横坐标是分布在d上碱基的位置,纵坐标代表碱基的质量。图中的每个点表示某条d中相应位置的碱基质量值。从整体上看,如果低质量小于2基比例过高,说明这个n的 质量很差,如此图。图b的碱基质量分布。横坐标是分布在上碱基的位置,纵坐标代表碱基的质量。图中的每个点表示某条中相应位置的碱基质量值。从整体上看,如果低质小于的碱基比例较低,说明这个的 质量比较好,如此图。与核糖体数据库比受样品质量和物种的影响,实验方法去核糖体的效率可能不太稳定,而核糖体的污染会影响后续的分析,因此我们首先使用短reads比对工具SOAP2[3]将CeanReads比对到核糖体据库,最多允许5个错配,去除比对上核糖体的reads,将保留下来的数据用于ncRNA的预测及定量。此后 PE SE(3(4:列描列描样品该统计反应了样品中核糖体的比例,有助于我们了解样品质量,同时也是评估建库的个质控点,我们主要关注TotaMappedReads的比例reads比对 注释的分段比对,更有利于我们发现新的转录本。TopHat 注释的前提下构个spce位点的参考集[15]。RNAseq序列的比对不仅有助于发现可变剪切及新转录本,还可以用于鉴定表达 及其定量转录本组倾向基考进行比较,与已知转录本大致致的片段将会被去掉。已知转录本的过滤及新转录本预转录本重构之后,我们得到个样品中所有的转录本序列,此时,我们 pare将组装的转录本根据与参考文件 组上的位置关系分为十二类类 标识 描 5opru s

与参 的外显子有定交可能为聚合酶runon片段(至少有2K与参 样重复区域,目前是由搜索参考序列至少有的区域是小写字母决未知的, 间区的转录本在参 的反义链与外显子有交转录片段的内含子与参 的外显子在反义链有交集(有可能是比对错误造成的我们只保留可能为潜在新转录本中的五类juxo[8],我们统计过NONCODE[ 数据库中的转录本 从图中可以看出,这五类中包含的ncRNA也是最多的,虽然落在重复区域的ncRNA也比较多,但由于重复区域的组装结果可能并不是很可靠,因此我们也将这部分转录本过滤了合并组装结我们用Cuffmerge对多个样品的组装结果进行合并,并过滤可能为人工引入的组装错误的转录本生成唯注释文件供后续差异分析使用。低表达 在单次重复中由 深度不足而组不充分,但对多次组装的结果进行合并后往往能获得完整的转录本。在这种情况下,新的转录本与已知 能得到更好的区别[15]图7对多个重复进行合并,并根据参考序列注编码潜力的预ncRNA与mRNA相比在序列保守型,OR长度等特点上具有定差异,我们通过原理比较与软 ,选取了两款效果较好软件应用与本流程中 子开始,以在阅读框内的终 子结目前蛋白数据库增长迅速,也提供了大量的编码序列的信息,因此另外三个特征值来自于蛋白库的BLASTX比对结果HTSCORE:三个OR的比对打分,具体公式如RAMESCORE:真实的codng转录本在比对蛋白的时候,比对上的区间更有可能在同个OR之内,具体公式如预测效率

OR:OR长度以及OR比碱基特征:包括些二联,及三联碱基出现的频率,如:GCCTTAGTGTACGand三个特征值类型预测效率评估图8三个特征值类型预测效率评估结和列列例子描1234567893.定量及差异表达分 差异表达分Cuffdff是Cuffnks配套的款定量差异分析软件,它用两个样品作为对照和实验组,计 或转录本在两样品中的表达量PKM值,并检测是否存在差异表达。Cuffdff先统计每 有转录本的fragment数目,转化为转录本的表达量,再将它们累加到对应 上。像其他工具样,cuffdff也用到负二项分布模型来估 或转录本差异表达的程度得到对 XLOCXLOCAB900030402101表5各列含义列 描testd 纯数字D表示为已知 gened 同testd 若testd为已知 ,此列无值;若testd以XLOC开头,此列又有数字 D说明新预测出来的转录本属于此 对照组样品 实验组样品值有以下5种,只有OK是有效vaue2pvaqvaue

数据过于复杂AL:出现 实验 对照组与实验组PKM差异倍数的对数值,以2为检验统计量的pvaue值经过于随后我们会将所有差异对结果中STATUS值为OK

的个

,在不同差异对中得到不同PKM值,但由于差异很小,相关性都能达到999%,所以我们取其平均值作为定量值

PCPCSTST300XLOC72654974表6各列含义列 列描gened

剩余几列为各个样 我们也会从Cuffdff结果中,筛选真正有显著差异表达 表7过滤后显著差异表达或转录本列PC6mRNA-PC pq9363XLOC5524表7各列含义列描gene纯数字D表示为已或转录本在上的位置信PC6mRNAPC7mRNA检验统计量的pvaue值经过或转录本上下调标CummeRbund是针对CuffnksRNASeq输出结果分析与可视化开发的R包,它创建了个SQLte数据库,将cuffdff运行产生的结果都 到数据库中,将genes、transcrpts、transcrptonstartstes、以及CDS建立关联,极大地简化了后续的分析。在我们流程中,用cummeRbund画的图有显著差异 的表达量聚类图、reads数目分离图、PKM密度图、MApot、火山图及显著差异 信息请参看官网 2.3.2组间差异表达分我们采取NOseq方法筛选在组间有差异表达的,此方法来自2011年于GenomeResearch(影响因子136)的文献25],文中比较了几种计算差异表达的方法,如shersExactTest(ET)、edgeR、DESeq和baySeq,并研发出种新方法NOSeq。研究发现大部分其他方法强烈依赖于深度,假阳性率会随reads数的增加而升高,而NOseq的则会保持得比较平稳;另外,NOSeq方法建立的噪声分布模型来自真实数据,能较好地适应不同大小的数据,及控制错误发现率。噪声分布模型的建立:首先,用两组内样品的表达量,算出所有差异对的差异倍数M和绝对差值D(若个 在某些样品中表达个数为0,则用0001替代),由于计算有限,若差异对数超过30则会随机取30对来建立M/D分布图(比如组1有6个样品,组2有6个样品,总共有36个差异对,最终只取30对)。其次,用组内标准化出表达量的平均值作为 在组间(比如g=1g=2这两组)的差异倍数M和绝对差值D。 的噪声分布二维图就出来了,如图9所示筛选差 :如 是在两组间有差异表达,就标记Gi为1,若没有差异表达就标为0,那 在组间发生差异表达事件的概率P就是当P超过设定的阈值,就认为 是显著差异表达的,如图9中的红点所示应用:以若干个样品为groupA对照组,其他若干个样品为groupB处理组,过滤条件为差异倍数不少于2及Probabty≥08得出的显著差 结果如表8表8组间差异表 列0XLOC1130000表8各列含义列描geneD号,纯数字说明是已知的,n开头表示已知noncodngRNAXLOC开头的则是新预测出的在的位置信若同组的样品为生物重复样品,理论上相关性要比较高,作组间差异效果才比较好。所以我们也对所有的样品,作两两之 图10X轴为样品PC 表达量的对数值,Y轴为另样品PC 表达量的对数值,两样品相关性及置信区间的概率值 右上方 通常具有相似的功能。我们利用cluster[26]软件,以欧氏距离为距离距阵计算公式,对 图11中每列代表个实验条件(如exp1VSexp2或者个样品),每行代表个 差异倍数的og2值来聚类,红色表示表达上调,绿色表示表达下调;对于组间显著差异 表达量的og2值来聚,颜色越深表示表达量越高。考aTvwp/

个放大,最右边部分是左边选定部分所对应 D或 注释。具体各项的意义请图11差异表 等级聚类注释及功能预上游非编码的启动子区域转录的(橙色)部分可以通过抑制聚合酶的结合,或者诱导染色质重排而抑制()或者促进()下游(蓝色)的表达;(3)反义转录本(紫色);()同时,正反义链转录本的结合可以使得D剪切形成内生s)可以调节该蛋白的活性(),此外NAe大型复合物还可以作为细胞骨架等结构单位(),或者指导蛋白在细胞内的作用区域();nA还可以通过剪切等作用形成小RNA,比如mRNA、pRNA或者其他未被分类的小片段转录本[16]基于碱基配对的lncRNA-RNA互作分ncRNA参与调控许多转录后进程,与mRNA和snoRNA等小RNA类似的是,这些调控往往与碱基的互补配对有关。部分反义ncRNA可能因为与正义链的mRNA结合而调控 录及mRNA的稳定性。比如与脑部功能及神经系统疾病相关的小鼠的泛素蛋白羧基末端水解酶L1(Uch1)的反义ncRNA[20]。,个VennaRNA包,根据其热力学结构计算最小自由能来预测最佳碱基配对关系。结果展示了最佳ncRNAmRNA结合位点以及翻译ncRNA与其共表达间的最小自由能位于上游的ncRNA可能与启动子或者共表达 的表达进行调控[12][13];位于3UTR或者 图13 上游或者下游的所以我们对在之前分析中被注释为位于未知区域的进行注,如果其位于个 的上游或者下游,这些有可能与顺式作用元件所在区域有交集,从而参与转录调控的。+NM152911UPSTREAM+ UPSTREAM+NM080872DOWNSTREAM+NM025205DOWNSTREAM表9各列含义列 描哪条链终止位位于该的上游或者下miRNA前体预近期 个ncRNA被剪切生成多个小RNA后,每个成熟体会分别在不同的亚细胞结构行使各自的功能[16]。成 mRNA可以作用多个位点,抑制翻译的过程和导致 ncRNA比对到miRBase17]寻找潜在的mRNA前体,比对覆盖度大于90%的将会被挑选出来;此外个基于SVM的软件miRPara18]也会被用来预测mRNA及其前体。m将mRBase中的序列分为动物、植物及所有物种,然后用支持向量机对这些模型进行训练111列描qs可信度比对上碱qs b期望比对得0列描预测出的前体序列,大写字母序列表示成熟m成熟体序列,和prseq里的成熟体序列成熟体方前体的概该成熟体在mRBase数据库里相同的成熟体 预Rfam是个包含各种 信息的数据库,包括RNA的二级结构保守区域,mRNA顺式作用元件和其他RNA元件。它根据ncRNA在进化层面上的共同祖先将ncRNA分成不同,每 由多序列比对后预测的二级结构及协方差构成[22]预测表 预测结R02R03R104R01列 描amy的编终止比对位比对的的E保守区域的GC含的3常见问Q1:从totaRNA中分离ncRNA和mRNA的时候,为什么不像其他转录组项目样用poyA富集,而是采用去核糖体RNAA1:有研究发现,细胞内部分(>24%)的长链非编码RNA都是缺少传统poyA尾的 而不是普通的 A2:链特异有助于我们确定转录的方向,并使得反义转录本的定量更为准确A3:般来说,个样品中ncRNA与mRNA的种类在同个数量级,但由于ncRNA有较强的组织特异性,ncRNA的数据可能比mRNA略多;但由于ncRNA通常为低表达,因此被 的reads是来自于mRNA的,所以我们推荐客户在做ncRNA项目的同时,也可以利用同套 Q4:怎么用分子生物学实验的方法验证生物信息分析A4:因为转录组组装的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论