生物信息学表达谱流程简介课件_第1页
生物信息学表达谱流程简介课件_第2页
生物信息学表达谱流程简介课件_第3页
生物信息学表达谱流程简介课件_第4页
生物信息学表达谱流程简介课件_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、表达谱流程简介科学特种兵团RNA线韩祖晶数字基因表达谱(Digital Gene Expression Profile,DGEP) DGEPDGEDGEII主要流程主推流程实验流程和原理信息分析流程 DGE 1、DGE实验流程和实验原理: 如右图,展示的是DGE 的实验流程。从总的RNA 样品到mRNA的提取再到 cDNA的合成再到Tag的 制备最后到上机测序和数据产出。 DGE如右图,展示的是DGE的实验原理。利用OligodT的beads富集总RNA中mRNA,并逆转录为双链cDNA,采用4碱基识别酶NlaIII酶切双链cDNA,链接Illumin

2、a adapter1,利用MmeI酶切3端CATG下游17bp碱基,并在3端链接Illumina adapter2。再加入Primer GX1和Primer GX2进行PCR扩增。扩增后样本通过6% TBE PAGE胶回收85碱基条带,纯化后通过Illumina基因表达测序。 DGE2、DGE信息分析流程: DGE2.1、去除杂质数据 原始序列带有一段3adaptor序列,并且含有少量低质量序列以及各种杂质成分。经过一系列数据处理,得到Clean Tag。 数据处理的步骤: 去除3adaptor序列:原始read带有一段3adaptor序列, 首先要去除每个read的3adaptor序列; 去

3、除空载reads(只含3adaptor而不含Tag序列的reads); 去除低质量Tag(含有未知碱基N的tag); 去除长度过小过大的Tag,保留长度为21nt的Tag; 获得Clean Tag。2.2、Clean Tag 拷贝数分布统计不均一性是细胞mRNA表达的显著特征,少量种类mRNA表达丰度极高,而大部分种类mRNA表达水平很低甚至极低。Clean Tags数据中,Tags的拷贝数反映了相应基因的表达量,其分布统计可以从整体上评估数据是否正常。DGE DGE2.3、测序饱和度分析饱和度分析检验随着测序量(标签数量,Total Tag Number)的增加,检测到的基因是否随之上升。2

4、.4、实验重复性分析 对两次平行实验的结果相关性分析可获得对实验结果可靠性和操作稳定性的评估。DGE DGE2.5、基因表达注释 首先,我们根据合作伙伴提供的参考基因数据库(注:对于没有参考基因数据库的物种,可以在同属种中进行同源比对,但结果仅供参考。),利用软件检索mRNA上所有的 CATG位点,生成CATG17nt碱基的参考标签数据库。然后将全部Clean Tag与参考标签数据库比对,允许最多一个碱基错配,对其中唯一比对到一个基因的标签(Unambiguous Tags)进行基因注释,统计每个基因对应的原始Clean Tag数,然后对原始Clean Tag数做标准化处理,获得标准化的基因表

5、达量,从而更准确、科学地衡量基因的表达水平。标准化方法为:每个基因包含的原始Clean Tags数 / 该样本中总clean Tags数 * 1,000,000 (t Hoen, Ariyurek et al. 2019; Morrissy, Morin et al. 2009)。 DGE Clean Tag 和参考基因、线粒体、叶绿体和参考基因组的比对结果统计 DGE 2.6、反义转录分析 Sense-antisense是基因表达调控的一种重要方式。如果测序标签能比对到基因的反义链,则暗示该基因的反义链也包含转录本(t Hoen, Ariyurek et al. 2019),该基因可能存在s

6、ense-antisense调控方式。 2.7、新转录本预测 与芯片相比,应用Solexa表达谱检测基因表达毋须事先设计探针,因此能帮助用户检测出新转录本。我们将不能比对到参考基因和叶绿体、线粒体基因组的clean tag比对到核基因组,给出clean tag能唯一比对上的核基因组区域,研究人员结合自己研究领域的背景知识,可判断相关区域是否存在之前未发现的新转录本(t Hoen, Ariyurek et al. 2019)。 DGE 2.6、差异表达基因筛选 2.7、表达模式聚类分析 2.8、GO功能显著性分析 2.9、Pathway显著性分析以上分析同DGEII,将在后面讲到。1、DGEII

7、实验流程和实验原理: 样品提取总RNA后,对于真核生物,用带有Oligo(dT)的磁珠富集mRNA,对于原核生物,用试剂盒去除rRNA,向得到的mRNA中加入fragmentation buffer使其片断化成为短片段,再以片断后的mRNA为模板,用六碱基随机引物(random hexamers)合成cDNA一链,并加入缓冲液、dNTPs、RNase H和DNA polymerase I合成cDNA二链,经过QiaQuick PCR试剂盒纯化并加EB缓冲液洗脱经末端修复、加polyA,加测序接头,再经琼脂糖凝胶电泳回收目的大小片段,并进行PCR扩增,从而完成整个文库制备工作,构建好的文库用Il

8、lumina HiSeqTM 2000进行测序。DGEII DGEII2、信息分析流程: DGEII2.1、去除杂质数据2.2、Clean Tag 拷贝数分布统计2.3、测序饱和度分析2.4、实验重复性分析基本原理同DGE,这里不再重复。 DGEII2.5、reads与参考序列的比对 我们采用短reads比对软件SOAPaligner/soap21将clean reads分别比对到参考基因组和参考基因序列(允许两个碱基错配)。 比对是后面分析的基础。2.6、Reads在参考基因上的分布统计 在RNA-Seq实验过程中,首先要通过化学方法将mRNA打断成短片段,然后上机测序。如果打断的随机性差,

9、测序得到的reads在基因中的分布将是不均匀的,这样的reads做后续分析将对结果有很大的影响。我们利用reads在参考基因上的分布情况来评价打断随机性。由于不同参考基因有不同的长度,我们把reads在参考基因上的位置标准化到相对位置(reads在基因上的位置与基因长度的比值),然后统计基因的不同位置比对上的reads数。2.7、Reads在参考基因组上的分布分析 该部分分析是以图示的方式给出 reads在基因组上的分布情况,以及reads所在位置上基因的分布情况。 DGEII每个点(共500个点,500 windows)表示317642nt的区域,Gene Number指每个窗口中gene的

10、个数。Coverage指每个窗口中被reads覆盖的区域与窗口长度之比。log2ReadsNumber指每个窗口的平均测序深度 DGEII2.8、基因表达量统计 利用唯一比对上基因的reads数目和比对上参考序列的总reads数来计算基因表达量。 基因表达量的计算使用RPKM法(Reads Per Kb per Million reads)3,其计算公式为: 设RPKM(A)为基因A的表达量,则C为唯一比对到基因A的reads数,N为唯一比对到参考基因的总reads数,L为基因A编码区的碱基数。RPKM法能消除基因长度和测序量差异对计算基因表达的影响,计算得到的基因表达量可直接用于比较不同样品

11、间的基因表达差异。 如果一个基因存在多个转录本,则用该基因的最长转录本计算其表达量。 DGEII2.9、差异表达基因筛选 通过比较不同样本间的数据从而筛选出差异表达基因,后续分析中的差异基因表达模式聚类分析,Gene Ontology功能显著性富集分析,Pathway显著性富集分析,蛋白互作网络分析均是基于差异表达基因。 参照Audic S等人发表在Genome Research上的数字化基因表达谱差异基因检测方法(Audic and Claverie 2019)(该文献已被引用超过五百次),我们开发了严格的算法筛选两样本间的差异表达基因。 假设观测到基因A对应的clean tag数为x,已知

12、在一个大文库中,每个基因的表达量只占所有基因表达量的一小部分,在这种情况下,p(x)的分布服从泊松分布: DGEII 已知,样本一总clean tag数为N1,样本二总clean tag数为N2,基因A在样本一中对应的clean数为x,在样本二中对应的clean数为y,则基因A在两样本中表达量相等的概率可由以下公式计算: DGEII 然后,我们对差异检验的p value作多重假设检验校正,通过控制FDR(False Discovery Rate)来决定P Value的域值。假设挑选了R个差异表达基因,其中S个是真正有差异表达的基因,另外V个是其实没有差异表达的基因,为假阳性结果。希望错误比例Q

13、V/R平均而言不能超过某个可以容忍的值(比如1),则在统计时预先设定FDR不能超过0.01(Benjamini and Yekutieli 2019)。在我们的分析中,差异表达基因定义为FDR=0.01且倍数差异在2倍和2倍以上的基因。 DGEII2.10、差异基因表达模式聚类分析 主要原理:表达模式相似的基因通常具有相似的功能。我们利用cluster软件(Eisen, Spellman, et al. 2019),以欧氏距离为距离计算方法,对差异表达基因和实验条件同时进行等级聚类分析。 聚类模式图见有图,红色表示上调,绿色表示下调,颜色越深表示差异倍数越大。图中每列表示一个独立的实验条件,每

14、行表示同一个基因在不同实验条件下的上下调情况。 DGEII2.11、GO功能显著性分析 Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology,分别描述基因的分子功能(molecular function)、所处的细胞位置(cellular component)、参与的生物过程(biological process)。 该分析首先把所有差异表达基因向Gene Ontology数据库(/)的各个ter

15、m映射,计算每个term的基因数目,然后应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著富集的GO条目,其计算公式为: DGEIIGO功能显著性分析结果文件: DGEII2.12、Pathway显著性富集分析 主要原理:在生物体内,不同基因相互协调行使其生物学,基于pathway的分析有助于更进一步了解基因的生物学功能。KEGG是有关pathway的主要公共数据库(Kanehisa, Araki, et al. 2019)。Pathway显著性富集分析以KEGG Pathway为单位(对于非模式物种,可以同blast比对来获得背景序列的KO号),应用超几何检验,找出与整个基因组背

16、景相比,在差异表达基因中显著性富集的pathway(一般地,Qvalue0.05)。通过pathway显著性富集能确定差异表达基因参与的代谢途径。 DGEIIPathway显著性富集分析结果: 各列的意义: DGEII DGEII2.13、蛋白质相互作用网络分析 相互作用网络分析整合了BIND,BioGrid,HPRD等相互作用网络数据库的信息,结果文件中的网络由差异表达基因以及跟差异表达基因有直接相互作用的基因组成。结果文件可用Medusa软件显示。 作业1、原核生物能做DGE分析吗?2、根据DGE的实验原理和分析流程说明参考基因对DGE分析结果的影响?3、根据DGE的实验原理叙述DGE分析目前实际存在的问题,有何改进的方法?4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论