转录组实战讲解第三讲之测序质量评估和reads回贴_第1页
转录组实战讲解第三讲之测序质量评估和reads回贴_第2页
转录组实战讲解第三讲之测序质量评估和reads回贴_第3页
转录组实战讲解第三讲之测序质量评估和reads回贴_第4页
转录组实战讲解第三讲之测序质量评估和reads回贴_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、长非编码长非编码RNA测序分析实战讲解测序分析实战讲解之之测序质量评估和测序质量评估和Reads回贴回贴卜德超卜德超中国科学院计算技术研究所中国科学院计算技术研究所2014-12-20概要 长非编码长非编码RNA测序介绍测序介绍 一个测序实例一个测序实例 长非编码长非编码RNA分析流程分析流程 步骤一详解:步骤一详解:Reads质量评估质量评估 步骤二详解:基因组比对步骤二详解:基因组比对 附录:运行命令附录:运行命令 长非编码长非编码RNA测序介绍测序介绍 一个测序实例一个测序实例 长非编码长非编码RNA分析流程分析流程 步骤一详解:步骤一详解:Reads质量评估质量评估 步骤二详解:基因组

2、比对步骤二详解:基因组比对 附录:运行命令附录:运行命令长非编码长非编码RNA测测序序 长非长非编码编码RNAs(long non-coding RNAs,lncRNAs)是一类长度大于)是一类长度大于200 nt且不编码且不编码蛋白质的蛋白质的RNAs 长长非编码非编码RNA测序:通过测序技术,获得测序:通过测序技术,获得某某个物种或特定细胞在某一生理条件下产生个物种或特定细胞在某一生理条件下产生的所有的所有的的长非编码长非编码RNA想测长非编码RNA,提取RNA的步骤是怎样的?转录组内的转录组内的RNA 转录组转录组RNA,按功能分类:,按功能分类: mRNA 非非编码编码RNA(即(即N

3、on-coding RNA,如,如 tRNA,rRNAs,microRNAs,piRNAs 和和lncRNAs等等) 转录组内的转录组内的RNA, 按按polyA形态:形态: 带带polyA的的RNA (mRNA和大部分的和大部分的lncRNA) 不带不带polyA的的RNA (小小RNA和小部分的和小部分的lncRNA)长非编码长非编码RNA测序测序总的总的RNA(200)去掉去掉rRNA后的后的RNA不带不带polyA的的RNA带带polyA的的RNApolyA富集富集总的总的RNA(200)去掉去掉rRNA后的后的RNA测序测序(mRNA+lncRNA)测序测序(lncRNA)mRNA测

4、序测序(mRNA+lncRNA)方案二方案二方案一方案一 长非编码长非编码RNA测序介绍测序介绍 一个测序实例一个测序实例 长非编码长非编码RNA分析流程分析流程 步骤一详解:步骤一详解:Reads质量评估质量评估 步骤二详解:基因组比对步骤二详解:基因组比对 附录:运行命令附录:运行命令9一个测序实例一个测序实例 取样:晚期肝癌病人的肝组织取样:晚期肝癌病人的肝组织( (共共4 4个个) ) 癌旁组织癌旁组织(N)(N) 原发灶原发灶(P)(P) 转移灶转移灶(M)(M) 门脉血栓转移灶门脉血栓转移灶(V)(V)一组时间序列上的一组时间序列上的4个点的取样个点的取样RNA提取和测序参数提取和

5、测序参数 RNARNA提取提取 提取带有提取带有polyApolyA的所有的所有RNARNA 测序测序 IlluminaIllumina HiseqHiseq 2000 2000测序测序 文库插入片段长文库插入片段长300300 双端测序双端测序 readsreads长度为长度为100 100 D-UTPD-UTP链特异性文库链特异性文库 长非编码长非编码RNA测序介绍测序介绍 一个测序实例一个测序实例 长非编码长非编码RNA分析流程分析流程 步骤一详解:步骤一详解:Reads质量评估质量评估 步骤二详解:基因组比对步骤二详解:基因组比对 附录:运行命令附录:运行命令12转录组分析的通用套路转

6、录组分析的通用套路定量定量鉴定鉴定差异差异功能功能有多少有多少RNARNA的表达量的表达量结构、表达量、结构、表达量、比例的变化比例的变化功能注释功能注释测序数据和参考基因组比对测序评估及低质量过滤编码基因表达注释转录本重构长非编码鉴定长非编码表达注释编码基因差异(特异)表达GO功能显著性富集Pathway显著性富集功能富集网络图长非编码差异表达GO功能显著性富集Pathway显著性富集功能富集网络图FusionsJunctionsGenomeBrowser可视化这一堂课这一堂课关注内容关注内容 长非编码长非编码RNA测序介绍测序介绍 一个测序实例一个测序实例 长非编码长非编码RNA分析流程分

7、析流程 步骤一详解:步骤一详解:Reads质量评估质量评估 步骤二详解:基因组比对步骤二详解:基因组比对 附录:运行命令附录:运行命令测序下机数测序下机数据据测序输出的两个文件测序输出的两个文件(双端测序数据双端测序数据):N_R1.fastqHWI-EAS724_0001:8:32:374:374#0/1GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG+HWI-EAS724_0001:8:32:374:374#0/1fcfcfggdfggggfggggcggggggggfgggggc

8、gggfWgggggggggfgcggdgcgcggggfacbbbbgcgggggdN_R2.fastqHWI-EAS724_0001:8:32:374:374#0/2TACCGTTAATAGCAGTAATATCATAATAGTAATAGCATCATAACGGTAGTCCCATAAAAGTGTGTCAGTAGTAGTAGTA+HWI-EAS724_0001:8:32:374:374#0/2ggggfgggggd_adcggggeggfggeggegfgeececdegggggfegcfegggegggfgacacedbd_cYb拿到拿到共共4对这样的测序文件对这样的测序文件Fastq文件质量

9、值表示文件质量值表示N_R1.fastqHWI-EAS724_0001:8:32:374:374#0/1GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG+HWI-EAS724_0001:8:32:374:374#0/1fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbbbgcgggggd用字符来表示每个碱基的质量值用字符来表示每个碱基的质量值字符值字符值-如何计算如何计算Q值值字符字符ASCII码码值值

10、QualityScore错误率错误率f102102-64=380.1%c9999-64=350.1%g103103-64=3980%50%比对结果好!比对结果好!80%10%DNA污染污染40%30% 测序质量差、测序质量差、10%10%reads接头、接头、barcode、ployA等等未去净未去净.若双端中有一端比对率高,一端比若双端中有一端比对率高,一端比对率很低,则类同第四种情况对率很低,则类同第四种情况?27TophatTophat回贴原理回贴原理ReadsMappedtothegenomeUnmappedSplitandMappedSearchingthesplicingsiteJ

11、unctions和和Fusions鉴定鉴定 Tophat比对后的输出目录: Junctions.bed Insertions.bed Deletions.bed Tophat-fusion:Fusions鉴定工具Tophat直接报出直接报出junctions结结果果Tophatfusion:从从tophat的的输出输出挖掘挖掘fusions 长非编码长非编码RNA测序介绍测序介绍 一个测序实例一个测序实例 长非编码长非编码RNA分析流程分析流程 步骤一详解:步骤一详解:Reads质量评估质量评估 步骤二详解:基因组比对步骤二详解:基因组比对 附录:运行命令附录:运行命令运行命令汇总运行命令汇总

12、(一一)fastqcoQC_outdir_NN_R1.fastqN_R2.fastq1, 质量评估:质量评估:fastqcoQC_outdir_PP_R1.fastqP_R2.fastqfastqcoQC_outdir_MM_R1.fastqM_R2.fastqfastqcoQC_outdir_VV_R1.fastqV_R2.fastq运行命令汇总运行命令汇总(二二)tophatotophat_outdir_N-library-typefr-firststrand-fusion-searchhg19N_R1.fastqN_R2.fastq2, 比对基因组:比对基因组:tophatotophat

13、outdir_P-library-typefr-firststrand-fusion-searchhg19P_R1.fastqP_R2.fastqtophatotophat_outdir_M-library-typefr-firststrand-fusion-searchhg19M_R1.fastqM_R2.fastqtophatotophat_outdir_V-library-typefr-firststrand-fusion-searchhg19V_R1.fastqV_R2.fastqhg19为基因组的为基因组的bowtie2的的index文件文件运行命令汇总运行命令汇总(三三)bowti

14、eobwt_outdir_Nrefgene-1N_R1.fastq-2N_R2.fastq-SN.sam3, 比对转录组:比对转录组:bowtieobwt_outdir_Prefgene-1P_R1.fastq-2P_R2.fastq-SP.sambowtieobwt_outdir_Mrefgene-1M_R1.fastq-2M_R2.fastq-SM.sambowtieobwt_outdir_Vrefgene-1V_R1.fastq-2V_R2.fastq-VP.samrefgene为为bowtie产生的产生的index文件文件运行命令汇总运行命令汇总(三三)tophat-fusion-posthg194, Fusions鉴定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论