华大结题报告-1.21转录组resequencing_第1页
华大结题报告-1.21转录组resequencing_第2页
华大结题报告-1.21转录组resequencing_第3页
华大结题报告-1.21转录组resequencing_第4页
华大结题报告-1.21转录组resequencing_第5页
已阅读5页,还剩128页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、项目项目编差异分析方样品分析统计表 Extend Indel 差 统计表二、技术 也 功能及结构研究的基础和出发点,通过新一代高通 ,能够全面快速地获得某一物种特定组织 在特定状态下的几乎所有转录本序列信息,已广泛应用于基础研究临床诊断和药物 ;加入打断试剂在 仪 序图2转录组信息分析流程图2为信息分析流程图:由IumnaHSeqTM2000 滤得到的ceanreads比对到参考序列。比对完,通过统计比对优选法、reads在参考序列上的分布情况等,判断比对结果是否通过第二次质控(QCofagnment)。若通过,则进行和转录本定量分析、基 表达水平的各项分析(主成分、相关性、条件特异表达、差 筛选等等)、外显子定量 结构优化、可变剪接、新转录本预测及注释、 三、信息分析原始数据过滤统样品HBRR1的ane:120705_I260_FCC0TUMACXX_L6_HBRhaoTACRAAPEI-74碱基含量和质样品HBRR2的ane:120705_I260_FCC0TUMACXX_L6_HBRhaoTAARAAPEI-57碱基含量和质量分布样品HBRR3的ane:120705_I260_FCC0TUMACXX_L6_HBRhaoTABRAAPEI-62碱基含量和质量分布样品UHRR1的ane:120629_I269_FCC0U4GACXX_L1_UHRmqrTAARAAPEI-75碱基含量和质样品UHRR1的ane:120629_I269_FCC0U4GACXX_L1_UHRmqrTABRAAPEI-79碱基含量和质样品UHRR1的ane:120630_I235_FCD114LACXX_L3_UHRmqrTAARAAPEI-75碱基含量和质量分布样品UHRR1的ane:120630_I235_FCD114LACXX_L3_UHRmqrTABRAAPEI-79碱基含量和质量分布样品UHRR1的ane:120630_I235_FCD114LACXX_L3_UHRmqrTAFRAAPEI-89碱基含量和质量分布样品UHRR2的ane:120629_I269_FCC0U4GACXX_L1_UHRmqrTADRAAPEI-87碱基含量和质量分布样品UHRR2的ane:120629_I269_FCC0U4GACXX_L1_UHRmqrTAERAAPEI-88碱基含量和质样品UHRR3的ane:120705_I260_FCC0TUMACXX_L7_UHRmqrTACRAAPEI-84碱基含量和质量分布样品UHRR3的ane:120705_I260_FCC0TUMACXX_L7_UHRmqrTAGRAAPEI-90碱基含量和质量分布MapMaptoReadsMMaptoReadsMMaptoReadsMaptoReadsMMMaptoMaptoReadsMMaptoReadsMMaptoMaptoReadsMMaptoReadsMMaptoMaptoReadsMaptoReadsMMMaptoMaptoReadsMaptoReadsMM 样品HBRR2的reads在参 样品HBRR3的reads在参 样品UHRR1的reads在参 样品UHRR2的reads在参 样品UHRR3的reads在参 组上比对结果的bam格式文件,并提供直观易用的IGV(IntegratveGenomcsVewer)工具对其进行不同尺度下的可视化查看。IGV的 所有样品 表达量结果文件:a.gene.FPKM.x每个样品的转录本表达量结果文件列表所有样品的转录本表达量结果文件a.soform.FPKM.x基 表达水平的分两两样品相关性值结果表111111以上表格用图表示如下样品聚类样品间共有表 条件特异样品特异表 条件特异表达结差 筛差异对所 差异对所有表达列表显著差异表 统计图显著差异表达列表: 差 聚类分析详细报告:c差 差 差 蛋白网络互作分析详细报告差 转录因子分析结外显子覆盖度统计图结构优化结各样品新转录本数量统计新转录本预测结新转录本序列文

可变剪接数量及所涉 样品HBRR1的结果文件列表ExonskppngAternatve5'spcesteAternatve3'spces样品HBRR2的结果文件列表:ExonskppngAternatve5'spcesteAternatve3'spces样品HBRR3的结果文件列表:ExonskppngAternatve5'spcesteAternatve3'spces样品UHRR1的结果文件列表ExonskppngAternatve5'spcesteAternatve3'spces样品UHRR2的结果文件列表:ExonskppngAternatve5'spcesteAternatve3'spces样品UHRR3的结果文件列表ExonskppngAternatve5'spcesteAternatve3'spces各样品SNP区域分SNP检测结果文件列各样品RNA编辑类型Inde检测结果文件列表样品 融合图样品 融合图样品 融合图样品 融合图样品 融合图样品 融合图融合结果文四、帮助1得到的原始图像数据经baseca @A80GVTABXX:4::2587:979#ACAGTGAT/ 错误率 错误率 质对应质对应T^h 数据过数据过滤的具体步骤如下去除低质量reads(质量值Q≤10的碱基数占整条read的50%以上)图3.原始数据组成成分我们对过滤后得到的ceanreads进行碱基的组成和质量值分布绘制,从而控制数据质量。图4a中,T碱基和A碱基的比例不等,质量不合格;图4b则是碱基组成情况良好的结果。对于 4a.数据的碱基组成情况。X轴上,1-90bp代表read1的碱基位置,91-180bp代表read2的碱基位置。碱基组成平衡的情况下,A、T曲线重合,G、C曲线重合。如果 4b.数据的碱基组成情况。X轴上,1-90bp代表read1的碱基位置,91-180bp代表read2的碱基位置。碱基组成平衡的情况下,A、T曲线重合,G、C曲线重合。这 图5a.reads的碱基质量分布。横坐标是分布在read上碱基的位置,纵坐标代表碱基的质量。图中的每个点表示某条read中相应位置的碱基质量值。从整体上看,如果低质量(<20)碱基比例过高,说明这个ane 图5b.reads的碱基质量分布。横坐标是分布在read上碱基的位置,纵坐标代表碱基的质量。图中的每个点表示某条read中相应位置的碱基质量值。从整体上看,如果低质量(<20)的碱基比例较低,说明这个ane的 我们使用比对软件BWA将ceanreads比对到参考 组,使用Bowtie将ceanreads比对到参考 Reads和参 组比对,只以一定错配数与参 新外显子、重新定位5端和3端的,并增强识别出和 在研究较透彻 此类序列存在研究不那么透彻 比对结果统 与参组的数百分% 的比对统计示与参 的比 数 百分 上面统计表各列含义如下 Reads在参 上的分布来评价打断随机性。由于不同参 上的位置 长度的比值),然统计 的同置对上的如果打随性在 部应布得比均匀引gta.年在evwts 的文展了两不同片段化方法得到的在 上的分布情况,可以看出先将N 段化然后反转录成的方案比先将反转录成然后片段化要。我们的实验使用At方案。 图6.(Wang,eta2009)文库 段化的方法比较。a)ogo-dT为引物扩增的cDNA(蓝线)片段化后的深度分布,偏向于3端;而RN 度的分布相对更均一,但在5和3端的分布较少。 图7.某样品的reads在 组比对可视 我们用RSEM(RNASeqbyExpectatonMaxmzaton)工具进行 对计 在中,转录本或 的表达量为其产生的A在总文库中的比例。在ad 中,每个产生两条但不表示两条都一定能比对上,如果我们数的是那么一般的,而另一些则不,比如某个 量库这样表量估就会有差计数的是而不是单纯的数。 表 表 表达量结果例1上述表格各列含 基 对于多样品,我们可以基 样品相关生物学重复是任何生物实验所必须的,高通 技术也不例外(Hanseneta.)。样品 表4.样品相关性结111111统计表用热图9.所有样品相关性值Heatmap热样品聚类 图10.所有样品聚类树样品间共有表 对于样品间共 )图11.样品共有表 PCA主成主成分分析)可以降低数据的复杂性,深入挖掘样品之间的关系和变异大小。基本原理是,利用数学的方法,将原来变量重新组合成一组新的互相无关的几个综合变量(即主成分),对所有因素按重要性排序,通常靠后的微小因素被忽略掉,从而起到简化数据的作用。实际项目中,我们可以通过找出离群样品、判别相似性高的样品簇等。结果如图12所示:图12.每个圆点的位置代表一个样品,三个坐标轴分别代表三个主成分,及相应的主成分值,相似度高的样品通常 条件特异表 开发令e g在样品中的reads数, g在所有样品中的reads数为E(g)=∑e(g)。令s为样品中所有reads数,则期望的每 在样品中的reads数与p=s/∑s成比例。对于因g,如果它在所有组织中均匀地表达,则期望的它在组织中reads数为f=E(g)p。定义富集表达(EE)EE=e(g)/f(g), g在样品中的reads数观测值对期望值的比例。更的EE(g)代表 g更加偏向于在样品中表达。同时,为了评估一个较大的EE(g)值是由于偶然因素而不是真实的偏向性表达情况,为富集表达定义一个P值,它由如下公式给出针对每个样品筛选出来的条件特异表 ,会以xs文 差 筛选差异表达分析旨在找出不同样本间差异表达 ①基于泊松分布的分析方法,用于筛选两个样品间的差异表 的差 本间的差异表 组的总reads数为N1,样本二中唯一比对到 组的总reads数为N2;样本一中唯一比对到 过0.05(Benjamn,Yekute.2001)。在得到差异检验的FDR值同时,我们根据 表 差异表达分析结果(基于泊松分布上述表格各列含 长度 况 标志 描述信 对 我们计算出每 表 上述表格各列含 长度 标志 描述信 为非差异表达和差异表达的后验概率,“PPEE和PPDE”。另外,EBSeq还做了关于倍数变化(fodchange)的统计,对于每个条件中的 表 上述表格各列含 长度 标志 描述信 ,如图 最后,会对所有项目中所有差异对进行上下 图14.所有差异对的上下 6.差 15.差异表达模式聚类图。每列代表一个实验条件(如exp1-VS-exp2或者一个样品每行代表一个不同表达变化倍数或表达量用不同颜色表示红色表示表达上调绿色表示表达下调鼠标点击左边箭头的线,其分支的线会变成红色,中间部分所显示的是左边选定部分的一个放大,最右边部分是左边选定部分所对应的ID或者注释。差 GeneOntoogy(简称GO)是一个国际标准化的功能分类体系,提供了一套动态更新的标准词汇表(controedvocabuary)来全面描述生物体中和产物的属性。GO总的GO功能显著性富集分析给出与组背景相比,在差异表达中显著富集的GO功能条目,从而给出差异表达( )的各个term映射,计算每个term的数目,然后应用超几何检验,找出与整个组背景相比,在差异表达中显著富( 其中,N为所有中具有GO注释的数目;n为N中差异表达的数目;M为所有中注释为某特定GOterm的数目;m为注释为某特定GOterm的差异表达数目。计算差异表达行使的主要生物学功能。我们的GO功能分析同时整合了表达模式聚类分析,研究人员能方便地看到具有某能的所有差异的表达模式。例如表6,mmuneresponse为在差异表达中最显著富集的一的表6.在差异表 og2Rat图16.参与mmuneresponse的差 图17.GO分析 富集到的细胞功能(moucuar_functon)从属关系图,颜色代表pvaue值的范围,层级从上往下依次细化,最底层标出富集到此TERM路径 得到每个差 的GO注释后,我们用WEGO软件对差 做GO功能分类统计,从宏观上认识差 的功能分布特征,结果如图18所示差

图18.GO功能分在生物体内,不同 相互协调行使其生物学功能,基于的分析有助于更进一步了解 的生物学功能。GG是有关的主要公共数据库显著性富集分析以GGt为单应用超何验找出与个 背景相比在异达 中著富集。该析的计公功显性富集析N为所基因中具有注释的 数目为N中差异表达 的数目;M为所有 中注释为某特定的 数目为注释为某特定的差异表达 数目。FR≤0.5的t定义为在差异表达 中显著富集的。通过显著性富集能确定差异表达 参与的最主要生化代谢途径和信号转导途径,结果如表7所示。表7pathway显著性富集分析列注:Qvaue≤0.05的Pathway在差异表 receptorsgnangpathway”,可以看到如图19所示的详细信息.图19.KEGG数据库中Bcereceptorsgnangpathway的详细信息。在图中,上 总数的比值,RchFactor越大,表示富集的程度越大。Qvaue是做过多重假设检验校正之后的Pvaue,取值范围为0到1差

图20.KEGG富集程蛋白互作网络分析整合了BIND、BoGrd、HPRD等相互作用网络数据库的组成.结果文件可用Medusa软件显示.进入网页版的界面如下(注:需要蛋白相互作信息在文本输入框中输 图21.蛋白互作网络关系图,下方的复选框可进行如下操作:勾选Reax,对一个 差 表8.差 上述表格各列含 的 编码的转录因 的名称 表9外显子表达量)_______图像人这样的模式生物 注释的5或3端,由此优化了 图 结构优化及候选新转录本方图 结构优化方表 结构优化分析的结果列5+3+上述表格各列含 的 9.新转录本预测和注释新转录本为找到新转录本区域

图表-4-3上述表格各列含 :新转录本所 为研究新转录本功能,首先需要判断某个转录本是否能够编码蛋白质。我们运用CodngPotentaCacuator(CPChttp://c 表Cpc上述表格各列含. 可变剪接(只针对真核生物 背可变剪接使一 可能产生多个蛋白,极大地增加了蛋白多样性(Back, 图27七种可变剪接示意图。Y轴的ExpLeve取值为og2(Readsnumber)A)ExonSkppng指一个外显子从初始转录物上被剪切掉。如图27A所示 长。D)在图27D中, AK068497的两个转录本的区别在于第一个外显子不同,这样的可变剪接事件称为AternatveFrstExon。F)在图27F中, 同,这样的可变剪接事件称为Aternatveastexon。G)在图27G中, 1.10.2TopHat原Exon图 边界都能被覆盖到;5)序列和其它 图图5spceste类型的可变剪接事件。++上述表格各列含 : 位 :表++上述表格各列含

: 位 :+— : 位 :++上述表格各列含 : 位 :图33.每个事件对应红、绿两个柱形图,红色柱子表示检测到此类可变剪接 GATK是由BroadInsttute研发的一款用于二代 12位置3,否则以4参考序 567其他信息详见表头8

123456789Doman 终止位 参考序 杂合子纯合

3M4SpcT 预测分值小于图34.按比例统计各样品的SNP区域分布情 多样性和多能性一种体现。最常见的编辑是A(adenoson)toI(Inosne)的修饰,主要是受蛋白酶ADAR(adenosnedeamnasesthatactatRNA)的催化作用,使腺苷酸(A)变成了次黄嘌呤核苷酸(I)。 DNA数据过滤:过滤掉与DNA一致的位 过滤链:过滤掉在正负链支持数小于2的位点.表123456789TWAT000-CYTC0-上述表格各列含名称参考序列上的对应位置的碱基 质量值第一碱基的质量第二碱基第二碱基的质量该位置的 秩和检验得到的该位点及侧翼序列 正、负链信并对每个样品过 1234参考序列5InDe67InDe型质量InDe型过滤标8 背融合是指两

的全部或一部分的序列,相互融合为一个

的过程,形成融

的机制较为复杂:包

易位、中间缺

倒置以及反式剪切等多种机如图36所示。目

融合的研究主要集中 的研究中,比如,白血病

癌 等,研究表明融

的发生发展有很大关联,参与融合

常常是一些原。融合的结果多样:可能会产生新的融合蛋白,它兼具融合的两部分的功能或者具有新功能;或者,某原

与其

的强启动子融合,会导致该原

高表达,等等。多研究结果均表明融

可以作

特有的分

和潜在的药物靶点,

的临床诊断和治疗中有重要的意图36.融

形成的原因有

易位B.)中间缺失 倒某些特定类型 畸变及引起的融 ,常用 诊断,以提高精确度 1.14.2( l分析软件是由华大 自主开发的一款能够快速检测融合 的软件。该算法首先通过比对到 组和转录本中双末端ar关系的序列寻找候选的 融合,然后采用改进的局部穷举算法,构建包含融合位点序列的文库,再通过一系列精细的过滤策略,在尽量保留真实融合的情况下过滤掉其中假阳性的 融合模拟数据和真实验证数据的综合 表明与其他方法相比准确率更高、灵敏度更

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论