版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
无参考组转录组背景概 项目概 实验流 RNA样品检 RNA文库构 文库质 4.1数据及其质量控 4.1.1碱基质量 4.1.2碱基含量分 4.1.3质量控 4.1.4数据产出统 转录组数据组 转录组文库质量评 mRNA片段化随机性检 Unigene功能注 SNP分 差异表达GO功能富 差异表达COG分 差异表达KEGG注 差异表达KEGG通路富集分 SVG文件格式的查 转录组(TranscriptomeSequencing)是对某一物种的mRNA进行的高通量测(Pair-endsReads)或Reads对于无参考组的物种,通过对得到的cDN段进行组装可以从头获得该物种的转录本(RA)序列,为非模式生物的各种转录组及其他研究奠定基础通过组装得到的转录本构建物种的e库并基于此进行包括结构注释合同关键指碱基百分比达到85%完成Unigene的表达量分析和差异表达分析完成Unigene功能注释和差异表达功能注释分析转录组实验流程包括样品检测、文库构建及其质量控制和上机。实验图1转录组实验流程RNA样品检完整性等,以保证使用合格的样品进行转录组。RNA文库构加入FragmentationBuffer将mRNA用AMPureXPbeads纯化cDNA;XPbeads进行片段大小选择;文库质文库构建完成后,分别使用Qubit2.0和Agilent2100对文库的浓度和插入片段大上对RawData进行数据过滤,去除其中的接头序列及低质量Reads获得高质量的CleanData。将CleanData进行序列组装,获得该物种的Unigene库。基于此,可以进行随机性检验饱和度检验等文库质量评估文库质量评估合格后进行表达量分析、结构分析并根据在不同样品或不同样品组中的表达量进行差异表达分析、差异表达功能注释和功能富集等分析。无参考组的转录组生物信息分析流程见下图图2转录组生物信息分析流程数据及其质量控SynthesisSBS高通量平台对cDNA文库进序,能够产出大量的高质量Reads,平台产RawData以FASTQ格式,每个样品的RawData包括两个FASTQ文件,图3FASTQ碱基质量值(QualityScore或Q-score)是碱基识别(BaseCalling)出错的概率表1PhredQualityProbabilityofIncorrectBaseBaseCall图4碱基错误率分布示意注:横坐标为Reads4.1.2碱基含量分的含量每个循环上应分别相等且整个过程稳定不变呈水平线由于Reads图5ATGC去除含有接头的经过上述一系列的质量控制之后得到的高质量Reads或碱基,称为CleanData。CleanData同样以FASTQ格式提供。图6数占总RawReads数的比例。CleanReads:经过以上过滤得到的CleanReads数占总RawReads该项目各样品CleanData表2ReadBaseGC123456Reads总数;BaseNumber:CleanData总碱基数;GCContent:CleanDataGC含量,即CleanData中G和C两种碱基占总碱基的百分比;%≥Q30:CleanData质量值大于或等于30的碱基所占的百分比。转录组数据组延伸成较长的片段(Contig),并利用这些片段之间的,得到片段集选择频率最高的K-mer作为向两端进行贪婪延伸(以K-1个碱基的对每个Component中的Contig构建DeBruijn对(4)中得到的DeBruijn图进行简化(合并节点,修剪边沿以真实的Read来解开DeBruijn图,获得转录本序列。图7Trinity图8Unigene表3LengthGroup1Group2All1000-TotalTotalN50Mean将各样品的CleanData与组装得到的Transcript或Unigene库进行序列比对,比对结果统计见表4。比对到Transcript或Unigene的Reads称为MappedReads,Mapped表4数据与组装结果的比对统计CleanMappedMapped注:BMK-ID:百迈客对样品的统一编号;CleanReads:CleanReads数目,以双端计;MappedReads:MappedReads数目,以双端计;MappedRatio:MappedReads在CleanReads中所占的比例。转录组文库质量评通过绘制饱和度图,评估文库容量和MappedDatamRN段化随机性检通过MappedReads在各mRNA转录本上的位置分布,模拟mRN段化结果,分布可了解mRNA的降解情况。样品MappedReads在mRNA转录本上的位置分布示图9MappedReads在mRNA注:横坐标为标准化后的mRNA位置,纵坐标为对应位置区间内Reads在总MappedReads中所占百分比。由于Reads数目及所占的比例,图中反映的是所有mRNA各个区间内的MappedReads比例的汇总。插入片段长度检验插入片段长度的离散程度能直接反映出文库过程中磁珠图10转录组数据饱和度检为了评估数据是否充足并满足后续分析对得到的数进行饱和度检测。由于一个物种的数目是有限的,且转录具有时间和空间特异性,因此随着量的增加,检测到的数目会趋于饱和。对于表达量越高的,越容易被检测定量。因此,对于表达量越低的,需要更大的数据量才能被准确定量。使用各样品的MappedData对检测到的不同表达情况的数目饱和情况进行图11转录组数据饱和度模拟示意Unigene功能注COG(ClustersofOrthologousGroups)数据库是对产物进行同源分类的数KOG(euKaryoticOrthologousGroups)数据库针对真核生物,基于直系同Pfam(Proteinfamily)数据库通过蛋白序列的比对建立了每个的氨基酸序套动态更新的标准词汇表来全面描述生物体 产物的功能属性。该数库总共有三大类,分别是分子功能(MolecularFunction)、细胞组分(CellularReceptorBinding”或者“SignalTransduction”,同时有一个唯一的编号,形如和生化系统等方面的数据,包括代谢通路(PATHWAY)、药物(DRUG)以上所有数据库的地址等信息详见附表本项目通过选择BLAST参数E-value不大于10-5和HMMER参数E-value不大于10,最终获得114,651个有注释信息的Unigene表5UnigeneAnnotated注:Annotateddatabases:表示各功能数据库;Unigene:表示注释到该数据库的Unigene数;≥300nt:表示注释4.5结构分TransDecoder软件基于开放阅读框(OpenReadingFrame,ORF)长度、对数似SequenceCDS是Trinity和Cuffinks等软件推荐的CDS预测软件。图11CDS注:文件为标准的FASTA格式,每个序列单元以“>”开始到下一个“>”之前结束。“>”MISA(MIcroSAliteidentificationtool)是一款鉴定简单重复序列(SimpleSequenceRepeat,SSR)的软件,它可以通过对Unigene序列的分析,鉴定出6种类型的SSR:单碱基(Mono-nucleotide)重复SSR、双碱基(Di-nucleotide)重复SSR、nucleotidenucleotide表6SSRSearchingTotalnumberofsequencesTotalsizeofexaminedsequencesTotalnumberofidentifiedNumberofSSRcontainingNumberofsequencescontainingmorethan1NumberofSSRspresentincompoundMonoDiTriTetraPenta2注:Totalnumberofsequencesexamined:评估的序列数目;Totalsizeofexaminedsequencesbp):评估的序列总碱基数目;TotalnumberofidentifiedSSRs:识别的SSR总数;NumberofSSRcontainingsequences:包含SSR的序列数目;Numberofsequencescontainingmorethan1SSR:包含1个以上SSR的序列数目;NumberofSSRs重复SSR;Hexanucleotide:六碱基重复SSR。图12SSR多态性(SingleNucleotidePolymorphism,SNP)位点。进而可以分析这些SNP位点表7SNPAGAGTGGTGCTC7CTCAGAGAGACA表8SNP4.6表达量分采用BLAT[13]将各样品得到的Reads与Unigene库进行比对,根据比对结果FPKM[14](FragmentsPerKilobaseoftranscriptperMillionmappedreads)是每百万Reads中来自比对到某一每千碱基长度的Reads数目,是转录组数据分析中常用的表达水平估算方法。FPKM能消除长度和量差异对计算表达的影响,计算得到的表达量可直接用于比较不同样品间的表达差异。目;MappedFragments(Millions)表示比对到转录本上的片段总数,以106为单位;TranscriptLength(kb):转录本长度,以103个碱基为单位。对每个的信息进行统计,样品T01结果文件示意见下表表9表达量结果文件示意000000110000990871::差异表达分达水平存在显著差异的,称之为差异表达(DifferentiallyExpressedGene,DEG)。同样地,表达水平存在显著差异的转录本,称之为差异表达转录本或差异表达的过程叫做差异表达分析(DifferentialExpressionysis)。研究表明,的表达在不同的间存在生物学可变性[16][17](Biological于两个条件(即两组样品)之间的差异表达集,A表达含有多个重复样将相关系数r(Pearson’sCorrelationCoefficient)作为生物学重复相关性对同一条件的每一对生物学重复样品的表达量做相关性散点图,样品T01图13两样品的表达量散点示意差异表达筛检测差异表达时,需要根据实际情况选取合适的差异表达分析软件。对于之间的差异表达集;对于没有生物学重复的实验,则使用EBSeq[21]进行差异表达分析,获得两个样品之间的差异表达集。在差异表达分析过程中采用了公认有效的Benjamini-Hochberg方法对原有假设DiscoveryRate)作为差异表达筛选的关键指标,以降低对大量的表达值进表10系,以便快速查看在两组样品间的表达水平差异程度及其统计学显著性。图14差异表达火山示意通过MA图可以直观地查看两组样品中的表达丰度和差异倍数的整体分布。图15差异表达MA示意差异表达功能注释和富集分表11注释的差异表达数量部分统计DEG差异表达GO功能富GO数据库是一个结构化的标准生物学注释系统建立了及其产物功能的标差异表达以及所有在GO二级节点的注释结果见下图图16差异表达GO二级节点注释统计示意从上图可以看出差异表达和所有在GO各二级功能中的注释情况其中然后,利用topGO软件对注释到GO数据库的样品组间差异表达进行富集分在有向无环图中,箭头代表包含关系,即该节点的所有同样注释到其上级节点差异表达利用topGO进行功能富集的分子功能的有向无环图如下图图17差异表达topGO富集有向无环示意图(分子功能 2-alkenal e non-membranespanning 3 ubiquitin-protein proteintyrosinekinase calmodulin-dependent 6 glucanendo-1,3-beta- transferase proteinkinase tyrosinekinaseactivitykinaseactivityglucosidaseactivity差异表达COG分COG(ClusterofOrthologousGroupsofproteins)数据库是基于细菌、藻类、真差异表达COG分类统计结果见下图图18差异表达COG注释分类统计示意差异表达KEGG注在生物体内,不同的产物相互协调来行使生物学功能,对差异表达的Pathway注释分析有助于进一步解读的功能。KEGG(KyotoEncyclopediaofGenesandGenomes)数据库是关于Pathway的主要公共数据库。差异表达的通路注释结果见下图图19差异表达的KEGG通路注释图示意对差异表达KEGG的注释结果按照KEGG中通路类型进行分类,分类图如图20差异表达KEGG分类示意注:纵坐标为KEGG代谢通路的名称,横坐标为注释到该通路下的个数及其个数占被注释上的总数的差异表达KEGG通路富集分分析差异表达在某一通是否过出现(over-presentation)即为差异表达差异表达的KEGG通路富集分析结果见下图图21差异表达KEGG通路富集散点示意注:图中每一个图形表示一个KEGG通路,通路名称见右侧图例。横坐标为富集因子(EnrientFactor),表异表达在该通路中的富集水平越显著。纵坐标为log10(Qvalue),其中Qvalue为多重假设检验校正之后的P表13差异表达的KEGG富集部分结果示Aminoacyl-tRNAGlucosinolateValine,leucineandisoleucineRNASynthesisanddegradationofketoneRibosomebiogenesisinNicotinateandnicotinamide用户登录及数 ,,一个FTP客户端好之后直接解压缩然后双击文件夹中的图标打开 .cn,输入用户名xxxxxxxxxxxxxx,然,,结果文件查看说上传中有说明文档readme.txt,详细介绍了每个文件所代表的内容。上传的SVG文件格式的查【参GrabherrMG,HaasBJ,YassourM,,etal.FulllengthtranscriptomeassemblyfromRNASeqdatawithoutareferencegenome.NatureBiotechnology.2011.(29):644-652AltschulSF,MaddenTL,Sch?fferAA,etal.GappedBLASTandPSIBLAST:ANewGenerationofProteinDatabaseSearchPrograms.NucleicAcidsResearch.1997.25(17):3389-3402.DengYY,LiJQ,WuSF,etal.IntegratednrDatabaseinProteinAnnotationSystemandItsLocalization.ComputerEngineering.2006.32(5):71-74ApR,BairochA,WuCH,etal.UniProt:theUniversalProteinknowledgebase.NucleicAcidsResearch.2004.32(Databaseissue):D115-9.AshburnerM,BallCA,BlakeJA,etal.Geneontology:toolfortheunificationofbiology.Naturegenetics.2000.25(1):25-29.TatusovRL,GalperinMY,NataleDA.TheCOGdatabase:atoolforgenomescaleysisofproteinfunctionsandevolution.NucleicAcidsResearch.2000.28(1):33-36.KooninEV,FedorovaND,JacksonJD,etal.Acomprehensiveevolutionaryclassificationofproteinsencodedincompleteeukaryoticgenomes.GenomeBiology,2004,5(2):R7.KanehisaM,GotoS,KawashimaS,etal.TheKEGGresourcefordecipheringthegenome.NucleicAcidsResearch.2004.32(Databaseissue):D277-D280.EddyS.R.ProfilehiddenMarkovmodels(1998)Bioinformatics,14(9),pp.755-FinnRD,BatemanA,ClementsJ,etal.Pfam:theproteinfamiliesdatabase.NucleicAcidsResearch,2013:gkt1223.DobinA,DavisCA,SchlesingerF,etal.STAR:ultrafastuniversalRNA-seqBioinformatics,2013,29(1):15-McKennaA,HannaM,BanksE,etal.TheGenomeysisToolkit:aMapReduceframeworkforyzingnext-generationDNAsequencingdata[J].GenomeResearch.2010,20(9):1297-KentWJ.BLAT-theBLAST-likealignmenttool.GenomeResearch.2002Apr;12(4):656-TrapnellC,WilliamsBA,PerteaG,MortazaviA,etal.TranscriptassemblyandficationbyRNASeqrevealsunannotatedtranscriptsandisoformswitchingduringcelldifferentiation.NatureBiotechnology2010,28(5):511515.Djebali,SarahandMortazavi,etal.Landscapeoftranscriptioninhumancells.Nature2012,489(7414).pp.101-108.ISSN0028-0836.ElowitzMB,LevineAJ,SiggiaED,SwainPS.Stochasticgeneexpressioninasinglecell.2002;297:1183-KasperD.Hansen,ZhijinWu,etal.Sequencingtechnologydoesnoteliminatebiologicalvariability.NatureBiotechnology2011,pp.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健康技术虚拟护理行业市场调研分析报告
- 动物清洁行业相关项目经营管理报告
- 汽车发动机冷却用散热器水管产品供应链分析
- 医疗咨询行业经营分析报告
- 快递服务信件或商品行业经营分析报告
- 婴儿用驱蚊贴产品供应链分析
- 外科器械的消毒行业营销策略方案
- 健康监测设备行业相关项目经营管理报告
- 反不正当竞争法法律服务行业营销策略方案
- 医用足底按摩拖鞋产品供应链分析
- 个人生涯发展展示
- 生涯发展报告
- 人教版(PEP)五年级英语上册 unit 4《What can you do》A let's learn课件
- 可填充颜色的地图(世界、中国、各省份)
- 孙道荣《你不能头发蓬乱地走出我的店》阅读练习及答案
- 《颞下颌关节疾病》
- 调研报告调研过程(共7篇)
- 小学美术教学工作坊工作总结(共8篇)
- 毕业设计(论文)浅析汽车制动系统
- 世界各洲国家及首都名称(中英对照带音标)
- 上海百汇医院新建项目 施工组织设计方案
评论
0/150
提交评论