百迈客生物信息学培训5月27 5原正文转录组_第1页
百迈客生物信息学培训5月27 5原正文转录组_第2页
百迈客生物信息学培训5月27 5原正文转录组_第3页
百迈客生物信息学培训5月27 5原正文转录组_第4页
百迈客生物信息学培训5月27 5原正文转录组_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

转录组测序百迈客生物科技有限公司课程结构转录组测序简介基因功能注释及注释库简介转录组测序分析流程第一部分转录组测序简介基因功能注释及注释库简介转录组测序分析流程转录组测序简介什么是转录组测序转录组测序兴起的背景转录组测序的特点高通量转录组测序的优势什么是转录组测序RNA_Seq的重要分支RNA_Seq是指针对转录产物RNA的测序技术,主要有以下分支:转录组分析表达谱分析小RNA分析降解组测序针对mRNA的测序转录组测序是针对特定样品特定时期的转录mRNA的测序技术,重点在对翻译蛋白的mRNA的测序研究。TheCentralDogmaofMolecularBiologyThegenomeisonlyasourceofinformation.Inordertofunction,itmustbeexpressed.ThetranscriptionofgenestoproduceRNAisthefirststageof

geneexpression

.ThetranscriptomeisthecompletesetofRNAtranscriptsproducedbythegenomeatanyonetime.DNA-seqRNA-seq转录组测序兴起的背景生物信息学的大发展自从人类基因组测序完成,宣布后基因组时代的研究到来,基于测序的生物信息学发展空前爆发。新一代测序技术(NextGenerationSequencing)测序通量高(测序数据产出量);测序成本低(时间和价格);代表有454,Solexa,Hiseq2000等;转录组测序的特点应用对象灵活广泛针对不同物种,不同个体,不同时期,都可以在mRNA水平准确的分析性状或功能差异,结构变异等信息。研究范围多样化从未知基因组物种,到研究成熟的人体病变组织,小鼠组织等特异组织,均可通过转录组分析进行研究。研究深度多样化从大规模功能转录本发掘到特定基因的可变剪接的不同功能分析,都可以定位研究。高通量转录组测序的优势高通量转录组测序优势测序通量高;测序成本低;主要的测序类型454转录组测序(读长较长,通量低,成本高);IlluminaSolexa高通量测序(读长短,通量高,覆盖度更高,定量更准确,测序成本低);第二部分转录组测序简介基因功能注释及注释库简介转录组测序分析流程基因功能注释简介同源序列比对探寻基因功能比对工具blast基因功能注释数据库nr、nt、UniprotCOG、Kegg、interproscan、GOBLASTBasicLocalAlignmentSearchTool(BLAST)结合了动态规划算法和间接的启发式算法的优点,同时把数据库检索建立在严格的统计学基础之上,是目前最常用的同源检索工具。局部比对软件比对比较精确细致用来做同源序列比对,进行基因功能注释耗时较长BLAST简介命令及参数简介建库命令(formatdb)比对类型,5种不同的比对程序程序名查询序列类型查询数据库类型应用blastp蛋白质蛋白质使用取代矩阵寻找较远

关系blastn核酸核酸寻找较高分值的匹配,

对较远关系不太适用blastx核酸(翻译)蛋白质用于分析新的cDNA序列

或ESTtblastn蛋白质核酸(翻译)用于寻找数据库中没有

标注的编码区tblastx核酸(翻译)核酸(翻译)用于更进一步的分析ESTBLAST结果简介BLAST比对结果详解nr&ntnr(Non-redundantproteinsequences)包含GenBank所有编码序列,以及PDB,swissprot,PIR,PRF数据库的所有编码序列的一个非冗余数据库,数据库完整度高,氨基酸序列数据库。nt(Nucleotidecollection)包含GenBank和PDB中(不包含EST,STS,GSS)的所有核苷酸序列信息,存在冗余的数据库,数据库完整度高。nr&nt比对结果nr&nt注释结果UniprotUniprot(UniversalProteinResource)UniProt是一个集中收录蛋白质资源并能与其它资源相互联系的数据库,也是目前为止收录蛋白质序列目录最广泛、功能注释最全面的一个数据库。整合三大数据库:Swissprot、TrEMBL、PIR(ProteinInformationResource)。数据库组成:UniprotKB(知识库)、Uniprotarc(归档)、Uniref(参考资料库)。Uniprot简介UniProtKBProteinknowledgebase,consistsoftwosections:Swiss-Prot,whichismanuallyannotatedandreviewed.TrEMBL,whichisautomaticallyannotatedandisnotreviewed.Includescompleteandreferenceproteomesets.UniRefSequenceclusters,usedtospeedupsequencesimilaritysearches.UniParcSequencearchive,usedtokeeptrackofsequencesandtheiridentifiers.Uniprot数据库的最重要组成部分UniprotKB(Uniprotknowledgebase)UniProtKB/Swiss-ProtUniProtKB/Swiss-Prot主要收录人工注释的序列及其相关文献信息和经过计算机辅助分析的序列。这些注释都是由专业的生物学家给出的,准确性无需置疑。注释结果全面翔实,注释包括对蛋白质功能、酶学特性、剪接异构体、相关疾病信息的注释等等。注释结果无冗余。

UniprotKB/TrEMBLUniprotKB/TrEMBL主要收录的则是高质量的经计算机分析后进行自动注释和分类的序列。由于大规模测序产生的海量数据无法通过Swissprot的严谨注释思路来进行注释。TrEMBL存储了比较全面完整的物种编码序列信息。存在冗余。

Uniprot注释途径网页提交序列本地BLAST

COGClustersofOrthologousGroupsofproteins(COGs)蛋白质直系同源数据库。通过对菌类,藻类和真核生物等66个完整基因组的编码蛋白,根据系统进化关系构建而成。对于预测单个蛋白的功能和整个基因组中蛋白质的功能具有重要的作用。

COGKEGGKyotoEncyclopediaofGenesandGenomes京都基因与基因组百科全书数据库简介系统分析基因功能,联系基因组信息和功能信息的知识库。

KEGG简介KEGG结合17个数据库,三个大的框架:Systemsinformation,Genomicinformation,Chemicalinformation。KEGG的GENES/SSDB/KO数据库提供关于在基因组计划中发现的基因和蛋白质的相关知识。KEGGPATHWAY数据库整合当前在分子互动网络(比如通道,联合体)的知识。KEGG的COMPOUND/GLYCAN/REACTION数据库提供生化复合物及反应方面的知识。KEGG简介基因功能联系到生物功能的桥梁PATHWAYGENE1GENE2GENE3..生化复合物反应….生物多样性状差异……KEGG注释途径网络提交任务KAAS(KEGGAutomaticAnnotationServer)

KEGG注释途径KEGG注释结果BLAST比对结果根据比对结果提取代谢通路图根据基因对应的KO号可以从KEGG官网得到对应的PATHWAY图片KEGG注释结果InterproscanInterproscanInterPro是一个关于蛋白家族(proteinfamilies),功能保守区域(domains)和功能位点(funtionalsites)的数据库。该数据库包括了PROSITE,PRINTS,Pfam,ProDom等知名蛋白结构和功能位点及保守域的数据库。Interproscan

GeneOntologyGeneOnotologyConsortium基因本体联合会所建立的数据库。数据库简介旨在建立一套适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语义(terms)词汇标准。GeneOntologyGeneOntology解决生物学定义混乱的现象,使各种数据库中基因产物功能描述相一致。使得在不同生物数据库中的查询具有极高的一致性。允许在各种水平查询基因产物的特性。35GO的分类分子功能(MolecularFunction)描述在个体分子生物学上的活性,如催化活性或结合活性。生物学过程(BiologicalProcess)由分子功能有序地组成的,具有多个步骤的一个过程。细胞组件(CellularComponent)指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核糖体,蛋白酶体等),即基因产物在什么地方起作用。GeneOntologyGO注释功能富集分析第三部分转录组测序简介基因功能注释及注释库简介转录组测序分析流程转录组测序分析流程转录组测序的实验与测序原理转录组数据分析流程及软件转录组实验与测序原理mRNA的提取通过成熟mRNA的polyA结构提取组织样品的表达mRNA。反转录为cDNA通过利用反转录酶合成对应mRNA的cDNA双端测序将cDNA片段随机打碎,采用高通量测序仪进行Pair-End测序。双端测序cDNA片段化Solexa双端测序产生数据类型成对Reads转录组数据分析流程Solexa原始数据转录组分析流程分析结果转录组分析的两种策略左边是先比对,再通过表达量和junction信息得到转录本,这种方法能够检测到低表达量的转录本;右边是对mRNA-seq的reads直接进行denovo组装,得到转录本,但对于低表达量的转录本不易发现。转录组分析的两种策略有Reference的转录组分析以比对为基础,分析有基因组的样品的可变剪接信息,以及预测可变剪接带来的功能差异,同时定量不同样品的mRNA表达丰度进行差异基因的相关分析。无Reference的转录组分析通过测序数据组装大规模发掘对应物种的转录本信息,对组装得到转录本做功能注释分析,同时定量转录本的不同丰度进行差异分析。两种分析思路原始数据Reference基因组Gff基因结构注释差异基因分析及功能注释分析有参考基因组无参考基因组聚类得到UnigeneUnigene的差异表达及功能注释分析可变剪接结果可变剪接作图TopHat+Cufflinks的可变剪接分析测序数据组装差异基因聚类分析差异基因功能注释结构预测分析差异基因聚类分析差异基因功能注释有参考基因组分析可变剪接根据软件对基因可变剪接结果做预测结合相关基因的功能进行深入的研究(性状相关..)原始数据Reference基因组Gff基因结构注释TopHat+Cufflinks的可变剪接分析可变剪接简介一个基因在转录过程中经过不同的剪接处理得到不同的mRNA从而产生不同的蛋白,是生物性状多样化的重要原因。可变剪接类型外显子跳过内含子滞留互斥外显子可变5’剪接可变3’剪接保守剪接类型可变剪接分析软件TopHat针对高通量RNA_Seq的序列剪接检测软件,采用短序列比对软件Bowtie进行序列比对和剪接检测。IGVIntegrativeGenomicsViewer,图形化浏览结果。Cufflinks利用Tophat的检测结果和测序Reads的比对情况组装构建转录本并进行表达分度分析的软件。可变剪接分析软件TopHatTopHat使用Bowtie软件比对,速度快;输出结果为sam格式,便于查看浏览(IGV)以及后续分析。官方网站参考文献TopHat简介命令及参数比对建库命令bowtie-buildRef.faRef.faTopHat命令tophat-r0-GRef.gff-oSam1_tophatRef.faSam1_1.fqSam1_2.fqTopHat结果结果目录accepted_hits.bam比对结果文件samtoolsviewaccepted_hits.bam|less-Sjunctions.bed剪接结果列表insertions.bed插入结果列表deletions.bed缺失结果列表IGV基因组综合浏览器IGV

CufflinksCufflinks用来组装转录本,估计它们的丰度,并且检测RNA-Seq样品中的差异表达和调控。官方网站参考文献Cufflinks简介Cufflinks命令及参数cufflinks-GRef.gffaccepted_hits.bam输出结果transcripts.gtf组装转录本的gtf格式结果genes.fpkm_tracking基因表达丰度的评估isoforms.fpkm_tracking转录本表达丰度的评估新基因的发现新的编码区域的定位通过比对结果发现原本无基因注释的区域出现了编码mRNA的序列新基因的功能注释分析对新基因的序列做功能注释无参考基因组分析数据的组装Orf预测SSR分析通过BLAST做基因功能注释分析原始数据聚类得到Unigene测序数据组装结构预测分析(SSR、Orf及编码序列)测序数据组装组装基本原理基于测序reads之间的overlap进行的序列组装组装软件简介TrinityTransabyssSOAP-TransTrinity简介TrinityTrinity是一个组装构建无Reference全长转录本的组装软件,专门针对高通量RNA测序设计的,组装效果较好。官方网站及引用文献

Trinity原理介绍Trinity右图是Trinity软件组装的简单原理。a组装Contigb构建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论