生物测序技术概述-转录组测序_第1页
生物测序技术概述-转录组测序_第2页
生物测序技术概述-转录组测序_第3页
生物测序技术概述-转录组测序_第4页
生物测序技术概述-转录组测序_第5页
已阅读5页,还剩119页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物测序技术概述转录组测序转录本All transcripts All mRNAs一、转录组测序简介转录组转录组概念由Velculescu等在1995年首次提出。转录组:广义上指一个细胞内基因组DNA转录得到的所有转录产物以及转录物在细胞特定发育时期或特定生理条件下的表达水平,包括编码RNA(mRNA)和非编码RNA(如tRNA、rRNA、snRNA、miRNA等),狭义上指所有mRNA的集合。转录组研究是基因功能及结构研究的基础和出发点,是解读基因组功能原件和揭示细胞及组织分子组成所必需的。什么是转录组测序RNA测序又称转录组测序,就是把mRNA,smallRNA和 non-coding R

2、NA(ncRNA)全部或者其中一些用高通量测序技术进行测序分析的技术。什么是转录组测序RNA_Seq的重要分支RNA_Seq是指针对转录产物RNA的测序技术,主要有以下分支:转录组分析表达谱分析小RNA分析降解组测序针对mRNA的测序转录组测序是针对特定样品特定时期的转录mRNA的测序技术,重点在对翻译蛋白的mRNA的测序研究。The Central Dogma of Molecular BiologyThe genome is only a source of information. In order to function, it must be expressed. The trans

3、cription of genes to produce RNA is the first stage ofgene expression. The transcriptome is the complete set of RNA transcripts produced by the genome at any one time.DNA-seqRNA-seq7转录组测序兴起的背景生物信息学的大发展自从人类基因组测序完成,宣布后基因组时代的研究到来,基于测序的生物信息学发展空前爆发。转录组测序的特点应用对象灵活广泛针对不同物种,不同个体,不同时期,都可以在mRNA水平准确的分析性状或功能差异,

4、结构变异等信息。研究范围多样化从未知基因组物种,到研究成熟的人体病变组织,小鼠组织等特异组织,均可通过转录组分析进行研究。研究深度多样化从大规模功能转录本发掘到特定基因的可变剪接的不同功能分析,都可以定位研究。二、基因注释和注释库简介基因功能注释简介同源序列比对探寻基因功能比对工具blast基因功能注释数据库nr、nt、UniprotCOG、interproscan、Kegg、GOBLASTBasic Local Alignment Search Tool (BLAST)结合了动态规划算法和间接的启发式算法的优点,同时把数据库检索建立在严格的统计学基础之上,是目前最常用的同源检索工具。局部比对

5、软件比对比较精确细致用来做同源序列比对,进行基因功能注释耗时较长BLAST简介命令及参数简介建库命令(formatdb)比对类型,5种不同的比对程序程序名查询序列类型查询数据库类型应用blastp蛋白质蛋白质使用取代矩阵寻找较远关系blastn核酸核酸寻找较高分值的匹配,对较远关系不太适用blastx核酸(翻译)蛋白质用于分析新的cDNA序列或ESTtblastn蛋白质核酸(翻译)用于寻找数据库中没有标注的编码区tblastx核酸(翻译)核酸(翻译)用于更进一步的分析ESTBLAST结果简介BLAST比对结果详解14nr&ntnr(Non-redundant protein sequences

6、)包含GenBank所有编码序列,以及PDB,swissprot,PIR,PRF数据库的所有编码序列的一个非冗余数据库,数据库完整度高,氨基酸序列数据库。nt(Nucleotide collection)包含GenBank和PDB中(不包含EST,STS,GSS)的所有核苷酸序列信息,存在冗余的数据库,数据库完整度高。nr&nt比对结果nr&nt注释结果UniprotUniprot(Universal Protein Resource)UniProt是一个集中收录蛋白质资源并能与其它资源相互联系的数据库,也是目前为止收录蛋白质序列目录最广泛、功能注释最全面的一个数据库。整合三大数据库:Swis

7、sprot、TrEMBL、PIR(Protein Information Resource)。数据库组成:UniprotKB(知识库)、Uniprotarc(归档)、Uniref(参考资料库)。Uniprot简介UniProtKBProtein knowledgebase, consists of two sections:Swiss-Prot, which is manually annotated and reviewed.TrEMBL, which is automatically annotated and is not reviewed.Includes complete and r

8、eference proteome sets.UniRefSequence clusters, used to speed up sequence similarity searches.UniParcSequence archive, used to keep track of sequences and their identifiers.Uniprot数据库的最重要组成部分UniprotKB(Uniprot knowledgebase)UniProtKB/Swiss-ProtUniProtKB/Swiss-Prot主要收录人工注释的序列及其相关文献信息和经过计算机辅助分析的序列。这些注释

9、都是由专业的生物学家给出的,准确性无需置疑。注释结果全面翔实,注释包括对蛋白质功能、酶学特性、剪接异构体、相关疾病信息的注释等等。注释结果无冗余。/docs/relnotes/relstat.htmlUniprotKB/TrEMBLUniprotKB/TrEMBL主要收录的则是高质量的经计算机分析后进行自动注释和分类的序列。由于大规模测序产生的海量数据无法通过Swissprot的严谨注释思路来进行注释。TrEMBL存储了比较全面完整的物种编码序列信息。存在冗余。http:/www.ebi.ac.uk/uniprot/TrEMBLstats/Uniprot注释途径网页提交序列本地BLAST/CO

10、GClusters of Orthologous Groups of proteins (COGs)蛋白质直系同源数据库。通过对菌类,藻类和真核生物等66个完整基因组的编码蛋白,根据系统进化关系构建而成。对于预测单个蛋白的功能和整个基因组中蛋白质的功能具有重要的作用。/COG/COGKEGG注释途径网络提交任务blasthttp:/www.genome.jp/tools/blast/KEGG注释结果BLAST比对结果根据比对结果提取代谢通路图根据基因对应的KO号可以从KEGG官网得到对应的PATHWAY图片KEGG注释结果InterproscanInterproscanInterPro是一个关

11、于蛋白家族(protein families)、功能保守区域(domains)和功能位点 (funtional sites)的数据库。该数据库包括了PROSITE, PRINTS, Pfam , ProDom等知名蛋白结构和功能位点及保守域的数据库。Interproscanhttp:/www.ebi.ac.uk/Tools/pfa/iprscan/三、转录组测序技术方法及数据分析三、转录组测序技术方法转录组测序技术主要包括表达序列标签(EST)技术、表达系列分析(SAGE)技术、大规模平行测序技术(MPSS)、基因芯片和高通量测序技术。表达序列标签(EST)表达序列标签(EST)一、表达序列标

12、签简介二、EST数据分析(2) 什么是表达序列标签? (expressed sequence tag, EST) 从已建好的cDNA库中随机取出一个克隆,从5末端或3末端进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。基因组表达为RNA的序列: mRNA和功能RNA1、表达序列与表达序列标签概念(1) 什么是表达序列?EST的获得途径2、EST的用途 基因组物理图谱的绘制 基因识别的验证 基因表达谱的构建 发现新基因 电子PCR克隆 SNP(single nucleotide polymorphism)发现(1) ESTs与基因图谱的绘制基因组物理图谱的构建: 借助序列标签

13、位点(sequence-tagged sites,STS) 物理图谱也称为STS图谱 EST是一种STS1995发表的人类基因组物理图谱含有15086个STS,其中大多数为EST,平均密度为1个标记/199kb(2) ESTs与基因预测的验证某一个物种的基因组测序完成之后,首要任务是对基因组所包含的全部基因进行预测,而现有基因预测软件不能百分之百准确预测全部基因,此时需要对预测基因进行验证,每一条EST代表特定基因的部分序列,因此将预测基因同物种所有的EST进行比对,有助于基因预测的验证。(3) ESTs与基因预测( Blast数据库搜索)在同一物种中搜寻基因家族的新成员(paralogs)在

14、不同物种间搜寻功能相同的基因(orthologs)已知基因的不同剪切模式的搜寻(4) ESTs与SNP位点预测来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。 应注意区别真正的SNPs和由于测序错误而引起的本身不存在的SNPs。解决这一问题可以通过: 提高ESTs分析的准确性 对所发现的SNPs进行实验验证(5) ESTs与基因表达谱的构建.Clone反转录(可选)读取光密度聚类分析(非同源功能注释)标记杂交反转录EST分析.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表达量矩阵G1,G3,G5G2,G4G6,G9利用EST,SAG

15、E分析结果制作芯片(研究已发现的基因)连接,转化 Rice genome-wide DNA chip (60,000+预测基因) 果蝇基因芯片原位合成 (6) EST数据的不足ESTs很短,没有给出完整的表达序列;低丰度表达基因不易获得(SAGE可以解决);由于只是一轮测序结果,出错率达2%5%;有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染;有时出现镶嵌克隆;序列的冗余,导致所需要处理的数据量很大。表达序列标签(EST)一、表达序列标签简介二、EST数据分析1、cDNA文库的构建与EST数据的实验获取非标准化cDNA文库的构建标准化 cDNA文库的构建(杂交方法如扣除杂

16、交)cDNA逆转录引物检测低丰度表达基因不能用于表达谱研究适用于表达谱研究测序成本较高Oligo T引物随机引物EST技术流程体内:翻译体外研究:反转录连接,转化文库构建技术已经成熟大数据量分析理念已经形成2、EST数据库1993年前:EST收录于GenBank, EBI和DDBJ1993年 NCBI 建立dbEST常用的EST数据库数据库名称网址说明dbEST/dbEST/综合UniGene/unigene综合Gene Indices/tgi/综合(1)dbEST(database of EST) Genbank的一部分63,236,621条数据(20091016)描述:向dbEST提交数据

17、按格式编辑数据通过E-mail提交更新数据dbEST数据格式Publication文件:文献文件,文献发表信息Library文件:文库文件,实验信息Contact文件:联系人文件,联系信息EST文件:EST数据文件,核心数据在dbEST中检索数据利用Entrez检索系统登录NCBI FTP下载: /repository/dbEST 例:在Entrez中检索人类血红蛋白EST数据1). 检索栏内输入关键词,如“HBB Human”2). 检索结果访问号数据描述Gi号/数据库来源3). 检索结果的解读数据记录的编号:DN991377数据记录的描述:数据记录的格式:Genbank格式、EST格式数据

18、记录的下载:下载FASTA格式序列、下载Genbank格式的文本文件(2)UniGene数据库 Genbank的一部分一条纪录为一个gene cluster简介查询UniGene通过NCBI Ftp 下载:/repository/UniGene/使用dbEST数据库检索例:检索人类血红蛋白亚基的UniGene数据1). 检索栏内输入关键词“HBB Human”2). 获得检索结果页面3). 检索结果解读数据名称:数据描述:数据格式(主要字段):SELECTED PROTEIN SIMILARITIES:基因类中相似蛋白质集合GENE EXPRESSTION:基因表达信息SEQUECNES:与基

19、因类相关的序列,如mRNA、EST等等(3)Gene Indices数据库 The Institute of Genomic Research Database (TIGR)中的一个子库/tgi/ 简介数据构成42类动物47类植物15类原生生物10类真菌3、EST数据分析方法随机挑取克隆进行5或3端测序序列前处理聚类和拼接基因注释及功能分类去除低质量的序列(如使用Phred)应用BLAST、RepeatMasker或Crossmatch屏蔽数据组中不属于表达基因的赝象序列(artifactual sequences) 载体序列(/repository/vector) 重复序列(RepBase,

20、) 污染序列 (如核糖体RNA、细菌或其他物种的基因组DNA等)去除其中的嵌合克隆最后去除长度小于100bp的序列(1)序列前处理聚类目的:将来自同一个基因或同一个转录本的具有重叠部分(over-lapping) 的ESTs整合至单一的簇(cluster)中聚类作用: 产生较长的一致性序列(contigs) ,用于注释 降低数据的冗余,纠正错误数据。 可以用于检测选择性剪切。ESTs聚类的数据库主要有三个: UniGene (/UniGene) TIGR Gene Indices (/tdb/tgi/ ) STACK (http:/www.sanbi.ac.za/Dbases.html )(2

21、)ESTs的聚类PhrapCAP3TIGR AssemblerStaden Package(3)ESTs序列聚类拼接的主要软件 4种ESTs聚类和拼接软件比较PhrapCAP3TIGR AssemblerStaden Package应用平台UnixUnix/WindowsUnixUnix/Windows可获得性学术用户取得认证后可免费下载使用需要联系作者获取免费下载免费下载输入数据海量数据,长短reads皆可大量数据大量数据大量数据用户界面命令行命令行命令行命令行/图形界面主要应用基因组、ESTESTEST基因组、EST(4)序列注释和分析一级序列同源性比对:使用BLAST等工具蛋白质结构域和

22、功能位点搜索基因功能分类:Gene Ontology 表达量比较分析:不同组织或发育阶段基因表达量比较通路分析可变剪切分析基因表达系列分析(SAGE)一、SAGE技术原理简介基因表达系列分析(Serial Analysis of Gene Expression,SAGE): 1995,Velculescu高通量、平行性检测简介三个基本要点9-14bp的短核苷酸序列“标签”(Tag)可以特异确定一个转录本串联体(多聚体)分子批量分析mRNA 各转录本的表达水平可以用特定标签被测得的次数定量SAGE技术原理二、SAGE技术方案构建SAGE文库多聚体分子的克隆与测序标签序列的提取反转录酶切连接测序单

23、条测序相当于对3040条EST测序分析由于采样量大大提高,可对低表达基因进行分析:基因表达量分析、寻找新基因等等实验步骤较长要求较高SAGE技术方案三、SAGE技术应用前景全基因组表达谱分析与比较深入认识基因调控网络四、SAGE数据库与分析软件1. NCBI SAGE数据库 (GEO)2. SAGEnet3. The Mouse SAGE Site4. 其他SAGE数据库(一)SAGE数据库1. NCBI SAGE数据库:GEOGene Expression Omnibus,2000,NCBIGEO数据库四个基本实体 1)提交者,2)平台,3)样本,4)系列GEO简介GEO数据库查询:在Ent

24、reZ中查询Entrez GEO数据集 查询所有的实验注解 /sites/entrez?db=gds Entrez GEO表达谱查询样品和系列纪录 /sites/entrez?db=geoGEO数据库查询: 在GEO主页查询/geo/例:查询GDS325数据集的结果数据记录的相关信息Expression Profiles:表达谱数据 Data Analysis Tools:分析工具 Sample subsets:样本子集表达谱信息分析工具样本子集GEO数据分析Find genes 工具:快速寻找指定基因Cluster heatmap工具:样本层次聚类图Query Group A versus

25、B 工具:子集比较查询Experiment design and Value distribution:数据集的数值分布GEO BLAST :使用BLAST搜索感兴趣序列的表达谱数据Subset effects:子集效应,提供不同子集之间的差异信号Find genes Cluster heatmapExperiment design and Value distributionGEO数据提交与更新创建GEO账号: GEO主页点击“Create a new account”选择提交方式 Direct Deposit/Update:直接提交 Web Deposit/Update:Web交互方式提交

26、准备数据,执行提交2. SAGEnetSAGEnet是一个关于SAGE技术方法、文档、资讯以及收录SAGE数据的网络资源库/主要内容: FINDNGS:SAGE技术介绍 RESOURCES:资料及数据下载 PUBLICATIONS:SAGE出版物 CONFERENCES:相关会议信息 CONTACS US:联系获取SAGE资料/3. The MOUSE SAGE Site小鼠SGAE数据库,由捷克科学院分子遗传研究所构建http:/mouse.img.cas.cz/sage/4. 其他SAGE数据库GutSAGE: /GutSAGE/StormSAGE: /StomSAGE/GermSAGE:

27、 /germsage/home.html (二)SAGE分析软件 对SAGE数据分析主要包括从原始的序列中得到标签列表,比较来自不同组织细胞或不同生理状态乃至不同物种的标签及其出现频率,在相应数据库中搜索匹配序列,进行基因功能的分析或发现新的基因等。SAGE300与sagenet实验方案配套使用/protocol/index.htm WEBSAGE对SAGE数据进行统计分析,鉴别差异表达的标签,绘制分析结果的散点图等。http:/www2.mnhn.fr/websage/ATCG从标签序列来构建基因表达图谱/ACTG/ 接受10bp的短SAGE标签、17bp的长SAGE标签、13bp的MPSS

28、标签、16bp的MPSS或SBS标签POWER-SAGE对不同大小的样本和不同使用频率的标签的组合进行“虚拟”的SAGE实验分析,用以确定最好的实验方案邮件获取:michale.man 使用ATCG进行在线的SAGE标签数据分析新一代高通量测序技术(RNA-seq)高通量测序技术(High-throughput sequencing)是指能够一次并行对几十万到几百万条DNA分子进行序列测定,每一次序列测定的读长一般较短的测序技术。 高通量测序技术是对传统测序一次革命性的改变,一次对几十万到几百万条DNA分子进行序列测定,因此在有些文献中称其为下一代测序技术(next generation se

29、quencing),足见其划时代的改变。同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)。新一代测序技术(Next Generation Sequencing)测序通量高(测序数据产出量);测序成本低(时间和价格);代表 有454,Solexa,Hiseq 2000等;高通量转录组测序的优势高通量转录组测序优势测序通量高;测序成本低;主要的测序类型454转录组测序(读长较长,通量低,成本高);Illumina Solexa高通量测序(读长短,通量高,覆盖度更高,定量更准确,测序成本低);测序仪品牌技术原理开发商Roc

30、he 454焦磷酸测序RocheIllumina Solexa边合成边测序IlluminaABI SOLiD基于磁珠的大规模并行连接测序ABIHelicos单分子荧光测序HelicosIon Torrent半导体测序ABISMRT单分子实时测序Pacific Bio现有主要高通量测序仪转录组实验与测序原理mRNA的提取通过成熟mRNA的polyA结构提取组织样品的表达mRNA。反转录为cDNA将mRNA随机打断,通过利用反转录酶合成对应mRNA的cDNA双端测序将cDNA片段采用高通量测序仪进行Pair-End测序。双端测序cDNA片段化Solexa双端测序产生数据类型成对Reads测序一般流

31、程(Solexa)Illumina Solexa原理桥式PCR边合成边测序Sequencing by Synthesis可逆终止物HiSeq 2000Illumina Solexa 测序流程a、Solexa 测序专用的测序芯片(flow cell)表面连接有一层单链引物(Primer),单链状态的 DNA片断与芯片表面的引物通过碱基互补被一端固定在芯片上;b、通过扩增反应使得单链 DNA成为双链 DNA;文库制备:将基因组DNA打成几百个碱基(或更短)的小片段,并在两个末端加上接头(adapter)。c、双链再次变性后成为单链,其一端固定在测序芯片上,另外一端(5或 3)随机和附近的另外一个引

32、物互补,被固定住,形成“桥“(bridge);d、在测序芯片上同时有上千万 DNA 单分子发生以上的反应;e、c 中形成的单链桥,以周围的引物为扩增引物,在测序芯片表面再次进行扩增,形成双链;f、双链经变性成单链,再次形成桥,成为下一轮扩增的模板继续扩增反应;g、在反复进行 30 多轮扩增,每个单分子得到了 1000 倍扩增,成为单克隆“DNA簇群”;h、“DNA簇群”在Genome Analyzer IIx测序仪上进行序列分析;Illumina Solexa Base Calling123789456T T T T T T T G T T G C T A C G A T RNA-seq技术路

33、线文库制备测序短序列定位计数转录组数据分析流程Solexa原始数据转录组分析流程分析结果转录组分析的两种策略左边是先比对,再通过表达量和junction信息得到转录本,这种方法能够检测到低表达量的转录本;右边是对mRNA-seq的reads直接进行de novo 组装,得到转录本,但对于低表达量的转录本不易发现。转录组分析的两种策略有Reference的转录组分析以比对为基础,分析有基因组的样品的可变剪接信息,以及预测可变剪接带来的功能差异,同时定量不同样品的mRNA表达丰度进行差异基因的相关分析。无Reference的转录组分析通过测序数据组装大规模发掘对应物种的转录本信息,对组装得到转录本

34、做功能注释分析,同时定量转录本的不同丰度进行差异分析。两种分析思路原始数据Reference基因组Gff基因结构注释差异基因分析及功能注释分析有参考基因组无参考基因组聚类得到UnigeneUnigene的差异表达及功能注释分析可变剪接结果可变剪接作图TopHat+Cufflinks的可变剪接分析测序数据组装差异基因聚类分析差异基因功能注释结构预测分析差异基因聚类分析差异基因功能注释有参考基因组分析可变剪接根据软件对基因可变剪接结果做预测结合相关基因的功能进行深入的研究(性状相关.)原始数据Reference基因组Gff基因结构注释TopHat+Cufflinks的可变剪接分析可变剪接简介一个基因在转录过程中经过不同的剪接处理得到不同的mRNA从而产生不同的蛋白,是生物性状多样化的重要原因。可变剪接类型外显子跳过内含子滞留互斥外显子可变5剪接可变3剪接保守剪接类型可变剪接分析软件TopHat针对高通量RNA_Seq的序列剪接检测软件,采用短序列比对软件Bowtie进行序列比对和剪接检测。IGVIntegrative Genomics Viewer,图形化浏览结果。Cufflink

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论