系统生物学-第三讲-转录组学课件_第1页
系统生物学-第三讲-转录组学课件_第2页
系统生物学-第三讲-转录组学课件_第3页
系统生物学-第三讲-转录组学课件_第4页
系统生物学-第三讲-转录组学课件_第5页
已阅读5页,还剩387页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三讲转录组学1PPT学习交流第三讲转录组学1PPT学习交流主要内容RNA的种类和作用RNA研究方法高通量技术研究转录组学的策略转录组学研究进展microRNA研究2PPT学习交流主要内容RNA的种类和作用2PPT学习交流RNA是解读基因组的关键RNAProteinPhenotypeGenotype

DNA3PPT学习交流RNA是解读基因组的关键RNAProteinPhenotyp转录(transcription)

生物体以DNA为模板合成RNA的过程。

转录RNADNA

4PPT学习交流转录(transcription)转录RNADNA转录(Transcription):遗传信息由DNA转换到RNA的过程。作为蛋白质生物合成的第一步,转录是mRNA以及非编码RNA(tRNA、rRNA等)的合成步骤。以特定的DNA片段作为模板,以DNA依赖的核糖核酸聚合酶(RNA聚合酶或RNA合成酶)作为催化剂而合成前mRNA的过程。mRNA转录时,DNA分子双链打开,在RNA聚合酶的作用下,游离的4种核糖核苷酸按照碱基互补配对原则结合到DNA单链上,并在RNA聚合酶的作用下形成单链mRNA分子。转录本:transcript。也称为剪切体。一条基因通过不同剪接可构成不同的转录本。5PPT学习交流转录(Transcription):遗传信息由DNA转换到R参与转录的物质原料:NTP(ATP,UTP,GTP,CTP)模板:DNA酶:RNA聚合酶(RNApolymerase,RNA-pol)其他蛋白质因子6PPT学习交流参与转录的物质原料:NTP(ATP,UTP,GTP,一、RNA的种类和作用1.RNA的种类2.各类RNA的作用7PPT学习交流一、RNA的种类和作用7PPT学习交流RNA的常见种类1.核糖体RNA(rRNA)2.转运RNA(tRNA)3.信使RNA(mRNA)8PPT学习交流RNA的常见种类1.核糖体RNA(rRNA)8PPT学习交流RNA的其他种类1.不均一核RNA(hnRNA)2.小核RNA(snRNA)3.核仁小RNA(snoRNA)4.小胞质RNA(scRNA/7s-RNA)5.microRNA6.转移-信使RNA(tmRNA)7.端粒酶RNA8.反义RNA……9PPT学习交流RNA的其他种类1.不均一核RNA(hnRNA)9PPT学习核糖体RNA(rRNA)1.rRNA是核糖体的组成成分

rRNA一般与核糖体蛋白质结合在一起,形成核糖体(ribosome)如果把rRNA从核糖体上除掉,核糖体的结构就会发生塌陷。

2.定位(起始翻译)

16S的rRNA3’端有一段核苷酸序列与mRNA的前导序列是互补的,这有助于mRNA与核糖体的结合,进而起始翻译。核糖体RNA,原核生物包括5s,16s,23s,真核生物包括5s,5.8s,18s和28s,而每种rRNA各自有各自的功能。10PPT学习交流核糖体RNA(rRNA)1.rRNA是核糖体的组成成分10转运RNA(tRNA)

在蛋白质合成中作为氨基酸的载体

合成i蛋白质的原材料——20种氨基酸与mRNA的碱基之间缺乏特殊的亲和力。因此,必须用一种特殊的RNA——转运RNA(tRNA)把氨基酸搬运到核糖体上,tRNA能根据mRNA的遗传密码依次准确地把它携带的氨基酸连结起来形成多肽链。11PPT学习交流转运RNA(tRNA)在蛋白质合成中作为氨基酸的载体1信使RNA(mRNA)

作为蛋白质合成时的模板

mRNA是以DNA的一条链为模板,以碱基互补配对原则,转录而形成的一条单链。其功能就是把DNA上的遗传信息精确无误地转录下来,然后再由mRNA的碱基顺序决定蛋白质的氨基酸顺序,完成翻译,合成蛋白质。

12PPT学习交流信使RNA(mRNA)作为蛋白质合成时的模板12PPT不均一核RNA(hnRNA)概念:在真核生物中,转录形成的前体RNA中含有大量非编码序列,大约只有25%序列经加工成为mRNA,最后翻译为蛋白质。而因为未经加工的前体mRNA(pre-mRNA)在分子大小上差别很大,所以通常称为不均一核RNA。hn-RNA在受到加工之后,移至细胞质,作为mRNA而发挥其功能。而大部分的hnRNA在核内与各种特异的蛋白质形成复合体而存在着。13PPT学习交流不均一核RNA(hnRNA)概念:在真核生物中,转录形成的前小核RNA(snRNA)概念:小核RNA,也见译为核内小RNA,是含有100到300碱基的RNA,它是真核生物转录后加工过程中RNA剪接体的主要成分。功能:它参与真核生物细胞核中RNA的加工。snRNA和许多蛋白质结合在一起成为小核核糖核蛋白,参与信使RNA前体(也就是hnRNA)的剪接,使后者成为成熟mRNA。14PPT学习交流小核RNA(snRNA)概念:小核RNA,也见译为核内小RN核仁小RNA(snoRNA)

概念:核仁小分子RNA是一大类RNA分子,其大小一般在几十到几百个核苷酸,它们能与特定的蛋白质(如自身免疫抗原等)相结合生成snoRNP,在细胞中稳定存在,并且富集于核仁区,所以被称为核仁小分子RNA。功能:负责rRNA的加工(切割和修饰),参与核糖体的生物合成。15PPT学习交流核仁小RNA(snoRNA)概念:核仁小分子RNA是小胞质RNA(scRNA/7s-RNA)存在于细胞质中的小RNA分子(如信号识别颗粒组分中含有的7sRNA),是蛋白质内质网定位合成的信号识别体的组成。16PPT学习交流小胞质RNA(scRNA/7s-RNA)16PPT学习交流小RNA分子有些小RNA分子能直接调控某些基因的开关从而控制细胞的生长发育并决定细胞分化的组织类型小RNA分子本身又包含了若干类RNA,根据小RNA的生成、结构和功能大约可分为以下三类:miRNA(microRNA)siRNA(smallinterferingRNA)其他小RNA17PPT学习交流小RNA分子有些小RNA分子能直接调控某些基因的开关从而控制microRNA概念:

MicroRNAs(miRNAs)是一种大小约21—23个碱基的单链小分子RNA是由具有发夹结构的约70-90个碱基大小的单链RNA前体经过Dicer酶加工后生成。不同于siRNA,但是和siRNA密切相关。功能:microRNA通过与相应的蛋白结合,形成一个“RNA诱导的转录沉默复合体”。该复合体主要有4个作用:1.降解靶mRNA;2.抑制mRNA的翻译;3.在细胞核内募集组蛋白脱乙酰化酶等因子,沉默DNA的表达;4.扩增相应的microRNA。

对一部分miRNAs的研究分析提示:miRNAs参与生命过程中一系列的重要进程,包括早期发育,细胞增殖,细胞凋亡,细胞死亡,脂肪代谢和细胞分化。18PPT学习交流microRNA概念:MicroRNAs(miRNAs)第一个被确认的miRNA——在线虫中首次发现的lin-4和let-7,可以通过部分互补结合到目的mRNA靶的3’非编码区(3’UTRs),以一种未知方式诱发蛋白质翻译抑制,进而抑制蛋白质合成,通过调控一组关键mRNAs的翻译从而调控线虫发育进程。继线虫之后,随后多个研究小组在包括人类、果蝇、植物等多种生物物种中鉴别出数百个miRNAs。

19PPT学习交流第一个被确认的miRNA——在线虫中首次发现的lin-4和转移-信使RNA(tmRNA)tmRNA是一类具有类似tRNA分子和mRNA分子双重功能的小分子RNA,它在一种特殊的翻译模式――反式翻译模式过程中发挥重要作用。最近又发现它与基因的表达调控及细胞周期的调控等生命过程密切相关。反式翻译是细菌体内一种修复翻译水平上受阻的遗传信息表达过程的机制。20PPT学习交流转移-信使RNA(tmRNA)tmRNA是一类具有类似tRN端粒酶RNA端粒酶是一种逆转录酶,是染色体端粒的RNA序列。

功能:端粒酶是真核生物端粒复制的模板,它可以使用其部分RNA作为模板来合成端粒重复单元。在大多数真核生物中,染色体末端DNA的逐步丢失会被端粒酶所抑制。在具有端粒酶活性的细胞内,它的任务是作为反转录的模板然后加在端粒的末端以解决染色体因复制而变短的问题。这种酶在大多数细胞里是没有活性的,但在某些肿瘤细胞,转化细胞,干细胞以及生殖细胞里活性较高。21PPT学习交流端粒酶RNA21PPT学习交流反义RNA(antisenseRNA)反义RNA(antisenseRNA),可通过与靶位序列互补而与之结合的RNA,或直接阻止靶序列功能,或改变靶部位构象而影响其功能。22PPT学习交流反义RNA(antisenseRNA)22PPT学习交流RNA分析方法

23PPT学习交流RNA分析方法

23PPT学习交流mRNA检测技术核酸杂交技术原位杂交逆转录PCR(ReversetranscriptionPCR,RT-PCR)RACE24PPT学习交流mRNA检测技术24PPT学习交流northernblot25PPT学习交流northernblot25PPT学习交流放射性同位素标记物α-32P-dCTP灵敏度达0.01pg非放射性标记物地高辛灵敏度达0.1pgDIG-dUTP-----通过酶促反应掺入到DNA/RNA中去制成探针----杂交----加抗地高辛-酶的复合物—加底物—显色

探针制备26PPT学习交流放射性同位素标记物探针制备26PPT学习交流探测不同条件下的基因表达变化B.WITEK-ZAWADA,200328SrRNA18SrRNA27PPT学习交流探测不同条件下的基因表达变化B.WITEK-ZAWADA,FISH:FluorescenceInSituHybridization原位杂交28PPT学习交流FISH:FluorescenceInSituHybr原位杂交MorozLL,200629PPT学习交流原位杂交MorozLL,200629PPT学习交流30PPT学习交流30PPT学习交流RT-PCR是将RNA的反转录(RT)和cDNA的聚合酶链式扩增(PCR)相结合的技术。首先经反转录酶的作用从RNA合成cDNA,再以cDNA为模板,扩增合成目的片段。RT-PCR31PPT学习交流RT-PCR是将RNA的反转录(RT)和cDNA的聚合酶链式转录本All

transcripts

All

mRNAs32PPT学习交流转录本All

transcriptsAll

mRNAsDNARNA蛋白质基因组学RNA组学蛋白质组学33PPT学习交流DNARNA蛋白质基因组学RNA组学蛋白质组学33PPT学习转录组转录组概念由Velculescu等在1995年首次提出。转录组:广义上指一个细胞内基因组DNA转录得到的所有转录产物以及转录物在细胞特定发育时期或特定生理条件下的表达水平,包括编码RNA(mRNA)和非编码RNA(如tRNA、rRNA、snRNA、miRNA等),狭义上指所有mRNA的集合。转录组研究是基因功能及结构研究的基础和出发点,是解读基因组功能原件和揭示细胞及组织分子组成所必需的。34PPT学习交流转录组转录组概念由Velculescu等在1995年首次提出转录组的特点:受到内外多种因素的调节,因而是动态可变的。能够揭示不同物种、不同个体、不同细胞、不同发育阶段及不同生理病理状态下的基因差异表达信息。35PPT学习交流35PPT学习交流转录组学(Transcriptomics):研究细胞在某一功能状态下所含mRNA的类型与拷贝数;比较不同功能状态下mRNA表达的变化,搜寻与功能状态变化紧密相关的重要基因群。36PPT学习交流转录组学(Transcriptomics):研究细胞在某一功转录组研究的主要目的发现所有转录本种类确定基因结构确定基因表达发现差异表达基因37PPT学习交流转录组研究的主要目的发现所有转录本种类37PPT学习交流转录组测序技术主要包括:表达序列标签(EST)表达系列分析(SAGE)基因芯片(Chip)高通量测序技术(NGS)38PPT学习交流转录组测序技术主要包括:38PPT学习交流转录组测序RNA_Seq的重要分支RNA_Seq是指针对转录产物RNA的测序技术,主要有以下分支:转录组分析表达谱分析小RNA分析降解组测序针对mRNA的测序转录组测序是针对特定样品特定时期的转录mRNA的测序技术,重点在对翻译蛋白的mRNA的测序研究。39PPT学习交流转录组测序RNA_Seq的重要分支39PPT学习交流转录组测序的特点应用对象灵活广泛针对不同物种,不同个体,不同时期,都可以在mRNA水平准确的分析性状或功能差异,结构变异等信息。研究范围多样化从未知基因组物种,到研究成熟的人体病变组织,小鼠组织等特异组织,均可通过转录组分析进行研究。研究深度多样化从大规模功能转录本发掘到特定基因的可变剪接的不同功能分析,都可以定位研究。40PPT学习交流转录组测序的特点应用对象灵活广泛40PPT学习交流表达序列标签(EST)测定及分析1、什么是EST?2、EST的应用

3、EST序列测定及分析过程41PPT学习交流表达序列标签(EST)测定及分析41PPT学习交流(2)什么是表达序列标签?

(expressedsequencetag,EST)

从已建好的cDNA库中随机取出一个克隆,从5′末端或3′末端进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。基因组表达为RNA的序列:mRNA和功能RNA1、表达序列与表达序列标签概念(1)什么是表达序列?42PPT学习交流(2)什么是表达序列标签?

(expresseEST的获得途径43PPT学习交流EST的获得途径43PPT学习交流cDNA文库构建非标准化的cDNA文库的构建。(可用于基因表达量的分析)◆经标准化或扣除杂交处理的cDNA文库。(富集表达丰度较低的基因)◆Oligod(T)cDNA文库。(非翻译区由于不含有编码序列,与编码区保守序列相比所受到的选择压力比较小,因而其多态性程度比较高,便于多态性位点的选择以用于遗传图谱的构建。)◆随机引物cDNA文库。(所获得的EST在基因功能的鉴定时具有更多的信息含量,并且在构建EST数据库时更有优势,同时有利于利用EST数据库聚类完整的基因和阅读框的寻找,便于利用更敏感的蛋白质比较来寻找同源基因。)44PPT学习交流cDNA文库构建非标准化的cDNA文库的构建。(可用于基因表cDNA文库构建常见问题RNA得率低mRNA分离效率低cDNA产物少原因:多糖、多酚、内源性核酸蛋白酶、miRNA等45PPT学习交流cDNA文库构建常见问题RNA得率低45PPT学习交流原因多糖-糖蛋白(核酸蛋白酶,植物血凝素等)、多酚类等次生代谢产物在RNA分离时,经常与RNA共沉降,导致RNA丢失。或导致分离后的RNA严重不纯,影响mRNA分离的得率。内源性核酸酶存在较多的情况下,可降解双链DNA、RNA或者DNA-RNA杂合体,致使RNA易降解,转录后的DNA接头无法连接,是cDNA得率低的原因之一。miRNA的存在导致mRNA的降解46PPT学习交流原因多糖-糖蛋白(核酸蛋白酶,植物血凝素等)、多酚类等次生代大规模EST序列测定的开始1983年:Costanzo等提出EST概念的雏形1991年:Adams测定了三种人脑组织共609条EST,宣布

了cDNA大规模测序的时代的开始代1991年:Okubo等提出大规模cDNA测序的研究战略1993年:Venter等创立现在的EST技术1993年:Boguski&Schuler提出以EST为界标的人类基因组转录图谱计划47PPT学习交流大规模EST序列测定的开始1983年:Costanzo等提出

●●93年前ESTs数据收录于GenBank,EBI和DDBJ。●1993年NCBI(NationalCenterofBiotechnologyInformation)建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据。●95年中期GenBank中EST的数目超过了非EST的数目。●现在GenBank中EST的数目已经超过了三千五百万,约占GenBank中序列数的60%.48PPT学习交流●●93年前ESTs数据收录于GenBank,EBIEST数量排名前10的物种Organism ESTsHomosapiens(human) 8,301,471Musmusculus+domesticus(mouse)4,852,146Zeamays(maize) 2,018,798Bostaurus(cattle) 1,620,962Arabidopsisthaliana(thalecress) 1,559,485Daniorerio(zebrafish) 1,527,299Glycinemax(soybean) 1,481,930Xenopustropicalis(westernclawedfrog)1,422,983Oryzasativa(rice) 1,271,375Cionaintestinalis(玻璃海鞘)1,249,11049PPT学习交流EST数量排名前10的物种Organism EST技术流程体内:翻译体外研究:反转录连接,转化转化效率问题(基因芯片)文库构建技术已经成熟测序采样问题(SAGE)测序成本已经大大降低大数据量分析理念已经形成50PPT学习交流EST技术流程体内:翻译体外研究:反转录连接,转化转化效率问ESTs的应用ESTs与基因识别

ESTs已经被广泛的应用于基因识别,因为ESTs的数目比GenBank中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因(Boguskietal.,1994).

在同一物种中搜寻基因家族的新成员(paralogs)。

在不同物种间搜寻功能相同的基因(orthologs)。

已知基因的不同剪切模式的搜寻。【注:不过很难确定一个新的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组DNA序列(Wolfsbergetal.,1997)】51PPT学习交流ESTs的应用ESTs与基因识别51PPT学习交流ESTs与基因图谱的绘制

EST可以借助于序列标签位点(sequence-taggedsites)用于基因图谱的构建.STS本身是从人类基因组中随机选择出来的长度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。来自mRNA的3’非翻译区的ESTs更适合做为STSs,用于基因图谱的绘制。其优点主要包括:●由于没有内含子的存在,因此在cDNA及基因组模板中其PCR产物的大小相同;●与编码区具有很强的保守性不同,3’UTRs序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。(JamesSikela等,1991年)52PPT学习交流ESTs与基因图谱的绘制52PPT学习交流ESTs与基因预测由于EST来源于cDNA,因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。使用合适的比对参数,大于90%的已经注释的基因都能在EST库中检测到(Baileyetal.,1998)。ESTs可以做为其它基因预测算法的补充,因为它们对预测基因的交替剪切和3‘非翻译区很有效。53PPT学习交流ESTs与基因预测53PPT学习交流ESTs与SNPs

来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs(Buetowetal.,1999;Gargetal.,1999;Marthetal.,1999;Picoult-Newbergetal.,1999)。应注意区别真正的SNPs和由于测序错误(ESTs为单向测序得来,错误率可达2%)而引起的本身不存在的SNPs。解决这一问题可以通过:●提高ESTs分析的准确性。●对所发现的SNPs进行实验验证。54PPT学习交流ESTs与SNPs54PPT学习交流利用ESTs大规模分析基因表达水平

因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到,所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。◆

CGAP

为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析计划(CancerGenomeAnatomyProject,CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行了大规模的EST测序,其中大部分的文库未经标准化或差减杂交处理。◆基因表达系列分析(SerialAnalysisofGeneExpression,SAGE)

基因表达系列分析是一种用于定量,高通量基因表达分析的实验方法(Velculescuetal.,1995)。SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签(约9-21个碱基对),这些短的序列被连接、克隆和测序,特定的序列标签的出现次数就反应了对应的基因的表达丰度。◆

DNA微阵列或基因芯片的研究高密度寡核苷酸cDNA芯片或cDNA微阵列是一种新的大规模检测基因表达的技术,具有高通量分析的优点。在许多情况下,cDNA芯片的探针来源于3'EST(Dugganetal.,1999),所以EST序列的分析有助于芯片探针的设计。55PPT学习交流利用ESTs大规模分析基因表达水平55PPT学习交流ESTs数据的不足ESTs很短,没有给出完整的表达序列;低丰度表达基因不易获得。由于只是一轮测序结果,出错率达2%-5%;有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染;有时出现镶嵌克隆;序列的冗余,导致所需要处理的数据量很大。56PPT学习交流ESTs数据的不足ESTs很短,没有给出完整的表达序列;56EST数据库1993年前:EST收录于GenBank,EBI和DDBJ1993年NCBI建立dbEST57PPT学习交流EST数据库1993年前:EST收录于GenBank,EB常用的EST数据库数据库名称网址说明dbEST综合UniGene综合GeneIndices综合58PPT学习交流常用的EST数据库数据库名称网址说明dbEST综合UniGe(1)dbEST(databaseofEST)

Genbank数据库的一部分描述:Publication文件:文献文件,文献发表信息Library文件:文库文件,实验信息Contact文件:联系人文件,联系信息EST文件:EST数据文件,核心数据59PPT学习交流(1)dbEST(databaseofEST)(2)UniGene数据库Genbank数据库的一部分一条纪录为一个genecluster简介查询UniGene通过NCBIFtp下载:使用dbEST数据库检索60PPT学习交流(2)UniGene数据库Genbank数据(3)GeneIndices数据库

TheInstituteofGenomicResearchDatabase(TIGR)中的一个子库

简介数据构成42类动物47类植物15类原生生物10类真菌61PPT学习交流(3)GeneIndices数据库TheEST数据分析方法随机挑取克隆进行5′或3′端测序序列前处理聚类和拼接基因注释及功能分类62PPT学习交流EST数据分析方法随机挑取克隆进行5′或3′端测序序列前处理去除低质量的序列(如使用Phred)应用BLAST、RepeatMasker或Crossmatch屏蔽数据组中不属于表达基因的赝象序列(artifactualsequences)

载体序列()

●重复序列(RepBase,)

●污染序列(如核糖体RNA、细菌或其他物种的基因组DNA等)去除其中的嵌合克隆最后去除长度小于100bp的序列(1)序列前处理63PPT学习交流去除低质量的序列(如使用Phred)(1)序列前处理63PP聚类目的:将来自同一个基因或同一个转录本的具有重叠部分(over-lapping)的ESTs整合至单一的簇(cluster)中聚类作用:

●产生较长的一致性序列(contigs),用于注释●降低数据的冗余,纠正错误数据。●可以用于检测选择性剪切。ESTs聚类的数据库主要有三个:●UniGene()●TIGRGeneIndices()●STACK()(2)ESTs的聚类64PPT学习交流聚类目的:将来自同一个基因或同一个转录本的具有重叠部分(ovESTs的聚类和拼接

聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(over-lapping)的ESTs整合至单一的簇(cluster)中。聚类作用:产生较长的一致性序列(consensussequence),用于注释。降低数据的冗余,纠正错误数据。可以用于检测选择性剪切。基因表达谱分析ESTs聚类的数据库主要有三个:

UniGene()TIGRGeneIndices()STACK()

65PPT学习交流ESTs的聚类和拼接65PPT学习交流不严格的和严格的聚类(looseandstringentclustering)◆looseclustering●产生的一致性序列比较长●表达基因ESTs数据的覆盖率高●含有同一基因不同的转录形式,如各种选择性剪接体●每一类中可能包含旁系同源基因(paralogousexpressedgene)的转录本●序列的保真度低◆stringentclustering●产生的一致性序列比较短●表达基因ESTs数据的覆盖率低●因此所含有的同一基因的不同转录形式少●序列保真度高

66PPT学习交流不严格的和严格的聚类(looseandstringen(ESTclusteringtutorial,)有参照的和无参照的聚类(Supervisedandunsupervisedclustering)◆Supervisedclustering

根据已知的参考序列(如全长mRNA、已拼接好的一致性序列)聚类。◆

Unsupervisedclustering

没有根据参考序列进行分类。

67PPT学习交流(ESTclusteringtutorial,)有参照Cluster的连接利用cDNA克隆的信息和5’,3’端Reads的信息,不同的Cluster可以连接在一起。68PPT学习交流Cluster的连接利用cDNA克隆的信息和5’,3’端Re聚类问题错拼poly(A),Linker-to-linker,GeneFamilies,repeat漏拼Lowquality,Linker-to-linker,repeat选择性剪切polyAlinker69PPT学习交流聚类问题错拼polyAlinker69PPT学习交流(3)序列注释和分析一级序列同源性比对:使用BLAST等工具蛋白质结构域和功能位点搜索基因功能分类:GeneOntology

表达量比较分析:不同组织或发育阶段基因表达量比较通路分析可变剪切分析70PPT学习交流(3)序列注释和分析一级序列同源性比对:使用BLAST等工具

较好匹配InterproScanNtBlastnESTsequencesNrBlastx完成注释无理想匹配较好匹配完成注释无理想匹配较好匹配无理想匹配Newsequences域的注释后续分析常用的基因注释流程71PPT学习交流较好匹配InterproScanNtBlastnESTBLASTBasicLocalAlignmentSearchTool(BLAST)结合了动态规划算法和间接的启发式算法的优点,同时把数据库检索建立在严格的统计学基础之上,是目前最常用的同源检索工具。局部比对软件比对比较精确细致用来做同源序列比对,进行基因功能注释耗时较长72PPT学习交流BLASTBasicLocalAlignmentSeaBLAST简介命令及参数简介比对类型,5种不同的比对程序在线比对和本地比对程序名查询序列类型查询数据库类型应用blastp蛋白质蛋白质使用取代矩阵寻找较远

关系blastn核酸核酸寻找较高分值的匹配,

对较远关系不太适用blastx核酸(翻译)蛋白质用于分析新的cDNA序列

或ESTtblastn蛋白质核酸(翻译)用于寻找数据库中没有

标注的编码区tblastx核酸(翻译)核酸(翻译)用于更进一步的分析EST73PPT学习交流BLAST简介命令及参数简介程序名查询序列类型查询数据库类型BLAST结果简介BLAST比对结果详解7474PPT学习交流BLAST结果简介BLAST比对结果详解7474PPT学习交nr&ntnr(Non-redundantproteinsequences)包含GenBank所有编码序列,以及PDB,swissprot,PIR,PRF数据库的所有编码序列的一个非冗余数据库,数据库完整度高,氨基酸序列数据库。nt(Nucleotidecollection)包含GenBank和PDB中(不包含EST,STS,GSS)的所有核苷酸序列信息,存在冗余的数据库,数据库完整度高。75PPT学习交流nr&ntnr(Non-redundantproteinUniprotUniprot(UniversalProteinResource)UniProt是一个集中收录蛋白质资源并能与其它资源相互联系的数据库,也是目前为止收录蛋白质序列目录最广泛、功能注释最全面的一个数据库。整合三大数据库:Swissprot、TrEMBL、PIR(ProteinInformationResource)。数据库组成:UniprotKB(知识库)、Uniprotarc(归档)、Uniref(参考资料库)。76PPT学习交流UniprotUniprot(UniversalProteUniprot简介UniProtKBProteinknowledgebase,consistsoftwosections:Swiss-Prot,whichismanuallyannotatedandreviewed.TrEMBL,whichisautomaticallyannotatedandisnotreviewed.Includescompleteandreferenceproteomesets.UniRefSequenceclusters,usedtospeedupsequencesimilaritysearches.UniParcSequencearchive,usedtokeeptrackofsequencesandtheiridentifiers.Uniprot数据库的最重要组成部分UniprotKB(Uniprotknowledgebase)77PPT学习交流Uniprot简介UniProtKBProteinknowUniProtKB/Swiss-ProtUniProtKB/Swiss-Prot主要收录人工注释的序列及其相关文献信息和经过计算机辅助分析的序列。这些注释都是由专业的生物学家给出的,准确性无需置疑。注释结果全面翔实,注释包括对蛋白质功能、酶学特性、剪接异构体、相关疾病信息的注释等等。注释结果无冗余。78PPT学习交流UniProtKB/Swiss-ProtUniProtKB/UniprotKB/TrEMBLUniprotKB/TrEMBL主要收录的则是高质量的经计算机分析后进行自动注释和分类的序列。由于大规模测序产生的海量数据无法通过Swissprot的严谨注释思路来进行注释。TrEMBL存储了比较全面完整的物种编码序列信息。存在冗余。79PPT学习交流UniprotKB/TrEMBLUniprotKB/TrEMUniprot注释途径网页提交序列本地BLAST80PPT学习交流Uniprot注释途径网页提交序列80PPT学习交流COG81PPT学习交流COG81PPT学习交流

82PPT学习交流82PPT学习交流KEGG注释途径网络提交任务blast83PPT学习交流KEGG注释途径网络提交任务83PPT学习交流KEGG注释结果BLAST比对结果根据比对结果提取代谢通路图根据基因对应的KO号可以从KEGG官网得到对应的PATHWAY图片84PPT学习交流KEGG注释结果BLAST比对结果84PPT学习交流KEGG注释结果85PPT学习交流KEGG注释结果85PPT学习交流InterproscanInterproscanInterPro是一个关于蛋白家族(proteinfamilies)、功能保守区域(domains)和功能位点(funtionalsites)的数据库。该数据库包括了PROSITE,PRINTS,Pfam,ProDom等知名蛋白结构和功能位点及保守域的数据库。86PPT学习交流InterproscanInterproscan86PPT学Interproscan87PPT学习交流Interproscan87PPT学习交流

基因注释数据库注释上的基因所占比例TIGROGI(ver17)712694.3TIGRPseudoMolecule(ver5)615181.4NCBIUNIGENE(ver62)671488.8NCBInrproteindatabase583177.293-11BGI_Scan585477.5Uniprotproteindatabase362848.0TIGRtoGO456560.4KEGGAutomaticAnnotationServer94512.5一共有7250(95.9%)的unigenes被注释。

88PPT学习交流基因注释数据库注释上所占TIGROGI(ver17)7

技术路线cDNA文库构建随机测序得到EST序列读取与处理序列拼接和注释表达丰度和功能分析表达谱特征分析表达量在不同文库中的分布表达谱的比较分析差异表达基因鉴定与分类功能分析作用机理分析Q-PCR验证89PPT学习交流技术路线cDNA文库构建随机测序得到EST序列读取与处理序

EST软件平台EST序列库/序列的质量检查测序量监控聚类和拼接检查(借助于基因组信息)全长ORF寻找发现全长基因研究表达基因概况的主要实验手段(DNAchip、proteomics的先驱)功能分类表达量分析交替剪接检测EST特有信息90PPT学习交流EST软件平台EST序列库/序列的质量检查测序量监控聚类Microarray和GeneChip大规模表达谱或全景式表达谱(globalexpressionprofile):是生物体(组织、细胞)在某一状态下基因表达的整体状况。微阵列或基因芯片(DNAchip):利用光导化学合成、照相平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸探针,并与放射性同位素或荧光物标记的来自不同细胞、组织或整个器官的DNA或mRNA反转录生成的第一链cDNA进行杂交,然后用特殊的检测系统对每个杂交点进行定量分析。91PPT学习交流Microarray和GeneChip大规模表达谱或全景式表SpottedMicroarrayscDNAArraysOligoArrays

InSituOligoSynthesisPhotosynthesisPlanersurfaceMicrofluidicschipE-fieldsynthesisIntegratedChips

IntegrateduF,microarrayanddetectionchipswithPCR,fluorescenceore-detectionMicrofluidicsPlasticsCeramicsSiliconOthermaterials不同的生物芯片技术平台点样芯片原位合成芯片微流体芯片整合型芯片92PPT学习交流SpottedMicroarraysInSituOli基因芯片的探针93PPT学习交流基因芯片的探针93PPT学习交流TaggedRNAfragmentsflushedoverarrayLaseractivationoffluorescenttagsOpticalscanningofhybridizationintensities基因芯片的杂交实验94PPT学习交流TaggedRNAfragmentsflushedoExperimentaloverview:HybridizationWashingScancy5channelScancy3channel“Overlayimages”Quantifypixelintensities.CellpopulationACellpopulationBRNAextractionAABBReversetranscriptionAABBKlenowlabelincorporationSampleBlabelledwithcy3dyeSampleAlabelledwithcy5dye95PPT学习交流Experimentaloverview:Hybridiz图像扫描Cy5Cy396PPT学习交流图像扫描Cy5Cy396PPT学习交流LimitofDetection:1in30,000transcripts

~20transcripts/cellRed–increaseofCy5sampletranscriptsGreen–increaseofCy3sampletranscriptsYellow–equalabundance97PPT学习交流LimitofDetection:1in30,00差异表达基因筛选原理:采用cy3/cy5的ratio值对差异基因进行判断,或采用统计方法对差异基因进行统计推断。方法:倍数法:cy3/cy5比值大于2或者小于0.598PPT学习交流差异表达基因筛选原理:采用cy3/cy5的ratio值对差异

基因芯片或微阵列技术流程….….Clone反转录(可选)读取光密度聚类分析(非同源功能注释)标记杂交反转录EST分析………….………….………….GeneChip0.10.060.050.04…000.070.01…表达量矩阵G1,G3,G5G2,G4G6,G9…利用EST,SAGE分析结果制作芯片(研究已发现的基因)连接,转化Ricegenome-wideDNAchip(60,000+预测基因)

果蝇基因芯片…原位合成

99PPT学习交流基因芯片或微阵列技术流程….Clone反转录(可选高通量测序转录组研究策略100PPT学习交流高通量测序转录组研究策略100PPT学习交流高通量测序中重要名词解释1、测序深度:测序得到的总碱基数与待测基因组大小的比值。假设一个基因组大小为7M,测序总碱基数为70M,则测序深度为10×。2、覆盖度:测序获得的序列占整个基因组的比例。由于基因组中高GC含量,重复序列等复杂结构的存在,测序最终拼接组装的序列往往无法覆盖所有的区域,这些区域就叫做Gap。二者的关系:测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。当测序深度在10~15X以上时,基因组覆盖度和测序错误率控制均得以保证。101PPT学习交流高通量测序中重要名词解释1、测序深度:测序得到的总碱基数与待RNA-seq技术路线文库制备测序短序列定位计数102PPT学习交流RNA-seq技术路线文库制备测序短序列定位计数102PPTWorkflowofRNA-Seq样品检测文库制备ClusterStationIlluminaSequencing生物信息分析103PPT学习交流WorkflowofRNA-Seq样品检测103PPT学TotalRNA样品检测

Agilent2200检测OD260/280:1.8~2.2RNA28S:18S≥1.0;RIN≥7

新型安捷伦2200TapeStation

系统是新一代测序(NGS)、生物微阵列芯片分析和qPCR工流程以及蛋白质纯化和抗体生产过程中对生物样品进行质量控制(QC)的理想解决方案。●

可扩展的通量—16联或96孔微量滴定板●

快速得到结果—平均每个样品只需一分钟便可获得结果●

使用简单—可直接使用的ScreenTape预制胶条简化了工作流程●

样品用量少—每次运行仅需要不到2ul样品104PPT学习交流TotalRNA样品检测Agilent2200真核mRNA的纯化mRNA的纯化主要通过的磁珠与生物素吸附原理从而分离纯化Oligo(dT)25磁珠纯化原理主要是mRNA的3′的polyA与磁珠在bindingbuffer的作用下相结合。磁珠通过MPC(磁分离器)从溶液中分离出来。mRNA与磁珠结合后,再用Tris-HCL在加热条件下解离洗脱到溶液中。链霉亲合素包被磁珠+生物素标记Oligo(dT)25+poly(A)105PPT学习交流真核mRNA的纯化mRNA的纯化主要通过的磁珠与生物素吸附原原核mRNA的纯化AmbionMICROExpressKitLNA扣锁型探针106PPT学习交流原核mRNA的纯化AmbionMICROExpressKmRNA反转录---fragment+RT纯化过的mRNA样品加入1µl的fragmentbuffer70℃作用1.5min。加入1µl的stopbuffer终止反应。加入沉淀剂(NaAc糖原无水乙醇)沉淀产物。RTdscDNA107PPT学习交流mRNA反转录---fragment+RT纯化过的mRNA样末端修复(防止自连)cDNA3′末端加AAdapter连接108PPT学习交流末端修复(防止自连)108PPT学习交流第一天消化DNAmRNA的分离mRNA的打断cDNA的合成↓↓第二天末端修复↓↓加接头胶回收3’端加A第三天PCRPCR胶回收↓↓

文库制备↓↓文库质量检测:Aligent2100:片段大小、纯度、浓度qPCR:片段大小、浓度手工检测:跑胶验证。109PPT学习交流第一天消化DNAmRNA的分离mRNA的打断cDNA的合成↓ApplicationRNA-Seq(单端测序---Quantification)RNA-Seq

(双端测序---Transcriptome)Expression-profiling√√AlternativeSplicing-√FusionGene-√SNPdetection-√HiSeq2500ApplicationsofRNA-Seq110110PPT学习交流ApplicationRNA-SeqRNA-SeqExpr转录组分析的两种策略左边是先比对,再通过表达量和junction信息得到转录本,这种方法能够检测到低表达量的转录本;右边是对mRNA-seq的reads直接进行denovo组装,得到转录本,但对于低表达量的转录本不易发现。111PPT学习交流转录组分析的两种策略左边是先比对,再通过表达量和juncti转录组分析的两种策略有Reference的转录组分析以比对为基础,分析有基因组的样品的可变剪接信息,以及预测可变剪接带来的功能差异,同时定量不同样品的mRNA表达丰度进行差异基因的相关分析。无Reference的转录组分析通过测序数据组装大规模发掘对应物种的转录本信息,对组装得到转录本做功能注释分析,同时定量转录本的不同丰度进行差异分析。112PPT学习交流转录组分析的两种策略有Reference的转录组分析112P两种分析思路原始数据Reference基因组Gff基因结构注释差异基因分析及功能注释分析有参考基因组无参考基因组聚类得到UnigeneUnigene的差异表达及功能注释分析TopHat+Cufflinks的可变剪接分析测序数据组装113PPT学习交流两种分析思路原始数据Reference基因组差异基因分析及功有参考基因组分析可变剪接根据软件对基因可变剪接结果做预测结合相关基因的功能进行深入的研究(性状相关..)原始数据Reference基因组Gff基因结构注释TopHat+Cufflinks的可变剪接分析114PPT学习交流有参考基因组分析可变剪接原始数据Reference基因组To可变剪接简介一个基因在转录过程中经过不同的剪接处理得到不同的mRNA从而产生不同的蛋白,是生物性状多样化的重要原因。115PPT学习交流可变剪接简介一个基因在转录过程中经过不同的剪接处理得到不同的可变剪接类型外显子跳过内含子滞留互斥外显子可变5’剪接可变3’剪接保守剪接类型116PPT学习交流可变剪接类型外显子跳过内含子滞留互斥外显子可变5’剪接可变3可变剪接分析软件TopHat针对高通量RNA_Seq的序列剪接检测软件,采用短序列比对软件Bowtie进行序列比对和剪接检测。Cufflinks利用Tophat的检测结果和测序Reads的比对情况组装构建转录本并进行表达丰度分析的软件。117PPT学习交流可变剪接分析软件TopHat117PPT学习交流新基因的发现新的编码区域的定位通过比对结果发现原本无基因注释的区域出现了编码mRNA的序列新基因的功能注释分析对新基因的序列做功能注释118PPT学习交流新基因的发现新的编码区域的定位118PPT学习交流无参考基因组分析数据的组装Orf预测SSR分析通过BLAST做基因功能注释分析原始数据聚类得到Unigene测序数据组装119PPT学习交流无参考基因组分析数据的组装原始数据聚类得到Unigene测序测序数据组装组装基本原理基于测序reads之间的overlap进行的序列组装组装软件简介TrinityTransabyssSOAP-Trans120PPT学习交流测序数据组装组装基本原理120PPT学习交流Trinity简介TrinityTrinity是一个组装构建无Reference全长转录本的组装软件,专门针对高通量RNA测序设计的,组装效果较好。121PPT学习交流Trinity简介Trinity121PPT学习交流基因表达聚类分析转录组学方法的应用导致基因表达数据爆炸性增长。如何对这些数据进行分析,从中提取有意义的生物学信息,已成为转录组学的研究热点和技术瓶颈。聚类分析技术能将待处理的对象分配到相应的聚类中,使得同一聚类中的对象差别较小,不同聚类之间的对象差别较大。聚类分析技术在转录组学研究中,非常适合大批量分析基因群的功能。

122PPT学习交流基因表达聚类分析转录组学方法的应用导致基因表达数据爆炸性增长有参考基因组序列信息分析流程123PPT学习交流有参考基因组序列信息分析流程123PPT学习交流Reads在基因组上的分布124PPT学习交流Reads在基因组上的分布124PPT学习交流基因结构优化

通过转录组测序鉴定出酵母3’和5’UTR区域125PPT学习交流基因结构优化通过转录组测序鉴定出酵母3’和5

鉴定基因可变剪接exon1exon2exon3exon1exon2exon3exon1exon3commonreadsjunctionreadsmRNA126PPT学习交流鉴定基因可变剪接exon1exon2ex鉴定融合基因127PPT学习交流鉴定融合基因127PPT学习交流新转录本预测GenomicintergenicregionReadsclusterPairedReadsdistributionPaired-End(PE)Reads128PPT学习交流新转录本预测GenomicintergenicregSNP分析129PPT学习交流SNP分析129PPT学习交流DeepRNAsequencingatsinglebase-pairresolution

revealshighcomplexityofthericetranscriptomeRiceTranscriptomeMaterial

callus

rootatseedlingstage(14d)

shootatseedlingstage(14d)

flagleaves(2stages)

panicle(3stages)Methods

RNASeq(paired-end&singleend)

DGE

smallRNA(18-30nt)基因功能注释基因结构分析鉴定出大量新转录本可变剪接鉴定基因融合鉴定130PPT学习交流DeepRNAsequencingatsingle无参考基因组生物信息分析Unigene功能注释Unigene的GO分类Unigene代谢通路分析预测编码蛋白框(CDS)Unigene表达差异分析Unigene在样品间的差异GO分类和Pathway富集性分析131PPT学习交流无参考基因组生物信息分析Unigene功能注释131PPT学Denovoreads组装流程132PPT学习交流Denovoreads组装流程132PPT学习交流UnigeneGO分类133PPT学习交流UnigeneGO分类133PPT学习交流UnigeneCOG功能分类134PPT学习交流UnigeneCOG功能分类134PPT学习交流基因表达差异分析N1:totaltagNumberinsampleAN2:totaltagNumberinsampleBX:GeneexpressionlevelinsampleAy:GeneexpressionlevelinsampleBReference:AudicS.etal.Thesignificanceofdigitalgeneexpressionprofiles.GenomeRes.19977(10):986-995

135PPT学习交流基因表达差异分析N1:totaltagNumberinUnigenepathway富集性分析136PPT学习交流Unigenepathway富集性分析136PPT学习交Pathway富集性分析列表137PPT学习交流Pathway富集性分析列表137PPT学习交流138PPT学习交流138PPT学习交流GenomeRes2010Case

实验材料收集:

叶片,花序,果实,根时间点:0,4,8,12,16,20和24h将每个时间点采集的样品均匀混合测序策略:

Illumina测序,1Gdata139PPT学习交流GenomeRes2010Case实验材料收集:1.Highlight2.Heat3.Cold4.Salt5.Drought抗逆相关可变剪接140PPT学习交流1.Highlight2.Heat3外包膜蛋白16(AT2G28900)Intron-retentionControlLowTemperatureResistance低温胁迫相关的AS低温胁迫下这个内含子和对照相比被保留了下来,揭示了可变剪接有重要功能。141PPT学习交流外包膜蛋白16(AT2G28900)Intron-reteAS调节机制CCA1生物钟相关基因,例如调节气孔的开关等142PPT学习交流AS调节机制CCA1生物钟相关基因,例如调节气孔的开关等14RNA-Seq单端测序(Quantification)生物信息分析内容测序数据评估筛选差异表达基因表达模式聚类分析GO功能富集分析Pathway富集分析蛋白互作网络分析143PPT学习交流RNA-Seq单端测序(Quantification)测序数RNA-Seq单端测序(Quantification)信息分析流程144PPT学习交流RNA-Seq单端测序(Quantification)信息分RNA-Seq与基因芯片优缺点比较技术优点缺点RNA-seq1)检测基因数比基因芯片多25%2)定量准,可重复性高(重复相关系数≥0.99)3)数字化信号,无背景噪音,无交叉杂交4)高、低丰度基因均可检测5)不受研究物种限制,模式生物和非模式生物均可检测6)数据可与时俱进,即随数据库更新而更新7)具有较好的分析兼容性,数据格式与芯片相同,可与芯片的分析软件兼容1)样本要求量比基因芯片多2)数据量大,需要具备一定的生物信息分析基础,才能更好的挖掘数据蕴含的丰富信息基因芯片1)平台应用较早2)信息分析软件较多3)有些平台要求样品量少1)检测灵敏度较低、重复性差、检测阈值较狭窄2)有背景噪音,假阳性率>1%3)受物种限制,只能检测部分模式生物4)受基因拷贝数限制,无法检测出低丰度基因5)只能检测已知转录本,无法检测出新转录本6)受数据库数据所限,因探针依靠现有数据库或比较旧的版本的数据库来设计的,可能出现注释不准确的情况145PPT学习交流RNA-Seq与基因芯片优缺点比较技术优点缺点1)检测基因数casePlantPhysiology2010取样:

选取在成熟季节开花后5,10,和15个星期葡萄分别代表葡萄果实成熟中的三个时期(postsetting,ve´raison和ripening)数据量:

超过59Mreads数据,

长度在36-44bp之间运用RNA-Seq技术对葡萄果实发育过程中复杂转录特征的研究。146PPT学习交流casePlantPhysiology2010取样:表二reads在基因组上的分布情况表一

测序数据葡萄RNA-Seq单端测序147PPT学习交流表二reads在基因组上的分布情况表一测序数据葡萄R浆果发育三个阶段共有、特有基因表达分布图基因表达量分布148PPT学习交流浆果发育三个阶段共有、特有基因表达分布图基因表达量分布148表达簇的分类分布情况差异表达的基因GO功能注释---分成了19个功能类群---按照基因在三个不同时期的表达趋势进行分类,分成8个cluster。将基因的表达和它调控的一个生理功能联系在了一起。149PPT学习交流表达簇的分类分布情况差异表达的基因GO功能注释---分成了1RNA-Seq对浆果标记基因的验证用RNA-Seq的数据去验证已报到的十个浆果成熟期的mark基因。事实上从其它方法得到的数据去验证了RNA-Seq数据的准确性。150PPT学习交流RNA-Seq对浆果标记基因的验证用RNA-Seq的数据去验RNA-Seq结果与RT-PCR具有高度一致性RT-PCR验证结果151PPT学习交流RNA-Seq结果与RT-PCR具有高度一致性RT-PCR验152转录组研究技术横向比较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论