版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三讲 转录组学第1页主要内容RNA种类和作用RNA研究方法高通量技术研究转录组学策略转录组学研究进展microRNA研究第2页RNA是解读基因组关键RNAProteinPhenotypeGenotype DNA第3页转录(transcription) 生物体以DNA为模板合成RNA过程 。 转录RNADNA 第4页转录(Transcription):遗传信息由DNA转换到RNA过程。作为蛋白质生物合成第一步,转录是mRNA以及非编码RNA(tRNA、rRNA等)合成步骤。以特定DNA片段作为模板,以DNA依赖核糖核酸聚合酶(RNA聚合酶或RNA合成酶)作为催化剂而合成前mRNA过程。mRNA
2、转录时,DNA分子双链打开,在RNA聚合酶作用下,游离4种核糖核苷酸按照碱基互补配对标准结合到DNA单链上,并在RNA聚合酶作用下形成单链mRNA分子。转录本:transcript。也称为剪切体。一条基因经过不一样剪接可组成不一样转录本。第5页参加转录物质原料: NTP(ATP, UTP, GTP, CTP)模板: DNA酶: RNA聚合酶(RNA polymerase, RNA-pol)其它蛋白质因子第6页一、RNA种类和作用1. RNA种类2. 各类RNA作用第7页RNA常见种类1.核糖体RNA(rRNA)2.转运RNA(tRNA)3.信使RNA (mRNA)第8页RNA其它种类1.不均一
3、核RNA(hnRNA)2.小核RNA(snRNA)3. 核仁小RNA(snoRNA)4.小胞质RNA(scRNA/7s-RNA)5. microRNA6.转移-信使RNA(tmRNA)7.端粒酶RNA8.反义RNA第9页核糖体RNA(rRNA)1. rRNA是核糖体组成成份 rRNA普通与核糖体蛋白质结合在一起,形成核糖体(ribosome) 假如把rRNA从核糖体上除掉,核糖体结构就会发生塌陷。 2. 定位(起始翻译) 16 SrRNA3端有一段核苷酸序列与mRNA前导序列是互补,这有利于mRNA与核糖体结合,进而起始翻译。 核糖体RNA,原核生物包含5s,16s,23s,真核生物包含5s,
4、5.8s,18s和28s,而每种rRNA各自有各自功效。第10页转运RNA(tRNA) 在蛋白质合成中作为氨基酸载体 合成i蛋白质原材料20种氨基酸与mRNA碱基之间缺乏特殊亲和力。所以,必须用一个特殊RNA转运RNA(tRNA)把氨基酸搬运到核糖体上,tRNA能依据mRNA遗传密码依次准确地把它携带氨基酸连结起来形成多肽链。 第11页信使RNA(mRNA) 作为蛋白质合成时模板 mRNA是以DNA一条链为模板,以碱基互补配对标准,转录而形成一条单链。其功效就是把DNA上遗传信息准确无误地转录下来,然后再由mRNA碱基次序决定蛋白质氨基酸次序,完成翻译,合成蛋白质。 第12页不均一核RNA(h
5、nRNA)概念:在真核生物中,转录形成前体RNA中含有大量非编码序列,大约只有25%序列经加工成为mRNA,最终翻译为蛋白质。而因为未经加工前体mRNA(pre-mRNA)在分子大小上差异很大,所以通常称为不均一核RNA 。hn-RNA在受到加工之后,移至细胞质,作为mRNA而发挥其功效。而大部分hnRNA在核内与各种特异蛋白质形成复合体而存在着。 第13页小核RNA(snRNA)概念:小核RNA,也见译为核内小RNA,是含有100到300碱基RNA,它是真核生物转录后加工过程中RNA剪接体主要成份。 功效:它参加真核生物细胞核中RNA加工。snRNA和许多蛋白质结合在一起成为小核核糖核蛋白,
6、参加信使RNA前体(也就是hnRNA)剪接,使后者成为成熟mRNA。 第14页核仁小RNA(snoRNA) 概念:核仁小分子RNA是一大类RNA分子,其大小普通在几十到几百个核苷酸,它们能与特定蛋白质(如本身免疫抗原等)相结合生成snoRNP,在细胞中稳定存在,而且富集于核仁区,所以被称为核仁小分子RNA。 功效:负责rRNA加工(切割和修饰) ,参加核糖体生物合成。第15页小胞质RNA(scRNA/7s-RNA)存在于细胞质中小RNA分子(如信号识别颗粒组分中含有7sRNA),是蛋白质内质网定位合成信号识别体组成。第16页小RNA分子有些小RNA分子能直接调控一些基因开关从而控制细胞生长发育
7、并决定细胞分化组织类型小RNA分子本身又包含了若干类RNA,依据小RNA 生成、结构和功效大约可分为以下三类:miRNA (microRNA)siRNA (small interfering RNA)其它小RNA第17页microRNA概念: MicroRNAs (miRNAs)是一个大小约2123个碱基单链小分子RNA是由含有发夹结构约70-90个碱基大小单链RNA前体经过Dicer酶加工后生成。不一样于siRNA,不过和siRNA亲密相关。功效:microRNA经过与对应蛋白结合,形成一个“RNA诱导转录缄默复合体”。该复合体主要有4个作用:1.降解靶mRNA;2.抑制mRNA翻译;3.在
8、细胞核内募集组蛋白脱乙酰化酶等因子,缄默DNA表示;4.扩增对应microRNA。 对一部分miRNAs研究分析提醒:miRNAs参加生命过程中一系列主要进程,包含早期发育,细胞增殖,细胞凋亡,细胞死亡,脂肪代谢和细胞分化。第18页第一个被确认miRNA在线虫中首次发觉lin-4 和let-7 ,能够经过部分互补结合到目标mRNA靶3非编码区(3UTRs),以一个未知方式诱发蛋白质翻译抑制,进而抑制蛋白质合成,经过调控一组关键mRNAs翻译从而调控线虫发育进程。 继线虫之后,随即多个研究小组在包含人类、果蝇、植物等各种生物物种中判别出数百个miRNAs。 第19页转移-信使RNA(tmRNA)
9、tmRNA是一类含有类似tRNA分子和mRNA分子双重功效小分子RNA,它在一个特殊翻译模式反式翻译模式过程中发挥主要作用。最近又发觉它与基因表示调控及细胞周期调控等生命过程亲密相关。反式翻译是细菌体内一个修复翻译水平上受阻遗传信息表示过程机制。第20页端粒酶RNA端粒酶是一个逆转录酶,是染色体端粒RNA序列。 功效:端粒酶是真核生物端粒复制模板,它能够 使用其部分RNA作为模板来合成端粒重复单元。在大多数真核生物中,染色体末端DNA逐步丢失会被端粒酶所抑制。在含有端粒酶活性细胞内,它任务是作为反转录模板然后加在端粒末端以处理染色体因复制而变短问题。这种酶在大多数细胞里是没有活性,但在一些肿瘤
10、细胞,转化细胞,干细胞以及生殖细胞里活性较高。 第21页反义RNA(antisenseRNA)反义RNA(antisenseRNA),可经过与靶位序列互补而与之结合RNA,或直接阻止靶序列功效,或改变靶部位构象而影响其功效。第22页RNA分析方法第23页mRNA检测技术核酸杂交技术原位杂交逆转录PCR (Reverse transcription PCR,RT-PCR)RACE第24页northern blot第25页放射性同位素标识物-32P-dCTP灵敏度达0.01pg非放射性标识物地高辛灵敏度达0.1pgDIG-dUTP-经过酶促反应掺入到DNA/RNA中去制成探针-杂交-加抗地高辛-酶
11、复合物加底物显色探针制备第26页探测不一样条件下基因表示改变B. WITEK-ZAWADA,28S rRNA18S rRNA第27页FISH:Fluorescence In Situ Hybridization原位杂交第28页原位杂交Moroz LL, 第29页第30页RT-PCR是将RNA反转录(RT)和cDNA聚合酶链式扩增(PCR)相结合技术。首先经反转录酶作用从RNA合成 cDNA,再以cDNA为模板,扩增合成目标片段。RT-PCR第31页转录本All transcripts All mRNAs第32页DNARNA蛋白质基因组学RNA组学蛋白质组学第33页转录组转录组概念由Velcul
12、escu等在1995年首次提出。转录组:广义上指一个细胞内基因组DNA转录得到全部转录产物以及转录物在细胞特定发育时期或特定生理条件下表示水平,包含编码RNA(mRNA)和非编码RNA(如tRNA、rRNA、snRNA、miRNA等),狭义上指全部mRNA集合。转录组研究是基因功效及结构研究基础和出发点,是解读基因组功效原件和揭示细胞及组织分子组成所必需。第34页转录组特点:受到内外各种原因调整,因而是动态可变。能够揭示不一样物种、不一样个体、不一样细胞、不一样发育阶段及不一样生理病理状态下基因差异表示信息。第35页转录组学(Transcriptomics):研究细胞在某一功效状态下所含mRN
13、A类型与拷贝数;比较不一样功效状态下mRNA表示改变,搜寻与功效状态改变紧密相关主要基因群。 第36页转录组研究主要目标发觉全部转录本种类 确定基因结构 确定基因表示发觉差异表示基因第37页转录组测序技术主要包含:表示序列标签(EST)表示系列分析(SAGE)基因芯片(Chip)高通量测序技术(NGS)第38页转录组测序RNA_Seq主要分支RNA_Seq是指针对转录产物RNA测序技术,主要有以下分支:转录组分析表示谱分析小RNA分析降解组测序针对mRNA测序转录组测序是针对特定样品特定时期转录mRNA测序技术,重点在对翻译蛋白mRNA测序研究。第39页转录组测序特点应用对象灵活广泛针对不一样
14、物种,不一样个体,不一样时期,都能够在mRNA水平准确分析性状或功效差异,结构变异等信息。研究范围多样化从未知基因组物种,到研究成熟人体病变组织,小鼠组织等特异组织,均可经过转录组分析进行研究。研究深度多样化从大规模功效转录本发掘到特定基因可变剪接不一样功效分析,都能够定位研究。第40页表示序列标签(EST)测定及分析1、什么是EST?2、EST应用 3、EST序列测定及分析过程第41页(2) 什么是表示序列标签? (expressed sequence tag, EST) 从已建好cDNA库中随机取出一个克隆,从5末端或3末端进行一轮单向自动测序,所取得约60-500bp一段cDNA序列。基
15、因组表示为RNA序列: mRNA和功效RNA1、表示序列与表示序列标签概念(1) 什么是表示序列?第42页EST取得路径第43页cDNA文库构建非标准化cDNA文库构建。(可用于基因表示量分析) 经标准化或扣除杂交处理cDNA文库。(富集表示丰度较低基因) Oligo d(T) cDNA文库。(非翻译区因为不含有编码序列,与编码区保守序列相比所受到选择压力比较小,因而其多态性程度比较高,便于多态性位点选择以用于遗传图谱构建。 ) 随机引物cDNA文库。(所取得EST在基因功效判定时含有更多信息含量,而且在构建EST数据库时更有优势,同时有利于利用EST数据库聚类完整基因和阅读框寻找,便于利用更
16、敏感蛋白质比较来寻找同源基因。 )第44页cDNA文库构建常见问题RNA得率低mRNA分离效率低cDNA产物少原因:多糖、多酚、内源性核酸蛋白酶、 miRNA等第45页原因多糖-糖蛋白(核酸蛋白酶,植物血凝素等)、多酚类等次生代谢产物在RNA分离时,经常与RNA共沉降,造成RNA 丢失。或造成分离后RNA严重不纯,影响mRNA分离得率。内源性核酸酶存在较多情况下,可降解双链DNA、RNA或者DNA-RNA杂合体,致使RNA易降解,转录后DNA接头无法连接,是cDNA得率低原因之一。miRNA存在造成mRNA降解第46页大规模EST序列测定开始1983年:Costanzo等提出EST概念雏形19
17、91年:Adams测定了三种人脑组织共609条EST,宣告 了cDNA大规模测序时代开始代1991年:Okubo等提出大规模cDNA测序研究战略1993年:Venter等创建现在EST技术1993年:Boguski & Schuler提出以EST为界标人类 基因组转录图谱计划第47页 93年前ESTs数据收录于GenBank, EBI和DDBJ。 1993年NCBI(National Center of Biotechnology Information)建立了一个专门EST数据库dbEST来保留和搜集全部EST数据。 95年中期GenBank 中EST数目超出了非EST数目。 现在GenBa
18、nk中EST数目已经超出了三千五百万,约占GenBank中序列数60%.第48页EST数量排名前10物种Organism ESTsHomo sapiens (human) 8,301,471Mus musculus + domesticus (mouse) 4,852,146Zea mays (maize) 2,018,798Bos taurus (cattle) 1,620,962Arabidopsis thaliana (thale cress) 1,559,485Danio rerio (zebrafish) 1,527,299Glycine max (soybean) 1,481,93
19、0Xenopus tropicalis (western clawed frog) 1,422,983Oryza sativa (rice) 1,271,375Ciona intestinalis(玻璃海鞘) 1,249,110第49页EST技术流程体内:翻译体外研究:反转录连接,转化转化效率问题(基因芯片)文库构建技术已经成熟测序采样问题(SAGE)测序成本已经大大降低大数据量分析理念已经形成第50页ESTs应用ESTs与基因识别 ESTs已经被广泛应用于基因识别,因为ESTs数目比GenBank中其它核苷酸序列多,研究人员更轻易在EST库中搜寻到新基因(Boguski et al., 19
20、94). 在同一物种中搜寻基因家族新组员(paralogs)。 在不一样物种间搜寻功效相同基因(orthologs)。 已知基因不一样剪切模式搜寻。【注:不过极难确定一个新序列是因为交替剪切产生或是因为cDNA文库中污染了基因组DNA序列(Wolfsberg et al., 1997)】第51页ESTs与基因图谱绘制 EST能够借助于序列标签位点(sequence-tagged sites)用于基因图谱构建. STS本身是从人类基因组中随机选择出来长度在200-300bp左右经PCR检测基因组中唯一一段序列。来自mRNA3非翻译区ESTs更适合做为STSs,用于基因图谱绘制。其优点主要包含:
21、因为没有内含子存在,所以在cDNA及基因组模板中其PCR产物大小相同; 与编码区含有很强保守性不一样,3UTRs序列保守性较差,所以很轻易将单个基因与编码序列关系非常紧密相同基因家族组员分开。 (James Sikela等,1991年)第52页ESTs与基因预测 因为EST起源于cDNA,所以每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下一个基因部分序列。使用适当比对参数,大于90已经注释基因都能在EST库中检测到(Bailey et al., 1998)。ESTs能够做为其它基因预测算法补充,因为它们对预测基因交替剪切和3 非翻译区很有效。第53页ESTs与SNPs 来自不一
22、样个体冗余ESTs可用于发觉基因组中转录区域存在SNPs。最近许多研究都证实对ESTs数据分析能够发觉基因相关SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。 应注意区分真正SNPs和因为测序错误( ESTs为单向测序得来,错误率可达2)而引发本身不存在SNPs。处理这一问题能够经过: 提升ESTs分析准确性。 对所发觉SNPs进行试验验证。第54页利用ESTs大规模分析基因表示水平 因为EST序列是从某以特定组织cDNA文库中随机测序而得到,所以能够
23、用利用未经标准化和差减杂交cDNA文库EST分析特定组织基因表示谱。标准化cDNA文库和经过差减杂交cDNA文库则不能反应基因表示水平。 CGAP 为研究癌症分子机理,美国国家癌症研究所NCI癌症基因组解析计划(Cancer Genome Anatomy Project , CGAP)构建了很多正常或是癌症前期和癌症后期组织cDNA文库,并进行了大规模EST测序,其中大部分文库未经标准化或差减杂交处理。 基因表示系列分析(Serial Analysis of Gene Expression, SAGE) 基因表示系列分析是一个用于定量,高通量基因表示分析试验方法(Velculescu et a
24、l., 1995)。SAGE原理就是分离每个转录本特定位置较短单一序列标签(约9-21个碱基对),这些短序列被连接、克隆和测序,特定序列标签出现次数就反应了对应基因表示丰度。 DNA微阵列或基因芯片研究 高密度寡核苷酸cDNA 芯片或cDNA微阵列是一个新大规模检测基因表示技术,含有高通量分析优点。在许多情况下,cDNA芯片探针起源于3EST (Duggan et al., 1999),所以EST序列分析有利于芯片探针设计。第55页ESTs数据不足ESTs很短,没有给出完整表示序列;低丰度表示基因不易取得。因为只是一轮测序结果,犯错率达2%-5%;有时有载体序列和核外mRNA起源cDNA污染或
25、是基因组DNA污染;有时出现镶嵌克隆;序列冗余,造成所需要处理数据量很大。第56页EST数据库1993年前:EST收录于GenBank, EBI和DDBJ1993年 NCBI 建立dbEST第57页惯用EST数据库数据库名称网址说明dbEST/dbEST/综合UniGene/unigene综合Gene Indices/tgi/综合第58页(1)dbEST(database of EST) Genbank数据库一部分描述:Publication文件:文件文件,文件发表信息Library文件:文库文件,试验信息Contact文件:联络人文件,联络信息EST文件:EST数据文件,关键数据第59页(2
26、)UniGene数据库 Genbank数据库一部分一条纪录为一个gene cluster介绍查询UniGene经过NCBI Ftp 下载:/repository/UniGene/使用dbEST数据库检索第60页(3)Gene Indices数据库 The Institute of Genomic Research Database (TIGR)中一个子库/tgi/ 介绍数据组成42类动物47类植物15类原生生物10类真菌第61页EST数据分析方法随机挑取克隆进行5或3端测序序列前处理聚类和拼接基因注释及功效分类第62页去除低质量序列(如使用Phred)应用BLAST、RepeatMasker或
27、Crossmatch屏蔽数据组中不属于表示基因赝象序列(artifactual sequences) 载体序列(/repository/vector) 重复序列(RepBase,) 污染序列 (如核糖体RNA、细菌或其它物种基因组DNA等)去除其中嵌合克隆最终去除长度小于100bp序列(1)序列前处理第63页聚类目标:未来自同一个基因或同一个转录本含有重合部分(over-lapping) ESTs整合至单一簇(cluster)中聚类作用: 产生较长一致性序列(contigs) ,用于注释 降低数据冗余,纠正错误数据。 能够用于检测选择性剪切。ESTs聚类数据库主要有三个: UniGene (/
28、UniGene) TIGR Gene Indices (/tdb/tgi/ ) STACK (http:/www.sanbi.ac.za/Dbases.html )(2)ESTs聚类第64页ESTs聚类和拼接 聚类目标就是未来自同一个基因或同一个转录本含有重合部分(overlapping)ESTs整合至单一簇(cluster)中。聚类作用: 产生较长一致性序列(consensus sequence),用于注释。 降低数据冗余,纠正错误数据。 能够用于检测选择性剪切。 基因表示谱分析ESTs聚类数据库主要有三个: UniGene (/UniGene) TIGR Gene Indices (/td
29、b/tgi/) STACK (http:/www.sanbi.ac.za/Dbases.html)第65页不严格和严格聚类 (loose and stringent clustering) loose clustering 产生一致性序列比较长 表示基因ESTs数据覆盖率高 含有同一基因不一样转录形式,如各种选择性剪接体 每一类中可能包含旁系同源基因(paralogous expressed gene)转录本 序列保真度低 stringent clustering 产生一致性序列比较短 表示基因ESTs数据覆盖率低 所以所含有同一基因不一样转录形式少 序列保真度高第66页(EST cluste
30、ring tutorial, httP:/www.sanbi.ac.za)有参考和无参考聚类 (Supervised and unsupervised clustering) Supervised clustering 依据已知参考序列(如全长mRNA、已拼接好一致性序列) 聚类。 Unsupervised clustering 没有依据参考序列进行分类。第67页Cluster连接利用cDNA克隆信息和5,3端Reads信息,不一样Cluster能够连接在一起。第68页聚类问题错拼 poly(A) , Linker-to-linker, Gene Families, repeat漏拼 Low
31、quality, Linker-to-linker, repeat选择性剪切 polyAlinker第69页(3)序列注释和分析一级序列同源性比对:使用BLAST等工具蛋白质结构域和功效位点搜索基因功效分类:Gene Ontology 表示量比较分析:不一样组织或发育阶段基因表示量比较通路分析可变剪切分析第70页 很好匹配InterproScanNt BlastnEST sequencesNr Blastx完成注释无理想匹配很好匹配完成注释无理想匹配很好匹配无理想匹配New sequences域注释后 续 分 析惯用基因注释流程第71页BLASTBasic Local Alignment Se
32、arch Tool (BLAST)结合了动态规划算法和间接启发式算法优点,同时把数据库检索建立在严格统计学基础之上,是当前最惯用同源检索工具。局部比对软件比对比较准确细致用来做同源序列比对,进行基因功效注释耗时较长第72页BLAST介绍命令及参数介绍比对类型,5种不一样比对程序在线比对和当地比对程序名查询序列类型查询数据库类型应用blastp蛋白质蛋白质使用取代矩阵寻找较远关系blastn核酸核酸寻找较高分值匹配,对较远关系不太适用blastx核酸(翻译)蛋白质用于分析新cDNA序列或ESTtblastn蛋白质核酸(翻译)用于寻找数据库中没有标注编码区tblastx核酸(翻译)核酸(翻译)用于
33、更深入分析EST第73页BLAST结果介绍BLAST比对结果详解74第74页nr&ntnr(Non-redundant protein sequences)包含GenBank全部编码序列,以及PDB,swissprot,PIR,PRF数据库全部编码序列一个非冗余数据库,数据库完整度高,氨基酸序列数据库。nt(Nucleotide collection)包含GenBank和PDB中(不包含EST,STS,GSS)全部核苷酸序列信息,存在冗余数据库,数据库完整度高。第75页UniprotUniprot(Universal Protein Resource)UniProt是一个集中收录蛋白质资源并能
34、与其它资源相互联络数据库,也是当前为止收录蛋白质序列目录最广泛、功效注释最全方面一个数据库。整合三大数据库:Swissprot、TrEMBL、PIR(Protein Information Resource)。数据库组成:UniprotKB(知识库)、Uniprotarc(归档)、Uniref(参考资料库)。第76页Uniprot介绍UniProtKBProtein knowledgebase, consists of two sections:Swiss-Prot, which is manually annotated and reviewed.TrEMBL, which is autom
35、atically annotated and is not reviewed.Includes complete and reference proteome sets.UniRefSequence clusters, used to speed up sequence similarity searches.UniParcSequence archive, used to keep track of sequences and their identifiers.Uniprot数据库最主要组成部分UniprotKB(Uniprot knowledgebase)第77页UniProtKB/Sw
36、iss-ProtUniProtKB/Swiss-Prot主要收录人工注释序列及其相关文件信息和经过计算机辅助分析序列。这些注释都是由专业生物学家给出,准确性无需置疑。注释结果全方面翔实,注释包含对蛋白质功效、酶学特征、剪接异构体、相关疾病信息注释等等。注释结果无冗余。/docs/relnotes/relstat.html第78页UniprotKB/TrEMBLUniprotKB/TrEMBL主要收录则是高质量经计算机分析后进行自动注释和分类序列。因为大规模测序产生海量数据无法经过Swissprot严谨注释思绪来进行注释。TrEMBL存放了比较全方面完整物种编码序列信息。存在冗余。http:/w
37、ww.ebi.ac.uk/uniprot/TrEMBLstats/第79页Uniprot注释路径网页提交序列当地BLAST/第80页COG第81页 第82页KEGG注释路径网络提交任务blasthttp:/www.genome.jp/tools/blast/第83页KEGG注释结果BLAST比对结果依据比对结果提取代谢通路图依据基因对应KO号能够从KEGG官网得到对应PATHWAY图片第84页KEGG注释结果第85页InterproscanInterproscanInterPro是一个关于蛋白家族(protein families)、功效保守区域(domains)和功效位点 (funtiona
38、l sites)数据库。该数据库包含了PROSITE, PRINTS, Pfam , ProDom等著名蛋白结构和功效位点及保守域数据库。第86页Interproscanhttp:/www.ebi.ac.uk/Tools/pfa/iprscan/第87页基因注释数据库 注释上基因所占百分比TIGR OGI(ver17)7126 94.3 TIGR PseudoMolecule(ver5)6151 81.4 NCBI UNIGENE(ver62)6714 88.8 NCBI nr protein database5831 77.2 93-11 BGI_Scan5854 77.5 Uniprot
39、protein database3628 48.0 TIGR to GO4565 60.4 KEGG Automatic Annotation Server945 12.5 一共有7250 (95.9%) unigenes被注释。 第88页 技术路线cDNA文库构建随机测序得到EST序列读取与处理序列拼接和注释表示丰度和功效分析表示谱特征分析表示量在不一样文库中分布表示谱比较分析差异表示基因判定与分类功效分析作用机理分析Q-PCR验证第89页 EST软件平台EST序列库/序列质量检验测序量监控聚类和拼接检验(借助于基因组信息)全长ORF寻找发觉全长基因研究表示基因概况主要试验伎俩(DNA ch
40、ip、proteomics先驱)功效分类表示量分析交替剪接检测EST特有信息第90页Microarray和GeneChip大规模表示谱或全景式表示谱(global expression profile):是生物体(组织、细胞)在某一状态下基因表示整体情况。微阵列或基因芯片(DNA chip):利用光导化学合成、摄影平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸探针,并与放射性同位素或荧光物标识来自不一样细胞、组织或整个器官DNA或mRNA反转录生成第一链cDNA进行杂交,然后用特殊检测系统对每个杂交点进行定量分析。第91页Spotted MicroarrayscDNA A
41、rraysOligo Arrays In Situ Oligo SynthesisPhotosynthesisPlaner surfaceMicrofluidics chipE-field synthesisIntegrated Chips Integrated uF, microarray and detection chips with PCR, fluorescence or e-detectionMicrofluidicsPlasticsCeramics SiliconOther materials不一样生物芯片技术平台点样芯片原位合成芯片微流体芯片整合型芯片第92页基因芯片探针第93
42、页Tagged RNA fragments flushed over arrayLaser activation of fluorescent tagsOptical scanning of hybridization intensities基因芯片杂交试验第94页Experimental overview:HybridizationWashingScan cy5 channelScan cy3 channel“Overlay images”Quantify pixel intensities.Cellpopulation ACell population BRNAextractionAABB
43、ReversetranscriptionAABBKlenowlabel incorporationSample B labelledwith cy3 dyeSample A labelled with cy5 dye第95页图像扫描Cy5Cy3第96页Limit of Detection: 1 in 30,000 transcripts 20 transcripts/cellRed increase of Cy5 sample transcriptsGreen increase of Cy3 sample transcriptsYellow equal abundance第97页差异表示基因筛
44、选原理:采取cy3/cy5ratio值对差异基因进行 判断,或采取统计方法对差异基因进行统计推断。 方法:倍数法:cy3/cy5比值大于2或者小于 0.5第98页 基因芯片或微阵列技术流程.Clone反转录(可选)读取光密度聚类分析(非同源功效注释)标识杂交反转录EST分析.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表示量矩阵G1,G3,G5G2,G4G6,G9利用EST,SAGE分析结果制作芯片(研究已发觉基因)连接,转化 Rice genome-wide DNA chip (60,000+预测基因) 果蝇基因芯片原位合成 第99页高通量测序转录组研
45、究策略第100页高通量测序中主要名词解释1、测序深度:测序得到总碱基数与待测基因组大小比值。假设一个基因组大小为7M,测序总碱基数为70M,则测序深度为10。2、覆盖度:测序取得序列占整个基因组百分比。因为基因组中高GC含量,重复序列等复杂结构存在,测序最终拼接组装序列往往无法覆盖全部区域,这些区域就叫做Gap。二者关系:测序深度与基因组覆盖度之间是一个正相关关系,测序带来错误率或假阳性结果会伴随测序深度提升而下降。当测序深度在1015X以上时,基因组覆盖度和测序错误率控制均得以确保。 第101页RNA-seq技术路线文库制备测序短序列定位计数第102页Workflow of RNA-Seq样
46、品检测文库制备Cluster StationIllumina Sequencing生物信息分析第103页Total RNA样品检测 Agilent 2200 检测OD260/280:1.82.2 RNA 28S:18S 1.0; RIN7 新型安捷伦2200 TapeStation系统是新一代测序(NGS)、生物微阵列芯片分析和qPCR工流程以及蛋白质纯化和抗体生产过程中对生物样品进行质量控制(QC)理想处理方案。可扩展通量16联或96孔微量滴定板快速得到结果平均每个样品只需一分钟便可取得结果使用简单可直接使用ScreenTape预制胶条简化了工作流程样品用量少每次运行仅需要不到2ul样品第1
47、04页真核mRNA纯化mRNA纯化主要经过磁珠与生物素吸附原理从而分离纯化Oligo(dT)25磁珠纯化原理主要是mRNA3poly A与磁珠在bindingbuffer作用下相结合。磁珠经过MPC(磁分离器)从溶液中分离出来。mRNA与磁珠结合后,再用Tris-HCL在加热条件下解离洗脱到溶液中。链霉亲合素包被磁珠+生物素标识Oligo(dT)25+poly(A)第105页原核mRNA纯化Ambion MICROExpress KitLNA扣锁型探针第106页mRNA反转录-fragment+RT纯化过mRNA样品加入1 lfragment buffer 70作用1.5min。加入1lsto
48、p buffer终止反应。加入沉淀剂(NaAc 糖原 无水乙醇)沉淀产物。RTds cDNA第107页末端修复(预防自连)cDNA 3末端加AAdapter连接第108页第一天消化DNAmRNA分离mRNA打断cDNA合成第二天末端修复 加接头胶回收3端加A第三天PCRPCR胶回收 文库制备 文库质量检测:Aligent 2100:片段大小、纯度、浓度qPCR:片段大小、浓度手工检测:跑胶验证。第109页ApplicationRNA-Seq (单端测序-Quantification)RNA-Seq (双端测序-Transcriptome)Expression-profilingAlternat
49、ive SplicingFusion GeneSNP detectionHiSeq 2500Applications of RNA-Seq110第110页转录组分析两种策略左边是先比对,再经过表示量和junction信息得到转录本,这种方法能够检测到低表示量转录本;右边是对mRNA-seqreads直接进行de novo 组装,得到转录本,但对于低表示量转录本不易发觉。第111页转录组分析两种策略有Reference转录组分析以比对为基础,分析有基因组样品可变剪接信息,以及预测可变剪接带来功效差异,同时定量不一样品mRNA表示丰度进行差异基因相关分析。无Reference转录组分析经过测序数据
50、组装大规模发掘对应物种转录本信息,对组装得到转录本做功效注释分析,同时定量转录本不一样丰度进行差异分析。第112页两种分析思绪原始数据Reference基因组Gff基因结构注释差异基因分析及功效注释分析有参考基因组无参考基因组聚类得到UnigeneUnigene差异表示及功效注释分析可变剪接结果可变剪接作图TopHat+Cufflinks可变剪接分析测序数据组装差异基因聚类分析差异基因功效注释结构预测分析差异基因聚类分析差异基因功效注释第113页有参考基因组分析可变剪接依据软件对基因可变剪接结果做预测结合相关基因功效进行深入研究(性状相关.)原始数据Reference基因组Gff基因结构注释T
51、opHat+Cufflinks可变剪接分析第114页可变剪接介绍一个基因在转录过程中经过不一样剪接处理得到不一样mRNA从而产生不一样蛋白,是生物性状多样化主要原因。第115页可变剪接类型外显子跳过内含子滞留互斥外显子可变5剪接可变3剪接保守剪接类型第116页可变剪接分析软件TopHat针对高通量RNA_Seq序列剪接检测软件,采取短序列比对软件Bowtie进行序列比对和剪接检测。Cufflinks利用Tophat检测结果和测序Reads比对情况组装构建转录本并进行表示丰度分析软件。第117页新基因发觉新编码区域定位经过比对结果发觉原本无基因注释区域出现了编码mRNA序列新基因功效注释分析对新
52、基因序列做功效注释第118页无参考基因组分析数据组装Orf预测SSR分析经过BLAST做基因功效注释分析原始数据聚类得到Unigene测序数据组装结构预测分析(SSR、Orf及编码序列)第119页测序数据组装组装基本原理基于测序reads之间overlap进行序列组装组装软件介绍Trinity TransabyssSOAP-Trans第120页Trinity介绍TrinityTrinity是一个组装构建无Reference全长转录本组装软件,专门针对高通量RNA测序设计,组装效果很好。第121页基因表示聚类分析转录组学方法应用造成基因表示数据爆炸性增加。怎样对这些数据进行分析,从中提取有意义生
53、物学信息,已成为转录组学研究热点和技术瓶颈。 聚类分析技术能将待处理对象分配到对应聚类中,使得同一聚类中对象差异较小,不一样聚类之间对象差异较大。聚类分析技术在转录组学研究中,非常适合大批量分析基因群功效。 第122页有参考基因组序列信息分析流程第123页Reads 在基因组上分布第124页基因结构优化 经过转录组测序判定出酵母3 和5 UTR区域第125页 判定基因可变剪接exon1exon2exon3exon1exon2exon3exon1exon3common readsjunction readsmRNA第126页判定融合基因第127页新转录本预测Genomic intergenic
54、regionReadsclusterPaired ReadsdistributionPaired-End (PE) Reads第128页SNP分析第129页Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptomeRice TranscriptomeMaterial callus root at seedling stage(14d) shoot at seedling stage(14d) flag leaves(2 stages) panicle(3
55、 stages)Methods RNASeq(paired-end & single end) DGE small RNA(18-30 nt)基因功效注释基因结构分析判定出大量新转录本可变剪接判定基因融合判定第130页无参考基因组生物信息分析Unigene功效注释UnigeneGO分类Unigene代谢通路分析预测编码蛋白框(CDS)Unigene表示差异分析Unigene在样品间差异GO分类和Pathway富集性分析第131页De novo reads组装流程第132页Unigene GO 分类第133页Unigene COG 功效分类第134页基因表示差异分析N1:total tag Nu
56、mber in sample A N2:total tag Number in sample BX :Gene expression level in sample A y :Gene expression level in sample BReference:Audic S. et al. The significance of digital gene expression profiles. Genome Res. 1997 7(10):986-995 第135页Unigene pathway 富集性分析第136页Pathway富集性分析列表第137页第138页Genome Res Ca
57、se 试验材料搜集: 叶片,花序, 果实, 根 时间点:0 , 4, 8, 12, 16, 20和 24 h 将每个时间点采集样品均匀混合 测序策略: Illumina 测序,1G data第139页1. High light 2.Heat 3. Cold 4. Salt 5.Drought抗逆相关可变剪接第140页外包膜蛋白16 (AT2G28900)Intron-retentionControlLow Temperature Resistance低温胁迫相关AS低温胁迫下这个内含子和对摄影比被保留了下来,揭示了可变剪接有主要功效。第141页AS调整机制CCA1生物钟相关基因,比如调整气孔开
58、关等第142页RNA-Seq单端测序(Quantification)生物信息分析内容测序数据评定筛选差异表示基因表示模式聚类分析GO 功效富集分析Pathway 富集分析蛋白互作网络分析第143页RNA-Seq单端测序(Quantification)信息分析流程第144页RNA-Seq与基因芯片优缺点比较技术优点缺点RNA-seq1)检测基因数比基因芯片多25%2)定量准,可重复性高(重复相关系数0.99)3)数字化信号,无背景噪音,无交叉杂交4)高、低丰度基因均可检测5)不受研究物种限制,模式生物和非模式生物均可检测6)数据可与时俱进,即随数据库更新而更新7)含有很好分析兼容性,数据格式与芯
59、片相同,可与芯片分析软件兼容1)样本要求量比基因芯片多2)数据量大,需要具备一定生物信息分析基础,才能愈加好挖掘数据蕴含丰富信息基因芯片1)平台应用较早2)信息分析软件较多3)有些平台要求样品量少1)检测灵敏度较低、重复性差、检测阈值较狭窄2)有背景噪音,假阳性率1%3)受物种限制,只能检测部分模式生物4)受基因拷贝数限制,无法检测出低丰度基因5)只能检测已知转录本,无法检测出新转录本6)受数据库数据所限,因探针依靠现有数据库或比较旧版本数据库来设计,可能出现注释不准确情况第145页casePlant Physiology 取样: 选取在成熟季节开花后 5, 10, 和15个星期葡萄分别代表葡
60、萄果实成熟中三个时期(post setting, veraison和ripening)数据量: 超出59M reads数据, 长度在36-44bp之间利用RNA-Seq技术对葡萄果实发育过程中复杂转录特征研究。第146页表二 reads在基因组上分布情况表一 测序数据葡萄RNA-Seq单端测序第147页浆果发育三个阶段共有、特有基因表示分布图基因表示量分布第148页表示簇分类分布情况差异表示基因GO功效注释-分成了19个功效类群-按照基因在三个不一样时期表示趋势进行分类,分成8个cluster。将基因表示和它调控一个生理功效联络在了一起。第149页RNA-Seq对浆果标识基因验证用RNA-Se
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《先秦文论范畴生成土壤和来源的考察》
- 2024年聊城考客运资格证
- 2024年银川客运资格证应用能力考试答案
- 2024年广州客运从业资格证模拟考试题库下载电子版
- 2024年太原客运车从业资格证考试内容是什么
- 2024年河北客运车从业资格证考试内容
- 2023届新高考化学选考一轮总复习训练-阶段过关检测(四) 化学反应原理
- 2023届新高考化学选考一轮总复习学案-热点19 常见气体制备装置的研究
- 《第1课 从百家争鸣到独尊儒术》(同步训练)高中历史必修3-北师大版-2024-2025学年
- 2024年大客户采购协议文本
- 雅鲁藏布江大拐弯巨型水电站规划方案
- 广西基本医疗保险门诊特殊慢性病申报表
- 城市经济学习题与答案
- 国开成本会计第14章综合练习试题及答案
- 幼儿园大班科学:《树叶为什么会变黄》课件
- 1到50带圈数字直接复制
- 铁路工程施工组织设计(施工方案)编制分类
- 幼儿园中班数学《有趣的图形》课件
- 《规划每一天》教案2021
- 草莓创意主题实用框架模板ppt
- 山大口腔颌面外科学课件第5章 口腔种植外科-1概论、口腔种植的生物学基础
评论
0/150
提交评论