版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三讲 转录组学12021/7/24主要内容 RNA的种类和作用 RNA研究方法 高通量技术研究转录组学的策略 转录组学研究进展 microRNA研究22021/7/24RNA是解读基因组的关键是解读基因组的关键RNAProteinDNA32021/7/24转录(转录(transcription) 生物体以生物体以DNA为模板合成为模板合成RNA的过程的过程 。 转录转录RNADNA 42021/7/24 转录(Transcription):遗传信息由DNA转换到RNA的过程。作为蛋白质生物合成的第一步,转录是mRNA以及非编码RNA(tRNA、rRNA等)的合成步骤。 以特定的DNA片段作为
2、模板,以DNA依赖的核糖核酸聚合酶(RNA聚合酶或RNA合成酶)作为催化剂而合成前mRNA的过程。 mRNA转录时,DNA分子双链打开,在RNA聚合酶的作用下,游离的4种核糖核苷酸按照碱基互补配对原则结合到DNA单链上,并在RNA聚合酶的作用下形成单链mRNA分子。 转录本:transcript。也称为剪切体。一条基因通过不同剪接可构成不同的转录本。52021/7/24参与转录的物质参与转录的物质原料原料: NTP(ATP, UTP, GTP, CTP)模板模板: DNA酶酶: RNA聚合酶(聚合酶(RNA polymerase, RNA-pol)其他蛋白质因子其他蛋白质因子62021/7/2
3、4一、RNA的种类和作用 1. RNA的种类 2. 各类RNA的作用72021/7/24RNA的常见种类 1.核糖体RNA(rRNA) 2.转运RNA(tRNA) 3.信使RNA (mRNA)82021/7/24RNA的其他种类 1.不均一核RNA(hnRNA) 2.小核RNA(snRNA) 3. 核仁小RNA(snoRNA) 4.小胞质RNA(scRNA/7s-RNA) 5. microRNA 6.转移-信使RNA(tmRNA) 7.端粒酶RNA 8.反义RNA 92021/7/24核糖体RNA(rRNA)1. rRNA是核糖体的组成成分 rRNA一般与核糖体蛋白质结合在一起,形成核糖体(r
4、ibosome) 如果把rRNA从核糖体上除掉,核糖体的结构就会发生塌陷。 2. 定位(起始翻译) 16 S的rRNA3端有一段核苷酸序列与mRNA的前导序列是互补的,这有助于mRNA与核糖体的结合,进而起始翻译。 核糖体RNA,原核生物包括5s,16s,23s,真核生物包括5s,5.8s,18s和28s,而每种rRNA各自有各自的功能。102021/7/24转运RNA(tRNA) 在蛋白质合成中作为氨基酸的载体 合成i蛋白质的原材料20种氨基酸与mRNA的碱基之间缺乏特殊的亲和力。因此,必须用一种特殊的RNA转运RNA(tRNA)把氨基酸搬运到核糖体上,tRNA能根据mRNA的遗传密码依次准
5、确地把它携带的氨基酸连结起来形成多肽链。 112021/7/24信使RNA(mRNA) 作为蛋白质合成时的模板 mRNA是以DNA的一条链为模板,以碱基互补配对原则,转录而形成的一条单链。其功能就是把DNA上的遗传信息精确无误地转录下来,然后再由mRNA的碱基顺序决定蛋白质的氨基酸顺序,完成翻译,合成蛋白质。 122021/7/24不均一核RNA(hnRNA) 概念:在真核生物中,转录形成的前体RNA中含有大量非编码序列,大约只有25%序列经加工成为mRNA,最后翻译为蛋白质。而因为未经加工的前体未经加工的前体mRNA(pre-mRNA)在分子大小上差别很大,所以通常称为不均一核RNA 。 h
6、n-RNA在受到加工之后,移至细胞质,作为mRNA而发挥其功能。而大部分的hnRNA在核内与各种特异的蛋白质形成复合体而存在着。 132021/7/24小核RNA(snRNA) 概念:小核小核RNA,也见译为核内小核内小RNA,是含有100到300碱基的RNA,它是真核生物转录后加工过程中RNA剪接体的主要成分。 功能:它参与真核生物细胞核中RNA的加工。snRNA和许多蛋白质结合在一起成为小核核糖核蛋白,参与信使RNA前体(也就是hnRNA)的剪接,使后者成为成熟mRNA。 142021/7/24核仁小RNA(snoRNA) 概念:概念:核仁小分子RNA是一大类RNA分子,其大小一般在几十到
7、几百个核苷酸,它们能与特定的蛋白质(如自身免疫抗原等)相结合生成snoRNP,在细胞中稳定存在,并且富集于核仁区,所以被称为核仁小分子RNA。 功能:负责rRNA的加工(切割和修饰) ,参与核糖体的生物合成。152021/7/24小胞质RNA(scRNA/7s-RNA) 存在于细胞质中的小RNA分子(如信号识别颗粒组分中含有的7sRNA),是蛋白质内质网定位合成的信号识别体的组成。162021/7/24小RNA分子 有些小RNA分子能直接调控某些基因的开关从而控制细胞的生长发育并决定细胞分化的组织类型 小RNA分子本身又包含了若干类RNA,根据小RNA 的生成、结构和功能大约可分为以下三类:
8、miRNA (microRNA) siRNA (small interfering RNA) 其他小RNA172021/7/24microRNAmicroRNA 概念: MicroRNAs (miRNAs)是一种大小约2123个碱基的单链小分子RNA是由具有发夹结构的约70-90个碱基大小的单链RNA前体经过Dicer酶加工后生成。不同于siRNA,但是和siRNA密切相关。 功能:microRNA通过与相应的蛋白结合,形成一个“RNA诱导的转录沉默复合体”。该复合体主要有4个作用:1.降解靶mRNA;2.抑制mRNA的翻译;3.在细胞核内募集组蛋白脱乙酰化酶等因子,沉默DNA的表达;4.扩增
9、相应的microRNA。 对一部分miRNAs的研究分析提示:miRNAs参与生命过程中一系列的重要进程,包括早期发育,细胞增殖,细胞凋亡,细胞死亡,脂肪代谢和细胞分化。182021/7/24 第一个被确认的miRNA在线虫中首次发现的lin-4 和let-7 ,可以通过部分互补结合到目的mRNA靶的3非编码区(3UTRs),以一种未知方式诱发蛋白质翻译抑制,进而抑制蛋白质合成,通过调控一组关键mRNAs的翻译从而调控线虫发育进程。 继线虫之后,随后多个研究小组在包括人类、果蝇、植物等多种生物物种中鉴别出数百个miRNAs。 192021/7/24转移-信使RNA(tmRNA) tmRNA是一
10、类具有类似是一类具有类似tRNA分子分子和和mRNA分子双分子双重功能重功能的小分子的小分子RNA,它在一种特殊的翻译模式,它在一种特殊的翻译模式反式翻译模式反式翻译模式过程中发挥重要作用。最近又过程中发挥重要作用。最近又发现它与基因的表达调控及细胞周期的调控等发现它与基因的表达调控及细胞周期的调控等生命过程密切相关。生命过程密切相关。 反式翻译是细菌体内一种修复翻译水平上受阻的遗传信息表达过程的机制。202021/7/24端粒酶RNA 端粒酶是一种逆转录酶,是染色体端粒的RNA序列。 功能:端粒酶是真核生物端粒复制的模板,它可以 使用其部分RNA作为模板来合成端粒重复单元。在大多数真核生物中
11、,染色体末端DNA的逐步丢失会被端粒酶所抑制。在具有端粒酶活性的细胞内,它的任务是作为反转录的模板然后加在端粒的末端以解决染色体因复制而变短的问题。这种酶在大多数细胞里是没有活性的,但在某些肿瘤细胞,转化细胞,干细胞以及生殖细胞里活性较高。 212021/7/24反义RNA(antisenseRNA) 反义RNA(antisenseRNA),可通过与靶位序列互补而与之结合的RNA,或直接阻止靶序列功能,或改变靶部位构象而影响其功能。222021/7/24RNA分析方法232021/7/24 mRNA检测技术核酸杂交技术原位杂交逆转录PCR (Reverse transcription PCR,
12、RT-PCR)RACE242021/7/24northern blot252021/7/24 放射性同位素标记物-32P-dCTP灵敏度达0.01pg 非放射性标记物地高辛灵敏度达0.1pgDIG-dUTP-通过酶促反应掺入到DNA/RNA中去制成探针-杂交-加抗地高辛-酶的复合物加底物显色探针制备262021/7/24探测不同条件下的基因表达变化B. WITEK-ZAWADA,200328S rRNA18S rRNA272021/7/24 FISH:Fluorescence In Situ Hybridization原位杂交282021/7/24原位杂交Moroz LL, 200629202
13、1/7/24302021/7/24RT-PCR是将RNA的反转录(RT)和cDNA的聚合酶链式扩增(PCR)相结合的技术。首先经反转录酶的作用从RNA合成 cDNA,再以cDNA为模板,扩增合成目的片段。RT-PCR312021/7/24转录本转录本All transcripts All mRNAs322021/7/24DNARNA蛋白质基因组学RNA组学蛋白质组学332021/7/24转录组 转录组概念由Velculescu等在1995年首次提出。 转录组:广义上指一个细胞内基因组DNA转录得到的所有转录产物以及转录物在细胞特定发育时期或特定生理条件下的表达水平,包括编码RNA(mRNA)和
14、非编码RNA(如tRNA、rRNA、snRNA、miRNA等),狭义上指所有mRNA的集合。 转录组研究是基因功能及结构研究的基础和转录组研究是基因功能及结构研究的基础和出发点,是解读基因组功能原件和揭示细胞出发点,是解读基因组功能原件和揭示细胞及组织分子组成所必需的。及组织分子组成所必需的。342021/7/24 转录组的特点:受到内外多种因素的调节,因而是动态可变的。能够揭示不同物种、不同个体、不同细胞、不同发育阶段及不同生理病理状态下的基因差异表达信息。352021/7/24 转录组学(Transcriptomics):研究细胞在某一功能状态下所含mRNA的类型与拷贝数;比较不同功能状态
15、下mRNA表达的变化,搜寻与功能状态变化紧密相关的重要基因群。 362021/7/24转录组研究的主要目的 发现所有转录本种类 确定基因结构 确定基因表达 发现差异表达基因372021/7/24转录组测序技术主要包括:表达序列标签(EST)表达系列分析(SAGE)基因芯片(Chip)高通量测序技术(NGS)382021/7/24转录组测序 RNA_Seq的重要分支 RNA_Seq是指针对转录产物RNA的测序技术,主要有以下分支: 转录组分析 表达谱分析 小RNA分析 降解组测序 针对mRNA的测序 转录组测序是针对特定样品特定时期的转录mRNA的测序技术,重点在对翻译蛋白的mRNA的测序研究。
16、392021/7/24转录组测序的特点 应用对象灵活广泛 针对不同物种,不同个体,不同时期,都可以在mRNA水平准确的分析性状或功能差异,结构变异等信息。 研究范围多样化 从未知基因组物种,到研究成熟的人体病变组织,小鼠组织等特异组织,均可通过转录组分析进行研究。 研究深度多样化 从大规模功能转录本发掘到特定基因的可变剪接的不同功能分析,都可以定位研究。402021/7/24表达序列标签(EST)测定及分析1 1、什么是、什么是ESTEST?2 2、ESTEST的应用的应用 3 3、ESTEST序列测定及分析过程序列测定及分析过程412021/7/24(2) 什么是表达序列标签? (expre
17、ssed sequence tag, EST) 从已建好的从已建好的cDNA库中随机取出一个克隆,库中随机取出一个克隆,从从5末端或末端或3末端进行一轮单向自动测序,所获末端进行一轮单向自动测序,所获得的约得的约60-500bp的一段的一段cDNA序列。序列。基因组表达为基因组表达为RNA的序列的序列: mRNA和功能和功能RNA1、表达序列与表达序列、表达序列与表达序列标签标签概念概念(1) 什么是表达序列什么是表达序列?422021/7/24EST的获得途径的获得途径432021/7/24cDNA文库构建 非标准化的cDNA文库的构建。(可用于基因表达量的分析) 经标准化或扣除杂交处理的c
18、DNA文库。(富集表达丰度较低的基因) Oligo d(T) cDNA文库。 (非翻译区由于不含有编码序列,与编码区保守序列相比所受到的选择压力比较小,因而其多态性程度比较高,便于多态性位点的选择以用于遗传图谱的构建。 ) 随机引物cDNA文库。 (所获得的EST在基因功能的鉴定时具有更多的信息含量,并且在构建EST数据库时更有优势,同时有利于利用EST数据库聚类完整的基因和阅读框的寻找,便于利用更敏感的蛋白质比较来寻找同源基因。 )442021/7/24cDNAcDNA文库构建常见问题文库构建常见问题 RNA得率低 mRNA分离效率低 cDNA产物少原因:多糖、多酚、内源性核酸蛋白酶、 mi
19、RNA等452021/7/24原因 多糖多糖-糖蛋白糖蛋白(核酸蛋白酶,植物血凝素等核酸蛋白酶,植物血凝素等)、多、多酚酚类等次生代谢产物在RNA分离时,经常与RNA共沉降,导致RNA 丢失丢失。或导致分离后的RNA严重不纯不纯,影响mRNA分离的得率。 内源性核酸酶内源性核酸酶存在较多的情况下,可降解双链DNA、RNA或者DNA-RNA杂合体,致使RNA易降降解解,转录后的DNA接头无法连接接头无法连接,是cDNA得率低的原因之一原因之一。 miRNA的存在导致mRNA的降解的降解462021/7/24大规模EST序列测定的开始1983年:Costanzo等提出EST概念的雏形1991年:A
20、dams测定了三种人脑组织共609条EST,宣布 了cDNA大规模测序的时代的开始代1991年:Okubo等提出大规模cDNA测序的研究战略1993年:Venter等创立现在的EST技术1993年:Boguski & Schuler提出以EST为界标的人类 基因组转录图谱计划472021/7/24 93年前ESTs数据收录于GenBank, EBI和DDBJ。 1993年NCBI(National Center of Biotechnology Information)建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据。 95年中期GenBank 中EST的数目超过了非
21、EST的数目。 现在GenBank中EST的数目已经超过了三千五百万,约占GenBank中序列数的60%.482021/7/24EST数量排名前10的物种Organism ESTsHomo sapiens (human) 8,301,471Mus musculus + domesticus (mouse) 4,852,146Zea mays (maize) 2,018,798Bos taurus (cattle) 1,620,962Arabidopsis thaliana (thale cress) 1,559,485Danio rerio (zebrafish) 1,527,299Glyci
22、ne max (soybean) 1,481,930Xenopus tropicalis (western clawed frog) 1,422,983Oryza sativa (rice) 1,271,375Ciona intestinalis(玻璃海鞘) 1,249,110492021/7/24体内:翻译体外研究:反转录连接,转化502021/7/24ESTs的应用 ESTs与基因识别 ESTs已经被广泛的应用于基因识别,因为ESTs的数目比GenBank中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因(Boguski et al., 1994). 在同一物种中搜寻基因家族的
23、新成员在同一物种中搜寻基因家族的新成员(paralogs)。 在不同物种间搜寻功能相同的基因在不同物种间搜寻功能相同的基因(orthologs)。 已知基因的不同剪切模式的搜寻。已知基因的不同剪切模式的搜寻。【注:不过很难注:不过很难确定一个新的序列是由于交替剪切产生的或是由于确定一个新的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组文库中污染了基因组DNA序列序列(Wolfsberg et al., 1997)】512021/7/24ESTs与基因图谱的绘制 EST可以借助于序列标签位点(sequence-tagged sites)用于基因图谱的构建. STS本身是从人类基因组中
24、随机选择出来的长度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。来自mRNA的3非翻译区的ESTs更适合做为STSs,用于基因图谱的绘制。其优点主要包括: 由于没有内含子的存在,因此在cDNA及基因组模板中其PCR产物的大小相同; 与编码区具有很强的保守性不同,3UTRs序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。 (James Sikela等,1991年)522021/7/24ESTsESTs与基因预测与基因预测 由于EST来源于cDNA,因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。使用合适
25、的比对参数,大于90的已经注释的基因都能在EST库中检测到(Bailey et al., 1998)。ESTs可以做为其它基因预测算法的补充,因为它们对预测基因的交替剪切和3 非翻译区很有效。532021/7/24ESTsESTs与与SNPsSNPs 来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。 应注意注意区别真正的SNP
26、s和由于测序错误( ESTs为单向测序得来,错误率可达2)而引起的本身不存在的SNPs。解决这一问题可以通过: 提高ESTs分析的准确性。 对所发现的SNPs进行实验验证进行实验验证。542021/7/24 利用利用ESTsESTs大规模分析基因表达水平大规模分析基因表达水平 因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到,所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。 CGAP 为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析计划(Cancer Genom
27、e Anatomy Project , CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行了大规模的EST测序,其中大部分的文库未经标准化或差减杂交处理。 基因表达系列分析基因表达系列分析(Serial Analysis of Gene Expression, SAGE) 基因表达系列分析是一种用于定量,高通量基因表达分析的实验方法(Velculescu et al., 1995)。SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签(约9-21个碱基对),这些短的序列被连接、克隆和测序,特定的序列标签的出现次数就反应了对应的基因的表达丰度。 DNA微阵
28、列或基因芯片的研究微阵列或基因芯片的研究 高密度寡核苷酸cDNA 芯片或cDNA微阵列是一种新的大规模检测基因表达的技术,具有高通量分析的优点。在许多情况下,cDNA芯片的探针来源于3EST (Duggan et al., 1999),所以EST序列的分析有助于芯片探针的设计。552021/7/24ESTsESTs数据的不足数据的不足 ESTs很短,没有给出完整的表达序列; 低丰度表达基因不易获得。 由于只是一轮测序结果,出错率达2%-5%; 有时有载体序列和核外mRNA来源的cDNA污染或 是基因组DNA的污染; 有时出现镶嵌克隆; 序列的冗余,导致所需要处理的数据量很大。562021/7/
29、24EST数据库u1993年前:EST收录于GenBank, EBI和DDBJu1993年 NCBI 建立dbEST02468101214161820总EST条目(million)19931995199719992001时间(年)dbEST中数据量的增长中数据量的增长572021/7/24u常用的常用的EST数据库数据库582021/7/24(1)dbEST(database of EST) Genbank数据库的一部分数据库的一部分u描述:描述:Publication文件:文献文件,文献发表信息文件:文献文件,文献发表信息Library文件:文库文件,实验信息文件:文库文件,实验信息Cont
30、act文件:联系人文件,联系信息文件:联系人文件,联系信息EST文件:文件:EST数据文件,核心数据数据文件,核心数据592021/7/24(2)UniGene数据库数据库 Genbank数据库的一部分数据库的一部分一条纪录为一个一条纪录为一个gene clusteru简介简介u查询查询UniGene通过通过NCBI Ftp 下载:下载:/repository/UniGene/使用使用dbEST数据库检索数据库检索602021/7/24(3)Gene Indices数据库数据库 The Institute of Genomic Research Dat
31、abase (TIGR)中的一个子库)中的一个子库/tgi/ u简介简介u数据构成数据构成42类动物类动物47类植物类植物15类原生生物类原生生物10类真菌类真菌612021/7/24ESTEST数据分析方法数据分析方法622021/7/24去除低质量的序列(去除低质量的序列(如使用如使用Phred)应用应用BLAST、RepeatMasker或或Crossmatch屏蔽屏蔽数据组中不属于表达基数据组中不属于表达基因的赝象序列因的赝象序列(artifactual sequences) 载体序列载体序列(ftp:/ncbi.nlm.ni
32、/repository/vector) 重复序列重复序列(RepBase,) 污染序列污染序列 (如核糖体如核糖体RNA、细菌或其他物种的基因组、细菌或其他物种的基因组DNA等等)去除其中的嵌合克隆去除其中的嵌合克隆最后去除长度小于最后去除长度小于100bp的序列的序列(1)序列前处理)序列前处理632021/7/24聚类目的:将来自同一个基因或同一个转录本的具有重叠部分聚类目的:将来自同一个基因或同一个转录本的具有重叠部分(over-lapping) 的的ESTs整合至单一的簇整合至单一的簇(cluster)中中聚类作用:聚类作用: 产生较
33、长的一致性序列产生较长的一致性序列(contigs) ,用于注释,用于注释 降低数据的冗余,纠正错误数据。降低数据的冗余,纠正错误数据。 可以用于检测选择性剪切。可以用于检测选择性剪切。ESTs聚类的数据库主要有三个:聚类的数据库主要有三个: UniGene (/UniGene) TIGR Gene Indices (/tdb/tgi/ ) STACK (http:/www.sanbi.ac.za/Dbases.html )(2)ESTs的聚类的聚类642021/7/24ESTs的聚类和拼接的聚类和拼接 聚
34、类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(overlapping)的ESTs整合至单一的簇(cluster)中。聚类作用:聚类作用:v 产生较长的一致性序列(consensus sequence),用于注释。v 降低数据的冗余,纠正错误数据。v 可以用于检测选择性剪切。v 基因表达谱分析ESTs聚类的数据库主要有三个:聚类的数据库主要有三个:v UniGene ()v TIGR Gene Indices ()v STACK 652021/7/24不严格不严格的和严格的聚类的和严格的聚类 (loose and stringent clustering) loose cluster
35、ing 产生的一致性序列比较长产生的一致性序列比较长 表达基因表达基因ESTs数据的覆盖率高数据的覆盖率高 含有同一基因不同的转录形式,如各种选择性剪接体含有同一基因不同的转录形式,如各种选择性剪接体 每一类中可能包含旁系同源基因每一类中可能包含旁系同源基因(paralogous expressed gene)的转的转录本录本 序列的保真度低序列的保真度低 stringent clustering 产生的一致性序列比较短产生的一致性序列比较短 表达基因表达基因ESTs数据的覆盖率低数据的覆盖率低 因此所含有的同一基因的不同转录形式少因此所含有的同一基因的不同转录形式少 序列保真度高序列保真度高
36、662021/7/24有参照的和无参照的聚类有参照的和无参照的聚类 (Supervised and unsupervised clustering) Supervised clustering 根据已知的参考序列(如全长mRNA、已拼接好的一致性序列) 聚类。 Unsupervised clustering 没有根据参考序列进行分类。672021/7/24Cluster的连接利用cDNA克隆的信息和5,3端Reads的信息,不同的Cluster可以连接在一起。682021/7/24聚类问题l错拼 poly(A) , Linker-to-linker, Gene Families, repeat
37、l漏拼 Low quality, Linker-to-linker, repeatl选择性剪切 polyAlinker692021/7/24(3)序列注释和分析)序列注释和分析一级序列同源性比对:使用一级序列同源性比对:使用BLASTBLAST等工具等工具蛋白质结构域和功能位点搜索蛋白质结构域和功能位点搜索基因功能分类:基因功能分类:Gene OntologyGene Ontology 表达量比较分析:不同组织或发育阶段基因表达量比较通路分析可变剪切分析702021/7/24 较好匹配InterproScanNt BlastnEST sequencesNr Blastx完成注释无理想匹配较好匹
38、配完成注释无理想匹配较好匹配无理想匹配New sequences域的注释后 续 分 析常用的基因注释流程712021/7/24BLAST Basic Local Alignment Search Tool (BLAST) 结合了动态规划算法和间接的启发式算法的优点,同时把数据库检索建立在严格的统计学基础之上,是目前最常用的同源检索工具。 局部比对软件 比对比较精确细致 用来做同源序列比对,进行基因功能注释 耗时较长722021/7/24BLAST简介 命令及参数简介 比对类型,5种不同的比对程序 在线比对和本地比对程序名程序名查询序列类型查询序列类型查询数据库类型查询数据库类型应用应用blas
39、tp 蛋白质蛋白质使用取代矩阵寻找较远关系blastn 核酸核酸寻找较高分值的匹配,对较远关系不太适用blastx 核酸(翻译)蛋白质用于分析新的cDNA序列或ESTtblastn 蛋白质核酸(翻译)用于寻找数据库中没有标注的编码区tblastx 核酸(翻译)核酸(翻译)用于更进一步的分析EST732021/7/24BLAST结果简介 BLAST比对结果详解74742021/7/24nr&nt nr(Non-redundant protein sequences) 包含GenBank所有编码序列,以及PDB,swissprot,PIR,PRF数据库的所有编码序列的一个非冗余数据库,数据
40、库完整度高,氨基酸序列数据库。 nt(Nucleotide collection) 包含GenBank和PDB中(不包含EST,STS,GSS)的所有核苷酸序列信息,存在冗余的数据库,数据库完整度高。752021/7/24Uniprot Uniprot(Universal Protein Resource) UniProt是一个集中收录蛋白质资源并能与其它资源相互联系的数据库,也是目前为止收录蛋白质序列目录最广泛、功能注释最全面的一个数据库。 整合三大数据库:Swissprot、TrEMBL、PIR(Protein Information Resource)。 数据库组成:UniprotKB(
41、知识库)、Uniprotarc(归档)、Uniref(参考资料库)。762021/7/24Uniprot简介UniProtKBProtein knowledgebase, consists of two sections:Swiss-Prot, which is manually annotated and reviewed.TrEMBL, which is automatically annotated and is not reviewed.Includes complete and reference proteome sets.UniRefSequence clusters, used
42、 to speed up sequence similarity searches.UniParcSequence archive, used to keep track of sequences and their identifiers. Uniprot数据库的最重要组成部分 UniprotKB(Uniprot knowledgebase)772021/7/24UniProtKB/Swiss-Prot UniProtKB/Swiss-Prot 主要收录人工注释的序列及其相关文献信息和经过计算机辅助分析的序列。这些注释都是由专业的生物学家给出的,准确性无需置疑。 注释结果全面翔实,注释包括对
43、蛋白质功能、酶学特性、剪接异构体、相关疾病信息的注释等等。 注释结果无冗余。 /docs/relnotes/relstat.html782021/7/24UniprotKB/TrEMBL UniprotKB/TrEMBL 主要收录的则是高质量的经计算机分析后进行自动注释和分类的序列。 由于大规模测序产生的海量数据无法通过Swissprot的严谨注释思路来进行注释。TrEMBL存储了比较全面完整的物种编码序列信息。 存在冗余。 http:/www.ebi.ac.uk/uniprot/TrEMBLstats/792021/7/24Uniprot注释途径 网页
44、提交序列 本地BLAST /802021/7/24COG812021/7/24 classification by molecular function012345log10 of ESTs numbertransporter activitytranslation regulator activitytranscription regulator activitystructural molecule activitysignal transducer activityprotein tagging activityobsoletemotor act
45、ivityenzyme regulator activitydefense/immunity protein activitychaperone activitycell adhesion molecule activitycatalytic activitybindingapoptosis regulator activityantioxidant activity822021/7/24KEGG注释途径 网络提交任务 blast http:/www.genome.jp/tools/blast/832021/7/24KEGG注释结果 BLAST比对结果 根据比对结果提取代谢通路图 根据基因对应
46、的KO号 可以从KEGG官网得到对应的PATHWAY图片842021/7/24KEGG注释结果852021/7/24Interproscan Interproscan InterPro是一个关于蛋白家族(protein families)、功能保守区域(domains)和功能位点 (funtional sites)的数据库。 该数据库包括了PROSITE, PRINTS, Pfam , ProDom等知名蛋白结构和功能位点及保守域的数据库。862021/7/24Interproscan http:/www.ebi.ac.uk/Tools/pfa/iprscan/872021/7/24基因注释基
47、因注释数据库 注释上的基因所占比例TIGR OGI(ver17)7126 94.3 TIGR PseudoMolecule(ver5)6151 81.4 NCBI UNIGENE(ver62)6714 88.8 NCBI nr protein database5831 77.2 93-11 BGI_Scan5854 77.5 Uniprot protein database3628 48.0 TIGR to GO4565 60.4 KEGG Automatic Annotation Server945 12.5 一共有一共有7250 (95.9%) 的的unigenes被注释。被注释。 882
48、021/7/24 技术路线cDNA文库构建随机测序得到EST序列读取与处理序列拼接和注释表达丰度和功能分析表达谱特征分析表达谱特征分析表达量在不同文库中的分布表达谱的比较分析差异表达基因鉴定与分类功能分析作用机理分析作用机理分析Q-PCR验证验证892021/7/24 EST软件平台EST序列库/序列的质量检查测序量监控聚类和拼接检查(借助于基因组信息)全长ORF寻找发现全长基因研究表达基因概况的主要实验手段(DNA chip、proteomics的先驱)功能分类表达量分析交替剪接检测EST特有信息902021/7/24Microarray和GeneChip大规模表达谱或全景式表达谱(glob
49、al expression profile):是生物体(组织、细胞)在某一状态下基因表达的整体状况。微阵列或基因芯片(DNA chip):利用光导化学合成、照相平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸探针,并与放射性同位素或荧光物标记的来自不同细胞、组织或整个器官的DNA或mRNA反转录生成的第一链cDNA进行杂交,然后用特殊的检测系统对每个杂交点进行定量分析。912021/7/24Spotted Microarrays cDNA Arrays Oligo Arrays In Situ Oligo Synthesis PhotosynthesisPlaner sur
50、faceMicrofluidics chip E-field synthesisIntegrated Chips Integrated uF, microarray and detection chips with PCR, fluorescence or e-detectionMicrofluidics Plastics Ceramics Silicon Other materials不同的生物芯片技术平台不同的生物芯片技术平台点样芯片原位合成芯片微流体芯片整合型芯片922021/7/24基因芯片的探针基因芯片的探针932021/7/24Tagged RNA fragments flushe
51、d over arrayLaser activation of fluorescent tagsOptical scanning of hybridization intensities基因芯片的杂交实验基因芯片的杂交实验942021/7/24Experimental overview:HybridizationWashingScan cy5 channelScan cy3 channel“Overlay images”Quantify pixel intensities.Cellpopulation ACell population BRNAextractionAABBReversetran
52、scriptionAABBKlenowlabel incorporationSample B labelledwith cy3 dyeSample A labelled with cy5 dye952021/7/24图像扫描Cy5Cy3962021/7/24Limit of Detection: 1 in 30,000 transcripts 20 transcripts/cellRed increase of Cy5 sample transcriptsGreen increase of Cy3 sample transcriptsYellow equal abundance972021/7
53、/24差异表达基因筛选 原理:采用cy3/cy5的ratio值对差异基因进行 判断,或采用统计方法对差异基因进行统计推断。 方法:倍数法:cy3/cy5比值大于2或者小于 0.5982021/7/24 基因芯片或微阵列技术流程.Clone反转录(可选)反转录(可选)读取光密度读取光密度聚类分析(非同源功能注释)聚类分析(非同源功能注释)标记标记杂交杂交反转录反转录EST分析分析.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表达量矩阵G1,G3,G5G2,G4G6,G9利用EST,SAGE分析结果制作芯片(研究已发现的研究已发现的基因基因)连接,连接,转化
54、转化 Rice genome-wide DNA chip (60,000+预测基因) 果蝇基因芯片原位合成 992021/7/24高通量测序转录组研究策略1002021/7/24高通量测序中重要名词解释1、测序深度:测序得到的总碱基数与待测基因组大小的比值。假设一个基因组大小为7M,测序总碱基数为70M,则测序深度为10。2、覆盖度:测序获得的序列占整个基因组的比例。由于基因组中高GC含量,重复序列等复杂结构的存在,测序最终拼接组装的序列往往无法覆盖所有的区域,这些区域就叫做Gap。二者的关系:测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降
55、。当测序深度在1015X以上时,基因组覆盖度和测序错误率控制均得以保证。 1012021/7/24RNA-seq技术路线文库制备测序短序列定位计数1022021/7/24Workflow of RNA-Seq样品检测样品检测文库制备文库制备Cluster StationIllumina Sequencing生物信息分析生物信息分析1032021/7/24Total RNA样品检测样品检测 Agilent 2200 检测检测 OD260/280:1.82.2 RNA 28S:18S 1.0; RIN7 新型安捷伦2200 TapeStation 系统是新一代测序(新一代测序(NGS)、生物微阵列
56、芯片分析和qPCR工流程以及蛋白质纯化和抗体生产过程中对生物样品进行质量控制(质量控制(QC)的理想解决方案。 可扩展的通量16联或96孔微量滴定板 快速得到结果平均每个样品只需一分钟便可获得结果 使用简单可直接使用的ScreenTape预制胶条简化了工作流程 样品用量少每次运行仅需要不到2ul样品1042021/7/24真核真核mRNA的纯化的纯化 mRNA的纯化主要通过的磁珠与生物素吸附原理从而分离纯化 Oligo(dT)25磁珠纯化原理主要是mRNA的3的poly A与磁珠在bindingbuffer的作用下相结合。磁珠通过MPC(磁分离器)从溶液中分离出来。 mRNA与磁珠结合后,再用
57、Tris-HCL在加热条件下解离洗脱到溶液中。链霉亲合素包被磁珠链霉亲合素包被磁珠+生物素标记生物素标记Oligo(dT)25+poly(A)1052021/7/24原核原核mRNA的纯化的纯化Ambion MICROExpress KitLNA扣锁型探针扣锁型探针1062021/7/24mRNA反转录反转录-fragment+RT 纯化过的mRNA样品加入1 l的fragment buffer 70作用1.5min。 加入1l的stop buffer终止反应。 加入沉淀剂(NaAc 糖原 无水乙醇)沉淀产物。 RT ds cDNA1072021/7/24 末端修复(防止自连) cDNA 3末
58、端加A Adapter连接1082021/7/24第一天第一天消化消化DNAmRNA的分离的分离mRNA的打断的打断cDNA的合成的合成第二天第二天末端修复末端修复 加接头加接头胶回收胶回收3端加端加A第三天第三天PCRPCR胶回收胶回收 文库制备文库制备 文库质量检测:文库质量检测:Aligent 2100:片段大小、纯度、浓度qPCR:片段大小、浓度手工检测:跑胶验证。1092021/7/24ApplicationRNA-Seq (单端测序单端测序-Quantification)RNA-Seq (双端测序双端测序-Transcriptome)Expression-profilingAlte
59、rnative SplicingFusion GeneSNP detectionHiSeq 2500Applications of RNA-Seq1101102021/7/24转录组分析的两种策略 左边是先比对,再通过表达量和junction信息得到转录本,这种方法能够检测到低表达量的转录本; 右边是对mRNA-seq的reads直接进行de novo 组装,得到转录本,但对于低表达量的转录本不易发现。1112021/7/24转录组分析的两种策略 有Reference的转录组分析 以比对为基础,分析有基因组的样品的可变剪接信息,以及预测可变剪接带来的功能差异,同时定量不同样品的mRNA表达丰度
60、进行差异基因的相关分析。 无Reference的转录组分析 通过测序数据组装大规模发掘对应物种的转录本信息,对组装得到转录本做功能注释分析,同时定量转录本的不同丰度进行差异分析。1122021/7/24两种分析思路原始数据Reference基因组Gff基因结构注释差异基因分析及功能注释分析有参考基因组无参考基因组聚类得到UnigeneUnigene的差异表达及功能注释分析可变剪接结果可变剪接作图TopHat+Cufflinks的可变剪接分析测序数据组装差异基因聚类分析差异基因功能注释结构预测分析差异基因聚类分析差异基因功能注释1132021/7/24有参考基因组分析 可变剪接 根据软件对基因可变剪接结果做预测 结合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年实习合同标准
- 广州市二手房买卖合同标准版
- 广告2026年广告合同范文
- 技术服务 技术许可与转让合同
- 甲状腺手术疼痛护理
- 膀胱癌护理案例分析
- 肺癌手术治疗方法
- 统编版四年级上册语文第八单元 习作我的心儿怦怦跳公开课一等奖创新教学设计
- 第19课 大雁归来 第2课时 公开课一等奖创新教学设计-【课堂无忧】新课标同步核心素养课堂
- 焊工工艺培训课件
- 2022年黑龙江哈尔滨中考满分作文《这也是收获》2
- 第四次全国文物普查工作推进情况汇报3篇
- 2024-2025学年新教材高中地理 第四章 地貌 第二节 地貌的观察教案(2)新人教版必修1
- 《江城子·乙卯正月二十日夜记梦》课件 -2024-2025学年统编版高中语文选择性必修上册
- 新员工岗前安全培训考试题含完整答案【各地真题】
- 第四届“长城杯”网络安全大赛(高校组)初赛备赛试题库-上(单选题部分)
- 国开2024年秋季《形势与政策》大作业答案
- 2024年浙江省初中学业水平考试数学试题(潮汐卷)(解析版)
- 中职教育一年级上学期英语《We Are Friends》课件
- 专题10 议论文阅读(含答案) 2024年中考语文【热点-重点-难点】专练(上海专用)
- 21 小圣施威降大圣 公开课一等奖创新教案
评论
0/150
提交评论