表达序列分析课件_第1页
表达序列分析课件_第2页
表达序列分析课件_第3页
表达序列分析课件_第4页
表达序列分析课件_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章表达序列分析生物信息学第七章表达序列分析生物信息学1表达序列标签(ExpressedSequenceTag,EST)是由大规模随机挑取的cDNA克隆测序得到的组织或细胞基因组的表达序列标签表达序列标签(EST)表达序列标签(ExpressedSeque2EST的概念EST是指通过对cDNA文库随机挑取的克隆进行大规模测序所获得的cDNA的5’或3’端序列,长度一般为60~500bp.EST是基因的“窗口”,可代表生物体某种组织某一时间的一个表达基因,故被称之为“表达序列标记”EST的概念EST是指通过对cDNA文库随机挑取的克隆进3

EST技术的形成和发展

上世纪80年代,对cDNA序列进行大规模测序的想法就曾提出,但反对者认为cDNA序列缺少重要的基因调控区域的信息。

EST技术应用的首次报道是Adams(1991)等从三种人脑组织cDNA文库随机挑取609个克隆进行测序,得到一组人脑组织的EST,分析结果表明其中36个代表已知基因,337个代表未知基因。运用自动化测序技术,大规模生产EST序列。EST技术的形成和发展4/projects/dbEST//pr5表达序列分析课件6体内:翻译体外研究:反转录连接,转化文库构建技术已经成熟测序成本已经大大降低大数据量分析理念已经形成EST技术流程体内:翻译体外研究:反转录连接,转化文库构建技术已经成熟测序7◆

非标准化的cDNA文库的构建。

可用于基因表达量的分析◆

经标准化或扣除杂交处理的cDNA文库。

富集表达丰度较低的基因

A.cDNA文库构建◆非标准化的cDNA文库的构建。A.cDNA文库构建8cDNA文库的构建cDNA文库的构建9随机挑取克隆进行5’或3’端测序序列前处理聚类和拼接基因注释及功能分类后续分析B.序列测定及数据分析随机挑取克隆进行5’或3’端测序序列前处理聚类和拼接基因注释10测序方向的原则①EST编码蛋白质的信息应满足同源序列比较分析②决定于用EST来进行研究的目的测序方向的原则11测序方向的选择◆5’端5’上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5’端EST较好,而且从5’端测序有利于将EST拼接成较长的基因序列。◆3’端3’端mRNA有一20-200bp的polyA结构,同时靠近ployA又有特异性的非编码区,所以从3’端测得EST含有编码的信息较少,但研究非编码区有品种的特异性,可以作为STS标记.◆两端测序获得更全面的信息。测序方向的选择12(1)去除低质量的序列(2)应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactualsequences)。●载体序列(/repository/vector)

●重复序列(RepBase,)●污染序列(如核糖体RNA、细菌或其它物种的基因组DNA等)(3)去除其中的镶嵌克隆:Back-to-backpoly(A)+tails;Linker-to-linkerinmiddleofthesequence.(4)最后去除长度小于100bp的序列。序列前处理(1)去除低质量的序列序列前处理13聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(overlapping)的ESTs整合至单一的簇(cluster)中。聚类作用:产生较长的一致性序列(consensussequence),用于注释。降低数据的冗余,纠正错误数据。可以用于检测选择性剪切。ESTs聚类的数据库主要有三个:UniGene(/UniGene)TIGRGeneIndices(/tdb/tgi/)STACK(http://www.sanbi.ac.za/Dbases.html)

ESTs的聚类和拼接聚类的目的就是将来自同一个基因或同一个转录本的具14◆looseclustering●产生的一致性序列比较长●表达基因ESTs数据的覆盖率高●含有同一基因不同的转录形式,如各种选择性剪接体●每一类中可能包含旁系同源基因的转录本●序列的保真度低◆stringentclustering●产生的一致性序列比较短●表达基因ESTs数据的覆盖率低●因此所含有的同一基因的不同转录形式少●序列保真度高不严格的和严格的聚类不严格的和严格的聚类15利用cDNA克隆的信息和5’、3’端的序列信息,不同的Cluster可以连接在一起。Cluster的拼接利用cDNA克隆的信息和5’、3’端的序列信息,不同的Clu16常用的拼接软件◆Phrap(/phredphrapconsed.html)◆CAP3(http://pbil.univ-lyon1.fr/cap3.php)◆d2_cluster(http://www.sanbi.ac.za/)常用的拼接软件◆Phrap(http://w17(1)注释:◆序列联配

Blastn:searchnucleotidedatabasesusinganucleotidequery.

Blastx:searchproteindatabasesusingatranslatednucleotidequery.◆蛋白质功能域搜索(二结构比对)

Pfam:

ThePfamdatabaseisalargecollectionofproteinfamilies,eachrepresentedbymultiplesequencealignmentsandhiddenMarkovmodels.

Interpro:

InterProisanintegrateddatabaseofpredictiveprotein"signatures"usedfortheclassificationandautomaticannotationofproteinsandgenomes.基因注释及功能分类(1)注释:基因注释及功能分类18(2)基因功能分类:◆手工分类

大部分以Adams1995年的文章中的采用分类体系为标准。【Adams.MD,etal.Initialassessmentofhumangenediversityandexpressionpatternsbasedupon83millionnucleotidesofcDNAsequence.Nature.1995377(6547Suppl):3-174】◆计算机批量处理利用标准基因词汇体系GeneOntology,进行近似的分类。(/)基因注释及功能分类(2)基因功能分类:基因注释及功能分类19生物过程分子功能细胞组件基因本体(GeneOntology,GO)

生物过程基因本体20/GO.downloads.annotations.shtml

/GO21◆比较基因组学分析◆基因表达谱分析◆新基因研究◆基因可变剪切分析◆实验验证

►MicroArray

►GeneChip

►RT-PCR

►Northernblotting后续分析◆比较基因组学分析后续分析22

表达序列标签(EST)数据的应用表达序列标签(EST)23利用对某一特异组织或某一生长发育阶段的cDNA文库,进行随机部分测序所得的ESTs,作为查询项在dbEST中进行同源查找,同时将由ESTs序列按密码子推出的氨基酸序列作为查询项在蛋白质信息资源数据库中进行同源查找。如果该ESTs序列在以上数据库中存在同源序列,可对该ESTs所代表基因的功能进行分析及鉴定。如果不存在同源序列,则该ESTs所代表的基因有可能是新基因。1.ESTs与新基因识别1.ESTs与新基因识别24表达序列分析课件25表达序列分析课件26转录图谱为染色体DNA某一区段内,所有可转录序列的分布图,ESTs作为转录基因的产物,可直接用于构建转录图谱。由于ESTs具有很高的多态性可用作分子标记,用于建立遗传连锁图谱。建染色体物理图谱需要大量的单拷贝序列标记位点(STS)作为界标,由于大多数基因是单拷贝的,因此ESTs可以充当STS构建物理图谱。2.ESTs与遗传学图谱的构建2.ESTs与遗传学图谱的构建27序列标签位点(sequence-taggedsites,STS):已知核苷酸序列的DNA片段,是基因组中任何单拷贝的短DNA序列,长度在100~500bp之间来自mRNA的3’非翻译区的ESTs更适合做为STSs,用于基因图谱的绘制。优点:●由于没有内含子的存在,因此在cDNA及基因组模板中其PCR产物的大小相同。●与编码区具有很强的保守性不同,3’UTRs序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。2.ESTs与遗传学图谱的构建序列标签位点(sequence-taggedsites,28由于EST来源于cDNA,因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。大于90%的已经注释的基因都能在EST库中检测到。ESTs可以做为其它基因预测算法的补充。3.ESTs与基因预测由于EST来源于cDNA,因此每一条EST均代表了文库建立29通过对ESTs重叠群组装,对大量重复的ESTs进行序列比较,可以从ESTs数据库中筛选另一种以测序为核心的分子标记SNPs。来自不同个体的ESTs可用于发现基因组中转录区域存在的SNPs。注意区别真正的SNPs和由于测序错误而引起的本身不存在的SNPs。解决这一问题可以通过:●提高ESTs分析的准确性。●对所发现的SNPs进行实验验证。4.ESTs与单核苷酸多态性(SNPs)通过对ESTs重叠群组装,对大量重复的ESTs进行序列比较30

某一时期基因表达的数量通常占全部基因的15%,细胞的分化由基因特异性的时空表达决定。利用未经标准化和差减杂交的cDNA文库EST可以分析特定组织的基因表达谱。近年来对基因差异表达研究的方法有ESTs法、差减杂交法和mRNA差异显示技术。其中以ESTs法稳定性最高,分析规模最大。5.ESTs与基因的差异表达某一时期基因表达的数量通常占全部基因的15%,细胞的分化由31癌症基因组解析计划(CancerGenomeAnatomyProject,CGAP)为研究癌症的分子机理,美国国家癌症研究所NCI的CGAP计划,构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行了大规模的EST测序。CGAP网站提供了多种工具用以分析不同文库间基因表达的差异,如:●DigitalGeneExpressionDisplayer(DGED)●cDNAxProfiler5.ESTs与基因的差异表达癌症基因组解析计划5.ESTs与基因的差异表达32DNA芯片是指将许多许多特定的DNA寡核苷酸或DNA片段(包括cDNA)固定在芯片的每个预先设置的区域内,将待测样本标记后同芯片进行杂交,通过杂交信息的分析来检测基因的功能和基因组研究的分析系统。ESTs是用于制备DNA芯片的很好基因资源。由于ESTs直接来源于cDNA,因此ESTs文库可代表cDNA文库用于制备DNA芯片所需的探针库。6.ESTs与DNA芯片的制备绿色:基因表达↓红色:基因表达↑

黄色:基因表达相当DNA芯片是指将许多许多特定的DNA寡核苷酸或DNA片33基因芯片或微阵列技术流程….….Clone反转录(可选)读取光密度聚类分析(非同源功能注释)标记杂交反转录EST分析………….………….………….GeneChip0.10.060.050.04…000.070.01…表达量矩阵G1,G3,G5G2,G4G6,G9…利用EST,SAGE分析结果制作芯片(研究已发现的基因)连接,转化原位合成

基因芯片或微阵列技术流程….Clone反转录(可选)读取光密34基因表达系列分析(SerialAnalysisofGeneExpression,SAGE)技术,能同时对上千个转录物进行研究,是一种用于定量及高通量基因表达分析的实验方法。7.ESTs与基因表达系列分析基因表达系列分析(SerialAnalysisofGe35SAGE的原理:(1)一个9-14碱基的短核苷酸序列标签包含有足够的信息,能够唯一确认一种转录物。一个9碱基顺序能够分辨262,144个不同的转录物,而人类基因组估计仅能编码80,000种转录物,所以理论上每一个9碱基标签能够代表一种转录物的特征序列。(2)将短片段标签相互连接形成长的DNA分子,对该克隆进行测序得到大量连续的单个标签,可对数以千计的mRNA转录本进行分析。(3)特定的序列标签的出现次数就反应了对应的基因的表达丰度。7.ESTs与基因表达系列分析SAGE的原理:7.ESTs与基因表达系列分析36反转录酶切连接测序单条测序=对30-40条EST测序分析由于采样量大大提高,可对低表达基因进行分析:基因表达量分析、寻找新基因等等实验步骤较长要求较高SAGE技术流程反转录酶切连接测序单条测序=对30-40条EST测序分析由于378.电子克隆利用计算机技术,依托现有的网络资源EST数据库、核苷酸数据库、蛋白质数据库、基因组数据库等,采用生物信息学方法(包括同源性检索、聚类、序列拼装等)延伸EST序列,以期获得部分乃至全长cDNA序列的一种方法。8.电子克隆利用计算机技术,依托现有的网络资源EST数据库、385’3’estSearchinestdatabaseSearchinestdatabaseSearchinestdatabaseSearchinestdatabase5’3’CompletecDNA简单电子克隆模式图

5’3’estSearchinestdatabaseS39ESTs很短,没有给出完整的表达序列。

低丰度表达基因不易获得。由于只是一轮测序结果,出错率达2%-5%。

有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染。

有时出现镶嵌克隆。序列的冗余,导致所需要处理的数据量很大。ESTs数据的不足ESTs很短,没有给出完整的表达序列。ESTs数据的不足40谢谢谢谢41单核苷酸多态性(SNP)(singlenucleotidepolymorphism)在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性单核苷酸多态性(SNP)42第七章表达序列分析生物信息学第七章表达序列分析生物信息学43表达序列标签(ExpressedSequenceTag,EST)是由大规模随机挑取的cDNA克隆测序得到的组织或细胞基因组的表达序列标签表达序列标签(EST)表达序列标签(ExpressedSeque44EST的概念EST是指通过对cDNA文库随机挑取的克隆进行大规模测序所获得的cDNA的5’或3’端序列,长度一般为60~500bp.EST是基因的“窗口”,可代表生物体某种组织某一时间的一个表达基因,故被称之为“表达序列标记”EST的概念EST是指通过对cDNA文库随机挑取的克隆进45

EST技术的形成和发展

上世纪80年代,对cDNA序列进行大规模测序的想法就曾提出,但反对者认为cDNA序列缺少重要的基因调控区域的信息。

EST技术应用的首次报道是Adams(1991)等从三种人脑组织cDNA文库随机挑取609个克隆进行测序,得到一组人脑组织的EST,分析结果表明其中36个代表已知基因,337个代表未知基因。运用自动化测序技术,大规模生产EST序列。EST技术的形成和发展46/projects/dbEST//pr47表达序列分析课件48体内:翻译体外研究:反转录连接,转化文库构建技术已经成熟测序成本已经大大降低大数据量分析理念已经形成EST技术流程体内:翻译体外研究:反转录连接,转化文库构建技术已经成熟测序49◆

非标准化的cDNA文库的构建。

可用于基因表达量的分析◆

经标准化或扣除杂交处理的cDNA文库。

富集表达丰度较低的基因

A.cDNA文库构建◆非标准化的cDNA文库的构建。A.cDNA文库构建50cDNA文库的构建cDNA文库的构建51随机挑取克隆进行5’或3’端测序序列前处理聚类和拼接基因注释及功能分类后续分析B.序列测定及数据分析随机挑取克隆进行5’或3’端测序序列前处理聚类和拼接基因注释52测序方向的原则①EST编码蛋白质的信息应满足同源序列比较分析②决定于用EST来进行研究的目的测序方向的原则53测序方向的选择◆5’端5’上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5’端EST较好,而且从5’端测序有利于将EST拼接成较长的基因序列。◆3’端3’端mRNA有一20-200bp的polyA结构,同时靠近ployA又有特异性的非编码区,所以从3’端测得EST含有编码的信息较少,但研究非编码区有品种的特异性,可以作为STS标记.◆两端测序获得更全面的信息。测序方向的选择54(1)去除低质量的序列(2)应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactualsequences)。●载体序列(/repository/vector)

●重复序列(RepBase,)●污染序列(如核糖体RNA、细菌或其它物种的基因组DNA等)(3)去除其中的镶嵌克隆:Back-to-backpoly(A)+tails;Linker-to-linkerinmiddleofthesequence.(4)最后去除长度小于100bp的序列。序列前处理(1)去除低质量的序列序列前处理55聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(overlapping)的ESTs整合至单一的簇(cluster)中。聚类作用:产生较长的一致性序列(consensussequence),用于注释。降低数据的冗余,纠正错误数据。可以用于检测选择性剪切。ESTs聚类的数据库主要有三个:UniGene(/UniGene)TIGRGeneIndices(/tdb/tgi/)STACK(http://www.sanbi.ac.za/Dbases.html)

ESTs的聚类和拼接聚类的目的就是将来自同一个基因或同一个转录本的具56◆looseclustering●产生的一致性序列比较长●表达基因ESTs数据的覆盖率高●含有同一基因不同的转录形式,如各种选择性剪接体●每一类中可能包含旁系同源基因的转录本●序列的保真度低◆stringentclustering●产生的一致性序列比较短●表达基因ESTs数据的覆盖率低●因此所含有的同一基因的不同转录形式少●序列保真度高不严格的和严格的聚类不严格的和严格的聚类57利用cDNA克隆的信息和5’、3’端的序列信息,不同的Cluster可以连接在一起。Cluster的拼接利用cDNA克隆的信息和5’、3’端的序列信息,不同的Clu58常用的拼接软件◆Phrap(/phredphrapconsed.html)◆CAP3(http://pbil.univ-lyon1.fr/cap3.php)◆d2_cluster(http://www.sanbi.ac.za/)常用的拼接软件◆Phrap(http://w59(1)注释:◆序列联配

Blastn:searchnucleotidedatabasesusinganucleotidequery.

Blastx:searchproteindatabasesusingatranslatednucleotidequery.◆蛋白质功能域搜索(二结构比对)

Pfam:

ThePfamdatabaseisalargecollectionofproteinfamilies,eachrepresentedbymultiplesequencealignmentsandhiddenMarkovmodels.

Interpro:

InterProisanintegrateddatabaseofpredictiveprotein"signatures"usedfortheclassificationandautomaticannotationofproteinsandgenomes.基因注释及功能分类(1)注释:基因注释及功能分类60(2)基因功能分类:◆手工分类

大部分以Adams1995年的文章中的采用分类体系为标准。【Adams.MD,etal.Initialassessmentofhumangenediversityandexpressionpatternsbasedupon83millionnucleotidesofcDNAsequence.Nature.1995377(6547Suppl):3-174】◆计算机批量处理利用标准基因词汇体系GeneOntology,进行近似的分类。(/)基因注释及功能分类(2)基因功能分类:基因注释及功能分类61生物过程分子功能细胞组件基因本体(GeneOntology,GO)

生物过程基因本体62/GO.downloads.annotations.shtml

/GO63◆比较基因组学分析◆基因表达谱分析◆新基因研究◆基因可变剪切分析◆实验验证

►MicroArray

►GeneChip

►RT-PCR

►Northernblotting后续分析◆比较基因组学分析后续分析64

表达序列标签(EST)数据的应用表达序列标签(EST)65利用对某一特异组织或某一生长发育阶段的cDNA文库,进行随机部分测序所得的ESTs,作为查询项在dbEST中进行同源查找,同时将由ESTs序列按密码子推出的氨基酸序列作为查询项在蛋白质信息资源数据库中进行同源查找。如果该ESTs序列在以上数据库中存在同源序列,可对该ESTs所代表基因的功能进行分析及鉴定。如果不存在同源序列,则该ESTs所代表的基因有可能是新基因。1.ESTs与新基因识别1.ESTs与新基因识别66表达序列分析课件67表达序列分析课件68转录图谱为染色体DNA某一区段内,所有可转录序列的分布图,ESTs作为转录基因的产物,可直接用于构建转录图谱。由于ESTs具有很高的多态性可用作分子标记,用于建立遗传连锁图谱。建染色体物理图谱需要大量的单拷贝序列标记位点(STS)作为界标,由于大多数基因是单拷贝的,因此ESTs可以充当STS构建物理图谱。2.ESTs与遗传学图谱的构建2.ESTs与遗传学图谱的构建69序列标签位点(sequence-taggedsites,STS):已知核苷酸序列的DNA片段,是基因组中任何单拷贝的短DNA序列,长度在100~500bp之间来自mRNA的3’非翻译区的ESTs更适合做为STSs,用于基因图谱的绘制。优点:●由于没有内含子的存在,因此在cDNA及基因组模板中其PCR产物的大小相同。●与编码区具有很强的保守性不同,3’UTRs序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。2.ESTs与遗传学图谱的构建序列标签位点(sequence-taggedsites,70由于EST来源于cDNA,因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。大于90%的已经注释的基因都能在EST库中检测到。ESTs可以做为其它基因预测算法的补充。3.ESTs与基因预测由于EST来源于cDNA,因此每一条EST均代表了文库建立71通过对ESTs重叠群组装,对大量重复的ESTs进行序列比较,可以从ESTs数据库中筛选另一种以测序为核心的分子标记SNPs。来自不同个体的ESTs可用于发现基因组中转录区域存在的SNPs。注意区别真正的SNPs和由于测序错误而引起的本身不存在的SNPs。解决这一问题可以通过:●提高ESTs分析的准确性。●对所发现的SNPs进行实验验证。4.ESTs与单核苷酸多态性(SNPs)通过对ESTs重叠群组装,对大量重复的ESTs进行序列比较72

某一时期基因表达的数量通常占全部基因的15%,细胞的分化由基因特异性的时空表达决定。利用未经标准化和差减杂交的cDNA文库EST可以分析特定组织的基因表达谱。近年来对基因差异表达研究的方法有ESTs法、差减杂交法和mRNA差异显示技术。其中以ESTs法稳定性最高,分析规模最大。5.ESTs与基因的差异表达某一时期基因表达的数量通常占全部基因的15%,细胞的分化由73癌症基因组解析计划(CancerGenomeAnatomyProject,CGAP)为研究癌症的分子机理,美国国家癌症研究所NCI的CGAP计划,构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行了大规模的EST测序。CGAP网站提供了多种工具用以分析不同文库间基因表达的差异,如:●DigitalGeneExpressionDisplayer(DGED)●cDNAxProfiler5.ESTs与基因的差异表达癌症基因组解析计划5.ESTs与基因的差异表达74DNA芯片是指将许多许多特定的DNA寡核苷酸或DNA片段(包括cDNA)固定在芯片的每个预先设置的区域内,将待测样本标记后同芯片进行杂交,通过杂交信息的分析来检测基因的功能和基因组研究的分析系统。ESTs是用于制备DNA芯片的很好基因资源。由于ESTs直接来源于cDNA,因此ESTs文库可代表cDNA文库用于制备DNA芯片所需的探针库。6.ESTs与DNA芯片的制备绿色:基因表达↓红色:基因表达↑

黄色:基因表达相当DNA芯片是指将许多许多特定的DNA寡核苷酸或DNA片75基因芯片或微阵列技术流程….….Clone反转录(可选)读取光密度聚类分析(非同源功能注释)标记杂交反转录EST分析………….………….………….GeneChip0.10.06

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论