第三章DNA序列分析-2008-10-9

上传人：鱼*** IP属地：江苏上传时间：2023-10-25 格式：PPT 页数：192 大小：8.67MB 积分：40 举报 版权申诉

已阅读5页，还剩187页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第三章DNA序列分析3.1概述3.1.1序列分析的意义（1）DNA序列自身编码特征的分析是基因组信息学研究的基础，特别是随着大规模测序的日益增加，它的每一个环节都与信息分析紧密相关。（2）基因组不仅是基因的简单排列，更重要的是它有其特有的组织结构和信息结构，这种结构是在长期的演化过程中产生的，也是基因发挥其功能所必须的。（3）虽然对约占模式生物（包括人类）基因组90％的非编码区的作用人们还不清楚，但从生物进化的观点看来，这部分序列必定具有重要的生物功能。普遍的认识是，它们与基因在四维时空的表达调控有关。寻找这些区域的编码特征，信息调节与表达规律是未来相当长时间内的热点，是取得重要成果的源泉。（4）在不同物种、不同进化水平的生物的相关基因之间进行比较分析，是基因研究的重要手段。目前，模式生物全基因组序列数据越来越多，因此，基因的比较研究，也必须从基因的比较，上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地揭示基因在生命系统中的地位和作用，解释整个生命系统的组成和作用方式。3.1.2序列分析的内容（1）通过染色体定位分析、内含子／外显子分析、ORF分析、表达谱分析等，能够阐明基因的基本信息。（2）通过启动子预测、CpG岛分析和转录因子分析等，识别调控区的顺式作用元件，可以为基因的调控研究提供基础。（3）通过蛋白质基本性质分析，疏水性分析，跨膜区预测，信号肽预测，亚细胞定位预测，抗原性位点预测，可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白，这对确定实验研究方向有重要的参考意义。（4）通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等，尽量挖掘网络数据库中的信息，可以对基因功能作出推论。3.1.3DNA序列分析的目标任务对于呈指数式增长的序列数据，通过序列分析，可以获得如下几个方面的信息：（1）序列及所代表的类群间的系统发育关系；（2）限制性酶切（位点）图谱；（3）籍内含子/外显子（intron/exon)预测所确定的遗传结构；（4）籍开放阅读框（ORF）分析所推导的蛋白质编码序列（codingsequence，CDS）。基因与基因组分析技术路线

可读框预测和基因标注序列拼接与组装结果上传到数据库碱基读取载体标识与去除测序仪中原始数据的采样与分析大规模基因序列测定生物信息学的内容基因预测DNA序列中编码区的鉴定预测方法的依据:

编码统计学：编码区序列同非编码区序列相比，有不同的特点，存在一些非随机的特点

GC含量密码子偏倚性(CODONFREQUENCY)

第三个碱基组成

基因结构/统计学方法

比较/同源性生物信息学的内容蛋白质结构新蛋白的完整、精确和动态的三维结构计算机辅助结构模拟理解蛋白质的氨基酸序列和三维结构之间的关系蛋白质序列及特性分析蛋白质组学蛋白质与蛋白质组分析生物信息学的内容研究主要集中在核苷酸序列的存储、分类、检索和分析等方面新基因的发现非蛋白编码区生物学意义的分析基因组整体功能及其调节网络的系统把握基因组演化与物种演化基因组分析3.2基因的结构什么是基因?基因是有遗传效应的DNA片断，是决定生物性状的基本单位。每个DNA分子上有很多个基因，每个基因可以含有成百上千个脱氧核苷酸。不同基因中脱氧核苷酸的排列顺序不同，因此不同的基因含有不同的遗传信息。基因的功能：基因能够储存、传递和表达遗传信息，也都可能发生突变，从而决定生物体的性状。基因如何决定生物性状?

通过转录、翻译，控制合成具有一定氨基酸顺序的蛋白质，从而控制生物的性状。DNA→RNARNA→蛋白质基因的表达原核细胞的基因结构编码区非编码区非编码区编码区上游编码区下游不能编码蛋白质可调控遗传信息的表达(调控序列)编码蛋白质(编码序列)原核基因识别重点在于识别编码区域非翻译区域（untranslatedregions,UTR）编码区域两端的DNA，有一部分被转录，但是不被翻译，这一部分称为非翻译区域5’UTR---基因上游区域的非翻译区域3’UTR---基因下游区域的非翻译区域一个开放阅读框（ORF,openreadingframe）是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读框，或者说识别长的编码区域。原核细胞的基因结构编码区非编码区非编码区与RNA聚合酶结合位点

RNA聚合酶是由多个肽链构成的蛋白质，能识别并与调控序列中的结合位点结合,催化转录形成RNA。RNA聚合酶AGGTCACGTCGTCCAGTGCAGCRNA聚合酶AGGUCACGUCGRNA聚合酶一个典型的原核细胞基因结构示意图非编码区非编码区编码区TCCAGTAGGTCAAGATCTmRNA多肽链

科学工作者分离得到了某原核生物基因，并将其解离成两条单链。现让其中一条链与由该基因转录而来的信使RNA杂交配对，结果如图所示。非编码区非编码区编码区信使RNA基因的一条链ＡＢＣ基于基因密码子特性的识别方法辨别编码区域与非编码区域的一种方法是检查终止密码子的出现频率终止密码子出现的期望次数为：每21个（

64/3）密码子出现一次终止密码子

基本思想：如果能够找到一个比较长的序列，其相应的密码子序列不含终止密码子，则这段序列可能就是编码区域。基本算法：扫描给定的DNA序列，在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后，回头寻找起始密码子。这种算法过于简单，不适合于处理短的ORF或者交叠的ORF。识别编码区域的另一种方法是分析各种密码子出现的频率

将一个随机均匀分布的DNA序列翻译成氨基酸序列，则在氨基酸序列中上述3种氨基酸出现的比例应该为6:4:1例如，亮氨酸、丙氨酸、色氨酸分别有6个、4个和1个密码子但是在真实的氨基酸序列中，上述比例并不正确这说明DNA的编码区域并非随机假设在一条DNA序列中已经找到所有的ORF，那么可以利用密码子频率进一步区分编码ORF和非编码ORF马尔柯夫链模型利用这种方法，可以计算一个ORF成为编码区域的可能性。真核细胞的基因结构一个典型的真核细胞基因结构示意图编码区含有能够编码蛋白质的序列(外显子，exon)不能编码蛋白质的插入序列(内含子,intron)真核生物的结构基因是断裂基因非编码区非编码区编码区与RNA聚合酶结合位点外显子内含子12345真核细胞的基因结构编码区非编码区非编码区编码区下游调控遗传信息的表达(调控序列)外显子(能编码蛋白质)内含子(不能编码蛋白质)非编码区非编码区编码区与RNA聚合酶结合位点外显子内含子12345加工转录mRNA前体成熟mRNA加工一个典型的真核细胞基因结构示意图非编码区非编码区编码区与RNA聚合酶结合位点外显子内含子12345原核细胞基因真核细胞基因相同点不同点原核细胞基因与真核细胞基因的比较都是由能够编码蛋白质的编码区和具有调控作用的非编码区组成。编码区是连续的编码区是间隔的，是不连续的猜想:为什么成熟信使RNA比编码区(单链)碱基数量要少?成熟信使RNA对应基因的一条链编码区真核生物基因的有关实验非编码区非编码区ＡＢＣ哪些情况下，真核生物基因结构改变(基因突变)可能不会导致性状改变？(1)内含子改变(2)非编码区改变，mRNA遗传密码不变(3)外显子改变，转录成不同密码子决定同一种氨基酸(4)蛋白质氨基酸序列不同，也可能完成相同功能(5)突变后,基因变为隐性12345非编码区非编码区编码区不同基因所含的外显子和内含子数量不同如人血红蛋白的－珠蛋白基因有1700个碱基对，含有3个外显子和2个内含子，编码146个氨基酸。一种凝血因子基因有186000碱基对，含有26个外显子和25个内含子，编码2552个氨基酸。计算人的－珠蛋白和凝血因子基因中外显子的碱基对在整个基因碱基对中所占的比例：(146×3)÷1700×100%=26%(2552×3)÷186000×100%=4%从这个比例中你能得出什么结论?在真核细胞中，不同基因的编码序列，在各自基因中所占的比例是不同的。在真核细胞中，编码序列在整个基因中所占的比例是较少的，而非编码序列所占的比例则是较大的，从某种意义上体现了真核细胞基因结构与功能的复杂性。3.3核酸序列的概念性翻译3.4真核基因识别

真核基因远比原核基因复杂：一方面，真核基因的编码区域是非连续的，编码区域被分割为若干个小片段。另一方面，真核基因具有更加丰富的基因调控信息，这些信息主要分布在基因上游区域。3.4.1基因识别基本思路

找出基因两端的功能区域:

转录启动区终止区在启动区下游位置寻找翻译起始密码子识别转录剪切位点剪切给体位点剪切接受体位点各种不同的方法有不同的适应面，而不同的方法有时可以结合起来以提高基因识别的准确率。关键问题是如何提高一个识别算法的敏感性（sensitivity，Sn）和特异性（specificity，Sp）。

3.4.2基因识别的主要方法两大类识别方法：从头算方法（或基于统计的方法）根据蛋白质编码基因的一般性质和特征进行识别，通过统计值区分外显子、内含子及基因间区域

基于同源序列比较的方法利用数据库中现有与基因有关的信息（如EST序列、蛋白质序列），通过同源比较，帮助发现新基因。最理想的方法是综合两大类方法的优点，开发混合算法。基因识别方法有：（1）基于规则的系统（2）语义学方法（3）线性辨别分析（LDA）（4）决策树

（5）动态规划

（6）隐马尔柯夫模型

（7）剪切对比排列（splicedalignment）3.4.3编码区域识别两类方法：基于特征信号的识别内部外显子剪切位点5’端的外显子一定在核心启动子的下游3’端的外显子的下游包含多聚Ａ信号和终止编码基于统计度量的方法根据密码子使用倾向双联密码统计度量等

在一个基因中，第i个（i=1，64）密码子相对使用倾向RSCUi的定义如下：Obsi是该基因中第i个密码子实际出现的次数 Expi是对应密码子期望的出现次数

aai是统计的第i个密码子出现的次数

syni是所有与第i个密码子同义密码子出现的次数RSCU大于1表示相应密码子出现的次数比期望次数高，而小于1则表示出现次数相对较少。（5-66）（5-65）

密码子使用倾向设一段DNA序列为S，从S的第i位到第j位的双联密码统计度量IF6（i，j）定义为： fk是从第k位开始的双联密码的频率 Fk是该双联密码随机出现的频率（5-67）双联密码统计度量通过相似搜索发现编码区域或者外显子EST（ExpressedSequenceTags）cDNA蛋白质序列目前大多数预测程序都将数据库相似性搜索的信息结合进基因预测过程同时考虑序列特征信号和统计度量 GRAIL 用人工神经网络识别编码区域输入是一系列反映功能位点信号特征和序列编码统计特征的参数输出就是对一段DNA序列是否是编码区域的判别结果神经网络具有非线性映射能力，能够发现输入和输出之间的高阶相关性3.4.4ORFFinder(OpenReadingFramefinder)

Entrez中提供的生物分子数据分析工具，是一个图形化的分析工具，它能够在用户给定的核酸序列或者数据库中的核酸序列中寻找可能的开放阅读框，并推导出相应的氨基酸序列。/gorf/gorf.html碱基组成

DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的，但几乎所有的研究都证明碱基是以不同频率分布的。表1包含了9个完整DNA分子序列的资料，表2的数据来自两个胎儿球蛋白基因(Gr和Ar)，每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500个任意碱基区域被称为“侧翼”，基因间区域是指两个基因间的其余序列。表1九种完整DNA序列的碱基组成表2人类胎儿球蛋白基因不同区段的碱基组成

碱基相邻频率

分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积例：鸡血红蛋白β链的mRNA编码区的438个碱基图1鸡β球蛋白基因编码区的DNA序列(GenBank：CHKHBBM，记录号J00860)表3图1鸡β球蛋白基因序列的相邻碱基分布

在编码区，存在某种约束来限制DNA序列编码氨基酸。在密码子水平上，这一约束与碱基相邻频率有关。表4列出了遗传密码和图1序列中各密码子数量。尽管数目很小，难以作出有力的统计结论，但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。表4还清楚地表明，由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型，因而对第3位置上碱基的约束要比第2位碱基小得多。表464种可能的碱基三联体密码子及相应的氨基酸数（据图1序列）相邻碱基之间的关联将导致更远碱基之间的关联，这些关联延伸距离的估计可以从马尔科夫链(Markovchain)理论得到(Javare和Giddings，1989)三．同向重复序列分析除了分析整个序列碱基关联程度的特征外，我们常对寻找同向重复序列(directrepeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)。只需要对整个序列搜索一次。给一碱基赋以值α,例如A、C、G、T的值为0、1、2、3。由X1、X2、…、Xk共k个字母组成的每一种不同的字码按：计算字码值。这些值的取值范围为1到4k

例如：5字码TGACC的值为1+3×44+2×43+0×42+1×41+1×40=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。在本例中只有4个重复的2碱基重复序列。例如，在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。从有重复的2碱基为起点的3字码值中发现字码值为1、45和49的序列有重复；以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。表5序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin,1983)四、RNA二级结构预测

尽管现有一些RNA折叠程序可以预测RNA二级结构，但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区，但对给定的RNA分子来说，这一结果的生物学意义究竟有多大，还是一个未知数。即使有此局限性，二级结构的预测还是有助于找出mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。3.4.5从序列中寻找基因

1.基因及基因区域预测

基因按其功能可分为结构基因和调控基因：结构基因可被转录形成mRNA，并进而转译成多肽链；调控基因是指某些可调节控制结构基因表达的基因。在DNA链上，由蛋白质合成的起始密码开始，到终止密码子为止的一个连续编码序列称为一个开放阅读框(OpenReadingFrame,ORF)。结构基因多含有插入序列，除了细菌和病毒的DNA中ORF是连续的，包括人类在内的真核生物的大部分结构基因为断裂基因，即其编码序列在DNA分子上是不连续的，或被插入序列隔开。断裂基因被转录成前体mRNA，经过剪切过程，切除其中非编码序列(即内含子)，再将编码序列(即外显子)连接形成成熟mRNA，并翻译成蛋白质。假基因是与功能性基因密切相关的DNA序列，但由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。

一种典型的真核蛋白质编码基因的结构示意图。其编码序列（外显子）是不连续的，被非编码区（内含子）隔断。

所谓基因区域预测，一般是指预测DNA序列中编码蛋白质的部分，即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA盒等)的认识，预测出可能的完整基因。

基因区域的预测是一个活跃的研究领域，先后有一大批预测算法和相应程序被提出和应用，其中有的方法对编码序列的预测准确率高达90%以上，而且在敏感性和特异性之间取得了很好的平衡。预测方法中，最早是通过序列核苷酸频率、密码子等特性进行预测(如最长ORF法等)，随着各类数据库的建立和完善，通过相似性列线比对也可以预测可能的基因。同时，一批新方法也被提了出来，如隐马尔可夫模型(HiddenMarkovModel,HMM)、动态规划法(dynamicprogramming)、法则系统(ruled-basedsystem)、语言学(linguistic)方法、线性判别分析(LinearDiscriminantAnalysis,LDA)、决策树(decisiontree)、拼接列线(splicedalingment)、博利叶分析(Fourieranalysis)等。下表列出了claverie(1997)对部分程序预测基因区域能力的比较结果，表中同时列出了相应算法和程序的网址。目前基因区域预测的各种算法均存在以下2个问题（1）目前算法对基因中的非编码区和基因间序列不加任何区别，所以预测出的基因仍然是不完全的，对5‘和3‘非编译区（UTR，untranslatedregion）的预测基本上还是空白；（2）目前大多数算法都是基于已知基因序列。如相似性列线比较算法是完全依赖于已知的序列，而象HMM之类的算法都需要对已知的基因结构信号进行学习或训练，由于训练所用的序列毕竟是有限的，所以对那些与学习过的基因结构不太相似的基因，这些算法的预测效果就要大打折扣了要解决以上两个问题，需要对基因结构进行更深入的研究，寻找隐藏在基因不同结构中的内在统计规律。

2．发现基因的一般过程

从序列中发现基因可以理解为基因区域预测和基因功能预测2个层次第一步：获取DNA目标序列①如果你已有目标序列，可直接进入第2步；②可通过PubMed查找你感兴趣的资料；通过GenBank或EMBL等数据库查找目标序列第二步：查找ORF并将目标序列翻译成蛋白质序列

利用相应工具，如ORFFinder、Genefeature(BaylorCollegeofMedicine)、GenLang(UniversityofPennsylvania)等，查找ORF并将DNA序列翻译成蛋白质序列第三步：在数据库中进行序列搜索可以利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索。第四步：进行目标序列与搜索得到的相似序列的整体序列比对(globalalignment)虽然第三步已进行局部比对(localalignment)分析，但整体列线有助于进一步加深目标序列的认识。第五步：查找基因家族进行多序列比对(multiplesequencealignment)和获得比对区段的可视信息。可分别在AMAS(OxfordUniversity)和BOXSHADE(ISREC,Switzerland)等服务器上进行。第六步：查找目标序列中的特定模序①分别在Procite、BLOCK、Motif数据库进行profile、模块(block)、模序(motif)检索；②对蛋白质序列进行统计分析和有关预测第七步：预测目标序列结构可以利用PredictProtein(EMBL)、NNPREDICT(UniversityofCalifornia)等预测目标序列的蛋白质二级结构。第八步：获取相关蛋白质的功能信息为了了解目标序列的功能，收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用PubMed进行搜索。第九步：把目标序列输入“提醒”服务器如果有与目标序列相似的新序列数据输入数据库，提醒(alert)服务会向你发出通知。可选用SequenceAlerting(EMBL)、Swiss-Shop(Switzerland)等服务器。3．解读序列(makingsenseofthesequence)大致有2条途径可以发现基因：(1)基于同源性的方法，包括已知mRNA序列的应用；(2)基因家族和特殊序列间的比较。最初的方法包括利用各种计算机手段分析外显子和其它序列信号，如酶切位点。六、基于编码区特性：最长ORF法基因区域或蛋白质编码区的识别，特别是对高等真核生物基因组DNA序列中编码区的识别仍未能实现完全自动化。将每条链按6个读框全部翻译出来，然后找出所有可能的不间断开放阅读框(ORF)往往有助于基因的发现。预测基因组的全部编码区或称为开放阅读框的方法概括来说也可以分为三类:一类是基于编码区所具有的独特信号，如始起密码子、终止密码子等；二是基于编码区的碱基组成不同于非编码区，这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同等原因造成的；三是通过同源性比较搜寻蛋白质库或dbEST库寻找编码区。前二类方法主要是利用编码区的特性来寻找，下面对这二类方法做简单描述。最长ORF法：在细菌基因组中，蛋白质编码基因从起始密码ATG到终止密码平均有100bp，而300bp长度以上的ORF平均每36Kb才出现一次，所以只要找出序列中最长的ORF(>300bp)就能相当准确地预测出基因。

利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法：由于内含子的进化不受约束，而外显子则受到选择压力，因此内含子的序列要比外显子更随机。这是目前各种预测程序中被广泛应用的一种方法，如GCG(GeneticComputerGroup研制，一种通用核酸、蛋白质分析软件包)的TestCode、美波士顿大学GeneID和BaylorMedcineCollege的BCMGeneFinder等程序均利用了这一方法。CpG岛(CpGisland)

CpG岛是指DNA上一个区域，此区域含有大量相联的胞嘧啶（C）、鸟嘌呤（G），以及使两者相连的磷酸酯键（p）。哺乳类基因中的启动子上，含有约40%的CpG岛（人类约70%）。一般CpG岛的长度约300到3000个bp。通常的含义是指一个至少含有200bp的区域，其中GC所占比例超过50%，且CpG的观察值/预测值比例必须高于0.6。此霸部份的CpG岛与基因相连，可用来作为限制酶的辨识位置。

哺乳动物基因组DNA中CpG岛的特点是胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%，即每10个核苷酸约出现一次双核苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。从已知的DNA序列统计发现，几乎所有的管家基因(House-Keepinggene)及约占40%的组织特异性基因的5’末端含有CpG岛，其序列可能包括基因转录的启动子及第一个外显子。因此，在大规模DNA测序计划中，每发现一个CpG岛，则预示可能在此存在基因。另外，AT含量也可以作为编码区的批示指标之一。

CpG岛在人类基因组中的分布很不均一，而在基因组的某些区段，CpG岛主要位于基因的启动子和第一外显子区域，约有60％以上基因的启动子含有CpG岛。

CpG甲基化的研究在肿瘤的研究中有着非常主要的地位。通过基因启动子区及附近区域CpG岛胞嘧啶的甲基化可以在转录水平调节基因的表达，从而引起相应基因沉默，去甲基化又可恢复其表达。CpG岛搜索软件（在线）/sms/index.html判别结果山溪鲵beta-microseminoproteinDNA序列CpG岛判别3.5表达序列标签（ESTs）分析主要内容cDNA文库的概念什么是表达序列标签（ESTs）EST的应用

EST序列测定及分析过程实例：家猪脑组织EST分析3.5.1cDNA文库的概念cDNA（complementaryDNA）是指与mRNA序列互补的DNA，它是从生物组织中提取mRNA后，通过反转录得到的单链DNA产物。cDNA文库：由于在制作cDNA时通常是将特定组织中的所有mRNA都进行了反转录，生成的cDNA有多条，因此将特定组织来源的多条cDNA组成的集合称作cDNA文库。3.5.2表达序列标签（ESTs）的概念及功能1.ESTs的来源

上世纪80年代，对cDNA序列进行大规模测序的想法就曾提出，但对此一直存在争论，有人认为这种方法能发现成千上万的新基因；而反对者则认为cDNA序列缺少重要的基因调控区域的信息。90年代初GraigVenter

提出了EST的概念，并测定了609条人脑组织的EST，宣布了cDNA大规模测序的时代的开始(Adamsetal.,1991)。●

93年前ESTs数据收录于GenBank，EBI和DDBJ。●

1993年NCBI(NationalCenterofBiotechnologyInformation)建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据。2.表达序列标签（ESTs）的概念表达序列标签（expressedsequencetags,ESTs）是从cDNA文库中生成的一些很短的序列（60-500bp），它们代表在特定组织或发育阶段表达的基因，有时可代表特定的cDNA。EST可能是编码的，也可能不是。5’3’ESTCDSUTREST与cDNA的关系图从已建好的cDNA库中随机取出一个克隆，从5’末端或3’末端对插入的cDNA片段进行一轮单向自动测序，所获得的约60-500bp的一段cDNA序列。构建cDNA文库↓DNA测序↓信息处理和管理↓①②③去除载体序列、宿主序列和

聚类分析、拼接

数据库查询重复序列↓

生物信息学分析3.EST分析的实验流程

4.ESTs与基因识别

ESTs已经被广泛的应用于基因识别，因为ESTs的数目比GenBank中其它的核苷酸序列多，研究人员更容易在EST库中搜寻到新的基因(Boguskietal.,1994).●在同一物种中搜寻基因家族的新成员(paralogs)。●在不同物种间搜寻功能相同的基因(orthologs)。●已知基因的不同剪切模式的搜寻。【注：不过很难确定一个新的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组DNA序列(Wolfsbergetal.,1997)】5.ESTs与基因图谱的绘制

EST可以借助于序列标签位点(sequence-taggedsites)用于基因图谱的构建。STS本身是从人类基因组中随机选择出来的长度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。来自mRNA的3’非翻译区的ESTs更适合做为STSs，用于基因图谱的绘制。其优点主要包括：●由于没有内含子的存在，因此在cDNA及基因组模板中其PCR产物的大小相同；●与编码区具有很强的保守性不同，3’UTRs序列的保守性较差，因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。（JamesSikela等，1991年）GeneMap96‘定位了16,000个基于基因的STS(Schuleretal.,1996)；GeneMap98’定位了30,000个基于基因的STS(Deloukasetal.,1998)，而且基因图谱随着STS的定位正在不断的更新中。6.ESTs与基因预测

由于EST来源于cDNA，因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。使用合适的比对参数，大于90％的已经注释的基因都能在EST库中检测到(Baileyetal.,1998)。ESTs可以做为其它基因预测算法的补充，因为它们对预测基因的交替剪切和3‘非翻译区很有效。7.ESTs与SNPs(单核苷酸多态性)

来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs(Buetowetal.,1999;Gargetal.,1999;Marthetal.,1999;Picoult-Newbergetal.,1999)。应注意区别真正的SNPs和由于测序错误(ESTs为单向测序得来，错误率可达2％)而引起的本身不存在的SNPs。解决这一问题可以通过：●提高ESTs分析的准确性。●对所发现的SNPs进行实验验证。8.利用ESTs大规模分析基因表达水平

因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到，所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。◆

CGAP为研究癌症的分子机理，美国国家癌症研究所NCI的癌症基因组解析计划(CancerGenomeAnatomyProject,CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库，并进行了大规模的EST测序，其中大部分的文库未经标准化或差减杂交处理。CGAP网站提供了多种工具用以分析不同文库间基因表达的差异,如：●

DigitalGeneExpressionDisplayer(DGED)●cDNAxProfiler◆基因表达系列分析(SerialAnalysisofGeneExpression,SAGE)基因表达系列分析是一种用于定量，高通量基因表达分析的实验方法(Velculescuetal.,1995)。SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签（约9-14个碱基对），这些短的序列被连接、克隆和测序，特定的序列标签的出现次数就反应了对应的基因的表达丰度。◆

DNA微阵列或基因芯片的研究高密度寡核苷酸cDNA芯片或cDNA微阵列是一种新的大规模检测基因表达的技术，具有高通量分析的优点。在许多情况下，cDNA芯片的探针来源于3'EST(Dugganetal.,1999)，所以EST序列的分析有助于芯片探针的设计。Serialanalysisofgeneexpression(SAGE)技术流程反转录酶切连接测序单条测序＝＝对30－40条EST测序分析由于采样量大大提高，可对低表达基因进行分析：基因表达量分析、寻找新基因等等实验步骤较长、要求较高基因芯片或微阵列技术流程….….Clone反转录（可选）读取光密度聚类分析（非同源功能注释）标记杂交反转录EST分析………….………….………….GeneChip0.10.060.050.04…000.070.01…表达量矩阵G1,G3,G5G2,G4G6,G9…利用EST，SAGE分析结果制作芯片（研究已发现的基因）连接，转化

Ricegenome-wideDNAchip(60,000+预测基因)

果蝇基因芯片…原位合成

几种大规模分析基因表达水平的方法的比较◆

ESTs很短，没有给出完整的表达序列；◆低丰度表达基因不易获得。◆由于只是一轮测序结果，出错率达2%-5%；◆有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染；◆有时出现镶嵌克隆；◆序列的冗余，导致所需要处理的数据量很大。9.ESTs数据的不足3.5.3EST技术流程体内：翻译体外研究：反转录连接，转化转化效率问题（基因芯片）文库构建技术已经成熟测序采样问题（SAGE）测序成本已经大大降低大数据量分析理念已经形成一、cDNA文库构建◆

非标准化的cDNA文库的构建。（可用于基因表达量的分析）◆

经标准化或扣除杂交处理的cDNA文库。（富集表达丰度较低的基因）◆

OligoTcDNA文库。◆随机引物cDNA文库。cDNA文库的构建及其均一化扣除杂交处理ForsubtractionofcDNAlibrariestheprocedureissimilartonormalization,exceptthatthePCRproductsarisefromadifferentlibrary(whosegenesaretobesubtractedfromtheoriginallibrary)Reference:Bonaldo,M.F.,et.al,1996.Normalizationandsubtraction:Twoapproachestofacilitategenediscovery.GenomeRes.6:791-806.扣除杂交技术的发展◆扣除杂交技术最早应用是在20世纪80年代初，当时的目的是为了构建非洲爪蟾的胚囊cDNA文库【Science(WashDC)222,135–139】和制备差异表达基因的特异探针【PNAS.81,2194–2198】。差异表达的基因通过检测样本cDNA(tester)和过量的对照样本mRNA(driver)的相互杂交而得到。在检测样本cDNA(tester)和对照样本mRNA(driver)同时表达的基因会形成mRNA/cDNA杂交分子，而检测样本特异表达的基因则保持单链状态。单链分子和双链分子通过羟磷灰石层析而分离，分离得到的单链分子是检测样本特异表达的基因。差异表达的cDNA可以直接被克隆或通过cDNA文库筛选而得到。◆这个方法后来又得到改进，包括用生物素标记【Nucl.Acids14,10027–10044】和oligo(dT)30-latex标记cDNA，以增加单双链分子的分离效率。后来，通过PCR选择性cDNA扩增技术被应用到扣除杂交中，以克服以往扣除杂交中需要大量起始mRNA的缺点，并可以同时提高基因克隆地效率【Nucl.AcidsRes.19,7097-7104】。◆扣除技术的进一步成熟是在1996年，Gurskaya等(1996)和Diatchenko等(1996)同时发表了关于扣除杂交的改进方法，其主要的技术方法类似，这个技术叫抑制性扣除杂交技术（SuppressionSubtractiveHybridization，SSH）【Anal.Biochem.240,90–97;PNAS.93,6025-6230】。SSH的原理与基本过程原理：SSH的基本原理是以抑制PCR为基础的DNA扣除杂交方法。所谓抑制PCR，是利用链内退火优于链间退火，比链间退火更稳定，从而使非目的系列片段两端反向重复系列在退火时产生类似于“锅柄”的结构，无法与引物配对，选择性地抑制了非目的基因片段的扩增。同时，该方法运用了杂交二级动力学原理，即丰度高的单链cDNA在退火时产生同源杂交的速度要快于丰度低的单链cDNA，从而使原来在丰度上有差别的单链cDNA相对含量达到基本一致。基本过程：分别抽提代测样本(tester）和对照样本（driver)的mRNA，反转录成cDNA，用RsaI或HaeIII酶切，以产生大小适当的平头末端cDNA片段，将testercDNA分成均等的两份，各自接上两种接头，与过量的drivercDNA变性后退火杂交，第一次杂交后有4种产物：a是单链testercDNA，b是自身退火的testercDNA双链，c是tester和diver的异源双链，d是drivercDNA。第一次杂交的目的是实现tester单链cDNA均一化(normalization),即使原来有丰度差别的单链cDNA的相对含量达到基本一致，由于testercDNA中与drivercDNA序列相似的片段大都和driver形成异源双链分子c，使testercDNA中的差异表达基因的目标cDNA得到大量富集，第一次杂交后，合并两份杂交产物，再加上新的变性driver单链，再次退火杂交，此时，只有第一次杂交后经均等化和扣除的单链testercDNA和drivercDNA一起形成各种双链分子，这次杂交进一步富集了差异表达基因的cDNA，产生了一种新的双链分子e，它的两个5’端有两个不同的接头，正由于这两上不同的接头，使其在以后的PCR中被有效地扩增。抑制性差减杂交技术（SSH）原理图（Diatchenko等，1996）

二、序列测定及数据分析随机挑取克隆进行5’或3’端测序序列前处理聚类和拼接基因注释及功能分类后续分析测序方向的选择根据不同的实验目的选择不同的测序方向：◆5’端5’上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5’端EST较好，大部分EST计划都是选用5’端进行测序的，而且从5’端测序有利于将EST拼接成较长的基因序列。◆3’端3’端mRNA有一20－200bp的plyA结构，同时靠近plyA又有特异性的非编码区，所以从3’端测得EST含有编码的信息较少．但研究也表明，10％的mRNA3’端有重复序列，这可以作为SSR标记；非编码区有品种的特异性，可以作为STS标记．◆两端测序获得更全面的信息。1.

去除低质量的序列（Phred）2.

应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactualsequences)。●载体序列(/repository/vector)

●重复序列(RepBase，)●污染序列

(如核糖体RNA、细菌或其它物种的基因组DNA等)3.

去除其中的镶嵌克隆。4.

最后去除长度小于100bp的序列。序列前处理(pre-processing)镶嵌克隆的识别►Back-to-backpoly(A)+tails.►Linker-to-linkerinmiddleofthesequence.►Blastn/Blastxsearch.ESTs的聚类和拼接

聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(over－lapping)的ESTs整合至单一的簇(cluster)中。聚类作用：产生较长的一致性序列(consensussequence)，用于注释。降低数据的冗余，纠正错误数据。可以用于检测选择性剪切。序列聚类分析工具序列聚类分析工具是对序列分类的一种软件。如果不同序列之间有一段重叠序列，并且超过了规定的最小长度，这两段序列就应该能拼接到一起。对未加工的大量序列进行聚类分析，就是将大量序列通过比对或其他注释信息分成各个集合，或称各个“类”。一个可信并且有效的EST聚类机制能够大大减少数据库中的冗余信息，节省数据搜索的时间和分析结果的工作量。尤其当拿到大量EST之后，要找出这套序列包含多少个不同基因时，聚类工具就显得更为有价值了。ESTs聚类的数据库主要有三个：UniGene(/UniGene)TIGRGeneIndices(/tdb/tgi/)STACK(http://www.sanbi.ac.za/Dbases.html)不严格的和严格的聚类(looseandstringentclustering)◆looseclustering●产生的一致性序列比较长●表达基因ESTs数据的覆盖率高●含有同一基因不同的转录形式，如各种选择性剪接体●每一类中可能包含旁系同源基因(paralogousexpressedgene)的转录本●序列的保真度低◆stringentclustering●产生的一致性序列比较短●表达基因ESTs数据的覆盖率低●因此所含有的同一基因的不同转录形式少●序列保真度高(ESTclusteringtutorial,httP://www.sanbi.ac.za)(ESTclusteringtutorial,httP://www.sanbi.ac.za)有参照的和无参照的聚类(Supervisedandunsupervisedclustering)◆Supervisedclustering根据已知的参考序列(如全长mRNA、已拼接好的一致性序列)聚类。◆

Unsupervisedclustering没有根据参考序列进行分类。聚类的算法◆基于BLAST和FASTA的脚本(BLASTNandFASTA—basedscripts)

BLASTN和FASTA算法的本身目的在于寻找序列间的局部相似性或同源性，这与聚类的目的不同，即通过两个序列是否具有一致性的重叠或连续的比对来判断二者是否能归成一类。结合BLAST和FASTA查找的结果，采用解释性语言(如Perl)编写的脚本，具备了3方面的功能，即运行查找过程、解析(Parsing)查找的结果和按照用户定义的标准判断两个序列是否为一类。◆基于字的聚类(Word—basedclustering)

基于字的聚类省略了所有的比对过程，其核心在于识别并计算序列间有多少长度为n的字(word)能够匹配，而且并未采用有关克隆的来源及注释信息，代表性的算法是d2_cluster。该算法为一种凝聚性(agglomerative)的聚类算法(即每一类从单一的序列开始，通过一系列的合并形成最后的类)，它可以被描述为最小联接聚类(minimallinkageclustering)。即，假设两条序列A和B，如果二者存在一定水平的相似，那么将A、B归于一类；即便二者并没有任何相似性，若存在序列C，而且C同时与A、B都有足够的相似性，那么也将A、B归于一类。类和类之间的联接标准是识别两个序列在一定大小窗口中相同的碱基数。序列拼接工具当搜索中发现有几个EST与一个检测序列匹配时，通常这些EST序列之间存在着重叠区域，这就以为着找到了一段一致序列。一般说来，一致序列还要作进一步的搜索以找到更多的EST，以增加其准确性。这种反复的序列比较拼接就是序列拼接方法。现在已经有许多怀念好的拼接工具，如Staden软件包，TIGR软件包，Phrap等。常用的拼接软件◆Phrap(/UWGC/analysistools/Phrap.cfm)◆CAP3(XiaoqiuHuang，huang@)◆

TIGRassembler(http://nbc11.biologie.uni-kl.de/framed/left/menu/auto/right/tigr_assembler/)◆

zESTassembler(/zEST/)◆d2_cluster(http://www.sanbi.ac.za/)PHRAP(phragmentassemblyprogram)：/index.html）

PHRAP是一个拼接鸟枪法产生的序列片断的程序。有如下特点：

Ø允许使用所判读的完整序列而不仅仅是经剪切的高质量部分；

Ø在重复序列出现时可以结合使用者提供的或内部计算的数据质量来提高拼接的正确性；

Ø构建一个由高质量部分镶嵌的拼接程序而不是所谓的一致序列；

Ø可提供广泛的包括质量值在内的关于拼接的信息，可控制非常大的数据集，但它单独不能提供编辑或浏览的功能；

Ø最佳搭配是PHREP+PHRAP+CONSED，该套系统就可以高效、规模化地进行EST序列的拼接延伸；

Ø缺点是如果以可变剪切的基因来试验，Phrap可正确地拼接出它所产生的一个蛋白，但是不能发现其它可变剪切的结果，如AMP2基因。CAP3：在线服务：/aat/sas.html

该软件是CAP（contigassemblyprogramme）的改进版本，可在线进行。该软件适用于EST拼接，可快速去除不能拼接在一起的序列，运用动态规划算法可容忍序列的部分错误，可剪切掉所判断序列中5`和3`端碱基质量不高的区域。它在计算重叠时使用碱基质量值加以控制，建立多重比对，产生一致序列。并且它可使用正反向约束修正拼接错误和连接片段重叠群。

人人文库> 全部分类> 专业文献 > 医学资料

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三章DNA序列分析-2008-10-9

文档简介

温馨提示

最新文档

评论

第三章DNA序列分析-2008-10-9

文档简介

温馨提示

最新文档

评论

相关文档