第四章序列分析

上传人：a*** IP属地：湖北上传时间：2023-02-01 格式：PPT 页数：131 大小：1021KB 积分：28 举报 版权申诉

已阅读5页，还剩126页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第四章序列分析2023/2/1BIOINFORMATICS1本章提要：本章主要介绍DNA和蛋白质序列分析的基本内容。包括核酸序列检索、核酸序列的基本分析（碱基组份、限制性酶切分析、重复序列分析），基因结构分析、表达标签序列分析的基本方法和软件。蛋白质序列基本分析、检索、跨膜区分析、蛋白质亚细胞定位、功能预测等内容。2023/2/1BIOINFORMATICS数理与生物工程学院2§4.1核酸序列分析4.1.1为什么要分析DNA序列

核酸序列分析是生物信息学应用中的一个重要方面。基于已有知识所形成的核酸序列数据库以及在此基础之上所形成的二级数据库对未知核酸序列的分析及功能预测具有重要的参考价值。在从事分子生物学研究的几乎所有实验室中，对所获得的核酸序列进行生物信息学分析已经成为进行下一步实验之前的一个标准操作。2023/2/1BIOINFORMATICS数理与生物工程学院3在很多时候，往往通过一个简单序列相似性的比较就可以对未知序列进行初步的功能预测，为后续实验确定初步的研究方向。本节将主要讲述如何采用生物信息学技术对核酸序列进行较为全面的分析。2023/2/1BIOINFORMATICS数理与生物工程学院4

序列比较通常在蛋白质水平上进行，或者说在蛋白质翻译中检测远缘序列更为容易一些，因为由64个密码子(codon)所组成的遗传密码(geneticcode)的冗余被缩减成了20个蛋白质的功能单位—氨基酸。2023/2/1BIOINFORMATICS数理与生物工程学院5然而，这种简并性可能伴随着有用信息的丢失，这是因为许多直接与进化过程相关的信息在蛋白质水平无法表现，通过核苷酸序列则可以反映出来。例如，沉默突变(silentmutation)就是在DNA水平的突变，但并不导致蛋白质水平的氨基酸置换。2023/2/1BIOINFORMATICS数理与生物工程学院6随着测序技术的迅速发展与普及，越来越多的DNA序列已被测定并存贮在各种分子数据库中(如GenBank)。对这些序列进行分析，可以获得如下几个方面的信息：2023/2/1BIOINFORMATICS数理与生物工程学院7DNA碱基组成、密码子的偏向、内部重复序

列等；序列及所代表的类群间的系统发育关系；特殊位点（限制性位点及转录、翻译和表达

调控相关信号）；内含子/外显子(intron/exon)预测所确定的遗传

结构；可读框(open-readingframe，ORF)分析所推导

的蛋白质编码序列(codingsequence,CDS)等。2023/2/1BIOINFORMATICS数理与生物工程学院84.1.2核酸序列的基本分析核酸序列的检索已知核酸序列的检索是核酸序列分析最为基本的一个方面。可通过多种方式实现该功能。例如，可通过NCBI使用Entrez(http://:80/entrez/query.fcgi?db=Nucleotide)系统进行检索，在输入框中输入需要检索的内容，然后点击按钮“Go”即可开始（图4-1)。同样，也可使用EBI的SRS服务器(http://srs.ebi.ac.uk/)进行检索，可参考第三章。2023/2/1BIOINFORMATICS9图4-1NCBI核酸序列检索的网络界面2023/2/1BIOINFORMATICS数理与生物工程学院10在进行序列检索时，往往需要同时检索多条序列。这一点可通过逻辑关系式按照GenBank接受号进行批量检索。例如，需要检索序列接受号分别为AF113671、AF113672、AF113673、AF113674、AF113675、AF113676的序列，可在序列输入框中输入“AF113671[ac]ORAF113672[ac]ORAF113673[ac]ORAF113674[ac]ORAF113675[ac]ORAF113676[ac]”，即可同时检索出这些序列。其中，“[ac]”是序列接受号的描述字段。GenBank数据库中所采用的描述字段详见网址/Entrez/entrezhelp.html#SearchFields。2023/2/1BIOINFORMATICS数理与生物工程学院11分子质量、碱基组成、碱基分布核酸序列的分子质量、碱基组成、碱基分布等分析可通过一些常用软件如BioEdit(/BioEdit/bioedit.html)，DNAMAN(/）等直接获得。将上述软件下载后即可进行此类分析。此处以使用DNAMAN软件进行核酸序列（人环氧化酶-2mRNA全序列，GenBank接受号AJ627251)基本性质分析为例，可以看出，输出结果中Composition(组成）和Percentage(百分比）一栏以及MolecularWeight(分子质量）清楚地给出了关于该条序列的有关结果。图4-2核酸序列基本性质分析示例2023/2/1BIOINFORMATICS数理与生物工程学院13

序列变换进行序列分析时，经常需要对DNA序列进行各种变换，例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。这些使用DNAMAN软件可以很容易地实现，这些功能集中在Sequence→Display，从中可选择不同的序列变换方式对当前通道的序列进行转换。2023/2/1BIOINFORMATICS14例如，对一个短序列进行变换后的结果如下：原始序列

5’-ATGAGCGTCTTCCTGCGAAAGCAATGCCTCTGCCTAGGCT-3’反向序列

3’-TCGGATCCGTCTCCGTAACGAAAGCGTCCTTCTGCGAGTA-5’互补序列

3’-TACTCGCAGAAGGACGCTTTCGTTACGGAGACGGATCCGA-5’反向互补序列

5’-AGCCTAGGCAGAGGCATTGCTTTCGCAGGAAGACGCTCAT-3’DNA双链

5’-ATGAGCGTCTTCCTGCGAAAGCAATGCCTCTGCCTAGGCT-3’3’-TACTCGCAGAAGGACGCTTTCGTTACGGAGACGGATCCGA-5’RNA序列

5’-AUGAGCGUCUUCCUGCGAAAGCAAUGCCUCUGCCUAGGCU-3’2023/2/1BIOINFORMATICS数理与生物工程学院15

限制性酶切分析限制性酶切分析是分子生物学实验中的日常工作之一。该方面最好的资源是限制酶数据库(RestrictionEnzymeDatabase，REBASE)。REBASE数据库中含有限制酶的所有信息，包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源以及公开发表的和未发表的参考文献(,/rebase)。国际互联网上也有大量资源可供实时地进行限制性酶切分析（表4-1）。2023/2/1BIOINFORMATICS16表4-1国际互联网中的核酸序列限制性酶切分析资源资源网址WebGenehttp://www/-tjyin/WebGene/RE.html/person&tyin.htmlWebCutter2http://www//firstm2023/2/1BIOINFORMATICS数理与生物工程学院17同时，很多软件也能够识别REBASE限制酶数据库。此处以使用BioEdit软件进行核酸序列限制性酶切分析为例加以说明。将待分析序列输入BioEdit软件的序列显示区后，按照图4-3的说明即可完成分析过程，其结果见图4-4。图4-3使用BioEdit软件进行核酸序列限制性酶切分析界面图4-4使用BioEdit软件进行核酸序列限制性酶切分析结果示例2023/2/1BIOINFORMATICS数理与生物工程学院20上述结果中给出了指定DNA序列的酶切位点信息，为克隆鉴定和亚克隆提供了重要信息。2023/2/1BIOINFORMATICS数理与生物工程学院21

重复序列分析脊椎动物基因组中各种重复序列占有很高的比例。目前已经开发了一批重复序列数据库，如RepBase（/server/RepBase/）。著名的RepeatMasker软件就是基于该数据库进行工作（/cgi-bin/RepeatMasker），使用该程序可以进行重复序列片段分析。图4-5利用RepeatMasker软件分析重复序列的网络界面2023/2/1BIOINFORMATICS数理与生物工程学院234.1.3基因结构与DNA序列分析真核基因结构具有一些关键特征(图4-6)，这是我们理解基因结构对序列分析的影响所必须考虑的。这些特征包括内含子、外显子、编码序列、非翻译区(untranslatedregion,UTR)等。而原核基因通常缺少内含子，结构相对简单。图4-6真核基因结构示意图2023/2/1BIOINFORMATICS数理与生物工程学院25

非翻译区非翻译区（UTR）在DNA和RNA中均有，它们是位于蛋白质编码序列(CDS)两侧的序列，未被翻译成蛋白质。尤其是3’端，无论是对基因还是对物种都是高度特异的。2023/2/1BIOINFORMATICS数理与生物工程学院26

概念性翻译如图4-7给定一个DNA序列，可以利用遗传密码将其翻译为蛋白质序列，这种方式称为概念性翻译（conceptualtranslation）。与基于生化实验的蛋白质翻译不同的是，概念性翻译仅通过理论推导或计算获得。对任意一个DNA序列，可能并不知道哪一个碱基代表CDS的起始，也不知道其阅读方向。这种情况下，不妨试用六框翻译（six-frametranslation）。2023/2/1BIOINFORMATICS数理与生物工程学院27六框翻译通过移动阅读框起始碱基，获得6个潜在的蛋白质序列。其中，3个是正向翻译，3个是反向翻译，6种可能的蛋白质中至多只有一种是正确的。查询序列

1ggccagatggaacatattgctttcgggagcacaaggatcgggtctactacgtctcggagc61ggattttgaagctgagcgagtgcttcggctacaagcagctggtgtgcgtgggcacctgct121tcggcaagttctccaagaccaacaaactgaagttccatatcacggcgctctactacttgg181cgccctacgcccagtacaaggtgtgggtgaagcectccttcgagcagcagtttctctacg六框翻译氨基酸正向序列1GQMEHIAFGSTRIGSTISRSGF*S*ASASATSSWCAWAPASASSPRPTN*SSISRRSTTWRPTPSTRCG*SPPSSSSFST正向序列2ARWNILLSGAQGSGLLRLGADFEAERVLRLQAAGVRGHLLRQVLQDQQTEVPYHGALLLGALRPVQGVGEALLRAAVSLR正向序列3PDGTYCFREHKDRVYYVSERILKISECFGYKQLVCVGTCFGKFSKTNKLKFHTTALYYLAPYAQYKVWVKPSFEQQFLY反向序列1RRETAARRRASPTPCTGRRAPSSRAP*YGTSVCWSWRTCRSRCPRTPAACSRSTRSASKSAPRRSRPDPCAPESNMFHLA反向序列2VEKLLLEGGLHPHLVLGVGRQVVERRDMELQFVGLGELAEAGAHAHQLLVAEALAQLQNPLRDVVDPILVLPKAICSIW反向序列3PRNCCSKEGFTHTLYWAGAKSAVIWNFSLLVLENLPKQVPI'HTSCLPKHSLSFKIRSETTRSLCSRKQYVPSG（*代表一个终止密码子）

图4-7六框氨基酸翻译2023/2/1BIOINFORMATICS数理与生物工程学院29从图4-7中可以看出，用不同的阅读框翻译CDS可能获得不同的蛋白质编码序列。哪一种是“正确”的呢？通常认为是可读框(ORF)即没有终止密码子（TGA,TAA或TAG）打断的阅读框。2023/2/1BIOINFORMATICS数理与生物工程学院30mRNA需要翻译为蛋白质方能发挥其生物学作用，因此，核酸序列的可读框架(Openreadingframe,ORF)的分析便成为核酸分析的一个重要部分。基于遗传密码表，可通过计算机方便地分析核酸序列的读码框。对于真核生物而言，一条全长cDNA序列将只含有单一的开放阅读框架。2023/2/1BIOINFORMATICS数理与生物工程学院31非全长的cDNA序列如ESTs，常常来源于3’末端测序的结果，从而含有3’非编码区。典型情况下，一般按照具有合适的起始密码子和终止密码子来查找最长的ORF，或者在同一相位含有前置终止密码子的起始密码子，并具有poly(A)末尾的区域视为最可能的ORF。发现ORF的末端要比找到起始端更容易一些。2023/2/1BIOINFORMATICS数理与生物工程学院32一般来说，CDS中的起始密码子(initialcodon)ATG是编码甲硫氨酸(Met)的，但在CDS内也很常见，所以ATG的出现并不意味着一定就是ORF的起始，还需要应用其他技术来检测5’UTR。2023/2/1BIOINFORMATICS数理与生物工程学院33大量实验证明，在真核生物起始蛋白质合成时，40S核糖体亚基及有关合成起始因子首先与mRNA模板靠近5'末端处结合，然后向3'末端方向滑行，发现AUG起始密码子时，与60S大亚基结合形成80S起始复合物。这就是Kozak提出的真核生物蛋白质合成起始的“扫描模式”。Kozak调查了200多种真核生物mRNA中5’末端第一个AUG前后序列发现，除17个例外，其余都是A/GNNAUGG，说明这样的序列对翻译起始来说最为合适。2023/2/1BIOINFORMATICS数理与生物工程学院34具体而言，AUG很可能是真核生物惟一的翻译起始位点，具有生物学功能的起始密码AUG总是出现在一定的核苷酸序列框架之内。首先，AUG上游（即5'方向）的第三个核苷酸，常常是嘌呤，且多数是A；其次，紧跟在AUG后面的核苷酸，常常也是嘌呤，但多数情况下是G。实验表明，AUG附近的核苷酸序列中ANNAUGN和GNNAUGPU的利用率最高，而没有起始功能AUG附近的核苷酸序列则无此保守性。这就是所谓的“Kozak序列”，在分析读码框时需要重点参考。2023/2/1BIOINFORMATICS数理与生物工程学院35下列几种特性可以用来检测DNA序列中潜在的CDS:(1)、ORF长度

很难随机地发现很长的ORF，因而长的ORF很可能意味着存在CDS。(2)、Kozak序列

该序列是在起始密码子之前与核糖体作用的位点。在高等原核生物中其一致序列为GCCACC（ATG），而在酵母中为AAAAAA（ATG）。它们可以用来检测CDS的起始。2023/2/1BIOINFORMATICS数理与生物工程学院36(3)、密码子用法(codonusage)

在编码区和非编码区中，密码子用法是不同的。尤其是对特定氨基酸，密码子的用法可能随物种而变。因而，统计密码子用法可以用来推断5‘和3’UTR，并且有助于检测错译（见表4-2）。2023/2/1BIOINFORMATICS37表4-2部分模式生物中密码子用法的百分比密码子E．coliD.melanogasterH.sapiensZ.maysS.cerevisiaeATG311035AGC202334304TCG4179221TCA22546TCT34913452TCC3748283733

此外，在许多生物中已经发现在密码子第三个碱基位置上偏好G/C而不是A/T，G/C的概率偏向也可以帮助我们检测出CDS2023/2/1BIOINFORMATICS数理与生物工程学院38

编码区／内含子结构分析（1）“断裂”的真核基因大多数真核基因都是由蛋白质编码序列和非蛋白质编码序列两部分组成的。编码序列称为外显子(exon)，非编码序列称为内含子(intron)。在一个结构基因中，编码某一蛋白质序列不同区域的各个外显子并不连续排列在一起，而常常被长度不等的内含子所隔离，形成镶嵌排列的断裂方式，所以，真核基因有时被称为断裂基因(interruptedgene)。2023/2/1BIOINFORMATICS数理与生物工程学院39

编码区／内含子结构分析在基因转录、加工产生成熟mRNA分子时，内含子通过剪接加工被去掉，保留在成熟mRNA分子中的外显子被拼接在一起，最终被翻译成蛋白质。因此通过反转录酶的作用，由成熟mRNA产生的cDNA分子中，只含有外显子，没有内含子。2023/2/1BIOINFORMATICS数理与生物工程学院40真核基因在结构上的不连续性是近10年来生物学上的重大发现之一。当基因转录成pre-mRNA后，除了在5’端加帽及3’端加多聚A(poly-A)之外，还要将隔开各个相邻编码区的内含子剪去，使外显子相连后成为成熟mRNA。研究发现，有许多基因不是将它们的内含子全部剪去，而是在不同的细胞或不同的发育阶段有选择地剪切其中部分内含子，因此生成不同的mRNA及蛋白质分子。由于RNA的选择性剪接不牵涉到遗传信息的永久性改变，所以是真核基因表达调控中一种比较灵活的方式。2023/2/1BIOINFORMATICS数理与生物工程学院41（2）外显子—内含子连接区真核基因断裂结构的另一个重要特点是外显子—内含子连接区（exon-intronjunction)的高度保守性和特异性碱基序列。外显子—内含子连接区就是指外显子和内含子的交界，又称边界序列。外显子—内含子连接区有两个重要特征：2023/2/1BIOINFORMATICS数理与生物工程学院42内含子的两端序列之间没有广泛的同源性，因此内含子两端序列不能互补。这说明在剪接加工之前，内含子上游序列和下游序列不可能通过碱基配对形成发卡式二级结构2023/2/1BIOINFORMATICS数理与生物工程学院43外显子—内含子连接区序列虽然很短，但却是高度保守的。这一序列与剪接机制密切相关，它是RNA剪接的信号序列。序列分析表明，几乎每个内含子5’端起始的两个碱基都是GT，3’端最后两个碱基总是AG。由于这两个碱基的高度保守性和存在的广泛性，有人把它称为GT/AG法则，即5‘-GT......AG-3’。2023/2/1BIOINFORMATICS数理与生物工程学院44由于内含子两端的接头序列不同，因此可定向表明内含子的两个末端，根据剪接加工过程沿内含子自左向右进行的原则，一般将内含子5'端接头序列称为左剪接位点，3'端接头序列称为右剪接位点，有时也将前者称为供体位点(donorsite)，将后者称为受体位点(acceptorsite)。外显子—内含子在连接区的保守序列几乎存在于所有高等真核生物基因中，表明在这些基因中，可能存在着一个共同的剪接加工机制。2023/2/1BIOINFORMATICS数理与生物工程学院45

克隆序列DNA序列分析的一个重要方面是确定克隆的核苷酸序列。在克隆已知序列基因的实验中，比较克隆序列与已发表序列的是否一致是十分重要的。如果两者不一致，就可能要重新设计实验。例如，PCR过程中引物或酶选择不当，都有可能导致错误。2023/2/1BIOINFORMATICS数理与生物工程学院46§4.2表达序列标签分析4.2.1cDNA文库与表达序列标签cDNA(complementaryDNA，互补DNA)是指与RNA序列互补的DNA，由RNA启动的DNA多聚酶(RNA-dependentDNApolymerase)或反转录酶(reversetranscriptase)合成。这种酶的单链DNA产物(反转录物)，可用DNA启动的DNA多聚酶转换成双链形式，并插入合适的载体成为一个cDNA克隆。cDNA克隆是成熟mRNA分子的拷贝，不含任何内含子序列，因而只要与克隆载体上合适的启动子序列相连接，就很容易在任何一种生物体内表达。2023/2/1BIOINFORMATICS数理与生物工程学院47一个cDNA文库(cDNAlibrary)中包含多个cDNA克隆，可用于后续的序列分析。例如，可以从一个具有2000000个克隆的文库中随机选取10000个样品并进行测序，结果则贮存在计算机数据库中供进一步的序列分析。2023/2/1BIOINFORMATICS数理与生物工程学院48表达序列标签(expressedsequencetag，EST)是从cDNA文库中生成的一些很短的序列(300—500bp)，它们代表在特定组织或发育阶段表达的基因，有时可代表特定的cDNA。EST可能是编码的，也可能不是，而两端有重叠序列的EST可以组装成全长的cDNA序列。因此，EST的研究与表达分析可以作为一种发现新基因的有效方法。事实上，该方法已在人类基因组图谱绘制、新基因克隆和基因组序列编码区的确定等方面发挥了极为重要的作用。2023/2/1BIOINFORMATICS数理与生物工程学院49EST与cDNA的关系图4-8示出了EST与cDNA以及CDS和UTR之间的关系。应用自动测序系统，对每个cDNA克隆的一种读法可以产生一个EST。有的方法采用的引物可能使一个克隆产生两种读法，一个从5‘端起始，另一个从3’端起始。图4-8EST与cDNA以及CDS和UTR之间的关系2023/2/1BIOINFORMATICS数理与生物工程学院51值得一提的是，虽然全长cDNA序列分析十分重要，但我们并非总能获得全长序列的信息。事实上，现阶段基因数据库中收录的DNA序列数据绝大许多都不是全长的，而是EST。2023/2/1BIOINFORMATICS数理与生物工程学院52EST要素在进行EST分析时，需要注意以下几点：

(1)EST字母表EST测序是高度自动化的，尽管电泳分析软件已经十分完善，但还是不能确定序列中个别位点究竟是哪个碱基？最终序列中会出现一些其他字母。表4-3IUB-IUPAC编码符号代表的碱基符号代表的碱基AAYC或T或UCCKC或TT/UGVA或G或CMA或CHA或C或TRA或GDA或G或TWA或TBC或G或TSC或GX/NG或A或T或C2023/2/1BIOINFORMATICS数理与生物工程学院54(2)INDEL(插入/缺失)和移码(frameshift)尽管测序软件有一定的容错能力，还是会出现一定的偏差，有些本来没有的碱基被读出，而应该读出的碱基却不能读出。结果表现为错误的插入或缺失。用计算机软件在蛋白质水平的相似性查询，也可能发生同样的情况，导致虚假的中止信号，或者所有的六框翻译都出错。判断出错误的INDEL和移码是十分必要的，这也是翻译工作的复杂性之所在。2023/2/1BIOINFORMATICS数理与生物工程学院55(3)剪接变体不是所有的外显子都能出现在转录mRNA过程中，因而真核基因产物可能有不同长度，即最终产生的mRNA中可能只包含部分外显子。即使长度相同，也可能因为外显子排列顺序改变而得到不同蛋白质序列。从同一DNA，转录得到不同mRNA，并最终翻译成不同的蛋白质称为剪接变体（splicevariant）或可变剪接形式（alternativelysplicedform）。2023/2/1BIOINFORMATICS数理与生物工程学院56单一基因的选择剪接方式是全长序列分析的重要内容。如图4-9所示，剪接变体的存在将影响EST的检索与分析。测序的错误也许会使EST变成无用的序列，因为其中不仅包含了模糊碱基，而且还可能丢失碱基。当EST很短时，问题就更严重了，很可能全部落入一个特定的外显子中。在这种情况下，如果数据库中存在选择剪接方式并且均含此外显子，那就不可能知道这个EST所代表的是哪种形式了。图4-9剪接变体与EST图示为一段mRNA，有3个外显子边界标记，两种匹配方式

(a)EST与外显子1、

3、4有相似性，而缺失了2，表明可能是一个剪接变体；(b)EST完全落在外显子3的区域里，所以不能确定它是不是代表了一个

剪接变体2023/2/1BIOINFORMATICS数理与生物工程学院58(4)非编码区EST许多mRNA（尤其是人类的）在CDS的5'端和3'端有长的UTR。一个EST来源于这些非编码区的可能性是相当大的。如果幸运的话，UTR（非编码）序列已贮存在数据库中。因其高度保守且对编码基因而言是特异的，可以找到一个直接的匹配。

如果不是那么幸运的话，就不能找到匹配。这又存在两种可能性：一是这个EST虽代表了一个CDS，但数据库中没有相似序列；二是它代表了一个非编码序列，也不存在数据库记录。EST分析中必须清楚这两种情况的差别。2023/2/1BIOINFORMATICS数理与生物工程学院594.2.2EST数据库鉴于EST在基因研究和商业开发上的重要应用价值，人们已经建立了大量的EST数据库。到目前为止，主要的通用公共数据库包括EMBL数据库中的ETS部分以及GenBank中的dbEST。通过下面3个例子，可以初步了解EST数据的不同来源。2023/2/1BIOINFORMATICS数理与生物工程学院60(1)Merck/UniversityofWashington1994年，Merck公司资助美国华盛顿大学开展有关从多种规范化cDNA文库中测定EST序列的研究项目。截止1997年，该项目已提交dbEST584000个EST。此外，HowardHughes医学中心资助华盛顿大学测定小鼠克隆序列，提交dbEST近400000个EST，大多数为5'端。2023/2/1BIOINFORMATICS数理与生物工程学院61(2)IncyteIncyte制药公司建立了一个数据库LifeSeq，重点是通过从标准cDNA文库测序获得定量数据。其目标在于提供健康和疾病组织中转录基因相对拷贝数的信息，以期发现潜在的治疗靶标。到1998年4月，LifeSeq中已包含了2500000个EST，代表80000-120000个不同的基因。2023/2/1BIOINFORMATICS数理与生物工程学院62(3)TIGR-HGI美国基因组研究所（TheInstituteforGenomicResearch，TIGR)是一个非盈利的研究机构，成立于1992年。其人类基因索引（HumanGeneIndex，HGI)旨在综合全球人类基因研究的成果（包括dbEST及GenBank）。

它已经从300个以上的cDNA文库中测定了超过100000个的EST序列。有兴趣的读者可以访问“TIGRGeneIndices”网页（/tdb/tgi.shtml）。2023/2/1BIOINFORMATICS数理与生物工程学院634.2.3EST分析尽管EST本身是不完整的甚至可能是不精确的DNA序列，但EST分析（例如，检测新的EST与分子数据库中收录的大量EST匹配与否）将为确定全长CDS和寻找新基因提供有价值的线索。EST分析工具很多，除商用的（如Incyte—LifeTools）外，公用的工具通常分为3类：

①序列相似性查询（sequencesimilaritysearch）；

②序列组装（sequence

assembly）；

③序列聚类（sequencecluster）。2023/2/1BIOINFORMATICS数理与生物工程学院64(1)相似性查询工具序列相似性查询工具已在上章中介绍。其中BLAST系列可用于EST查询。tBLASTn可以翻译DNA数据库，BLASTx翻译输入数据，tBLASTx则两者均可。FASTA亦有类似的功能。2023/2/1BIOINFORMATICS数理与生物工程学院65(2)组装工具用一个“探针”序列在数据库中搜索可获得与之相匹配的EST序列，通常需要对这些EST序列进行对位排列（sequencealignment）以获得一致性序列。下一轮搜索得到的EST同样也应参与对位排列。这种反复的对位排列工作称为序列组装。相关的软件工具有Staden组装器、TIGR组装器和Phrap等。2023/2/1BIOINFORMATICS数理与生物工程学院66(3)聚类工具序列聚类工具是指将一个大的序列集合分解成亚集(subset)或簇（cluster)的计算机软件，如果不同序列之间有一段重叠序列，并且超过一定长度，这两段序列就应该能拼接在一起，从而应聚为一类。一个可靠而有效的EST聚类方法将减小数据集的冗余度，节省数据库搜索时间。总之，如果我们已得到大量的EST序列，并且需要估计出它们所代表基因的数目时，聚类工具就显得特别重要。2023/2/1BIOINFORMATICS数理与生物工程学院67图4-10示出了EST序列聚类的一个例子。其中，一个EST文库被分解成A、B、C、D4个集合，箭头方向表示EST间的重叠是正义（plussense）的还是负义（minussense）的。例如，A中两个EST是正义重叠，一个是负义重叠；C中两个正义，两个负义，等等。实际上，这里的EST正负义仅是象征性的，真实的正负义只能由数据库比较确定。图4-10EST聚类2023/2/1BIOINFORMATICS数理与生物工程学院69EST聚类的一种策略是用已知的基因去引导EST的划分。EST可以从各种各样的DNA和蛋白质序列数据库中搜索出来并聚合成代表单一基因的集合。一般来说这种方法可能产生出与数据库中任何一段序列不相匹配的EST簇。从一个给定的文库中得到不相匹配的EST的比例约为40%。随着基因组测序项目的增加，将有更多的信息被提供，这个比例值还会继续降低。因而，需要更新的方法（如重叠鉴定）来聚合剩余的序列。2023/2/1BIOINFORMATICS数理与生物工程学院70另一种策略是先聚合所有的EST以产生一个代表每个集合的一致性序列（consensussequence），然后仅用这个一致性序列去进行数据库检索。这是一个较为理想的方案，因为它显著地减少了相似性检索的数量。然而，这种策略的成功很大程度上依赖于EST聚类的可靠性，而EST聚类又与EST数据的质量密切相关。2023/2/1BIOINFORMATICS数理与生物工程学院71估算EST文库所代表基因的数目是一项较为复杂的工作，因为不相匹配的EST也许并不代表不同的基因。以下两种情况应当被考虑：首先，如图4-11(a)所示，一个簇(图中的C)可能与一个基因的非特征区相对应，另一种可能是该基因的特征区对应多个簇(图中的A和B)。例如，3‘UTR在数据库记录中通常是不完整的，或者一个基因只是一条部分的序列记录。在这种情况下，将一个不匹配的EST簇看做是一个单独的基因将会高估基因的数目；2023/2/1BIOINFORMATICS数理与生物工程学院72其次，如图4-11(b)所示，可能有两个或更多的未匹配簇(图中的D和E)对应于同一个基因的不同区域。如果将所有不相匹配的EST簇都算做基因的话，所估计的基因总数将明显偏高。图4-11EST簇与基因数目估计2023/2/1BIOINFORMATICS数理与生物工程学院74§4.3电子克隆cDNA全长序列电子克隆，又称虚拟克隆(virtualcloning)，其原理是根据大量EST具有相互重叠的性质，通过计算机算法获得cDNA全长序列。换言之，电子克隆不采用传统的分子生物学实验方法，而是由一个查询序列开始，依靠EST数据库在计算机上对EST进行两端延伸，从而获得全长的cDNA序列。电子克隆需要综合多种DNA序列分析技术。2023/2/1BIOINFORMATICS数理与生物工程学院75从部分序列得到全长cDNA的分子生物学实验方法通常有杂交筛选文库或5‘末端延伸法。电子克隆则以部分cDNA为起始，和Genbank的EST数据库dbEST进行BLAST检索，得到与5‘端或3’端有相似序列的EST，然后以该EST为模板，进一步搜索EST数据库，一直往前延伸，直到找到终止密码子，得到全长cDNA。可见，该方法依赖于足够的末端重叠并且能够往前延伸的EST序列。2023/2/1BIOINFORMATICS数理与生物工程学院76序列拼接软件通过计算序列中的每个位点上各种核苷酸可能出现的分值，找出调和序列。可以设置一些参数来约束每个位点允许出现的错配碱基数。通常，为确定序列拼接质量，需要对一个片段进行多次测序。正链和负链上每个位置至少有两次以上的测序结果一致，该位点的测序结果才比较可信；相反，序列中某一位点几次测序结果不一致，这一位点的可信度则较低。AACCGTTACGAAACCAGGTGCAACCGTTACGAAACCAGGTGCGCGCCCGCGGGAATAACCGTTACGAACCCAGGTGCAACCGTTACGAAaCCAGGTGCGCGCCCGcGGGAATCCTAAAAACGCGCCCGCGGGAATCCTAAAAATGCGCGCCCGAGGGAATCCTAAAAA图4-12序列拼接示例2023/2/1BIOINFORMATICS772023/2/1BIOINFORMATICS数理与生物工程学院78图中用于拼接的序列包括3条正链和2条负链。5个测序结果中，有2个位点出现了错误，这些错误将导致这两个位置碱基一致性程度降低，此时，需要用其他数据加以验证，或对测序过程中所得图谱进行人工分析。一般来说，必须利用全长正链和负链测序数据，才能保证拼接结果质量。2023/2/1BIOINFORMATICS数理与生物工程学院794-1例一个电子克隆的练习。假定从已发表的酿酒酵母(S.cerevisiae)的基因组中寻找一个编码未知蛋白的基因。仅有的信息是一个在酵母基因组14号染色体上发现的编号YNR064c的可能的可读框(ORF)。这项工作包含3个方面的内容：(a)、从公共数据库中分离一个基因(或ORF)；

(b)、分析所恢复序列的限制性酶切位点；

(c)、确定克隆策略。2023/2/1BIOINFORMATICS数理与生物工程学院80(1)从基因组数据库中分离基因登录到一个包含酵母基因组DNA数据库的网站，如http//srs.ebi.ac.uk/以便利用EMBL数据库SRS系统）；进入数据库的查询界面；在查询表中你可以发现不同类型的数据库。选择EMBL和EMBLNEW的数据库；键入登录号ynr064c，进行“QuickSearch”；点击链接，获得数据库查询的结果；获得的页面包括GenBank中收录的所有与064YNRc有关的数据，你将发现一条从5'-3'的含有目的基因的DNA链。

图4-13WebCutter软件网络界面2023/2/1BIOINFORMATICS数理与生物工程学院82(2)在网络上分析限制性位点打开一个新窗口(WebCutter)连接:http//bio.lundberg.gu.se/cutter2/.。这是一个进行在线限制性酶切位点分析的网站。这个程序可以通过简单的“剪切—粘贴”DNA序列来进行限制性酶切位点分析；在原先的网页浏览窗口(包含064YNRc数据的那一页)，选中整段DNA序列；在选中的区域点击右键，选择＜Copy＞；2023/2/1BIOINFORMATICS数理与生物工程学院83返回有WebCutter的窗口。在方框里点击鼠标左键来把鼠标的光标置于DNA序列框中，按右键选择＜Paste＞。将从数据库中获得的整个DNA序列放入WebCutter程序的DNA序列分析框中；保留所有限制性内切酶分析的默认设置。对YNR064c进行限制性内切酶分析。按下＜Analyzesequence＞。等待。分析通常需要10秒至几分钟，时间取决于分析时的网络状况；如果耗时太长，按＜stop＞来放弃分析过程，按＜back＞再按＜Analyzesequence＞，继续等待，并多尝试几次；2023/2/1BIOINFORMATICS数理与生物工程学院84(3)确定克隆策略研究输出文件，寻找起始密码子和终止密码子的位置以及编码序列(CDS)的方向；比较分析限制性酶切图谱(WebCutter)，寻找能够切除多余序列保留完整编码序列的限制性内切酶；除电子方法外，必须对YNR064c的编码区进行亚克隆，才能得到编码该蛋白的基因全长序列。所谓亚克隆就是对已经获得的目的DNA片段进行重新克隆，其目的在于对目的DNA进行进一步分析，或者进行重组改造等。2023/2/1BIOINFORMATICS数理与生物工程学院85例4-2用电子克隆的方法获得一种新的蛋白激酶A锚定蛋白(AKAP基因)的例子。结果得到2106bp的一段cDNA，和northernblotting杂交显示的结果相接近，为全长cDNA。可利用的EST序列有：H18281、H46461、AL120999、A1479138、R35395、A1677943和AL045281。各EST序列的位置和剪接图如图5-14所示。图4-14AKAP基因的电子克隆2023/2/1BIOINFORMATICS数理与生物工程学院88§4.4蛋白质序列分析蛋白质序列分析是从理论分析迈向实验研究的重要步骤。如果拟对感兴趣的基因投入实验研究，基于生物信息学获得尽可能多的关于该基因/蛋白质的信息是十分必要的，尤其是用生物信息学分析得到蛋白质的结构功能域信息对研究思路的制定具有重要的指导意义。2023/2/1BIOINFORMATICS数理与生物工程学院894.4.1蛋白质序列基本分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成、分子质量、等电点（pI）、亲水性和疏水性、信号肽、跨膜区及结构功能域的分析等。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可用来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网）。Web中有很多此类资源用于帮助预测蛋白质的功能。2023/2/1BIOINFORMATICS数理与生物工程学院90其中关于蛋白质的氨基酸组成、分子质量、等电点等方面的分析均可使用本地化的软件（如MacVector,OMIGA,DNAMAN,BioEdit等）进行，所以此处不进行详述，而只是对蛋白质序列的信号肽和跨膜区分析的网络资源进行描述。2023/2/1BIOINFORMATICS数理与生物工程学院91

蛋白质序列检索与核酸序列分析一样，蛋白质序列检索往往是序列分析的第一步。由于数据库和网络技术的发展，蛋白质序列的检索是十分方便的。你可以从NCBI网站/entrez/query.fcgi?CMD=search&DB=protein进行检索。在输入框中输入需要检索的内容，然后点击Go即可开始。图4-15GenBank检索蛋白质序列页面图4-16AccessionNumber为P02700的蛋白质GenBank格式的信息

2023/2/1BIOINFORMATICS数理与生物工程学院95

疏水性分析位于ExPASy的ProtScale程序(/cgi-bin/protscale.pl)可被用来计算蛋白质的疏水性图谱。该网站允许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或者SWISS-PROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)。该参数用于估计每种氨基酸残基的平均显示尺度。例如，如果参数n为9，则显示从5(=n-4）到13(=n+4）位之间其疏水性的平均值。该参数有助于对数据进行平滑，也可使亲水性和疏水性的区域更加突出。典型的默认值为9。2023/2/1BIOINFORMATICS数理与生物工程学院96进行蛋白质的亲／疏水性分析时，也可使用一些Windows下的软件资源，例如BioEdit,DNAMAN等。图4-17中显示使用BioEdit软件采用Kyte和Doolittle算法对羊OPSD蛋白质进行亲／疏水性分析的结果，结果提示多个区域为疏水性区域。图4-17使用BioEdit软件对OPSD_SHEET蛋白质进行亲水/疏水分析结果示例2023/2/1BIOINFORMATICS数理与生物工程学院98

跨膜区分析有多种预测跨膜螺旋的方法，最简单的是直接观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域。但是同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase数据库，可通过匿名FTP获得（http://www.isrec.isb-sib.ch/ftp-server/tmbas），参见表4-4。表4-4蛋白质跨膜区域分析的网络资源资源名称网址说明TMPRED/software/TMPRED_form.html基于对Tmbase数据库的统计学分析PHDhtmhttp://www.embl-heidelberg.de/Services/sander/predictproteinMEMSATftp://ftp.biochem.ucl.ac.uk微机版本2023/2/1BIOINFORMATICS数理与生物工程学院100蛋白质的跨膜螺旋特征是可通过序列分析直接得到预测并获得较好结果的一个性质。蛋白质序列含有跨膜区提示它可能作为膜受体起作用，也可能是定位于膜的锚定蛋白或离子通道蛋白等。因而，含有跨膜区的蛋白质往往和细胞的功能状态密切相关。图4-18和图4-19为两个蛋白质跨膜螺旋区分析的常用软件TMHMM和TMPRED的网络界面。图4-18蛋白质跨膜螺旋区分析的常用软件TMHMM网络界面图4-19蛋白质跨膜螺旋区分析的常用软件TMPRED网络界面2023/2/1BIOINFORMATICS数理与生物工程学院103

前导肽和蛋白质定位在生物体内，蛋白质的合成场所与功能场所常常被一层或多层细胞膜所隔开，这样就产生了蛋白质转运的问题。核糖体是真核生物细胞内合成蛋白质的场所，几乎在任何时候，都有数以百计或千计的蛋白质离开核糖体并被输送到细胞各个部分（如细胞质、细胞核、线粒体、叶绿体等），以补充细胞的物质成分和更新细胞功能。由于细胞各部分都有特定的蛋白质组分，因此，合成的蛋白质必须准确无误地定向运送才能保证生命活动的正常进行。2023/2/1BIOINFORMATICS数理与生物工程学院104对于亚细胞结构和细胞器来说，合成的蛋白质运到有关部位后还需要跨膜运送才能发挥正常功能。关于蛋白质的转运问题也是生物信息学所关注的问题。一般说来，蛋白质转运可分为两大类：若细胞内蛋白质合成和转运时同时发生的，属于翻译转运同步机制；若蛋白质从核糖体释放后才发生转运，则属于翻译后转运机制。这两种转运方式都涉及到蛋白质分子内特定区域与细胞膜结构的相互关系。2023/2/1BIOINFORMATICS数理与生物工程学院105一般认为，蛋白质定位的信息存在于该蛋白质自身结构中，并且通过与膜上特殊受体的相互作用得以表达。这就是信号肽假说的基础。这一假说认为，穿膜蛋白质是由mRNA编码的。在起始密码子后，有一段编码疏水性氨基酸序列的RNA片段，这个氨基酸序列就称为信号序列(signalsequence)。此理论为采用生物信息学基于蛋白质序列分析其信号肽提供了基础。研究各种分泌蛋白的信号肽序列，发现它们在进化上似乎不具有保守性。但是，信号肽中的疏水片段比较重要，如果利用点突变将其中的疏水氨基酸换成亲水氨基酸，信号肽的功能就会丧失。2023/2/1BIOINFORMATICS数理与生物工程学院106含有信号肽的蛋白质一般能够被分泌到细胞外，可能作为重要的细胞因子起作用，从而具有潜在的应用价值。联网到“http://genome.cbs.dtu.dk/services/SignalP/”可进行蛋白质序列的信号肽分析。2023/2/1BIOINFORMATICS数理与生物工程学院107蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动，例如前导肽和面向特定细胞器的靶向肽。在线粒体蛋白质的跨膜转运过程中，通过线粒体膜的蛋白质在转运之前大多数以前体形式存在，它由成熟蛋白质和N端延伸出的一段前导肽或称引肽(leaderpeptide)共同组成。迄今已有40多种线粒体蛋白质前导肽的一级结构被阐明，它们约含2080个氨基酸残基，当前体蛋白跨膜时，前导肽被一种或两种多肽酶所水解转变成为成熟蛋白质，同时失去继续跨膜能力。前导肽一般具有如下性质：2023/2/1BIOINFORMATICS数理与生物工程学院108带正电荷的碱性氨基酸（特别是精氨酸）含量

较为丰富，它们分散于不带电荷的氨基酸序

列之间；缺失带负电荷的酸性氨基酸；羟基氨基酸（特别是丝氨酸）含量较高；有形成两亲（即有亲水又有疏水部分）螺旋结

构的能力。2023/2/1BIOINFORMATICS数理与生物工程学院109和信号肽与跨膜区结构一样，蛋白质的亚细胞定位往往也和该蛋白质的功能密切相关。Reinhardt等基于神经网络算法构建的蛋白质亚细胞定位数据库(http://predict.sanger.ac.uk/nnpsl/nnpsl_mult.cgi)可用于对蛋白质序列进行亚细胞定位分析。2023/2/1BIOINFORMATICS数理与生物工程学院1104.4.2蛋白质功能预测一般来说，对于蛋白质功能预测分析而言，最为重要的莫过于分析目的蛋白质是否和具有功能信息的已知蛋白质相似。其中主要有两个策略进行：同源序列分析和功能区相关的保守序列特点分析。其一般的分析流程如图4-20所示。图4-20蛋白质序列分析的一般流程2023/2/1BIOINFORMATICS数理与生物工程学院112

基于序列同源性分析的蛋白质功能预测显然，相似的序列很可能具有相似的功能。因此，蛋白质的功能预测最为可靠的方法是进行数据库相似性检索。此方面的具体内容可参见第三章。请记住重要的一点：至少80个氨基酸长度范围内具有25％以上的序列一致性才提示可能的显著性意义。2023/2/1BIOINFORMATICS数理与生物工程学院113有多种不同的工具软件可用于蛋白质序列的对库检索，有的慢而准确，有的快而低敏。最快的工具如BLASTP能够很容易地发现显著性片段，而无需使用十分耗时的BLITZ软件。后者常常在当BLASTP和FASTA等软件无法获得显著性结果时才使用。2023/2/1BIOINFORMATICS数理与生物工程学院114在进行具体分析时，需要注意使用记分矩阵的重要性。使用不同的记分矩阵进行数据库检索具有以下理由：首先，所选择的记分矩阵必须和序列匹配的同源性相对准确，例如，PAM250用于远距离匹配（约25%一致性）、PAM40用于同源性较低的相关蛋白，BLOSUM62用于常规分析。其次，使用不同的记分矩阵能够更好地揭示保守区域。2023/2/1BIOINFORMATICS数理与生物工程学院115未知序列对库检索的一般分析策略如下：1）和运行BLASTP程序的服务器连接；2）将目的序列粘贴到序列输入框中，选择BLOSUM62记分矩阵运行BLASTP程序。NCBI的BLASTP程序要求输入序列为FASTA格式，其他一些网站则要求纯序列格式。3）如果BLASTP检测到了高度同源的序列，将有可能提示目的序列的生物学功能；4）如果BLASTP未能获得有意义的结果，试用FASTA。5）如果BLASTP和FASTA均未能获得有意义的结果，则需求采用完全的Smith-Waterman算法对库搜索以获得有意义结果。2023/2/1BIOINFORMATICS数理与生物工程学院116用户可以使用NCBI/BLAST（http://www./blast/，图4-21）、华盛顿大学的BLAST软件（WU-BLAST2，http://www.ebi.ac.uk/Blast2/，图4-22）和FASTA（http://www2.ebi.ac.uk/fasta3/，图4-23）进行序列同源性检索。图4-21使用NCBI/BLASTP进行蛋白质序列对数据库检索的网络界面图4-22使用WU-BLAST2进行蛋白质序列对数据库检索的网络界面图4-23使用FASTA进行蛋白质序列对数据库检索的网络界面2023/2/1BIOINFORMATICS数理与生物工程学院120

基于motif、结构位点、结构功能域数据库的蛋白质功能预测通常，一条新的蛋白质序列很难仅仅通过序列对齐获得足够的功能信息。有时，蛋白质序列对齐能够发现一些匹配片段，但是并不提示其功能信息。研究发现，除多肽的切割加工和有限水解以外，蛋白质生物合成后活性调节的另外一种形式是化学修饰，包括蛋白质磷酸化和糖基化。磷酸化是蛋白质合成后广泛存在的一种化学修饰，是控制酶活性的重要步骤。2023/2/1BIOINFORMATICS数理与生物工程学院121

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第四章序列分析

文档简介

温馨提示

最新文档

评论

第四章序列分析

文档简介

温馨提示

最新文档

评论

相关文档