第三章序列对比与数据库搜索(下)_第1页
第三章序列对比与数据库搜索(下)_第2页
第三章序列对比与数据库搜索(下)_第3页
第三章序列对比与数据库搜索(下)_第4页
第三章序列对比与数据库搜索(下)_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、4 BLAST4 BLAST程序简介程序简介 BLAST是现在应用最广泛的序列相似性搜索工具是现在应用最广泛的序列相似性搜索工具,相比相比FASTA有更多改进有更多改进,速度更快。速度更快。 它建立在严格的统计学基础之上。它建立在严格的统计学基础之上。 /blast/BlAST BlAST 工具主页面工具主页面4.1 BLAST搜索主界面 BLAST 2.2.12, BLAST 2.2.12, 具体功能包括具体功能包括: : (1)核酸数据库搜索:分为标准的核酸与核酸数核酸数据库搜索:分为标准的核酸与核酸数据库搜索据库搜索,MEGABLAST

2、提供大量长序列的比较提供大量长序列的比较,完全匹配的短序列的搜索。完全匹配的短序列的搜索。 (2)蛋白数据库搜索蛋白数据库搜索:分为标准的蛋白与蛋白数据分为标准的蛋白与蛋白数据库搜索;库搜索;PSI-and PHI-BLAST,其中其中PSI用于用于搜索证实远源进化关系是否存在,进一步获取搜索证实远源进化关系是否存在,进一步获取这个蛋白家族中的功能信息。而这个蛋白家族中的功能信息。而PHI用于搜索蛋用于搜索蛋白基序;同样包括蛋白的完全匹配的短序列搜白基序;同样包括蛋白的完全匹配的短序列搜索。索。 (3)已翻译蛋白的已翻译蛋白的BLAST搜索包括:搜索包括:blastx、tblastn,Ctbl

3、astx。 (4)保守区域的搜索:主要使用保守区域的搜索:主要使用RPS-BLAST。 (5)配对序列的两两比较:用于核酸和蛋白的配对序列的两两比较:用于核酸和蛋白的两两比较分析。两两比较分析。 (6)针对特定数据库的搜索:比如人类基因组、针对特定数据库的搜索:比如人类基因组、微生物基因组等。微生物基因组等。 (7)检索已提交的申请结果:主要用于申请比检索已提交的申请结果:主要用于申请比较的序列较长较的序列较长,等待时间长时等待时间长时,只需记住申请的只需记住申请的编号编号,在在ID框中输入即可框中输入即可,但结果只保留但结果只保留24h。4.2 BLAST 4.2 BLAST 程序及其数据库

4、名称和意义程序及其数据库名称和意义1) BLAST 1) BLAST 程序程序BLAST BLAST 蛋白质数据库蛋白质数据库BLAST BLAST 的核酸数据库的核酸数据库4.3 BLAST4.3 BLAST搜索格式搜索格式 BLASTBLAST搜索框中允许搜索框中允许3 3种输入格式种输入格式: : FASTA FASTA 格式格式 单纯序列输入格式单纯序列输入格式 标识符格式标识符格式FASTA格式格式 FASTAFASTA格式第格式第1 1行是描述行行是描述行, ,第第1 1个字符必须是个字符必须是字字符符; ;随后的行是序列本身随后的行是序列本身, ,一般每行序列不要超过一般每行序列

5、不要超过8080个字符个字符, ,各行之间不允许有空行各行之间不允许有空行, ,回车符不会影回车符不会影响程序对序列连续性。序列由标准的响程序对序列连续性。序列由标准的IUB/IUPACIUB/IUPAC氨基酸和核酸代码代表氨基酸和核酸代码代表; ;小写字符会全部转换成大小写字符会全部转换成大写写, ,序列可由基因库中调出序列可由基因库中调出, ,亦可输入。如亦可输入。如: : gi|129295|splP01013|OVAX-CHICK GENE X PROTEIN (OVALBUMIN-RE-LATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTR- E

6、MPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEIKTINFEIKLTEJTNPNTMEIKRRVIKVYLPQMIKIEEIKYNVLMALGMTDLFIPSANLIBSQAVEHfGAFMELSEDGIEMAGSTGVIEDIHIK核酸表示字符核酸表示字符: :符 号含 义说 明GGGuanine 鸟嘌呤AAAdenine 腺嘌呤TTThymine 胸腺嘧啶CCCytosine胞嘧啶UUUridine尿嘧啶RG or APurine 嘌呤YT or CPyrimidine 嘧啶MA or CAmino 氨基的KG o

7、r TKeto 酮基的SG or CStrong interaction (3H bonds) 强的WA or TWeak interaction (2 H bonds) 弱的HA or C or TNot-G非鸟嘌呤BG or T or Cnot-A非腺嘌呤VG or C or Anot-T(not-U) 非胸腺,尿嘧啶DG or A or Tnot-C 非胞嘧啶NG or A or T or CAny 任何BLASTPBLASTP、TBLASTNTBLASTN接受的氨基酸输入代码接受的氨基酸输入代码 A alanine (A alanine (丙氨酸丙氨酸) P proline() P p

8、roline(脯氨酸脯氨酸) ) B aspartate or asparagine (B aspartate or asparagine (天门冬氨酸天门冬氨酸) Q glutamine () Q glutamine (谷氨酰胺谷氨酰胺) ) C cystine(C cystine(胱氨酸胱氨酸) R arginine() R arginine(精氨酸精氨酸) ) D aspartate(D aspartate(天冬氨酸天冬氨酸) S serine() S serine(丝氨酸丝氨酸) ) E glutamate(E glutamate(谷氨酸盐谷氨酸盐) T threonine() T t

9、hreonine(苏氨酸苏氨酸) ) F phenylalanine(F phenylalanine(苯丙氨酸苯丙氨酸) U selenocysteine() U selenocysteine(晒代半胺氨酸晒代半胺氨酸) ) G glycine(G glycine(甘氨酸甘氨酸) V valine() V valine(缬氨酸缬氨酸) ) H histidine(H histidine(组氨酸组氨酸) ) W tryptophan(W tryptophan(色氨酸色氨酸 I isoleucine(I isoleucine(异亮氨酸异亮氨酸) ) Y tyrosine(Y tyrosine(酪氨

10、酸酪氨酸) ) K lysine (K lysine (赖氨酸赖氨酸) )Z glutamate or glutamineZ glutamate or glutamine L leucine (L leucine (亮氨酸亮氨酸) )X any(X any(任何一种氨基酸任何一种氨基酸) ) M methionine(M methionine(蛋氨酸蛋氨酸) )translation stop(translation stop(翻译终止符翻译终止符) ) N asparagine(N asparagine(天冬酰胺天冬酰胺) )-gap of indeterminate length-gap

11、of indeterminate length2.单纯序列数据输入格式单纯序列数据输入格式 该格式无该格式无FASTAFASTA描述定义行描述定义行, ,亦可是亦可是GenBank/GMPeptGenBank/GMPept中的单纯文本中的单纯文本格式。如:格式。如:QKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKEELPFASGDLSMLVLLPBEVSDLERIEKTIMEKLTEWTNPNTMEKRRVKVYLPQMIGEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQ

12、AVHGAFMELSEDGEMAGSTGVIEDKHSPESEQFRADHP 1 qikdllvsss tdldttlviv naiyfkgmwk tafruedtre mpfhvtkqes kpvqmmcmm 61 sfnvatlpae lmkilelpfa sgdlsmlvll pdevsdleri ektideklt ewtnpImek121 rrvkvylpqm kieelqnlts vlmalgmtdl fipsanltgi ssaesikhq avhgafmels181 edgemagst gviedikhsp eseqfradhp flflildnpt ntivyfgryw sp

13、 标识符格式标识符格式 通常只输入通常只输入NCBINCBI存取号、存取号版号或基因库存取号、存取号版号或基因库中的标识符号中的标识符号, ,如如: : p01013、AAA68881.1、129295 亦可有亦可有NCBINCBI中带有分隔竖线的序列标识符中带有分隔竖线的序列标识符, ,如如: :1 gcttgcggaa gtcagttcag actccagecc gctccagecc ggcccgaccc gaccgcaccc 61 ggcgcctgcc ctcgctcggc gtccccggcc ageeatgggc ccttggagec gcagectctc121 ggcgctgctg

14、 ctgctgctgc aggtctcctc ttggctctgc caggagecgg ageectgcca 181 ccctggcttt gacgccgaga gctacacgtt cacggtgccc 注意注意:3:3种输入格式输入时种输入格式输入时, ,蛋白质必须对应搜索蛋白质的蛋白质必须对应搜索蛋白质的程序程序, ,核酸必须对应搜索核酸的程序核酸必须对应搜索核酸的程序5 5 同源性分析同源性分析 以检索以检索E-CadherinE-Cadherin部分序列为部分序列为例例: : 打开打开BLASTBLAST搜索主页按以下选择搜索主页按以下选择: : 进入搜索界面进入搜索界面, ,在在

15、SearchSearch框输入框输入基因的标识符、单纯序列格式或基因的标识符、单纯序列格式或FASTAFASTA格式格式, ,并可限制序列的起点并可限制序列的起点和终点和终点, ,根据需要选择数据类型根据需要选择数据类型( (本例选本例选nr),nr),在高级选项中可进一在高级选项中可进一步限定条件步限定条件, ,设定好后点击设定好后点击BLASTBLAST按钮提交。按钮提交。提示提交成功提示提交成功, ,进进一步点击一步点击Format Format 可看结可看结果。果。5.1 5.1 待检核酸序列与整个核酸序列库中的序列进行类比待检核酸序列与整个核酸序列库中的序列进行类比分别输入两个基因的

16、标识符或分别输入两个基因的标识符或FASTAFASTA格式的序列格式的序列, ,碱基数不要超碱基数不要超过过150kb,150kb,可进一步限定条件可进一步限定条件, ,然后点击然后点击BLASTBLAST按钮即可提交等待结果。按钮即可提交等待结果。选择选择FORMAT FORMAT 按钮显示结果按钮显示结果4.3 4.3 蛋白质与蛋白质数据库或蛋白质两两比较蛋白质与蛋白质数据库或蛋白质两两比较 (1)(1)蛋白质与蛋白质数据库比较蛋白质与蛋白质数据库比较: :选选Protein BLASTProtein BLAST中中的的Protein-Protein BLAST blastpProtein

17、-Protein BLAST blastp与蛋白质数据库与蛋白质数据库比较比较 输入方法基本与核酸比较相同输入方法基本与核酸比较相同, ,存取号或序列内容必存取号或序列内容必须是蛋白质库中的。须是蛋白质库中的。 (2)(2)蛋白质的两两比较蛋白质的两两比较: : 在在Alignment View Alignment View 中选中选Pairwise , Matrix Pairwise , Matrix 选择比较矩阵选择比较矩阵(BLOSUM62)(BLOSUM62)进行比进行比较较 序列输入格式同上。其输出搜索结果序列输入格式同上。其输出搜索结果, ,进一步点击进一步点击FormatForm

18、at按钮可看详细结果。按钮可看详细结果。蛋白质两两比较结果蛋白质两两比较结果4.4 输出结果的解释1)1)结果总览图结果总览图 通用于蛋白质和核通用于蛋白质和核酸的结果表示。图酸的结果表示。图中列出了红、粉、中列出了红、粉、绿、蓝、黑绿、蓝、黑5 5种颜种颜色色, ,红色同源性最高红色同源性最高, ,排在最上面排在最上面, ,其他各其他各种颜色同源性逐渐种颜色同源性逐渐降低。每条图代表降低。每条图代表搜索蛋白质匹配的搜索蛋白质匹配的序列。如果出现阴序列。如果出现阴影区影区, ,其对应的是其对应的是2 2个或多个搜索数据个或多个搜索数据库相似序列中的非库相似序列中的非相似区。相似区。 鼠标指在哪

19、条图上鼠标指在哪条图上, ,图上面的框中就会图上面的框中就会显示匹配蛋白质或显示匹配蛋白质或核酸的名字。核酸的名字。结果总览图结果总览图-核酸核酸结果总览图结果总览图-蛋白质蛋白质显著性序列列表显著性序列列表最有显著性最有显著性( (同源性同源性最高最高) )的行排在最上的行排在最上面面, ,其其E E值最低值最低, ,排列排列行按行按E E值增加排序值增加排序, ,每每行有行有4 4部分描述内容部分描述内容: :数据序列标识符数据序列标识符对该序列简单描对该序列简单描述述在每个数据库在每个数据库中搜索得到的分数中搜索得到的分数E E值,点击序列标值,点击序列标识符可以连接到识符可以连接到Ge

20、nBankGenBank,点击分数可连接到点击分数可连接到对应的序列比较行对应的序列比较行行列比较行列比较 因申请者提交的要求不同因申请者提交的要求不同, ,行列可有不同的输出形式行列可有不同的输出形式, ,系统系统默认的是配对行列输出格式默认的是配对行列输出格式, ,即查询序列与数据库中匹配即查询序列与数据库中匹配的序列垂直对应。的序列垂直对应。 针对蛋白质查询而言针对蛋白质查询而言, ,相同的残基排在二序列之间相同的残基排在二序列之间, ,用用“+”+”表示保守性残基表示保守性残基 针对针对DNADNA而言而言, ,垂直线连接相同的碱基。空位部分代表查垂直线连接相同的碱基。空位部分代表查询

21、序列与检索匹配序列不一致。询序列与检索匹配序列不一致。 由于过滤作用由于过滤作用, ,在低复杂区氨基酸查询序列可以包含在低复杂区氨基酸查询序列可以包含Xs(Xs(核核酸包含酸包含N NS S) )。HPSsHPSs中可列出每个检索数据库中的多个行列。中可列出每个检索数据库中的多个行列。蛋白质行列比较结果蛋白质行列比较结果核酸行列比较结果核酸行列比较结果参数参数E E的意义的意义 相关的参数值相关的参数值E代表随机比较分值不低于实际比较代表随机比较分值不低于实际比较分值的概率。对于严格的比较,分值的概率。对于严格的比较, E值必须低于一值必须低于一定阈值,才能说明比较的结果具有足够的统计学定阈值

22、,才能说明比较的结果具有足够的统计学显著性。显著性。 界定值在搜索设置界定值在搜索设置,系统默认为系统默认为10,搜索的严谨度搜索的严谨度越高越高,E值越小。若要比较短序列值越小。若要比较短序列,获得更多的信息获得更多的信息,则可增加则可增加E值到值到1000或更高或更高;或降低字符大小或降低字符大小(W),经验之法是查询序列至少是经验之法是查询序列至少是W的的2倍,或禁止过倍,或禁止过滤功能的使用,或改变矩阵以优化搜索序列。滤功能的使用,或改变矩阵以优化搜索序列。4.5 PSI-BLAST4.5 PSI-BLAST程序简介程序简介PSI-BLAST-PSI-BLAST-位点特异性反复比较位点

23、特异性反复比较BLAST(BLAST(蛋白质蛋白质) )PSI-BLASTPSI-BLAST的特色是每次用的特色是每次用ProfileProfile搜索数据库后再利用搜索数据库后再利用搜索的结果重新构建搜索的结果重新构建Profile,Profile,然后用新的然后用新的ProfileProfile再次搜索再次搜索数据库数据库, ,如此反复直至没有新的结果产生为止。如此反复直至没有新的结果产生为止。PSI-PSI-BLASTBLAST先用带空位的先用带空位的BLASTBLAST搜索数据库搜索数据库, ,将获得的序列通将获得的序列通过多序列比较来构建第一个过多序列比较来构建第一个ProfileP

24、rofile。PSI-BLASTPSI-BLAST自然地拓展了自然地拓展了BLASTBLAST方法方法, ,能寻找蛋白质序列能寻找蛋白质序列中的隐含模式中的隐含模式, ,这种方法可以有效地找到很多序列差异这种方法可以有效地找到很多序列差异较大,而结构功能相似的相关蛋白较大,而结构功能相似的相关蛋白, ,甚至可以与一些结甚至可以与一些结构比较方法如构比较方法如ThreadingThreading媲美媲美, ,在在BLASTBLAST查询页面有选择查询页面有选择项。也可以在项。也可以在FTPFTP服务器上下载服务器上下载PSI-BLASTPSI-BLAST的独立程序。的独立程序。PSI-BLAST

25、PSI-BLAST选项选项4.6 4.6 低复杂度区域与重复元件低复杂度区域与重复元件不管是蛋白还是核酸都包含一些特殊的区域不管是蛋白还是核酸都包含一些特殊的区域-低复杂度区域低复杂度区域(LCRs),在进行序列数据库搜索时在进行序列数据库搜索时,这些区域可能会导致一些令人这些区域可能会导致一些令人迷惑的结果。数据库中的蛋白质有一半以上拥有至少一个迷惑的结果。数据库中的蛋白质有一半以上拥有至少一个LCR。LCRs的进化、功能和结构的进化、功能和结构 性质并不清楚。在性质并不清楚。在DNA中中,有许多种简有许多种简单的重复单的重复,其中一些已经知道是高度多态性的其中一些已经知道是高度多态性的,并

26、且在作基因图谱并且在作基因图谱时经常使用的。时经常使用的。 对包含对包含LCR的序列进行对比是不妥当的的序列进行对比是不妥当的,因为这些序列不符合残基因为这些序列不符合残基一残基序列守恒的模型。有些时候与功能相关的属性可能仅仅是一残基序列守恒的模型。有些时候与功能相关的属性可能仅仅是周期性或组成结构周期性或组成结构,而没有任何特异的序列。而没有任何特异的序列。使用使用BLAST时时,缺省情况下可以实行自动过滤。如果对比的序列缺省情况下可以实行自动过滤。如果对比的序列中有中有LCR,查询序列中会出现不明确的字符串查询序列中会出现不明确的字符串(在原序列中没有出在原序列中没有出现现)。操作者可以使

27、用。操作者可以使用BLAST程序来进行低复杂度区域的屏蔽。程序来进行低复杂度区域的屏蔽。当一个低复杂度区域被屏蔽掉的序列作为查询序列被提交给数据当一个低复杂度区域被屏蔽掉的序列作为查询序列被提交给数据库进行检索时库进行检索时,在在BLAST对比输出结果中,可能也会包括一些被对比输出结果中,可能也会包括一些被屏蔽的分段序列。这些过滤可以由屏蔽的分段序列。这些过滤可以由BLAST程序完成。程序完成。低复杂度区域低复杂度区域重复元件重复元件 DNA序列的任何比较中序列的任何比较中,重复元件都必须引起足重复元件都必须引起足够的重视。基因组序列可能会包含大量分散的够的重视。基因组序列可能会包含大量分散的

28、重复序列重复序列,特别是一些多基因族,甚至特别是一些多基因族,甚至mRNA序序列中也可能含有重复序列列中也可能含有重复序列,几乎都是非翻译区。几乎都是非翻译区。 重复元件在数据库序列中非常普遍重复元件在数据库序列中非常普遍,如果查询序如果查询序列中也有这些重复列中也有这些重复,就会在对比中出现大量不正就会在对比中出现大量不正确的正分。因此,在序列比较时必须屏蔽这些确的正分。因此,在序列比较时必须屏蔽这些重复元件。或手工删除。重复元件。或手工删除。 工具软件包:工具软件包: CENSOR辨别伪结果!辨别伪结果! 对比中注意与对比中注意与DNADNA序列编码区域相关的位点是非序列编码区域相关的位点

29、是非常重要的辨别伪结果的方法。常重要的辨别伪结果的方法。 如果非编码区域匹配而编码区域不匹配如果非编码区域匹配而编码区域不匹配, ,那么反复那么反复序列就很令人怀疑。序列就很令人怀疑。 如果查询序列同大量序列匹配如果查询序列同大量序列匹配, ,这些序列相互之间这些序列相互之间没有什么关系没有什么关系, ,但是对比的分值都很相近但是对比的分值都很相近, ,这样的结这样的结果就极为可疑。果就极为可疑。作业作业1.1.序列比较的原理与理论基础是什么序列比较的原理与理论基础是什么? ? 2.2.用书上或任意的核算序列用书上或任意的核算序列, ,在在BLASTBLAST中进行两两序列比较中进行两两序列比

30、较, ,并并阅读详细结果阅读详细结果, ,将将”详细总览图详细总览图”保存保存, ,发发email.email.3.3.用书上或任意的的蛋白序列用书上或任意的的蛋白序列, ,在在BLASTBLAST进行蛋白序列两两比进行蛋白序列两两比较较, ,并阅读详细结果并阅读详细结果, ,将将”行列比较图行列比较图”保存保存, ,发发email.email.4.7 4.7 多序列比较多序列比较把两条以上可能有进化关系的序列进行比较把两条以上可能有进化关系的序列进行比较多数算法都基于渐进的比较思想多数算法都基于渐进的比较思想, ,在序列两两比较的基础上逐步优化在序列两两比较的基础上逐步优化多序列比较的结果。

31、多序列比较后多序列比较的结果。多序列比较后, ,可以对比较结果进行进一步处理可以对比较结果进行进一步处理. .例如例如: :构建序列模式的构建序列模式的Profile,Profile,将序列聚类构建分子进化树等。将序列聚类构建分子进化树等。广泛使用的多序列比较程序是广泛使用的多序列比较程序是CLUSTALWCLUSTALW, ,它是一种渐进的两两方它是一种渐进的两两方法。先将多个序列两两比较建立距离矩阵,再根据距离矩阵计算产生法。先将多个序列两两比较建立距离矩阵,再根据距离矩阵计算产生系统进化树系统进化树, ,对关系密切的序列进行加权。然后,从最紧密的两条序对关系密切的序列进行加权。然后,从最紧密的两条序列开始列开始, ,逐步引入临近的序列,并不断重新构建比较逐步引入临近的序列,并不断重新构建比较, ,直到所有序列都直到所有序列都被加入为止。被加入为止。CLUSTALWCLUSTALW是免费程序是免费程序, ,在在NCBINCBI的的FTPFTP服务器上可下载。服务器上可下载。CLUSTALWCLUSTALW程序用程序用“选项单选项单”逐步指导用户进行操作逐步指导用户进行操作, ,用户可根据用户可根据需要选择打分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论