序列比对基础与BLAST入门(打分矩阵)课件_第1页
序列比对基础与BLAST入门(打分矩阵)课件_第2页
序列比对基础与BLAST入门(打分矩阵)课件_第3页
序列比对基础与BLAST入门(打分矩阵)课件_第4页
序列比对基础与BLAST入门(打分矩阵)课件_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

序列比对基础与BLAST入门生物信息学补充一:打分矩阵序列比对的基本原理提出比对要考虑的问题专业算法(构建打分矩阵)数学程序计算机搜索数据库计算机给出比对结果(比对分数、显著性检验)打分二、打分矩阵(ScoringMatrix)简介要对两个序列进行比对,必须首先打出其相似性的定量分值,于是需要一个打分矩阵。矩阵(Matrix):是由m×n个数组成的一个m行n列的矩形表格。矩阵(Matrix)某公司生产四种产品A、B、C、D,第一季度的销量分别如下表所示:产品销量(件)月份ABCD

一月300250220180

二月320230200200

三月310280210220

矩阵(Matrix)为了研究方便,在数学中常把表中的说明去掉,将上表简化为如下的矩形数表:由3×4个数组成的一个3行4列的矩形表格。此表在数学上称为矩阵(纵横排列的二维数据表格)。核酸打分矩阵----AT--GCAT--GCATGC--ATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC|||||||||||||||||||||||||||||||||||||||||||CGATCG--ATCG--AT--CG--------ATATATATATATGCATATATATGCATGCATGCATGCAT上述序列比对过程中,只考虑了碱基的同一性,即两个序列之间完全相同的匹配碱基数目。可以把这种只考虑碱基同一性的矩阵理解为一个分数值为1和0的分数矩阵,即相同残基的分数值为1,不同残基的分数值为0。蛋白质打分矩阵保守性替换(conservativesubstitution)

通常在某些位点上有一些氨基酸被另外一些理化特性相似的氨基酸所代替,这种突变可称为保守性替换。保守性替换一般不会影响蛋白质的结构和功能。

与核苷酸序列比对不同,氨基酸序列比对不仅要考虑残基是否相同,还要考虑残基是否相似以及相似的不同程度。

LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE

||.|:|||||:

ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD

1.极性中性氨基酸(亲水,含羟基)2.碱性氨基酸王镜岩编《生物化学》(第三版)第127页~~~~~EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTMLSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTFTKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHRVQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTVVKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTFLQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLFVQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFLVQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRWPKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD...人类lipocalin(脂质运载蛋白)家族多序列比对GXW模体蛋白质打分矩阵我们想要衡量氨基酸配对的相似性程度,这就需要有氨基酸相似性的定量标准。单一打分矩阵满足不了此种需求。相似性打分矩阵,是基于远距离进化过程中观察到的残基替换率,并用不同的分数值表征不同残基之间的相似性程度。恰当选择相似性分数矩阵,可以提高序列比对的敏感度。PAM矩阵和BLOSUM矩阵。三、PAM矩阵MargaretDayhoff等研究了34种蛋白质超家族(85%以上一致性的序列),通过这些同源蛋白序列的比对,总结出一个氨基酸被另一个氨基酸替换的概率,从而构建出PAM矩阵。谁说女子不如男!三、PAM矩阵PAM(acceptedpointmutation)可接受点突变

同源蛋白质在进化过程中会出现一个氨基酸被另一个氨基酸替换的现象,若此种突变通过自然选择被种群接受,并可见于后代的基因组中,便称为可接受点突变。果蝇

GAKKVIISAPSAD.APM..FVCGVNLDAYKPDMKVVSNASCTTNCLAPLA

人类

GAKRVIISAPSAD.APM..FVMGVNHEKYDNSLKIISNASCTTNCLAPLA

植物

GAKKVIISAPSAD.APM..FVVGVNEHTYQPNMDIVSNASCTTNCLAPLA

细菌

GAKKVVMTGPSKDNTPM..FVKGANFDKY.AGQDIVSNASCTTNCLAPLA

酵母

GAKKVVITAPSS.TAPM..FVMGVNEEKYTSDLKIVSNASCTTNCLAPLA

古细

GAKKVLISAPPKGDEPVKQLVYGVNHDEYDGE.DVVSNASCTTNSITPVA

果蝇

KVINDNFEIVEGLMTTVHATTATQKTVDGPSGKLWRDGRGAAQNIIPAST

人类

KVIHDNFGIVEGLMTTVHAITATQKTVDGPSGKLWRDGRGALQNIIPAST植物

KVVHEEFGILEGLMTTVHATTATQKTVDGPSMKDWRGGRGASQNIIPSST

细菌

KVINDNFGIIEGLMTTVHATTATQKTVDGPSHKDWRGGRGASQNIIPSST

酵母

KVINDAFGIEEGLMTTVHSLTATQKTVDGPSHKDWRGGRTASGNIIPSST

古细

KVLDEEFGINAGQLTTVHAYTGSQNLMDGPNGKP.RRRRAAAENIIPTST

果蝇

GAAKAVGKVIPALNGKLTGMAFRVPTPNVSVVDLTVRLGKGASYDEIKAK

人类

GAAKAVGKVIPELNGKLTGMAFRVPTANVSVVDLTCRLEKPAKYDDIKKV

植物

GAAKAVGKVLPELNGKLTGMAFRVPTSNVSVVDLTCRLEKGASYEDVKAA

细菌

GAAKAVGKVLPELNGKLTGMAFRVPTPNVSVVDLTVRLEKAATYEQIKAA酵母

GAAKAVGKVLPELQGKLTGMAFRVPTVDVSVVDLTVKLNKETTYDEIKKV

古细

GAAQAATEVLPELEGKLDGMAIRVPVPNGSITEFVVDLDDDVTESDVNAA

不同物种3磷酸甘油醛脱氢酶多序列比对2、氨基酸出现频率Gly 8.9% Arg 4.1%Ala 8.7% Asn 4.0%Leu 8.5% Phe 4.0%Lys 8.1% Gln 3.8%Ser 7.0% Ile 3.7%Val 6.5% His 3.4%Thr 5.8% Cys 3.3%Pro 5.1% Tyr 3.0%Glu 5.0% Met 1.5%Asp 4.7% Trp 1.0%blue=6codons;red=1codon3、氨基酸的相对突变几率每种氨基酸发生突变的次数除以该氨基酸出现的总次数Asn 134 His 66Ser 120 Arg 65Asp 106 Lys 56Glu 102 Pro 56Ala 100 Gly 49Thr 97 Tyr 41Ile 96 Phe 41Met 94 Leu 40Gln 93 Cys 20Val 74 Trp 18Notethatalanineisnormalizedtoavalueof100.TrpandCysareleastmutable.AsnandSeraremostmutable.PAM1突变概率矩阵(万分之一)Originalaminoacid表示一个PAM进化时间内同源序列中的丙氨酸有0.21%的可能被替换为甘氨酸三、PAM矩阵利用矩阵的乘法,可将PAM1矩阵自乘若干次得到其他的PAM矩阵。比如PAM1矩阵自乘250次便得到PAM250矩阵。PAM后面的数值越大,表示氨基酸的变化越大,进化距离越远。PAM250表示两个同源蛋白序列中,每100个氨基酸有250次变化。PAM250突变概率矩阵反映了远缘关系(20%氨基酸一致性)蛋白之间氨基酸替换的规律。PAM1突变概率矩阵(万分之一)Originalaminoacid表示一个PAM进化时间内同源序列中的丙氨酸有0.21%的可能被替换为甘氨酸三、PAM矩阵人和黑猩猩同源蛋白的比对,属近缘关系的比较,PAM

1可反映其氨基酸替换的规律。人和细菌同源蛋白的比对,属远缘关系的比较,PAM

250可反映其氨基酸替换的规律。PAM后面的数值越大,表示氨基酸的变化越大,进化距离越远。三、PAM矩阵研究PAM矩阵的目的是要在序列比对时,构建一个评价两条序列相关性的打分系统。为了便于打分,Dayhoff将PAM突变概率矩阵进行对数转换,从而构建出了可以实际应用的PAM打分矩阵。PAM250突变概率矩阵(%)PAM250打分矩阵(用于远缘关系比对)氨基酸匹配少,氨基酸替换会得到较少的罚分,最终会得到一个较高的分数。PAM10logoddsscoringmatrixPAM10打分矩阵(用于近缘关系比对)氨基酸匹配多,匹配项得分高,最终会得到一个较高的分数。PAM250与PAM10的比较远缘关系的蛋白比对,若用PAM250打分,由于氨基酸的替换会得到较少的罚分,最终会得到一个较高的分数。近缘关系的蛋白比对,若用PAM10打分,由于氨基酸的匹配多,且匹配项得分高,则会得到一个较高的分数。构建PAM打分矩阵的过程(Dayhoff等,1978)构建序列相似(大于85%)的比对(34种蛋白质超家族)计算氨基酸的相对突变率(一个氨基酸被其它氨基酸替换的次数)构建PAM突变概率矩阵将PAM1自乘N次,可以得到PAM(N)取常用对数,得到PAM打分矩阵四、BLOSUM矩阵(Henikoff夫妇,1992)PAM矩阵的产生是基于相似性较高(85%以上)的序列比对,那些进化距离较远的矩阵(如PAM250)是从初始模型中推算出来而不是直接计算得到的,其准确性受到一定限制。而序列分析的关键是检测进化距离较远的序列之间是否具有同源性,因此PAM矩阵在实际使用时存在一定的局限。四、BLOSUM矩阵(Henikoff夫妇,1992)BLOSUM矩阵(blockssubstitutionmatrix)模块替换矩阵。与PAM矩阵相比,BLOSUM矩阵是根据进化距离较远的蛋白序列模块(保守区域)比对直接计算得到的。因此,BLOSUM矩阵比PAM矩阵总的来说要好,尤其是BLOSUM62被大多数比对搜索工具选作为默认的打分矩阵。BLOSUM62来自于≥62%相似度的序列比对。BLOSUM80来自于≥80%相似度的序列比对。Blosum62scoringmatrix(默认打分矩阵)PAM250打分矩阵(用于远缘关系比对)小鼠与大鼠的RBP小鼠与细菌的lipocalin近缘关系比对远缘关系比对五、PAM与BLOSUM的比较五、PAM与BLOSUM的比较低值PAM矩阵和高值BLOSUM矩阵最适合于近缘关系的蛋白比对。高值PAM矩阵和低值BLOSUM矩阵最适合于远缘关系的蛋白比对。BLAST上机实习内容对于序列3,选择blastp,将物种限制为bacteria,其他参数默认,观察改变打分矩阵(Matrix)时搜索结果有什么变化?(记下5种打分矩阵的匹配序列总数并按大小排序)BLOSUM45(94)>BLOSUM62(62)>BLOSUM80(45)>PAM70(10)>PAM30(1)全局比对与局部比对的算法全局比对(globalalignment)对两条核苷酸或氨基酸序列的全长进行比对。局部比对(localalignment)对两条核苷酸或氨基酸序列的一部分进行比对。TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHRVQENFDVNKYLGTWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTVLPKLAGTWHSMAVNKYLGTWYEIE局部比对通常比全局比对更有意义因为它能发现序列中的保守区域六、全局比对与局部比对的算法全局比对的最优化算法:

Needleman-Wunsch算法

(1970)局部比对的最优化算法:

Smith-Waterman算法(1981)FASTA和BLAST是Smith-Waterman算法的替代版本,它们属于一种启发式算法,优点是速度快,但没有Smith-Waterman算法准确。

补充二:BLAST搜索注意事项BLAST搜索注意事项1、BLAST搜索类型的选择

blastp比blastn更能发现序列间的同源关系。

(1)如果查询序列为蛋白质序列,最好先用

blastp进行比对搜索,再用tblastn进行翻译后的比对搜索。

(2)如果查询序列为编码蛋白的DNA序列,最好用blastx

进行翻译后的蛋白质序列比对搜索。若blastx没能得到什么结果,则可尝试tblastx。

(3)但下列情况应考虑采用blastn比对搜索:鉴定一条DNA序列的身份,或者查询序列为非编码序列时。BLAST搜索注意事项2、低复杂度区域的过滤3、重复片段的去除4、E值的设置5、打分矩阵的选择BLAST搜索注意事项6、搜索结果太多怎么办?调整期望值;降低E值利用Entrezquery进行限制限定物种BLAST搜索注意事项7、搜索结果太少怎么办?调整打分矩阵;选择更高PAM值或更低BLOSUM值的打分矩阵调整期望值;提高E值选择特定的数据库(如est、HTGS等)选用其他更加灵敏的BLAST搜索工具(如PSI-BLAST)8、比对结果的判读比对结果的判读(统计学+经验+专业知识)E值:E≤1×10-4

,E≤(0.05/数据库的序列总数)。比如:E≤(0.05/500万)=1×10-8

参考E值:blastn:E≤1×10-6;blastp:E≤1×10-3经验法则(针对蛋白质序列):①如果两个序列的长度都大于100,在适当地加入空位之后,它们配对的一致性达到25%以上,则两个序列相关;(DNA:一致性达到70%以上)

②如果配对的一致性小于15%,则不管两个序列的长度如何,它们都不可能相关;③如果两个序列的一致性在15%25%之间,它们可能是相关的也可能不相关(模糊区)。专业知识E值与P值的关系E

P

10 0.999954605 0.993262052 0.864664721 0.632120560.1 0.09516258(about0.1)0.05 0.04877058(about0.05)0.001 0.00099950(about0.001)0.0001 0.0001000当E值≤0.1时,E≈

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论