下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多序列比较的实际应用 主讲教师:赵雨杰,多序列比较的实际应用,多序列比较就是把两条以上可能有系统进化关系的序列进行比较的方法。,目前对多序列比较的研究还在不断前进中,现有的大多数算法都基于渐进比较的思想,在序列两两比较的基础上逐步优化多序列比较的结果。进行多序列比较后可以对比较结果进行进一步处理,尤其是在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比较。,在搜集的比较序列中,可以看出隐含于蛋白之中的物种进化关系,以便于更好地理解蛋白的进化。研究一个家族中的相关蛋白的差异,分析进化压力和生物秩序对于功能相关的蛋白进化影响。研究完多序列比较中的高度保守区域,我们可
2、以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。,分析一群相关蛋白质时,很有必要了解比较正确的构成。发展用于多序列比较的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比较(progressive alignment)的概念。渐进比较的思想依赖于使用者用作比较的序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。,与数据库检索的关系,1、对数据库搜索,检索结果未知; 2、数据库检索后寻找到一组相似序列; 3、构建进化树。,CLUSTAL 主讲教师:赵雨杰,1. CLUSTAL Omega,CLUSTAL 算法是一个最广泛使用的多序列比较程序,在
3、任何主要的计算机平台上都可以免费使用。这个程序基于渐进比较的思想,将得到的一系列序列输入,对于每两个序列进行双重比较并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列的关系,然后,基于邻近加入方法,这个矩阵被用来计算出一个系统发生辅助树。,这个辅助树,加权后可以证实极相近的序列,然后以双重比较极相近的序列开始,为组建比较提供基础,重新比较下一个加入的比较序列,依次类推。如果加入的序列较多,那么毫无疑问,必须加入空位以适应序列的差异,但是加入空位必须接受空位开放罚分和空位扩展罚分。,在绝大多数情况下,使用者不会在比较时加入结构信息,但是空位开放补偿利用了可以出现在-螺旋或-折叠末端
4、的特殊残基以及空位罚分所偏好的残基。已经存在的空位的扩展原则很简单,只是要在那些极有可能在结构中形成弯曲的位点扩展空位,这些空位扩展罚分计算是由位置决定的。,为了介绍CLUSTAL 的使用,考察一下从四种不同物种来源的matrix metalloproteinase 9 preproprotein蛋白(Homo sapiens,Paralichthys olivaceus,Rattus norvegicus,Bos taurus)。将下列蛋白序列放入一个独立的纯文本文件中。,gi|14786152|ref|XP_029934.1| matrix metalloproteinase 9 prep
5、roprotein Homo sapiens MSLWQPLVLVLLVLGCCFAAPRQRQSTLVLFPGDLRTNLTDRQLAEEYLYRYGYTRVAEMRGESKSLGPALLLLQKQLSLPETGELDSATLKAMRTPRCGVPDLGRFQTFEGDLKWHHHNITYWIQNYSEDLPRAVIDDAFARAFALWSAVTPLTFTRVYSRDADIVIQFGVAEHGDGYPFDGKDGLLAHAFPPGPGIQGDAHFDDDELWSLGKGVVVPTRFGNADGAACHFPFIFEGRSYSACTTDGRSDGLPWCSTTANYDTDDRFGFCPSERLY
6、TQDGNADGKPCQFPFIFQGQSYSACTTDGRSDGYRWCATTANYDRDKLFGFCPTRADSTVMGGNSAGELCVFPFTFLGKEYSTCTSEGRGDGRLWCATTSNFDSDKKWGFCPDQGYSLFLVAAHEFGHALGLDHSSVPEALMYPMYRFTEGPPLHKDDVNGIRHLYGPRPEPEPRPPTTTTPQPTAPPTVCPTGPPTVHPSERPTAGPTGPPSAGPTGPPTAGPSTATTVPLSPVDDACNVNIFDAIAEIGNQLYLFKDGKYWRFSEGRGSRPQGPFLIADKWPALPRKLDSVFEERLSK
7、KLFFFSGRQVWVYTGASVLGPRRLDKLGLGADVAQVTGALRSGRGKMLLFSGRRLWRFDVKAQMVDPRSASEVDRMFPGVPLDTHDVFQYREKAYFCQDRFYWRVSSRSELNQVDQVGYVTYDILQCPED gi|15718389|dbj|BAB68366.1| gelatinase Paralichthys olivaceus MRCCALAVCLVLVIVQDGWSLPLRSISVTFPGDILKNVTDTDLAETYLKRFGYLDKMHRSGFQSMVSTAKALKMMQRQMGLKETGKLDKSTLEAMKQPRCGVPDVAN
8、YQTFEGDLKWDHNDVTYRTLNYSPDMESSLIDDAFARAFKVWSDVTPLTFTRLYEGTADIMISFGKADHGDPYPFDGRNGLLAHAYPPGEGVQGDAHFDDDEHWTLGNGPAVKTLYGNADGAMCHFPFTFEGKSYTSCTTDGRTDNLPWCATTADYSRDGKYGFCPSELLYTVGGNADGAKCVFPFVFLEKEYDSCTKEGRSDGYRWCATTANFDQDQKYGFCPSRDTAVFGGNSEGEPCHFPFVFLGKEYDSCTSEGREDGKLWCSTTDNYDEDAKWGFCDDEGYSLFLVAAHEFGHAL
9、GLDHSNIREALMYPMYTYVEDFSLHKDDIEGIQYLYGRGTGPDPTPPQPTSTTTTPNPTEEPEPTTPQPVDPTRDACKLTKFDTITMIENELHFFENGNYWKMPSRGDGGLKGPFSLSERWPALPAVIDSAFEDLLTKNMYFFSGNRFWVYTKEGVLGPRSIEKLGLPTSIQKVEGALQRGKGKVLLFTEESFWKFDLKSQKMDKGYPKSTDYVFGGVPNDAHDVFQYKGHMYFCRDSFYWRMNSRRQVDRVGYVKYDLLKCSDSY gi|13591993|ref|NP_112317.1| matr
10、ix metalloproteinase 9 (gelatinase B, 92-kDa type IV collagenase) Rattus norvegicus MNPWQPLLLVLLALGYSFAAPHQRQPTYVVFPRDLKTSNLTDTQLAEDYLYRYGYTRAAQMMGEKQSLRPALLMLQKQLSLPQTGELDSETLKAIRSPRCGVPDVGKFQTFEGDLKWHHHNITYWIQSYTEDLPRDVIDDSFARAFAVWSAVTPLTFTRVYGLEADIVIQFGVAEHGDGYPFDGKDGLLAHAFPPGPGIQGDAHFDDDELWSLGKG
11、AVVPTYFGNANGAPCHFPFTFEGRSYLSCTTDGRNDGKPWCGTTADYDTDRKYGFCPSENLYTEHGNGDGKPCVFPFIFEGHSYSACTTKGRSDGYRWCATTANYDQDKLYGFCPTRADVTVTGGNSAGEMCVFPFVFLGKQYSTCTGEGRSDGRLWCATTSNFDADKKWGFCPDQGYSLFLVAAHEFGHALGLDHSSVPEALMYPMYHYHEDSPLHEDDIKGIQHLYGRGSKPDPRPPATTAAEPQPTAPPTMCPTAPPMAYPTGGPTVAPTGAPSPGPTGPPTAGPSEAPTESSTPVD
12、NPCNVDVFDAIADIQGALHFFKDGRYWKFSNHGGSQLQGPFLIARTWPALPAKLNSAFEDPQSKKIFFFSGRKMWVYTGQTVLGPRSLDKLGLGSEVTLVTGLLPRRGGKALLISRERIWKFDL KSQKVDPQSVTRLDNEFSGVPWNSHNVFHYQDKAYFCHDKYFWRVSFHNRVNQVDHVAYVTYDLLQCP gi|467621|emb|CAA55127.1| matrix metalloproteinase 9 Bos taurus MSPLQPLVLALLVLACCSAVPRRRQPTVVVFPGEPRTNLTNR
13、QLAEEYLYRYGYTPGAELSEDGQSLQRALLRFQRRLSLPETGELDSTTLNAMRAPRCGVPDVGRFQTFEGELKWHHHNITYWIQNYSEDLPRAVIDDAFARAFALWSAVTPLTFTRVYGPEADIVIQFGVREHGDGYPFDGKNGLLAHAFPPGKGIQGDAHFDDEELWSLGKGVVIPTYFGNAKGAACHFPFTFEGRSYSACTTDGRSDDMLWCSTTADYDADRQFGFCPSERLYTQDGNADGKPCVFPFTFQGRTYSACTSDGRSDGYRWCATTANYDQDKLYGFCPTRVDATVTGGNA
14、AGELCVFPFTFLGKEYSACTREGRNDGHLWCATTSNFDKDKKWGFCPDQGYSLFLVAAHEFGHALGLDHTSVPEALMYPMYRFTEEHPLHRDDVQGIQHLYGPRPEPEPRPPTTTTTTTTEPQPTAPPTVCVTGPPTARPSEGPTTGPTGPPAAGPTGPPTAGPSAAPTESPDPAEDVCNVDIFDAIAEIRNRLHFFKAGKYWRLSEGGGRRVQGPFLVKSKWPALPRKLDSAFEDPLTKKIFFFSGRQVWVYTGASLLGPRRLDKLGLGPEVAQVTGALPRPEGKVLLFSGQSFWRFDV
15、KTQKVDPQSVTPVDQMFPGVPISTHDIFQYQEKAYFCQDHFYWRVSSQNEVNQVDYVGYVTFDLLKCPED,这四种输入序列放在一个单独的文件中,作成7种可以接受的格式中的一种, NBRF/PIR ; EMBL / UniProtKB/Swiss-Prot; Pearson (Fasta) ; GDE ; ALN/ClustalW GCG/MSF ; RSF,进入http:/www.ebi.ac.uk/Tools/msa/clustalo/站点,将需要比较的序列输入工具程序中 ,在“序列输入窗口”中输入或粘贴需要比较的序列,也可以在“文件输入窗口”将含有需要比较
16、序列的文件名输入Clustal运行程序中,进行多序列比较。,CLUSTA O结束时,会显示最终的比较结果,在比较下方,一些位点被标记为星号或圆点,这些标记分别显示这些残基在序列中是绝对或是高度保守的。结果输出的最后部分是进化树,可以看出,比较的四种源自不同种属的蛋白进化关系。,MultAlin 主讲教师:赵雨杰,2.MultAlin,MultAlin方法也是基于用一系列双重比较开始的思想,然后基于双重比较的打分值进行一个分层次的聚类。当序列都分成类后,开始进行多序列比较,计算出多序列比较中的两个序列比较的新值,基于这些新值,重新构建一棵树。这个过程不断进行,直到分值不再上升,此时所有序列比较也
17、就结束了。,MultAlin(http:/multalin.toulouse.inra.fr/multalin/multalin.html)可以在INRA Toulouse的一个环球网点上很容易地执行,要比较的序列按照FASTA的格式被粘贴到序列输入框内,也可以在文件输入窗口输入文件名, 将序列提交给服务器。,在提交序列之前,用主界面的一系列下拉菜单,用户定义适当的参数,比如输出格式,可选的输入格式,引用的分值矩阵以及空位开放和扩展罚分的分值。大多数用户只会根据输入序列的远近关系,选择不同的分值矩阵。,Blosum 45 Matrix,G 7 P -2 9 D -1 -1 7 E -2 0 2
18、 6 N 0 -2 2 0 6 H -2 -2 0 0 1 10 Q -2 -1 0 2 0 1 6 K -2 -1 0 1 0 -1 1 5 R -2 -2 -1 0 0 0 1 3 7 S 0 -1 0 0 1 -1 0 -1 -1 4 T -2 -1 -1 -1 0 -2 -1 -1 -1 2 5 A 0 -1 -2 -1 -1 -2 -1 -1 -2 1 0 5 M -2 -2 -3 -2 -2 0 0 -1 -1 -2 -1 -1 6 V -3 -3 -3 -3 -3 -3 -3 -2 -2 -1 0 0 1 5 I -4 -2 -4 -3 -2 -3 -2 -3 -3 -2 -1
19、-1 2 3 5 L -3 -3 -3 -2 -3 -2 -2 -3 -2 -3 -1 -1 2 1 2 5 F -3 -3 -4 -3 -2 -2 -4 -3 -2 -2 -1 -2 0 0 0 1 8 Y -3 -3 -2 -2 -2 2 -1 -1 -1 -2 -1 -2 0 -1 0 0 3 8 W -2 -3 -4 -3 -4 -3 -2 -2 -2 -4 -3 -2 -2 -3 -2 -2 1 3 15 C -3 -4 -3 -3 -2 -3 -3 -3 -3 -1 -1 -1 -2 -1 -3 -2 -2 -3 -5 12 G P D E N H Q K R S T A M V
20、I L F Y W C, Homo sapiens MSLWQPLVLVLLVLGCCFAAPRQRQSTLVLFPGDLRTNLTDRQLAEEYLYRYGYTRVAEMRGESKSLGPALLLLQKQLSLPETGELDSATLKAMRTPRCGVPDLGRFQTFEGDLKWHHHNITYWIQNYSEDLPRAVIDDAFARAFALWSAVTPLTFTRVYSRDADIVIQFGVAEHGDGYPFDGKDGLLAHAFPPGPGIQGDAHFDDDELWSLGKGVVVPTRFGNADGAACHFPFIFEGRSYSACTTDGRSDGLPWCSTTANYDTDDRFGFCPSE
21、RLYTQDGNADGKPCQFPFIFQGQSYSACTTDGRSDGYRWCATTANYDRDKLFGFCPTRADSTVMGGNSAGELCVFPFTFLGKEYSTCTSEGRGDGRLWCATTSNFDSDKKWGFCPDQGYSLFLVAAHEFGHALGLDHSSVPEALMYPMYRFTEGPPLHKDDVNGIRHLYGPRPEPEPRPPTTTTPQPTAPPTVCPTGPPTVHPSERPTAGPTGPPSAGPTGPPTAGPSTATTVPLSPVDDACNVNIFDAIAEIGNQLYLFKDGKYWRFSEGRGSRPQGPFLIADKWPALPRKLDSVFEER
22、LSKKLFFFSGRQVWVYTGASVLGPRRLDKLGLGADVAQVTGALRSGRGKMLLFSGRRLWRFDVKAQMVDPRSASEVDRMFPGVPLDTHDVFQYREKAYFCQDRFYWRVSSRSELNQVDQVGYVTYDILQCPED Paralichthys olivaceusMRCCALAVCLVLVIVQDGWSLPLRSISVTFPGDILKNVTDTDLAETYLKRFGYLDKMHRSGFQSMVSTAKALKMMQRQMGLKETGKLDKSTLEAMKQPRCGVPDVANYQTFEGDLKWDHNDVTYRTLNYSPDMESSLIDDAFAR
23、AFKVWSDVTPLTFTRLYEGTADIMISFGKADHGDPYPFDGRNGLLAHAYPPGEGVQGDAHFDDDEHWTLGNGPAVKTLYGNADGAMCHFPFTFEGKSYTSCTTDGRTDNLPWCATTADYSRDGKYGFCPSELLYTVGGNADGAKCVFPFVFLEKEYDSCTKEGRSDGYRWCATTANFDQDQKYGFCPSRDTAVFGGNSEGEPCHFPFVFLGKEYDSCTSEGREDGKLWCSTTDNYDEDAKWGFCDDEGYSLFLVAAHEFGHALGLDHSNIREALMYPMYTYVEDFSLHKDDIEGIQYLYG
24、RGTGPDPTPPQPTSTTTTPNPTEEPEPTTPQPVDPTRDACKLTKFDTITMIENELHFFENGNYWKMPSRGDGGLKGPFSLSERWPALPAVIDSAFEDLLTKNMYFFSGNRFWVYTKEGVLGPRSIEKLGLPTSIQKVEGALQRGKGKVLLFTEESFWKFDLKSQKMDKGYPKSTDYVFGGVPNDAHDVFQYKGHMYFCRDSFYWRMNSRRQVDRVGYVKYDLLKCSDSY Rattus norvegicus MNPWQPLLLVLLALGYSFAAPHQRQPTYVVFPRDLKTSNLTDTQLAEDYLYR
25、YGYTRAAQMMGEKQSLRPALLMLQKQLSLPQTGELDSETLKAIRSPRCGVPDVGKFQTFEGDLKWHHHNITYWIQSYTEDLPRDVIDDSFARAFAVWSAVTPLTFTRVYGLEADIVIQFGVAEHGDGYPFDGKDGLLAHAFPPGPGIQGDAHFDDDELWSLGKGAVVPTYFGNANGAPCHFPFTFEGRSYLSCTTDGRNDGKPWCGTTADYDTDRKYGFCPSENLYTEHGNGDGKPCVFPFIFEGHSYSACTTKGRSDGYRWCATTANYDQDKLYGFCPTRADVTVTGGNSAGEMCVFPF
26、VFLGKQYSTCTGEGRSDGRLWCATTSNFDADKKWGFCPDQGYSLFLVAAHEFGHALGLDHSSVPEALMYPMYHYHEDSPLHEDDIKGIQHLYGRGSKPDPRPPATTAAEPQPTAPPTMCPTAPPMAYPTGGPTVAPTGAPSPGPTGPPTAGPSEAPTESSTPVDNPCNVDVFDAIADIQGALHFFKDGRYWKFSNHGGSQLQGPFLIARTWPALPAKLNSAFEDPQSKKIFFFSGRKMWVYTGQTVLGPRSLDKLGLGSEVTLVTGLLPRRGGKALLISRERIWKFDL KSQKVDPQSVT
27、RLDNEFSGVPWNSHNVFHYQDKAYFCHDKYFWRVSFHNRVNQVDHVAYVTYDLLQCP Bos taurus MSPLQPLVLALLVLACCSAVPRRRQPTVVVFPGEPRTNLTNRQLAEEYLYRYGYTPGAELSEDGQSLQRALLRFQRRLSLPETGELDSTTLNAMRAPRCGVPDVGRFQTFEGELKWHHHNITYWIQNYSEDLPRAVIDDAFARAFALWSAVTPLTFTRVYGPEADIVIQFGVREHGDGYPFDGKNGLLAHAFPPGKGIQGDAHFDDEELWSLGKGVVIPTYFGNAKGAACH
28、FPFTFEGRSYSACTTDGRSDDMLWCSTTADYDADRQFGFCPSERLYTQDGNADGKPCVFPFTFQGRTYSACTSDGRSDGYRWCATTANYDQDKLYGFCPTRVDATVTGGNAAGELCVFPFTFLGKEYSACTREGRNDGHLWCATTSNFDKDKKWGFCPDQGYSLFLVAAHEFGHALGLDHTSVPEALMYPMYRFTEEHPLHRDDVQGIQHLYGPRPEPEPRPPTTTTTTTTEPQPTAPPTVCVTGPPTARPSEGPTTGPTGPPAAGPTGPPTAGPSAAPTESPDPAEDVCNVDIFDAIAE
29、IRNRLHFFKAGKYWRLSEGGGRRVQGPFLVKSKWPALPRKLDSAFEDPLTKKIFFFSGRQVWVYTGASLLGPRRLDKLGLGPEVAQVTGALPRPEGKVLLFSGQSFWRFDVKTQKVDPQSVTPVDQMFPGVPISTHDIFQYQEKAYFCQDHFYWRVSSQNEVNQVDYVGYVTFDLLKCPED,很明显,用两种方法分别得到的比较结果并不完全一样。这并不意味这一种方法比另外一种方法优越,根据实际情况,从输入序列的性质出发,应用不同的方法会得到不同程度的成功。用户应该选择若干个工具同时使用,并且对最终的比较结果作手工修正以期达到最佳
30、效果。,模序比较分析PROSITE 主讲教师:赵雨杰,PROSITE PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。 基于经典的模式分析的Gribskov方法, PROSITE使用一种称为pfscan的方法寻找一个蛋白质或核酸的查询序列同一个模式库的相似性,因此,在搜索中需要有模式库。,第一个是PROSITE(http:/www.expasy.ch/prosite/),一个ExPASy(http:/www.E)数据库,通过使用基序和序列模式(诸如指纹)将生物学意义重大的
31、位点收集分类。,第二个是Pfam(http:/www.sanger.ac.uk/Software/Pfam/search.shtml) ,收集了蛋白质结构域家族,与其它收集方法有很大不同的是,最初的蛋白质结构域的比较完全是用手工完成的,而不是依靠自动化的处理方法,正因为这样,Pfam几年前,只拥有五百多条款目,但这些款目的质量极好。现在拥有几千条目。,基于PROSITE和Pfam的搜索可以通过访问ProfileScan的主页完成,它只需要一条简单的输入序列(用文本格式),或者一个标号,比如一个SWISS-PROT ID。用户可以选择搜索的敏感度,选择返回显著的匹配或者所有匹配,甚至包括边界的情况。,为了说明输出的格式,我们现在向PROSITE系统提交人类matrix metalloproteinase 9 preproprotein Homo sapiens蛋白序列。返回的PROSITE条目显示蛋白的功能区,数字“Start”和“End”是显示出查询序列和匹配的模式重叠的位点, Bits是序列比较可靠性评分,Evalue是序列比较错误概率。,gi|74272287|ref|NP_004985.2| matrix metalloproteinase-9 preproprotein Homo sa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湘教版福建省莆田市五校联盟2023-2024学年高二上学期期中数学试题
- 2024年上海市中考语文真题卷及答案解析
- 华支睾吸虫课件
- 幼儿园小班音乐《表情歌》课件
- 福建省尤溪一中 2024-2025学年高三上学年半期考地理试卷及答案
- 西京学院《大数据技术原理及应用》2022-2023学年期末试卷
- 简爱课件 图片
- 西华师范大学《外贸函电》2023-2024学年期末试卷
- 西华师范大学《数据库原理及应用》2022-2023学年期末试卷
- 职业技术学院移动商务学情分析报告
- 智慧园区建设规范:第2部分 平台建设
- 车库委托出售协议书
- 《路遥人生》读书分享课件
- 二甲评审迎检注意事项及技巧
- 九宫数独200题(附答案全)
- 2024版年度树立正确就业观课件
- 音乐家海顿课件
- 轮机工程专业职业生涯规划
- 中职教育二年级上学期电子与信息《路由基础-动态路由协议OSPF原理与配置》微教案
- 起重机安装安全协议书
- 早产临床防治指南(2024版)解读
评论
0/150
提交评论