![多序列比对与的使用_第1页](http://file4.renrendoc.com/view/dbed088075b6b7eed152713a751e711e/dbed088075b6b7eed152713a751e711e1.gif)
![多序列比对与的使用_第2页](http://file4.renrendoc.com/view/dbed088075b6b7eed152713a751e711e/dbed088075b6b7eed152713a751e711e2.gif)
![多序列比对与的使用_第3页](http://file4.renrendoc.com/view/dbed088075b6b7eed152713a751e711e/dbed088075b6b7eed152713a751e711e3.gif)
![多序列比对与的使用_第4页](http://file4.renrendoc.com/view/dbed088075b6b7eed152713a751e711e/dbed088075b6b7eed152713a751e711e4.gif)
![多序列比对与的使用_第5页](http://file4.renrendoc.com/view/dbed088075b6b7eed152713a751e711e/dbed088075b6b7eed152713a751e711e5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多序列比对与的使用第1页,课件共63页,创作于2023年2月内容提要第一部分:多序列比对意义、方法、算法Clustal的使用
1.Clustalx2.Clustalw第二部分:常见的序列分析软件分类简介第2页,课件共63页,创作于2023年2月第一部分:
多序列比对及Clustal的使用第3页,课件共63页,创作于2023年2月序列相似性比较和序列同源性分析序列相似性比较:就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;序列同源性分析:是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;第4页,课件共63页,创作于2023年2月多序列比对的意义用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。其他应用,如构建profile,打分矩阵等。第5页,课件共63页,创作于2023年2月同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和blast的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程,特别是序列数目多,且序列长的情况下。多序列比对的方法第6页,课件共63页,创作于2023年2月多序列比对的方法基本上多序列比对可以分为
1.手工比对(辅助编辑软件如bioedit,seaview,Genedoc等)通过辅助软件的不同颜色显示不同残基,靠分析者的观察来改变比对的状态。
2.计算机程序自动比对
通过特定的算法(如同步法,渐进法等),由计算机程序自动搜索最佳的多序列比对状态。第7页,课件共63页,创作于2023年2月自动多序列比对的算法1.同步法将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法。第8页,课件共63页,创作于2023年2月自动多序列比对的算法2.步进法最常见的就是clustal所采用的方法。
其基本思想就是基于相似序列通常具有进化相关性的这一假设。
第9页,课件共63页,创作于2023年2月Clustal的渐进比对过程在比对过程中,先对所有的序列进行两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在每组之间进行比对,计算相似性分值。根据相似性分值继续分组比对,直到得到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较远的序列添加在后面。第10页,课件共63页,创作于2023年2月多序列比对工具
-clustalClustal是一个单机版的基于渐进比对的多序列比对工具,由HigginsD.G.等开发。有应用于多种操作系统平台的版本,包括linux版,DOS版的clustlw,clustalx等。第11页,课件共63页,创作于2023年2月Clustal简介CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。第12页,课件共63页,创作于2023年2月Clustalx的工作界面
(多序列比对模式)第13页,课件共63页,创作于2023年2月Clustalx的工作界面
(剖面(profile)比对模式)第14页,课件共63页,创作于2023年2月Clustal的工作原理Clustal输入多个序列快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。邻接法(NJ)构建一个树(引导树)根据引导树,渐进比对多个序列。第15页,课件共63页,创作于2023年2月Clustal的应用1.输入输出格式。输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。第16页,课件共63页,创作于2023年2月2.两种工作模式。
a.多序列比对模式。
b.剖面(profile)比对模式。3.一个实际的例子。Clustal的应用第17页,课件共63页,创作于2023年2月多序列比对实例输入文件的格式(fasta):>KCC2_YEASTNYIFGRTLGAGSFGVVRQARKLSTN……>DMK_HUMANDFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK…….>KPRO_MAIZETRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN……>DAF1_CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD……>1CSNHYKVGRRIGEGSFGVIFEGTNLLNN……第18页,课件共63页,创作于2023年2月第一步:输入序列文件。第19页,课件共63页,创作于2023年2月第二步:设定比对的一些参数。第20页,课件共63页,创作于2023年2月参数设定窗口。第21页,课件共63页,创作于2023年2月第三步:开始序列比对。第22页,课件共63页,创作于2023年2月第23页,课件共63页,创作于2023年2月第四步:比对完成,选择保存结果文件的格式第24页,课件共63页,创作于2023年2月第25页,课件共63页,创作于2023年2月Clustalw的使用(一)第26页,课件共63页,创作于2023年2月
Clustalw还提供了命令调用形式的使用方式,方便于批处理过程,下面是一个典型的执行多序列比对的clustalw命令:$./clustalw–infile=dna.fa–type=dna–gapopen=10–gapext=2–output=gcg–outfile=align.gcg-alignClustalw的使用(二)第27页,课件共63页,创作于2023年2月在线的clustalw分析EBI提供的在线clustalw服务http://www.ebi.ac.uk/clustalw/第28页,课件共63页,创作于2023年2月EBI提供的在线Clustalw服务第29页,课件共63页,创作于2023年2月更为详细的教程可以在这里得到更多关于clustal的帮助:http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html
第30页,课件共63页,创作于2023年2月实际操作(练习)使用clustalx程序,对给定的多序列,选择合适的参数,进行多序列比对,输出结果文件维phylip格式。相同的文件,使用ebi和我们提供的在线服务,进行多序列比对。对上述计算机程序比对的结果进行手工改动(bioedit,seaview),使得多序列比对结果跟符合要求。第31页,课件共63页,创作于2023年2月>SIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAISAAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVC>TIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIAAAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVC>WIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWTELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVNAASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQ>CzIVMSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWPELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVTAAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVL>CIVMSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASISRAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFTTPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQFHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQTAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHHTTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTASPAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL练习序列第32页,课件共63页,创作于2023年2月第二部分:
常见的序列分析软件分类简介第33页,课件共63页,创作于2023年2月GCGEMBOSS(免费)VectorNTIDNAstarBioedit(免费)其他1.综合序列分析软件包第34页,课件共63页,创作于2023年2月GCG(商业软件)
GCG(GeneticsComputerGroup)是生物信息界最广为人知的分子序列分析软件包,最早是在美国的威斯康辛大学麦迪逊校区(UniversityofWisconsin-Madison)内发展起来的,后来独立成为一个商业公司,期间曾经是OxfordMolecular的分支机构,在2000年又由Pharmacopeia所并构。第35页,课件共63页,创作于2023年2月
GCG软件包包括了超过130个独立的序列分析程序,大致上可以分成以下12个类别:
1.SequenceComparison2.DatabaseSearchingandRetrieval3.DNA/RNASecondaryStructurePrediction4.EditingandPublication5.EvolutionaryAnalysis6.FragmentAssembly7.GeneFindingandPatternRecognition8.ImportingandExporting9.Mapping10.PrimerSelection11.ProteinAnalysis12.Translation第36页,课件共63页,创作于2023年2月
除了分析程序以外,GCG同时也提供多种生物学数据库。 核酸相关的: GenBank(/)EMBL(http://www.ebi.ac.uk/)
蛋白质相关的:
SWISS-PROT(http://www.expasy.ch/sprot/)PIR(/pir/)SP-TrEMBL(http://www.expasy.ch/sprot/)
使用者可以输入自己实验获得的分子序列,或者从这些数据库中来获取得到分子序列,再用到GCG的分析程序进行分析。第37页,课件共63页,创作于2023年2月
GCG的工作方式(S-C)
安装在基于Unix系统的服务器上,目前可以安装的平台(platform)有SGI的IRIX操作系统,SUN的Solaris操作系统,及Compaq的Tru64操作系统,用户可以通过网络连接的方法来使用GCG提供的分析程序以及数据库。第38页,课件共63页,创作于2023年2月1.传统的命令行形式,这种情况要求用户熟悉程序的命令。2.借助SeqLab的用户窗口界面,通过各类表单的操作来实现分析任务。以上两个执行GCG的方法都是通过telnet来实现的。3.借助于WWW服务的SeqWeb,是最为简单和方便的使用方式。
虽然命令行的操作需要一些操作,但是对于熟悉GCG的用户来说,却是最为快捷和有效的方法,此外这种方法还可以扩展到批处理中。执行GCG程序的方法第39页,课件共63页,创作于2023年2月EMBOSS(免费软件)
EMBOSS(EuropeanMolecularBiologyOpenSoftwareSuite)源于1988年的EGCG(主流商业软件GCG的扩展),由于版权等原因,EGCG不再发行,开发人员在此基础上开发出来公开源代码的EMBOSS软件包。http://www.sanger.ac.uk/Software/EMBOSS
第40页,课件共63页,创作于2023年2月VectorNTI
由Informax公司(现在已经归入Invitrogen公司旗下)开发的一种高度集成、功能齐全的分子生物学应用软件,可以对DNA、蛋白质分子进行大量分析和操作。第41页,课件共63页,创作于2023年2月主要功能:1.DNA序列的ORF、Motif、功能区搜索,限制酶图谱,蛋白质翻译。2.PCR引物、测序引物、杂交探针的设计和评价。3.DNA测序片断的拼接4.同源比较和系统发育树构建5.蛋白质结构预测:三维结构、化学键、翻译后修饰位点、结构域等6.模拟电泳:琼脂糖、PAGE第42页,课件共63页,创作于2023年2月DNAstar
DNASTAR有限公司开发了Lasergen程序组,可在计算机上进行DNA和蛋白分析。它们是易于使用且对用户友好的软件,可进行分子生物学中的小规模序列分析和多序列比较。Lasergen有PCWindows和Macintosh两种版本。Lasergen的一个主要功能是它有针对不同应用的7种程序。用户可根据自己需要选择购买。第43页,课件共63页,创作于2023年2月主要功能:
1.Editseq,可以从键盘、数据库或数字序列输入和编辑。
2.PrimerSelect,PCR引物和探针设计。
3.MapDraw,限制性位点分析和图谱绘制。
4.MegAlign,多个和成对蛋白或DNA序列比对。
5.GeneMan,生物数据库和数据库检索。
6.Protean,蛋白结构分析。
7.SeqMan,序列装配和毗连(序列)群管理。第44页,课件共63页,创作于2023年2月Bioedit 是一个性能优良的免费的分子生物学应用软件,可以对核酸序列和蛋白质序列进行常规的分析操作,并提供了很多网络程序的分析界面和接口。
/BioEdit/bioedit.html第45页,课件共63页,创作于2023年2月2.快速同源性数据库搜索工具BlastFastaHMMer第46页,课件共63页,创作于2023年2月HMMER
HMMer是一个采用隐马可夫模型HMMs(HiddenMarkovModels)来识别不同基因之间的结构相似性程度的工具。可以快速的在数据库中寻找与特定基因具有一定相似性的基因结构。/
第47页,课件共63页,创作于2023年2月3.多序列比对工具Clustal
基于渐进算法的多序列比对优化算法,由HigginsD.G.等开发。Clustlw,clustalx等。其他:T_coffee第48页,课件共63页,创作于2023年2月PHYLIPPAUP*其他:Mega2,MrBayes,tree-puzzlePAML,treeview4.分子进化分析工具第49页,课件共63页,创作于2023年2月PHYLIP
Phylip是一个免费的系统发生(phylogenetics)分析软件包。由华盛顿大学遗传学系开发,1980年首次公布,目前的版本是3.6。包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。
Phylip有多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。http://evolution.genetics,/phylip.html第50页,课件共63页,创作于2023年2月PAUP* 最早是在苹果机上开发的具有菜单界面的进化分析软件,早先版本只有MP法,后续版本已经包括距离法和ML法,现今有mac,win,linux等多种版本,该软件不是免费软件,使用者需要向开发者购买。第51页,课件共63页,创作于2023年2月5.其他工具模式识别:Meme,signalscan,
domainFinder等测序分析与序列拼接:Chromas, Phred+Phrap+cross_match+consed, contigExpress等引物设计:Oligo,Primer3,
PrimerPremier5.0等三维分子:PDBviewer,CN3D,RASMOL等第52页,课件共63页,创作于2023年2月序列分析工具的网络资源生物软件网NCBIExpasy/expasy.org/
第53页,课件共63页,创作于2023年2月生物软件网由华北制药集团的谈杰创建,是一个具有丰富生物信息学资源的站点,提供了大量的生物信息学分析软件下载。第54页,课件共63页,创作于2023年2月NCBI美国国立生物技术信息中心(NCBI)成立于1988年11月4日。是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。主要资源包括:数据库和软件,以及相关的教育 和培训资源第55页,课件共63页,创作于2023年2月Expasy由位于瑞士日内瓦的SwissInstituteofBioinformatics所建立的,是全世界最重要的蛋白质数据库之一,也是GCG最主要的蛋白质序列来源。
Expasy的主要有蛋白质序列、结构、2-DPAGE(Two-dimentionalpolyacrylamidegelelectrophoresis)等多个数据库,还有大量的蛋白质序列与结构分析工具以及FTP资源等。蛋白质分析工具主要有蛋白质的功能预测,序列搜索与比对,二级、三级和四级结构的预测等等。
http://www.expasy.org/第56页,课件共63页,创作于2023年2月操作系统Unix(Linux),Windows,Macintosh编程语言:perl,C,php,VB算法:动态规划,启发式,各类模型数据结构:表,栈,树,图数据库Mysql,Oracle,SQLserver,Sybase网络局域网构架与管理,并行化,网络应用(http,ftp,telnet)计算机相关知识第57页,课件共63页,创作于2023年2月Lin
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 滁州安徽滁州天长市水利局机关综合服务中心选调工作人员笔试历年参考题库附带答案详解
- 山西省卓越联盟2024-2025学年高三下学期2月开学质量检测试题 地理 含答案
- 杭州浙江杭州淳安县千岛湖镇养老服务中心招聘工作人员5人笔试历年参考题库附带答案详解
- 2025年中国和脂油市场调查研究报告
- 2025年金属机械模具项目可行性研究报告
- 2025至2031年中国阻生牙骨凿行业投资前景及策略咨询研究报告
- 2025至2031年中国豪华玻璃钢太空舱行业投资前景及策略咨询研究报告
- 2025年福美胂项目可行性研究报告
- 2025年烤蜡炉项目可行性研究报告
- 2025至2031年中国活化净水器行业投资前景及策略咨询研究报告
- YY/T 1792-2021荧光免疫层析分析仪
- GB/T 32691-2016汽车空调电磁离合器
- 染厂公司简介(4个范本)
- 铁路工程概预算-工程经济管理培训-课件
- 面部激素依赖性皮炎的管理课件
- 智慧环卫项目建设方案
- 人民医院医共体财务管理部工作手册
- 高三日语一轮复习之自谦语句型课件
- YYT 0325-2022 一次性使用无菌导尿管
- 马克思主义基本原理教案:第一章+教案
- 重走长征路卡通思维导图
评论
0/150
提交评论