版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息软件综合实践第五章多序列对位排列和进化分析多序列对位排列Multiple Sequence Alignment (MSA)chicken xenopus human monkey dog hamster bovineguinea pigPLVSS-PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCS ALVSG-PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCS LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICS PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICS LQVRDVELAGAPGE
2、GGLQPLALEGALQKRGIVEQCCTSICS PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICS PQVGALELAGGPGAGGLEGPPQKRGIVEQCCASVCSPQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTN S N N NNESBring the greatest number of similar characters into the same column of the alignmentYCN YCN YCN YCN YCN YCN NYCNYCNLYQLE LFQLE LYQLE LYQLE L
3、YQLE LYQLE LYQLRHQLQ为什么要做MSA?用于描述一组序列之间的相似性关系,以便了解一个基因 的基本特征,寻找motif,保守区域等。用于预测新序列的二级和三级结构,进而推测其生物学功能。Human Hox genes为什么要做MSA?Nature 423, 241-254不同种的酵母Gal1和Gal10 启动子区MSA为什么要做MSA?用于描述同源序列之间的亲缘关系的远近,应用到分子进化分析中。是构建分子进化树的基础。AaSpecies treeGene treeBbCcWe often assume that gene trees give us species trees
4、注意概念:Paralogy(旁系同源/并系同源)& Orthology(直系同源)Paralogy(旁系同源/并系同源)& Orthology(直系同源)Orthologs:物种形成过程中源自同一祖先,通常功能保守Paralogs:基因组内基因复制产生,较易发生功能分化为什么要做MSA?不同物种基因组范围的MSA能分析基因组结构变异和共线性Nature 423, 241-254为什么要做MSA?Contig assembly怎么做MSA? 动态规划算法(dynamic programming):MSA 改进算法(启发式算法):1. 渐进法(progressive methods):Clusta
5、l, T-Coffee,MUSCLE2. 迭代法(iterative methods):PRRP, DIALIGN3. 其它算法:Partial Order Algorithm、profile HMM、meta-methods (MAFFT)/wiki/List_of_sequence_alignment_softwareCurrent Opinion in Structural Biology 2006, 16:368373两条及三条序列的动态规划算法SAAN SVSNSStartVSN S SNAS A五条长度为200-250aa的蛋白质序列使用
6、动态规划比对需要运算超过12小时Clustal使用方法u Clustal:目前被最广泛应用的MSA 方法u 可在线分析u 可在本地计算机运行u 序列输入、输出格式InputFASTANBRF/PIR EMBL/SWISSPROT ALNGCG/MSF GCG9/RSF GDEOutputALN NBRF/PIR GCG/MSF PHYLIP NEXUS GDE/FASTAsequence 1ATTGCAGTTCGCA sequence 2 ATAGCACATCGCAsequence 3 ATGCCACTCCGCCClustal W/X算法基础两 两 比 对 构建距离矩阵构建指导树(guide
7、tree)将距离最近的两条序列用动态规划的算法进行比对;“渐进”的加上其他的序列“渐进”比对(Progressive alignment)粘贴或上载序列u Clustal在线分析方法(ClustalW)EBI的ClustalW分析网页http:/www.ebi.ac.uk/Tools/msa/clustalw2/帮助文档 http:/www.ebi.ac.uk/Tools/msa/clustalw2/help/调整参数u Clustal在线分析方法(ClustalW)u Clustal离线分析方法(ClustalX) 下载安装自带Help文件Using ClustalX for multipl
8、e sequence alignmentby Jarno Tuimala两种工作模式: Multiple Alignment Profile Alignment第一步:输入序列FileLoad sequences注意:该软件不能识别中文。因此序列不能位于XP系统的桌面, 应放于C:或D:等纯英文路径下。 第二步:设定比对参数第三步:进行序列比对第四步:比对完成,选择结果文件的保存格式conserved residuesconservation profileu 可进一步对排列好的序列进行修饰(1)Boxshade突出相同或相似位点(/softwar
9、e/BOX_form.html)在EBI ClustalW结果网页复制序列比对结果在“Boxshade”网页粘贴序列,在“Input sequence format”栏目选择“ALN”,在“Output format”栏目选择“RTF_new”在结果网页点击“here is your output number 1” 修饰过的排列结果u 可进一步对排列好的序列进行修饰(2)ESPript多种修饰 功能,突出相同或相似位点http:/espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi在EBI ClustalW结果网页下载“Alignment file”(ALN
10、文件)在ESPript分析网页“Aligned Sequences”栏上载ALN文件在“Output layout”和“Output file or device”栏选择 修饰后的比对结果u 可进一步对排列好的序列进行修饰(3)GeneDoc/gfx/genedocFile Import选择输入文件的格式(如ALN)修饰排列结果2. 系统发生分析(Phylogenetic analysis)u 分析基因或蛋白质的进化关系u 系统发生(进化)树(phylogenetic tree)A tree showing the evolutionary relatio
11、nships among various biological species or other entities that are believed to have a common ancestor.研究系统发生的方法经典进化生物学:比较:形态、生理结构、化石分子进化生物学:比较DNA和蛋白质序列An Alignment is an hypothesis of positional homology between bases/Amino AcidsResidues that are lined up in different sequences are considered to sha
12、re a common ancestry (i.e., they are derived from a common ancestral residue).Easyonly with substitutionsDifficultalso with indels系统发生树术语末端节点分支BranchA可以是物种,群体,或者蛋白质、DNA、RNA分子等OTUB节点NodeCD祖先节点/ 树根RootE内部节点/分歧点该分支可能的祖先HTU= (A, (B,C), (D, E)Newick format系统发生树术语A clade(进化支) is a group of organisms thati
13、ncludes an ancestor and all descendents of that ancestor.分支树Cladogram时间度量树Ultrametric tree进化树Phylogram6Taxon BTaxon BTaxon CTaxon BTaxon C11Taxon C31Taxon ATaxon ATaxon A5Taxon DTaxon DTaxon Dgenetic changeno meaningtime系统发生树术语进化树分支的长度Scaled branches : the length of the branch is proportional to the
14、 number of changes.The distance between 2 species is the sum of the length of all branches connecting them.系统发生树术语Rooted tree vs. Unrooted tree无根树AC有根树DBtwo major ways to root trees:By midpoint or distanced (A,D) = 10 + 3 + 5 = 18Midpoint = 18 / 2 = 9A10C322BD5outgroup外群、外围支系统发育树构建步骤多UPGMA最大简约法(maxi
15、mum parsimony, MP)邻近法距离法(distance)最大似然法(Neighbor-joining, NJ)最小进化法(minimum evolution)(maximum likelihood, ML)贝叶斯法(Bayesian inference)统计分析BootstrapLikelihood Ratio Test进化树评估建立进化树选择建树方法(替代模型)序列比对(自动比对、手工校正) 距离法距离法又称距离矩阵法,首先通过各个序列之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系 。计算
16、序列的距离,建立距离矩阵Rat通过距离矩阵建进化树CowCatCatDogRat21 1DogRat34524Cow676DogStep1. 计算序列的距离,建立距离矩阵对位排列, 去除空格(选择替代模型)Uncorrected “p” distance(=observed percent sequence difference)Kimura 2-parameter distance(estimate of the true number of substitutions between taxa)Step2. 通过矩阵建树由进化距离构建进化树的方法有很多,常见有:1. Unweighted
17、Pair Group Method with Arithmetic mean (UPGMA)2. Neighbor-Joining Method (NJ法/邻位连接法)3.Minimum Evolution (MP法/最小进化法)最大简约法 (Maximum Parsimony)最大简约法(MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,对所有可能的拓扑结构进行计算,找出所需替代数最小的那个拓扑结构,作为最优树。Find the tree that explains the observed sequences with a
18、 minimal number of substitutionsMP法建树流程PositionT T AAG A GAC C GGSequence1 Sequence2 Sequence3Sequence4If 1 and 2 are grouped a total of four changes are needed.If 1 and 3 are grouped a total of fivechanges are needed.If 1 and 4 are grouped a total of six changes are needed.Position 3(1,2): 1 change
19、;(1,3) or (1,4): 2 changesPosition 2(1,3): 1 change;(1,2) or (1,4): 2 changesPosition 1(1,2): 1 change;(1,3) or (1,4): 2 changes123MP法建树步骤654BEST 最大似然法 (Maximum Likelihood)最大似然法(ML) 最早应用于对基因频率数据的分析上。其原理为选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树。CCAGATATGCGCML法建树流程Inferring
20、 the maximum likelihood treePick an Evolutionary ModelFor each position, Generate all possible tree structuresBased on the Evolutionary Model, calculate Likelihood of these Trees and Sum them to get the Column Likelihood for each OTU cluster.Calculate Tree Likelihood by multiplying the likelihood fo
21、r each positionChoose Tree with Greatest Likelihood构建进化树的新方法贝叶斯推断(Bayesian inference)Holder&Lewis (2003) Nature Reviews Genetics 4, 275-284Bayesian inference:Maximum Likelihood:What is the probability that the model/theory is correct given the observed data?What is the probability of seeing the obse
22、rved data (D) given a model/theory (T)?Pr(T|D)Pr(D|T)与ML相比,BI的优势: Speed No need for bootstrappingComparison of MethodsDistanceMaximumparsimonyMaximum likelihoodUses only pairwise distancesUses only shared derived charactersUses all dataMinimizes distance between nearest neighborsMinimizes totaldista
23、nceMaximizes tree likelihood given specific parameter valuesVery fastSlowVery slowEasily trapped in local optimaAssumptions fail when evolution is rapidHighly dependent on assumed evolution modelGood for generating tentative tree, or choosing among multiple treesBest option when tractable (30 taxa,
24、homoplasy rare)Good for very small data sets and for testing trees built using other methodsChoosing a Method for Phylogenetic PredictionMolecular Biology and Evolution2005 22(3):792-802Bioinformatics: Sequence and Genome Analysis, 2nd edition, by David W. Mount./cgi/cont
25、ent/full/2008/5/pdb.ip49p254 评估进化树的可靠性自展法(bootstrapping method)A statistical technique that uses intensive random resampling of data to estimate a statistic whose underlying distribution is unknown. 从排列的多序列中随机有放回的抽取某一列, 构成相同长度的新的排列序列 重复上面的过程,得到多组新的序列 对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性The Bootstr
26、ap Computational method to estimate the confidence level of a certain phylogenetic tree.Pseudo sample 10011222345Sample0123456789GAGGCTTATCrat human turtle fruitfly oakduckweedGGAAGGGGCT GGTTGGGGCT GGTTGGGCCC CCTTCCCGCC AATTCCCGCTAATTCCCCCTrathuman turtle fruitfly oakduckweedGTGGCTTATC GTGCCCTATG CT
27、CGCCTTTG ATCGCTCTTGATCCCTCCGGPseudo sample 24455567778CCTTTTAAATCCTTTTAAATrathumanrat human turtle fruit fly oakduckweedturtle fruitfly oakduckweedCCCCCTAAAT CCCCCTTTTT CCTTTCTTTTCCTTTCCCCGMore replicates (between 100 -1000)Inferred tree自展法检验流程Bootstrapping doesnt reallyassess the accuracy of a tree
28、,only indicates the consistency othe data对ML法而言,自展法太耗时,可用aLRT法检验进化树的可靠性Anisimova&Gascuel (2006)Syst. Biol. 55(4):539-552u 看图工具TreeView进化树编辑打印软件(在http:/taxonomy.zoology.gla.ac.uk/rod/treeview.html)EBI的ClustalW2-phylogeny分析网页输入比对后的序列(或上载ALN文件)下载“Phylip tree file”(ph文件)用TreeView软件打开上述文件可以不同格式展示进化树(1、2、
29、3)分子进化分析软件PHYLIP/phylip.html免费的集成进化分析工具PAUP/商业软件,集成的进化分析工具MEGA/免费的图形化集成进化分析工具,最新版包括了MLPHYMLhttp:/atgc.lirmm.fr/phyml/最快的ML建树工具PAMLhttp:/abacus.gene.ucl.ac.uk/software/paml.htmlML建树工具Tree-puzzlehttp:/www.tree-puzz
30、le.de/较快的ML建树工具MrBayes/基于贝叶斯方法的建树工具更多工具/phylip/software.htmlu 分子进化树构建方法/提供最大似然法(ML)、最大简约法(MP)和距离法三种建树方法。其中距离法包括邻接法(NJ)、最小进化法(ME)和UPGMA三种算法。优点:图形界面,集序列查询、比对、进化树构建为一体,帮助文件详尽,免费缺点:ML法较慢(如序列较多可考虑用PHYML)最新版本(MEGA6)Pig gi
31、|218855168|gb|ACL12051.1| FAD24 pr9298Cattle gi|146186885|gb|AAI40653.1| NOC3L100Human gi|18389433|dbj|BAB84194.1| AD24 HMouse gi|18389431|dbj|BAB84193.1| AD24 MChicken gi|118092837|ref|XP 421670.2| PRZebrafish gi|50838808|ref|NP 001002863.10.02OsDR10OsDR10-O.rufipogonA分析举例87 OsDR10-9311AOsDR10-Nipp
32、onbareAOsDR10-O.rufipogonB91OsDR10-Nackdong OsDR10-9311BOsDR10-NipponbareB5289OsDR10-O.punctataOsDR10-O.latifolia95OsDR10-O.australiensisOsDR10-L.tisserantii95OsDR10-L.JX0.005Phylogenetic analysis of the coding regions of OsDR10 and its homologs from different species. The tree was constructed by ne
33、ighbour-joining method. The numbers for interior branches indicate the bootstrap values (%) for 1,000 replications. The scale at the bottom is in units of number of nucleotide substitutions per site.Xiao et al. PLoS ONE 4:e4603 (2009)MSA是构建分子进化树的关键步骤MSA程序可对任何序列进行比对,选择什么样的序列进行比对非常重要!用于构建进化树的序列必须是同源序列
34、3.上机操作1. 在基因重组人胰岛素面市之前,糖尿病患者所需胰岛素主要来 自屠宰场的动物胰脏。请分析来源自猪、牛和羊的胰岛素哪一种最适于人使用,说明理由。四种蛋白的注册号分别是AAA59172(人), AAQ00954(猪),AAA30722(牛)和P01318(羊)。2. Keratin是一种微管蛋白,有type I 和 type II两种类型,在染色体上成簇分布,对上皮细胞的正常结构十分重要。请根据人类type II keratin 2p(CAD91891)对NCBI Homo sapiens RefSeqprotein序列数据库的BLASTP检索结果(/Blast.cgi?CMD=Get&RID=HH241 XTA014),下载人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44741-2024农产品产地土壤有效态砷的测定方法
- 池河镇七年级历史下册 第二单元 辽宋夏金元时期:民族关系发展和社会变化 第7课 辽、西夏与北宋的建立教案1 新人教版
- 八年级地理上册 3.1自然资源的基本特征教案 (新版)新人教版
- 2024-2025学年高中物理 第二章 交变电流 第07节 远距离输电教案 粤教版选修3-2
- 2024-2025学年高中物理 第七章 机械能守恒定律 4 重力势能(1)教案 新人教版必修2
- 江苏省海安县实验中学高中体育 耐久跑教案2 苏教版
- 八年级英语上册 Unit 3 Families Celebrate Together Lesson 15 A Present for Li Ming教案 (新版)冀教版
- 2024-2025学年高中生物下学期《基因指导蛋白质的合成》教学设计
- 运输车贷款购销合同(2篇)
- 病毒预防+课件
- 员工安全出行知识培训
- 大数据与会计职业生涯规划
- 眼科护理中的围手术期护理与管理
- 宠物美容师-宠物护理与造型设计
- 高三英语一轮复习七选五深度剖析课件
- 二次结构施工培训
- 中华民族的形成与发展(原版)
- 乐器租赁市场需求与增长潜力
- 视觉传达专业大学生职业规划
- 铁塔基础施工方案施工方案
- 有机水稻培训课件
评论
0/150
提交评论