Mrbayes中文使用说明步骤_第1页
Mrbayes中文使用说明步骤_第2页
Mrbayes中文使用说明步骤_第3页
Mrbayes中文使用说明步骤_第4页
Mrbayes中文使用说明步骤_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、<>内为需要输入的内容,但不包括括号。所有命令都需要在MrBayes >的提示下 才能输入。文件格式: 文件输入,输入格式为 Nexus file (ASCII, a simple text file ,如图):或者还有其他信息:interleave=yes代表数据矩阵为交叉序歹!J interleaved sequencesnexus文件可由MacClade 或者Mesquite 生成。但Mrbayes并不支持the full Nexus standard 。同时,Mrbayes象其它许多系统软件一样允许模糊特点,如:如果一个特点有 两个状态2、3,可以表示为:(23) ,

2、 (2,3) , 23或者2,3。但除了 DNAA, C, G, T, R, Y, M, K,S, W, H, B, V, D, N、RNAA, C, G, U, R, Y, M, K, S, W, H, B, V, D, N、Protein A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P , S, T, W, Y, V, X卜二进制 数据0, 1、标准数据(形态学数据)0, 1,2, 3, 4, 5, 6, 5, 7, 8, 9外,并不支持 其他数据或者符号形式。执行文件:execute <filename> 或缩写exe <file

3、name> ,注意:文件必须在程序所在 的文件夹(或者指明文件具体路径),文件名中不能含有空格,如果执行成功, 执行窗口会自动输出文件的简单信息选定模型:lset 和 prset , lset 用于定义模型的结构, prset 用于通常至少需要两个命令,定义模型参数的先验概率分布。在进行分析之前可以执行showmodel 命令检查当前矩阵模型的设置。或者执行help lset 检查默认设置(如图) :略Nucmodel 用于指定 DNA 模型的一般类型。 我们通常选取标准的核苷酸替代模型 nucleotide substitution model ,即默认选项4by4 。另外, Doub

4、let 选项用于 paired stem regions of ribosomal DNA 的分析, Codon 选项用于 DNA sequence in terms of its codons 的分析。替代模型的一般结构一般由 Nst 设置决定。默认状态下,所有的置换比率相同,对应于 F81 模型( JC model ) 。一般我们选用 GTR 模型,即 nst=6 。Code 设置只有在DNA 模型设置为 codon 的情况下才使用。 Ploidy 设置也与我们无关。Rates 通 常 设 置 为 invgamma (gamma-shaped rate variation with apr

5、oportion of invariable sites) ,Ngammacat(the number of discrete categories used to approximate thegamma distribution) 一般采用默认选项4 。通常这个设置已经足够,增加该选项设置的数量可能会增加似然计算的精确性, 但所花时间也成比例增加, 大多数情况下,由增加该数值对结果的影响可以忽略不计。余下的选项中,只有Covarion 和 Parsmodel 与单核苷酸模型相关,而我们既不会采用 parsimony model ,也不会采用 the covariotide model ,故

6、保留默认状态。在对矩阵作了以上修改后,重新输入 help lset 命令,可以查看变化后的设置。设置先验参数prior :现在可以为模型设置先验参数了。模型有6 种类型的参数: the topology, thebranch lengths, the four stationary frequencies of the nucleotides, the sixdifferent nucleotide substitution rates, the proportion of invariable sites,and the shape parameter of the gamma distri

7、bution of rate variation.默认参数在大多数分析中都已足够, 通常不许修改, 如需立即使用, 这部分可以跳过。通过输入 help prset 可以获得模型的各参数默认设置列表:略,我们只对 Revmatpr (for the six substitution rates of the GTR rate matrix), Statefreqpr (for the stationary nucleotide frequencies of the GTR rate matrix), Shapepr (for the shape parameter of the gamma di

8、stribution ofrate variation), Pinvarpr (for the proportion of invariable sites), Topologypr (for the topology), Brlenspr (for the branch lengths)这几项设置作简单介绍。Revmatpr and Statefreqpr 的默认的先验概率密度prior probability density都是 a flat Dirichlet (所有值都为 1.0) 。有时可能需要把Statefreqpr 设置为equal ,比如在 JC and SYM 模型下,命令p

9、rset statefreqpr=fixed(equal) 。如果我们要对默认的 statefreqpr 的 flat Dirichlet prior 状态加以强调, 即 equal nucleotide frequencies 。 可 以 输 入 命 令 prset statefreqpr=Dirichlet(10,10,10,10)或 者 更 甚 的 强 调 prsetstatefreqpr=Dirichlet(100,100,100,100)如果修改了该选项后想改回来,输入 prset statefreqpr=Dirichlet(1,1,1,1)或者 prsst= Dir(1,1,1,1

10、)。Shapepr 参数定义 the prior for the a (shape) parameter of the gamma distribution of rate variation.Pinvarpr 参数定义 the prior for the proportion of invariable sites 。Topologypr 参数默认设置uniform puts equal probability on all distinct,fully resolved topologies.The alternativeis to constrain some nodes in the

11、tree to always bepresent but we will not attempt that in this analysis.Brlenspr 参数可以设置为 unconstrained 或者 clock-constrained 。默认为 unconstrained ,对于没有分子钟 的树, the branch length prior 可以设置为指数的 exponential 或者均一的 uniform ,默认为指数的,参数为 10.0 ,对大 多分析都合适。 可以在分析前输入 showmodel 命令检查模型的设置。分析及设置:由 mcmc 命令设置参数并开始分析。在设置

12、前可以输入 help mcmc 命令查看默认设置。Seed 是随机数产生器随机输出的一个种子数值。 Swapseed 是单独的用于产生随机交换序列 the chain swapping sequence 的随机数产生器。 除非特别指定,这两个值由系统时钟生成。Ngen (number of generations )设置分析要跑的代数。通常可以先设置较少并可以估计一个较长的分析所要花的时间和代数。如果要设置ngen 值但不想立即开始分析,可以使用 mcmcp 命令,如mcmcp ngen=10000。默认状态下, bayes 会同时运行两个(Nruns = 2) 完全独立的但由不同的随机树开始

13、的分析。一般采取默认设置。检查 Mcmcdiagn 参数是否设置为 yes , Diagnfreq 是否设置为一个合适的值,如默认的每第 1000 代(可以更改) 。这样 bayes 会在每第 1000 代计算各种运行(分析)的诊断,并把它们保存在一个<filename>.mcmc 的文件中。最重要的诊断, 不同分析中树取样the tree samples 的相似性的衡量, 也会在每 1000代输出到屏幕上。 每一次诊断完成, 一个固定数量(burnin) 或者比例 (burninfrac)的样品会被丢弃。 Relburnin 参数定义是使用固定数量(relburnin=no) 还

14、是百分比 (relburnin=yes) 。默认状态为 (relburnin=yes and burninfrac=0.25 ),即每个诊断完成, 25 的样品被丢弃。默认状态下, bayes 会使用 Metropolis coupling 提高 the MCMC sampling ofthe target distribution 。 Swapfreq, Nswaps, Nchains 和 Temp 四个参数一起控制 Metropolis coupling 行为。Nchains 设置为 1 ,不使用 heating 。设置为 n , n-1 个热链 heated chains 被使用。默认n

15、=4,表示bayes会使用3个热链和1个"cold" chain 。根据经验,heating 对于大于 50 个类群(序列)的分析是很重要的。增加热链数量对于分析大的困难的数据集可能有帮助。但分析时间也会随着链的增加成比例增加。MPI 版本的程序要好些,时间影响较小。Bayes 使用一种增值的热方案 an incremental heating scheme ,该方案下,通过增加其后验概率,链i被heated到the power 1/ (1 + i 其中a是由Temp参数控制。 Heating 的作用是保持后验概率平稳flatten out the posteriorpro

16、bability ,以便热链可以轻松找到后验概率中的峰isolated peaks ,帮助冷链 cold chain 快速通过这些峰。每第 Swapfreq 代,会从两条链中随机抽取并交换它们的状态an attempt is made to swap their states 。默认参数对大多数分析已足够,但如果你采用了不止3 个热链,你可以增加交换数量(Nswaps)number of swaps ,默认设置为每次链停交换一次that are tried each timethe chain stops for swapping 。Samplefreq 定义对链取样的频率。默认状态下,每第

17、100 代,对链取样一次。如果分析量较小,我们也许想尽快使其收敛,可设置为每10 代取样一次。改变该参数 mcmcp samplefreq=10.每次对链取样的参数会被保存在文件中。替代模型参数会保存在filename.p 文件 中 , 每 个 独 立 的 分 析 有 各 自 的 参 数 文 件 filename.nex.run1.p 和 filename.nex.run2.p 。 拓 扑 和 枝 长 被 保 存 在 filename .t 文 件 中 , 即 filename .run1.t 和 filename.run2.t 中。Printfreq 参数定义链的状态输出到屏幕上的频率。默认

18、为每 100 代输出一次。默认状态下, bayes 自动把枝长保存在树文件中 filename.t 。利用 Startingtree 命令,可以自定义起始树,默认状态下是随机选择起始树。运行分析:用于分析的各项参数都设置好后( mcmcp ) ,就可以开始分析了。输入mcmc命令,窗口会显示用于本次分析的模型和后验概率的一些设置情况。The MCMCwi11 ihe following move5:Chain ".- ill 二已巩亡qepa rain, i : r/iaz) wizh 二irL 二匕1 e: proposalparai, 2 : azazencie ? Mi:己 t

19、rickle: croposaiparann+ 3 (gannia shape) witli multiplierparatm. G ;pEnpr invariar:s te*a proposalcaranr:, E: topology刍二三2rmn二"lengLr:s) LOCALThe proposal probabilities可以用props命令进行修改,但最好默认,不适当param. 5apologyandbranctilengLa)with expendingIBF.的修改可能使分析失败然后分析就开始运行,窗口会输出每100代链的状态信息。其中第1栏为代数,2 5为其中一

20、个分析的4个链的log likelihood values , 中括号为冷链。如果Metropolis coupling 运行良好的话,冷链会不断变动位置,表示冷链成 功的和热链交换了位置。如果冷链停滞不动,则 Metropolis coupling 运行效 率低或无,需要延长分 析时间或者 将热冷链 间的温度差值temperature difference 降彳氐。最后一栏为运行剩余时间,在运行初始,该值可能偏大,逐渐平稳而代表真实所 剩余时间。停止分析:当要求的代数已经运行完毕,窗口会提示询问是否继续运行,如果回答yes,会要求输入继续运行的代数。在回答之前,我们一般要先检查the ave

21、ragestandard deviation of split frequencies 的值,该值代表两个独立分析当前的相似性程度,越接近0越好。虽然我们推荐聚敛诊断convergence diagnostic , 比如上面的分裂频率标准偏差,来决定运行时间,但其实有更简单但可能不是如 此有效的方法来决定分析的停止与否。最简单的是检查冷链的the log likelihood values ,在分析初始,该值变化较大,当该值逐渐平稳而不变化,而 且两个独立的分析中的该值相等或几乎相等时, 可以停止分析,但这个方法不如 聚敛诊断精确。总 结样品 替代模型参数 Summarizing Sample

22、s of Substitution Model Parameters :在 运行过程中,每 samplefreq 代 的 Samples of Substitution ModelParameters已经被写入filename.p 文件中,如图::ID: 5&82:33C8LHLTL-»pl TJalphspinvar*2»044二.165即A U O.iaD.CCQ,25C0DQC-OCCOCC1c2.1 = 1:,30153« 4 a0.LS35110.2贝4曲D.569271D.D3fil22.527« * »0.2621373

23、.宓FC.1CC4-5722,857E.6注F * 0,0703830,246713,72-21"力插号中第一个数字,是一个让你可以知道这个取样来源的随机生成的ID号,第2行为标题,从左到右依次为:代数the generation number (Gen); (2)冷链对数似然值?the log likelihood of the cold chain (LnL); (3)树长 thetotal tree length (the sum of all branch lengths, TL); (4)6个 GTR 比率参数the six GTR rate parameters (r(A

24、<->C), r(A<->G) etc); (5)4个核甘酸发生频率 the four stationary nucleotide frequencies (pi(A), pi(C) etc); (6)比率变化伽马分布的形状参数 the shape parameter of the gamma distribution of rate variation (alpha); (7)不变位点的比例 the proportion of invariable sites(pinvar).如果你的数据集使用了一个不同的模型,文件内容也会有所不同。Sump 命令用于总结取样参数值

25、summarize the sampled parameter values , 如 sump burnin=250 ,默认状态下,该命令总结filename.p文件中最近形成的25 %取样参数信息。 Sump 命令会首先生成一个代数和 the log probability of the data (the log升或者下降的趋势:如果有任何上升或者下降的趋势,可能需要延长分析时间以获得充分的后掩盖率 分布取样在下面,有一个总结取样参数值的表,列举了各参数的平均值、variance、95%可靠问区的最高最低值、中间值和PSRF (the Potential Scale ReductionFa

26、ctor)。各参数就是filename.p中的各参数。PSRF也是一种聚敛诊断方式,如果分析较彻底,该值应接近1.0Mda. pir-BN*i»rl«« r¥*r imin"pfirjriu_r«u.rizil.a£j. ,a'jXELuDafi!.,Jiiaat.n2.f-" !:4H t TCIlZ £ 11 董fZHL Z HuMI;kJIE!: T'iT = rO-±TZZM-d L 101 CAITT L-W 口 TiTlt =h -51 上十二 >»=

27、* iT;= L-:mu:*皿jflpr3 il554£O.IHLItf3,“枇灿.;二口>.L1511C二 _ 二二"二a3L<:CI.ZE14Z1£bH1-I5."dl露 *TT*j|*q.EhiiVin=bA<->ZID.I-3E541C- IC Z'Z E5G.ESa37力二三m:qvaE->Bia.cir»l £4 : 0. rrlC l j4Q iEXUL W;k ;iU'b.> j.E >!i.?£ . 44代如;. ;Q0.D.4&K.1:38

28、fi3f1 c ! 2GLD1IIIBQu*" *D.C431E4liCIBC gD . 913mld0-12-9*t-a0.5*71313DP:l.1WNfi ' E ,41k上幼好幼:-U&iPi'S-,:;54Q+tm;*q,二 5>“蝗xm箝1iC;46.243-14D. J-t4dt4C>.345L31;广、巾k:En*b.TiuasC.:J?5&5QWJ1 精1 Jd 或 H:r F-35-t&1C-&7b.iiBtni二-MW口上.AZaiivex -.c* dLsgristiz Z'fl"&

29、quot; - jzsxtiaj. szalt z*4.k:z±il faz"nr :二el匚e二n Piirihi, LttJ MH«iTr«HT*>si二Bsah L « nnv w"1二u工 Ej.y =« nnili&rLa -£ yc -工x -u-一二 二 j<zjh= c£ hkz=二. T33T hhrLM©H" ba WM M I H>£|h fULM 3 AttVt理*皿 »LHM ALL KJNh MIUWMiai&l

30、t; zha" 日;二:, ore l- lr*ezp-ei lt *5- 士 sr-s:e TEd,:Lci f«szt-:r ±re -e tv in th* ehle ear.-svME u总结样品树和枝长 Summarizing Samples of Trees and Branch Lengths树和枝长输出到filename.t文件中,为nexus格式的树文件:IC; 5c4e2C3niO5btqtE trer-ej1 Z.-E_7jr_cattS|i2>付 E *F:T"一、PR孙 £ HLsMtna r " Z&

31、lt;aca :Ji_f - sc at 3.ji?罚了二。W_jsylTB1匚二s11 B BirTii£i_seicea 产二工 T0jri ii»_syri sht a rtl:睢 Z Ap-l -N2/bgO%,i:CL(JMT“"lLtr?”> iCl.lCHMWih C&aO. lQCCCl3r4 tO.l&O,:9.LRQI»QMP-m>QQr CS>;3二口口4gg IICSO. IWQDVr 3:U.1DTCQV| fg.lWBUp : L R=g I mi12 一Lt胡:叶 1 :, 1BM婚 it

32、1:。 1NM9not ifr.lOBOMr4i0 .1OMClOaLi:,土的O#tew-I < t(«!d.U七7九 1(1 纯.M*na c3 9.州见£第 CLM巨兔3ib :0-04&51| zfl. 1631 1, 5:6.1162 10HCI.lMJa4t 1C .147211s 1103 0.09X71. 1 I lO. 01&13»)< Ta«.012113Hd-D171 ftlP jQ.Dfltd7 ” eQq5好5郭 川:双却门通手鹭叮皿2”蠡Tl mCMglWlMiQ-契*0f Ji丸7打F总结树和枝长

33、信息,输入命令sumt ,如sumt burnin=250 。的树和一个系统演Sumt 命令会输出 summary statistics for the taxon bipartitions , 一个具有枝长可信度 clade credibility (posterior probability) values化树(如果枝长已经保存的话)。summary statistics以“点一星”形式描述每一枝the partition ,点和枝分别代表两个分枝部分。后面列出了分枝的取样数(#obs),分枝the probability 的概率,分枝发生频率标准差 the standard deviat

34、ion of the partition frequency (Stdev(s) ,枝长的平均值(Mean(v)和变化variance (Var(v)和(PSRF),最后是改枝取样所在的独立分析,即分析1或者分析2助M工? itAE LIE.1E1 E iST tUflil hipAFtltL±ni SID -5-irtitLcntDDSriDbab,5tdev(sEtean i: v:Vaifrl *z=、fHrj n.s1 *lim its ri d 1 fa i21g27gg口 Eg 口 g风口口。2舞T Rjfl ik VW«22 ,1502l<gQ80.00

35、50003。第"60«QC0<2I,DOD2多.« .1532l-dOODCD0. DOCDCl3-C3G5 341a tu白一百NC.9392 I . i1502Ugg。D.ODCDOG0.002340,0010438225 一n n a " hi ni150.21.000DCQ0.0000000.0fi3«70。皿口2 口 71.001£ - 15321,0000000.000DOO3 -271<332. C :335CC.9392- * « » » e « «1502l-OdODCD0.DOCDOCA 1tli Ti 汽;Jtf-0. M71371.01021502口 . 3DGD0CQ 4 LU 4110i C0藐BLa”学. tT k i !H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论