版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、构建系统进化树的详细步骤1. 建树前的准备工作 1.1 相似序列的获得BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意矚慫润厲钐瘗睞枥庑赖賃軔朧。为“基本局部相似性比对搜索工具”(Altschul et al.,199062;199763)。国际著名生物信息中心聞創沟燴鐺險爱氇谴净祸測樅。都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用网站,比如国内的CBI、美
2、国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“”符号开始,后面是序列的名称、说明等,其中“”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列
3、-点击BLAST!-点击Format-得到result of BLAST。 残骛楼諍锩瀨濟溆塹籟婭骒東。BLASTN结果如何分析(参数意义): gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete 酽锕极額閉镇桧猪訣锥顧荭钯。sequence Score = 2020 bits (1019), Expect = 0.0 1 / 14Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus 彈贸摄尔霁毙
4、攬砖卤庑诒尔肤。Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 謀荞抟箧飆鐸怼类蒋薔點鉍杂。| | | Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc-ggggt 58 厦礴恳蹒骈時盡继價骚卺癩龔。Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 茕桢广鳓鯡选块网羈泪镀齐鈞。| | | | | Sbjct: 59 acac
5、gagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 鹅娅尽損鹌惨歷茏鴛賴縈诘聾。Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似; Expect:比对的期望值。比对越好,expect越小,一般在核酸层次的比对,expect小于1e-10,籟丛妈羥为贍偾蛏练淨槠挞曉。就比对很好了,多数情况下为0; Identities:提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相同; Gaps:一般翻译成空位,指的是对不上的碱基数目; Strand:链的方向,Plus / Minus意味着
6、提交的序列和参比序列是反向互补的,如果是Plus / 預頌圣鉉儐歲龈讶骅籴買闥龅。Plus则二者皆为正向。 1.2 序列格式:FASTA格式 由于EMBL和GenBank数据格式较为复杂,所以为了分析方便也出现了十分简单的FASTA数据格式。FASTA格式又称为Pearson格式,该种序列格式要求序列的标题行以大于号“”开头,下一行起为具体的序列。一般建议每行的字符数不超过60或80个,以方便程序处理。多条核酸和蛋白质序列格式即将该格式连续列出即可,如下所示:E.coli 1 aaattgaaga gtttgatcat ggctcagatt gaacgctggc ggcaggccta acac
7、atgcaa 渗釤呛俨匀谔鱉调硯錦鋇絨钞。61 gtcgaacggt aacaggaaga agcttgcttc tttgctgacg agtggcggac 铙誅卧泻噦圣骋贶頂廡缝勵罴。AY631071 Jiangella gansuensis YIM 002 1 gacgaacgct ggcggcgtgc ttaacacatg caagtcgagc ggaaaggccc tttcgggggt 擁締凤袜备訊顎轮烂蔷報赢无。61 actcgagcgg cgaacgggtg agtaacacgt gggtaacctg ccttcagctc tgggataagc 贓熱俣阃歲匱阊邺镓騷鯛汉鼉。 其中的
8、为Clustal X默认的序列输入格式,必不可少。其后可以是种属名称,也可以是序列在Genbank中的登录号(Accession No.),自编号也可以,不过需要注意名字不能太长,一般由英文字母和数字组成,开首几个字母最好不要相同,因为有时Clustal X程序只默认前几位为该序列名称。回车换行后是序列。将检测序列和搜索到的同源序列以FASTA格式编辑成为一个文本文件(例:C:tempjc.txt),即可导入Clustal X等程序进行比对建树。 2. 构建系统树的相关软件和操作步骤 坛摶乡囂忏蒌鍥铃氈淚跻馱釣。构建进化树的主要步骤是比对,建立取代模型,建立进化树以及进化树评估。鉴于以上对于构
9、建系统树的评价,结合本实验室实际情况,以下主要介绍N-J Tree构建的相关软件和操作步骤。 蜡變黲癟報伥铉锚鈰赘籜葦繯。2.1 用Clustal X构建N-J系统树的过程 (1) 打开Clustal X程序,载入源文件. File-Load sequences- C:tempjc.txt. (2) 序列比对 Alignment - Output format options - ? Clustal format; CLUSTALW sequence numbers: ON 買鲷鴯譖昙膚遙闫撷凄届嬌擻。Alignment - Do complete alignment (Output Guid
10、e Tree file, C:tempjc.dnd;Output Alignment file, C:tempjc.aln;) Align ? waiting 綾镝鯛駕櫬鹕踪韦辚糴飙钪麦。等待时间与序列长度、数量以及计算机配置有关。 (3) 掐头去尾 File-Save Sequence as Format: ? CLUSTAL GDE output case: Lower CLUSTALW sequence numbers: ON Save from residue: 39 to 1504 (以前后最短序列为准) Save sequence as: C:tempjc-a.aln OK 将开始
11、和末尾处长短不同的序列剪切整齐。这里,因为测序引物不尽相同,所以比对后序列参差不齐。一般来说,要“掐头去尾”,以避免因序列前后参差不齐而增加序列间的差异。剪切后的文件存为ALN格式。 驅踬髏彦浃绥譎饴憂锦諑琼针。(4) File-Load sequences-Replace existing sequences?-Yes- C:tempjc-a.aln 猫虿驢绘燈鮒诛髅貺庑献鵬缩。重新载入剪切后的序列。 (5) Trees-Output Format Options Output Files : ? CLUSTAL format tree ? Phylip format tree ? Phyl
12、ip distance matrix Bootstrap labels on: NODE 锹籁饗迳琐筆襖鸥娅薔嗚訝摈。CLOSE Trees-Exclude positions with gaps Trees-Bootstrap N-J Tree :構氽頑黉碩饨荠龈话骛門戲鷯。Random number generator seed(1-1000) : 111 Number of bootstrap trails(1-1000): 1000 SAVE CLUSTAL TREE AS: C:tempjc-a.njb SAVE PHYLIP TREE AS: C:tempjc-a.njbphb O
13、K ? waiting 輒峄陽檉簖疖網儂號泶蛴镧釃。等待时间与序列长度、数量以及计算机配置有关。在此过程中,生成进化树文件*.njbphb,可以用TreeView打开查看。 尧侧閆繭絳闕绚勵蜆贅瀝纰縭。(6) Trees-Draw N-J Trees SAVE CLUSTAL TREE AS: C:tempjc-a.nj SAVE PHYLIP TREE AS: C:tempjc-a.njph SAVE DISTANCE MATRIX AS: C:tempjc-a.njphdst OK 识饒鎂錕缢灩筧嚌俨淒侬减攙。此过程中生成的报告文件*.nj比较有用,里面列出了比对序列两两之间的相似度,以及
14、转换和颠换分别各占多少。 凍鈹鋨劳臘锴痫婦胫籴铍賄鹗。(7) TreeView File-Open-C:tempjc-a.njbphb Tree- phylogram(unrooted, slanted cladogram,Rectangular cladogram多种树型) Tree- Show internal edge labels (Bootstrap value)(显示数值) 恥諤銪灭萦欢煬鞏鹜錦聰櫻郐。Tree- Define outgroup ? ingroup outgroup ? OK(定义外群) 鯊腎鑰诎褳鉀沩懼統庫摇饬缗。Tree- Root with outgroup
15、通常需要对进化树进行编辑,这时首先要Edit-Copy至PowerPoint上,然后Copy至Word上,再进行图片编辑。如果直接Copy至Word则显示乱码,而进化树不能正确显示。 2.2 Mega建树 硕癘鄴颃诌攆檸攜驤蔹鸶胶据。虽然Clustal X可以构建系统树,但是结果比较粗放,现在一般很少用它构树,Mega因为操作简单,结果美观,很多研究者选择用它来建树。 阌擻輳嬪諫迁择楨秘騖輛埙鵜。(1) 首先用Clustal X进行序列比对,剪切后生成C:tempjc-a.aln文件;(同上) (2) 打开BioEdit程序,将目标文件格式转化为FASTA格式, 氬嚕躑竄贸恳彈瀘颔澩纷釓鄧。F
16、ile-Open- C:tempjc-a.aln, File-Save As- C:temp jc-b.fas; (3) 打开Mega程序,转化为mega格式并激活目标文件, File-Convert To MEGA Format- C:temp jc-b.fas ? C:temp jc-b.meg, 釷鹆資贏車贖孙滅獅赘慶獷緞。关闭Text Editor窗口-(Do you want to save your changes before closing?-Yes); Click me to activate a data file- C:tempjc-b.meg-OK- 怂阐譜鯪迳導嘯畫長
17、凉馴鸨撟。(Protein-coding nucleotide sequence data?-No); Phylogeny-Neighbor-Joining(NJ) Distance Options-Models-Nucleotide: Kimura 2-parameter; 谚辞調担鈧谄动禪泻類谨觋鸾。?d: Transitions+Transversions; Include Sites-?Pairwise Deletion Test of Phylogeny-?Bootstrap; Replications 1000; Random Seed 64238 嘰觐詿缧铴嗫偽純铪锩癱恳迹。OK
18、;开始计算,得到结果; (4) Image-Copy to Clipboard-粘贴至Word文档进行编辑。 此外,Subtree中提供了多个命令可以对生成的进化树进行编辑,Mega窗口左侧提供了很多快捷键方便使用;View中则给出了多个树型的模式。下面只介绍几种最常用的: Subtree-Swap:任意相邻两个分支互换位置;熒绐譏钲鏌觶鷹緇機库圆鍰缄。-Flip:所选分支翻转180度; -Compress/Expand:合并/展开多个分支; -Root:定义外群; View-Topology:只显示树的拓扑结构; -Tree/Branch Style:多种树型转换; -Options:关于树
19、的诸多方面的改动。 2.3 TREECON 打开Clustal X,File-Load sequences-jc-a.aln,File-Save Sequence as(Format-PHYLIP;Save from residue-1 to 末尾;Save sequence as : C:tempjc.phy); 鶼渍螻偉阅劍鲰腎邏蘞阕簣择。打开TREECON程序, (1) Distance estimation 点击Distance estimation-Start distance estimation,打开上面保存的jc.phy文件,Sequence Type-Nuleic Acid
20、Sequence,Sequence format-PHYLIP interleaved,Select ALL,OK; Distance Estimation-Jukes&Cantor(or Kimura),Alignment positions-All,Bootstrap analysis-Yes,Insertions&Deletions-Not taken into account,OK; 纣忧蔣氳頑莶驅藥悯骛覲僨鴛。Bootstrap samples-1000,OK;运算,等待 Finished-OK。 (2) Infer tree topology 点击Infer tree topolo
21、gy-Start inferring tree topology,Method-Neighbor-joining, Bootstrap 颖刍莖蛺饽亿顿裊赔泷涨负這。analysis-Yes,OK.;运算,等待 Finished-OK。 (3) Root unrooted trees 点击Root unrooted trees-Start rooting unrooted trees,Outgroup opition-single sequence(forced),Bootstrap analysis-Yes,OK; 濫驂膽閉驟羥闈詔寢賻減栖綜。Select Root-X89947,OK;运算,
22、等待 Finished-OK。 (4) Draw phylogenetic tree 点击Draw phylogenetic tree,File-Open-(new) tree,Show-Bootstrap values/ Distance scale。 File-Copy,粘贴至Word文档,编辑。 銚銻縵哜鳗鸿锓謎諏涼鏗穎報。TREECON的操作过程看起来似乎较MEGA烦琐,且运算速度明显不及MEGA,如果参数选择一样,用它构建出来的系统树几乎和MEGA构建的完全一样,只在细节上,比如Bootstrap值二者在某些分支稍有不同。在参数选择方面,TREECON和MEGA也有些不同,但总体上相
23、差不大。 挤貼綬电麥结鈺贖哓类芈罷鸨。2.4 PHYLIP PHYLIP是多个软件的压缩包,下载后双击则自动解压。当你解压后就会发现PHYLIP的功能极其强大,主要包括五个方面的功能软件:i,DNA和蛋白质序列数据的分析软件。ii,序列数据转变成距离数据后,对距离数据分析的软件。 iii,对基因频率和连续的元素分析的软件。iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。v,按照DOLLO简约性算法对序列进行分析的软件。vi,绘制和修改进化树的软件。在此,主要对DNA序列分析和构建系统树的功能软件进行说明。 (1) 生成PHY格式文件 赔荊紳谘侖驟
24、辽輩袜錈極嚕辫。首先用Clustal X等软件打开剪切后的序列文件C:tempjc-a.aln另存为C:tempjc.phy(使用File-Save Sequences As命令,Format项选“PHY”)。用BioEdit或记事本打开(2) 打开Phylip软件包里的SEQBOOT塤礙籟馐决穩賽釙冊庫麩适绲。seqboot.exe: cant find input file infile Please enter a new file name C:tempjc.phy 按路径输入刚才生成的 *.PHY文件,显示如下: 裊樣祕廬廂颤谚鍘羋蔺递灿扰。Bootstrapping algorit
25、hm, version 3.6a3 Settings for this run: D Sequence, Morph, Rest., Gene Freqs? Molecular sequences J Bootstrap, Jackknife, Permute, Rewrite? Bootstrap B Block size for block-bootstrapping? 1 R How many replicates? 100 仓嫗盤紲嘱珑詁鍬齊驁絛鯛鱧。W Read weights of characters? No C Read categories of sites? No F Wr
26、ite out data sets or just weights? Data sets I Input sequences interleaved? Yes 绽萬璉轆娛閬蛏鬮绾瀧恒蟬轅。0 Terminal type none 1 Print out the data at start of run No 2 Print indications of progress of run Yes Y to accept these of type the letter for one to change 骁顾燁鶚巯瀆蕪領鲡赙骠弒綈。R Number of replicates? 1000 0 Se
27、ttings for this run: D Sequence, Morph, Rest., Gene Freqs? Molecular sequences J Bootstrap, Jackknife, Permute, Rewrite? Bootstrap B Block size for block-bootstrapping? 1 R How many replicates? 1000 瑣钋濺暧惲锟缟馭篩凉貿锕戧。W Read weights of characters? No C Read categories of sites? No F Write out data sets o
28、r just weights? Data sets I Input sequences interleaved? Yes 鎦诗涇艳损楼紲鯗餳類碍穑鳓。0 Terminal type IBM PC 1 Print out the data at start of run No 栉缏歐锄棗鈕种鵑瑶锬奧伛辊。2 Print indications of progress of run Yes Y to accept these of type the letter for one to change 辔烨棟剛殓攬瑤丽阄应頁諳绞。Y Random number seed (must be odd)?
29、5(any odd number)completed replicate number 100 completed replicate number 200 completed replicate number 300 completed replicate number 400 completed replicate number 500 completed replicate number 600 completed replicate number 700 completed replicate number 800 completed replicate number 900 comp
30、leted replicate number 1000 上面的D、J、R、I、O、1、2代表可选择的选项,键入这些字母后敲回车键,程序的条件就会发生改变。D选项无须改变。J选项有三种条件可以选择,分别是Bootstrap、Jackknife和Permute。R选项让使用者输入republicate的数目。所谓republicate就是用Bootstrap法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的republicate。当我们设置好条件后,键入Y按回车。得到一个文件outfile:C:Program FilesPhylipexe outfile. 峴扬斕滾澗辐滠兴渙藺
31、诈機愦。重命名outfile?infile。 (3) 打开dnadist.exe Nucleic acid sequence Distance Matrix program, version 3.6a3 詩叁撻訥烬忧毀厉鋨骜靈韬鰍。Settings for this run: D Distance ? F84 G Gamma distributed rates across sites? No T Transition/transversion ratio? 2.0 C One category of substitution rates? Yes W Use weights for site
32、s? No 则鯤愜韋瘓賈晖园栋泷华缙輅。F Use emperical base frequencies? Yes L Form of distance matrix? Square 胀鏝彈奥秘孫戶孪钇賻锵咏繞。M Analyze multiple data sets? No I Input sequences interleaved? Yes 0 Terminal type ? 1 Print out the data at start of run No 2 Print indications of progress of run Yes 鳃躋峽祷紉诵帮废掃減萵輳慘。Y to accept
33、 these of type the letter for one to change 稟虛嬪赈维哜妝扩踴粜椤灣鲳。d D Distance ? Kimura 2-parameter m Multiple data sets or multiple weighs? (type D or W) d 陽簍埡鲑罷規呜旧岿錟麗鲍轸。How many data sets? 1000 0Settings for this run: D Distance ? Kimura 2-parameter G Gamma distributed rates across sites? No T Transition/
34、transversion ratio? 2.0 沩氣嘮戇苌鑿鑿槠谔應釵蔼绋。C One category of substitution rates? Yes W Use weights for sites? No 钡嵐縣緱虜荣产涛團蔺缔嵛恽。F Use emperical base frequencies? Yes L Form of distance matrix? Square M Analyze multiple data sets? Yes, 1000 data sets I Input sequences interleaved? Yes 懨俠劑鈍触乐鹇烬觶騮揚銥鯊。0 Termi
35、nal type ? IBM PC 1 Print out the data at start of run No 2 Print indications of progress of run Yes 謾饱兗争詣繚鮐癞别瀘鯽礎輪。Y to accept these of type the letter for one to change 呙铉們欤谦鸪饺竞荡赚趱為練。Y 选项D有四种距离模式可以选择,分别是Kimura 2-parameter、Jin/Nei、Maximum-likelihood和Jukes-Cantor。选项T一般键入一个1.5-3.0之间的数字。选项M键入1000。运行后生成
36、文件C:Program FilesPhylipexe outfile。 莹谐龌蕲賞组靄绉嚴减籩诹戀。重命名outfile?infile。 (4) 打开 neighbor.exe Neighbor-Joining/UPGMA method version 3.6a3 Settings for this run: N Neighbor-Joining or UPGMA tree? Neighbor-Joining O Outgroup root? No, Use as outgroup species 1 L Lower-triangular data metrix? No 麸肃鹏镟轿騍镣缚縟糶尔
37、摊鲟。R Upper-triangular data metrix? No S Subreplication? No J Randomize input order of species? No, Use input order M Analyze multiple data sets? No 納畴鳗吶鄖禎銣腻鰲锬颤階躜。0 Terminal type ? 1 Print out the data at start of run No 2 Print indications of progress of run Yes 3 Print out tree Yes 風撵鲔貓铁频钙蓟纠庙誑繃纸。4
38、Write out trees onto tree file? Yes Y to accept these of type the letter for one to change 灭嗳骇諗鋅猎輛觏馊藹狰廚怃。m How many data sets? 1000 Random number seed (must be odd)?5 Settings for this run: N Neighbor-Joining or UPGMA tree? Neighbor-Joining O Outgroup root? No, Use as outgroup species 1 L Lower-triangular data metrix? No 铹鸝饷飾镡閌赀诨癱骝吶转鮭。R Upper-triangular data metrix? No S S
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025下半年四川雅安天全县事业单位招聘19人历年高频重点提升(共500题)附带答案详解
- 2025下半年北京市国土资源局事业单位招聘2人历年高频重点提升(共500题)附带答案详解
- 2025上海市教育考试院公开招聘4人高频重点提升(共500题)附带答案详解
- 2025上半年浙江省安吉县机关事业单位招聘73人历年高频重点提升(共500题)附带答案详解
- 2025上半年江苏省南通启东市事业单位招聘84人历年高频重点提升(共500题)附带答案详解
- 2025上半年四川省自贡荣县事业单位考试聘用110人高频重点提升(共500题)附带答案详解
- 2025上半年四川省内江市市中区部分事业单位招聘72人历年高频重点提升(共500题)附带答案详解
- 2025上半四川南充经济开发区应急响应中心招聘历年高频重点提升(共500题)附带答案详解
- 高等院校教师聘用合同样稿
- 游艇俱乐部内墙翻新刮瓷协议
- 环境材料学教学课件汇总完整版电子教案全书整套课件幻灯片(最新)
- 建设项目全过程跟踪审计表格
- 企业员工上下班交通安全培训(简详共2份)
- 城市高密度建成区合流制溢流污染系统研究-黄孝河机场河水环境综合治理项目实践
- T∕ZSQX 008-2020 建设工程全过程质量行为导则
- 业务员手册内容
- pH值的测定方法
- 输出轴的机械加工工艺规程及夹具设计
- 元旦文艺汇演校长致辞
- 国家开放大学电大本科《管理案例分析》2023-2024期末试题及答案试卷编号:1304
- 离合器接合叉机械工艺说明书
评论
0/150
提交评论