MEGA计算序列间遗传距离.doc

上传人：活*** IP属地：宁夏上传时间：2019-12-16 格式：DOC 页数：12 大小：379KB 积分：11 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

序列间遗传距离的计算1. 导入比对好的“*.meg”格式数据。2. 数据划分（1）序列数据的基因和域（genes & domains）的指定和选择在mega中可对指定范围的序列位点进行分析。虽然经过比对和剪切后的序列通常都可全长用于分析，但对于蛋白质编码基因序列来说，序列的第一位并非总是密码子的第一位，此时要通过该设置指定密码子是从序列的第几位开始（要先通过spin翻译确定），否则软件会将序列的第一位默认为密码子的第一位。具体的操作是：点击“datasetup/select genes & domains”（在主窗口和数据管理窗口均可进行此设置），在弹出的“genes/domain organization”小窗口中进行设置；“from”选项用于设置分析的起始位点，“to”用于设置分析的终止位点（设置完成后会在#site项显示出选定范围内的位点总数），“codon start”用于设置密码子（开放阅读框）从序列的第几位碱基开始读起（如密码子从序列的第一位碱基开始读则设置为“1st site”，依此类推），“codi”用于选择是否启动蛋白质翻译功能，该项未选时（如右图）mega将无法将蛋白质编码基因序列翻译成蛋白质序列，数据管理窗口中的按钮将呈灰色显示而失去功能。（2）分类单元的分组及选择mega可对数据集中指定的分类单元进行分析。为了使选择更加方便，通常可对数据的分类单元进行分组（groups），分组的具体操作是：点击“datasetup/select taxa & groups”（在主窗口和数据管理窗口均可进行此设置），在弹出来的“setup/select taxa & groups”小窗口中根据分析需要对分类单元进行分组，选择需要分析的数据组，点击右下角的“close”按钮关闭小窗口，即可对选定的组进行相关分析。（3）已分组数据的保存为了保存已经指定的数据分组，在关闭活动数据文件（active data file；在主窗口中用“fileclose dataalt+f5”关闭文件或直接关闭mega软件）前必须将数据输出另存，否则分组信息不会直接保存在原始序列文件中。注意，在保存数据时必须确认数据中的所有分类单元都被选定（即在“setup/select taxa & groups”小窗口左边的“taxa/groups”框中选定“all”选项），否则输出的数据文件中将只能保存分析时选定的数据部分。3. 成对序列遗传距离计算点击“distancecompute pairwise f7”菜单命令，弹出分析选择（analasys preference）窗口（也可称为参数设置窗口），可通过点击各选项右边的下拉菜单（pull-down menu）完成设置。各种参数的设置方法如下：“compute”参数设置：该设置有两个选项，选择“distances only”时只计算遗传距离；选择“distances & std. err.”时在计算遗传距离的同时还计算标准误差，此时会增加一项设置误差计算参数的选项，可以调节。一般选择“distances only”即可。“include sites”参数设置：该设置包括“gaps/missing data”和“codon positions”两项。“gaps/missing data”用来设置空位处理原则：若选“complete deletion”则在计算遗传距离时凡有任一序列具空位的位点都不予计算；若选“parwise deletion”则在计算两条序列的遗传距离时仅不计算两条序列中的任一条具空位的位点，对于两条序列都不具空位的位点，即使数据集中的其它序列存在空位，也不删除；一般情况下都选“parwise deletion”。“codon positions”用来设置计算遗传距离时使用的密码子位点，可以根据需要选择使用密码子中的任意一位或几位或全部位点来计算遗传距离；通常可考虑用不同位点分别计算并进行对比。“substitution model”参数设置：该设置包括“model”和“substitutions to include”两项。“model”选项用来选择计算遗传距离时使用的计算模型：点击“model”选项右边的图标，在下拉菜单（pull-down menu） “nucleotide距离模型，如p-distance、kimura 2-parameter等” 中选择合适的计算遗传距离的模型（理论上应先用modeltest检验各种模型，然后选择最适模型进行计算，但在通常情况下选择较简单的模型即可，如p-distance、k2p模型等；“number of differences”是一种根据序列间不同碱基的数量来计算遗传距离的模型，选用此模型时则“gaps/missing data”选项应设置为“complete deletion”）。“substitutions to include”用来选择计算遗传距离时使用的碱基替换信息：“d: transitions+transversions”表示同时利用转换和颠换值来计算遗传距离，“s: transitions only”表示仅用转换值来计算遗传距离，“v: transversions only”表示仅用颠换值来计算遗传距离，“r=s/v”表示用转换颠换比值来计算遗传距离（“l: no. of valid common sites”表示用普通有效位点来计算遗传距离？）。所有参数设置完成后点击窗口右下方的即开始计算，结果将在新窗口中显示（该窗口最小化隐藏后可从主窗口上方的“windows”菜单中恢复），将结果另存备用即可。* 利用窗口上方的快捷图标（shortcuts）可选择显示格式和保存格式，如点击图标可使遗传距离值显示在左下方（lower left），点击图标可使使遗传距离值显示在右上方（upper right），利用图标可减少（decrease）或增加（increase）小数（decimal）的位数，点击图标将以文本格式输出计算结果，点击图标将以excel格式输出计算结果。点击任何一个输出格式选择图标都会弹出遗传距离输出选择窗口（distance write-out options），点击的图标代表的格式为该窗口中的默认输出格式，若想改变输出格式，可点击该窗口中output format选项框右边的按钮，在下拉菜单中选择其它输出格式。4. 序列总体平均遗传距离：点击“distancecompute overall mean”菜单命令，在弹出的分析选择（analasys preference）窗口（也可称为参数设置窗口）中设置各种参数，点击窗口右下方的，保存计算结果备用。5. 替换饱和性分析（重要）（1）计算序列的校正遗传距离：在进行“成对序列遗传距离计算”时将“substitution model”参数设置中的“model”选项设置为kimura 2-parameter（也可根据需要选用其它模型，但后面的颠转换、颠换遗传距离计算也要选用同一模型），“substitutions to include”选项设置为 “d: transitions+transversions”，计算所得的遗传距离作为替换饱和性分析的校正距离，以 “*.xls”格式保存备用（输出时mega会自动将对角矩阵转换成一列数据）。（2）计算序列的转换遗传距离：在进行“成对序列遗传距离计算”时将“substitution model”参数设置中的“model”选项设置为kimura 2-parameter（一定要与计算校正距离时选用的模型相同），“substitutions to include”选项设置为 “s: transitions only”，计算所得的遗传距离即为替换饱和性分析的转换距离，以 “*.xls”格式保存备用。（3）计算序列的颠换遗传距离：在进行“成对序列遗传距离计算”时将“substitution model”参数设置中的“model”选项设置为kimura 2-parameter（一定要与计算校正距离时选用的模型相同），“substitutions to include”选项设置为 “v: transversions only”，计算所得的遗传距离即为替换饱和性分析的颠换距离，以“*.xls”格式保存备用。注意：以上分析可选择不同的模型进行比较，看结果是否有差异。（4）excel作图，用直观坐标图显示替换饱和性状态。导入数据：将上述三种遗传距离导入同一个excel文件中，按相同的顺序排成三列，列与列之间不要留下空白列，每一列数据的标识符号（名称）放在该列的顶端（第一行），校正距离放在第一列（因为excel作图时一般将第一列默认为横坐标）。作图：选定三列数据，点击主菜单中的“插入图表”，在弹出的“图表向导-图表类型”窗口中选择“标准类型”中的“xy散点图”（在进行其它数据分析时可根据需要选择其它图表类型，包括“自定义”类型），点击“下一步”；在“图表源数据”窗口中点击“下一步”；在“图表选项”窗口中设置需要在图表中显示的各种选项：在“标题”标签中可设置“图表标题”、“数值（x）轴（a）”标题、“数值（y）轴（v）”标题，在“坐标轴”标签中可设置“显示/隐藏坐标轴上的数值”，在“网格线”标签中可设置“显示/隐藏网格线”，在“图例”标签中可设置“显示/隐藏图例”以及图例与图表的相对位置（包括“底部、右上角、靠上、靠右、靠左”等选项），在“数据标志”标签中可设置“数据标签”（该项设置只有在数据较少时为了方便识别数据才选用，一般情况下均不予选择），点击“下一步”；在“图表位置”窗口选择图表插入的具体位置，一般选择默认选项“作为其中的对象插入（o）”，点击完成，即会在excel表中插入一个生成的图表；该图表可直接复制插入到word文档中使用，也可在photoshop软件中转换成独立的“*.jpg”文件保存备用，需要时再插入word文档中。注意：该项分析也可在其它一些软件中进行。如dambe，但可供选用的模型在不同软件中有所不同；选择不同密码子的方法是：点击命令“sequenceswork on codon position 1/2/3/1+2”,用“sequencesrestore sequences”命令可恢复全序列进行分析；碱基替换饱和性分析的方法是：打开序列数据点击命令“graphicstransition and transversion versus divergence”，在弹出来的小窗口中选择参数设置，点击“go”按钮，分析结果将显示在一个新的“graph tool”窗口中。图形文件的输出：在“graph tool”窗口中点击“filesave file in metafile format”即可将分析结果保存为“*.wmf”格式的图形文件；若选择“filesave file in bitmap format”，则保存为“*.bmp”格式的图形文件，文件较小，但分辨率较低，不能满足发表论文的需要。要编辑坐标轴则点击“graphic”菜单进行选择。若要将分析结果以遗传距离的形式保存，则在“graph tool”窗口中点击“editcopy data to excel”，然后创建一个“*.xls”文档，将数据粘贴到新建的“*.xls”文档中即可。使用dambe进行碱基替换饱和性分析的优点是可以直接输出图形文件，对大型数据矩阵特别方便，缺点是以excel格式输出遗传距离值时没有同时输出物种对名称；若要将遗传距离与物种对对应起来，需要使用其它命令或方法。dna序列组成及变异分析* 这些分析通常可以在mega软件中进行，也可以在其它相关软件中实现，如dambe等。用mega进行数据分析时，输入的数据必须是“*.meg”格式文件，否则不能识别，所以在分析数据前要先将其它格式文件转换成“*.meg”格式文件。mega可以将多种格式的序列文件（*.fasta、*.aln、*.nexus、*.phylip、*.phylip2、*.gcg、*.pir、*.nbrf、*.msf、*.ig和*.xml格式）转换成“*.meg”格式，不论其是否已经比对好。所以，用mega转换序列数据格式之前要先将序列比对好并删除引物序列。许多人通常喜欢将比对整理好的序列保存为“*.fasta”格式，因为这种格式更加通用，而且其它格式的文件均可由此格式通过一定的软件或批处理文件转换生成。* mega（molecular evolutionary genetics analysis; /）是一个不断更新的软件，如果启动该软件时出现“the current test version of mega may be out of date (release #4104). we recommend that you obtain an updated version from or ”, 可考虑重新下载新版本安装，也可点击“ok”后忽略。一、转换文件格式1. 运行mega 4.1。2. 导入数据。点击mega 4.1主窗口左上角工具栏中的“text editor and format convertor”图标（或点击“filetext editor.f3”），在弹出来的“text file editor and format convertor”窗口中点击“fileopen”或直接点击窗口左上角工具栏中的“open a file （ctrl+0）”图标，选择并打开需要转换的序列文件。* “text editor and format convertor”窗口最小化隐藏后可点击mega主窗口中的“text editor and format convertor”图标和随之显示在主窗口左下角的该窗口的最小化图标来恢复，也可点击主窗口中的“filetext editor f3”菜单命令，然后点击显示在主窗口左下角的该窗口的最小化图标来恢复。在用mega的数据处理窗口“view sequence data”进行统计分析时，若选择了“statisticdisplay results in text editor”设置，即在“text editor and format convertor”窗口中显示结果，窗口最小化隐藏后又需要重新使用时也是用同样的方法来激活恢复。text editor and format convertor图标3. 点击“text file editor and format convertor”窗口左上角工具栏中的“convert to mega format （contrl+m）”图标或使用菜单命令“utilitiesconvert to mega format contrl+m”，在弹出来的“select file and format”小窗口中点击“ok”即可完成文件转换。* 一步转换的方法是：在mega 4.1主窗口中点击“fileconvert to mega format”，在弹出来的“select file and format”小窗口中点击“data file to convert”选项栏右侧的“open”图标，然后在弹出来的“choose a file to convert”窗口中选择需要转换的序列文件，点击“打开”按钮，再点击“select file and format”小窗口中的“ok”按钮即完成文件格式转化。4. 检查文件内容，删除多余的符号如“#”和“*”等（这些多余信息通常出现在文件末尾，若不检查删除，mega可能在导入文件时无法识别，从而出错），将文件保存到指定的文件夹，关闭文件转化窗口。另外，序列名称或编号中也不能出现“？、-、*和#”等符号，否则可能导致出现“序列长度不相等”之类的错误警报。* 若在转化文件格式时确实忘记了检查删除多余信息而导致分析数据时打不开“*.meg”格式的文件，可用下述方法重新检查：在主窗口中点击“filetext editor f3”打开“text file editor and format convertor”窗口，点击工具栏中的快捷图标（open a file （ctrl+0）打开序列文件，检查数据并删除多余的干扰信息，保存并退出该窗口即可重新导入数据进行后面的分析。* 如果要省去文件格式转换的麻烦，在序列数目较少时可直接将“*.fasta”格式文件导入mega进行比对，然后以“*.meg”格式保存即可；具体操作见“用mega软件比对序列”。因这样做并没有使整个操作步骤简化多少，还要重新比对序列（而大多数人更习惯在clastal软件中比对序列），所以通常没有必要采用这种方法来转换文件格式。二、dna序列的碱基组成及变异分析1. 导入数据在mega主窗口中点击“fileopen data f5”，打开待分析序列的“.meg”文件；在弹出来的“input data”小窗口中选择“data type”，如“nucleotide sequence”、“protein sequences”、“pairwise distance”等，点击“ok”按钮；在弹出来的（popped up）“confirm”小窗口中出现提问“protein-coding nucleotide sequence data?”，若为蛋白质编码序列则点击“yes”，若为非蛋白质编码序列则点击“no”按钮；在弹出来的“select genetic code”小窗口中选择“invertebrate mitochondial”，点击“ok”按钮，即出现“view sequence data”窗口（数据处理窗口）；该窗口最小化后可点击mega主窗口左上角工具栏中的“explore active data（f4）”图标来恢复，也可点击主窗口上方主菜单中的“datadata explorer f4”来直接恢复。* 除了上述方法（包括使用快捷键f5）外，还可点击主窗口中的链接来打开数据文件，其它操作相同。2. 计算保守位点（conserved sites）、变异位点（variable sites）、简约信息位点（parsimony-informative sites）。这些统计数值可以通过点击数据处理窗口工具栏中的相应图标来显示在窗口的最下方，也可以通过点击“highlignt”菜单命令来显示，将显示结果记录下来备用即可。例如，将鼠标选中某一个碱基，在窗口的左下角就会显示该碱基所在序列的长度及该碱基在序列中的位置（1/465表示该序列长为465pb，选中的碱基是该序列的第一位碱基；conserved: 278/465表示分析的序列长465bp，保守位点278个）；其它统计类推。* 工具栏中各快捷图标的含义分别为：保守位点conserved sitesc，变异位点variable sitesv，简约信息位点parsimony-informative sitespi，自裔位点singleton sites，0-fold degenerate sites0， 2-fold degenerate sites2，4-fold degenerate sites4。将鼠标移到相应的快捷图标上时，会短暂显示“mark conserved sites”、等字样，由此可知该图标的具体功能。* degeneracy （密码子的简并性）0-fold degenerate sites are those at which all changes are nonsynonymous. （非简并性位点）2-fold degenerate sites are those at which one out of three changes is synonymous. (all sites at which two out of three changes are synonymous also are included in this category.) （二重简并位点）4-fold degenerate sites are those at which all changes are synonymous. （四重简并位点）* singleton sites（自裔位点）a singleton site contains at least two types of nucleotides (or amino acids) with, at most, one occurring multiple times. mega identifies a site as a singleton site if at least three sequences contain unambiguous nucleotides or amino acids.* 工具栏其它快捷图标的含义及对应的菜单命令如下：对应于“dataexport data”菜单命令，可将序列比对结果以“*.meg”格式文件输出保存。点击该图标后会弹出“text file editor and format convertor”窗口，点击“save a file（ctrl+s）”图标即可将文件保存到指定的位置，文件名可自己拟定。与上面的图标功能相同。对应于“statisticsdesplay results in excel（xl）”菜单命令。对应于“statisticsdesplay results in comma-delimited（csv）”菜单命令。对应于“dataset up/select taxa & groups”菜单命令，点击该图标后会弹出“select/edit taxa groups”窗口，在该窗口中可对需要分析的分类单元进行分组或选择已划分的全部或部分组进行分析。对应于“dataset up/select genes & domains”菜单命令。对应于“displayuse identical symbol”菜单命令；该图标凸显时导入的序列全部以碱基符号显示；* 点击该图标使其凹显（）时，导入的序列将会以第一条序列为参照，凡是与第一条序列相同的碱基则以一致性符号“.”显示，不相同的碱基以碱基符号显示；输出时可根据需要选择显示形式。对应于“datatranslate/untranslate t”菜单命令，突出显示，表示序列正在以核苷酸的形式显示（如下图），点击该图标后可将核苷酸序列翻译成蛋白质序列显示出来，图标变为凹陷显示。对应于“datatranslate/untranslate t”菜单命令，凹陷显示，表示序列正在以氨基酸的形式显示，点击该图标后可将蛋白质序列恢复成核苷酸序列显示出来，图标变为凸出显示形式。对应于“displayfind sequence （ctrl+f）”菜单命令，可以查找序列。3. 计算dna序列碱基组成在“view sequence data”窗口（即数据处理窗口）中点击“satisticsdesplay results in text editor”，将统计结果设置为在“text file editor and format convertor”窗口中显示（也可以根据需要将统计结果设置为以“excel”形式或“comma-delimited format”形式显示）；点击“satisticsnucleotide composition”，软件将会在内置文本编辑器（built-in text editor）“text file editor and format convertor”窗口中显示碱基组成分析结果，保存文件备用（分析结果包括碱基总数，每种碱基的百分比，各碱基在密码子第1位、第2位、第3位的使用频率）。* “text editor and format convertor”窗口最小化隐藏后可点击mega主窗口中的“text editor and format convertor”图标和随之显示在主窗口左下角的该窗口的最小化图标来恢复，也可点击主窗口中的“filetext editor f3”菜单命令，然后点击显示在主窗口左下角的该窗口的最小化图标来恢复。4. 计算密码子使用情况：点击“satisticscodon usage”，软件将会在“text file editor and format convertor”窗口中显示密码子使用分析结果，保存文件备用（分析结果包括碱基总数，每种碱基的百分比，各碱基在密码子第1位、第2位、第3位的使用频率）。* 计算“密码子使用”情况时，必须先指定密码子在序列中的起点（第一位、第二位、第三位或其它位置），具体操作见“序列遗传距离的计算”中的“2. 指定序列数据的起始及终止位点”。5. 计算碱基对频率（nucleotide pair frequencies）点击“satisticsnucleotide pair frequencydirectional（16 pairs）或undirectional（10 pairs）”，统计结果将显示在“text editor and format convertor”窗口中，保存备用即可。* 用此菜单命令计算获得的转换/颠换比值（r）将作为后面利用paup软件进行系统发育分析时确定是否对数据进行加权的参考依据。* directional （16 pairs）是指定向的替换；undirectional（10 pairs）是指不定向的替换。6. 碱基替换模式检验用此数据处理窗口中的“statisticalnucleotide pair frequency”菜单命令计算的“转换/颠换值”是转换/颠换位点的数量比值，而用主窗口中的“pattern”菜单命令可以计算有关碱基替换模型的一些其它统计数值（statistical quantities）（1）序列间替换模式的同质性检验（test of the homogeneity of substitution patterns between sequences.）点击“patterntest substitution pattern homogeneity”菜单命令，在弹出来的分析选择（analysis preferences）窗口中设置相关选项：“gap/missing”选项一般选“pairwise deletion”，“codon positions”可根据需要选择密码子第一位、第二位、第三位或任意两位的组合或全选；设置完成后点击窗口右下角的“compute”按钮，计算结果将会在一个新窗口中显示保存结果备用。该菜单命令计算所得的数值（statistical quantities）表示：根据序列间碱基组成偏倚差异程度推断时拒绝零假说（null hypothesis，即序列以相同的替换模式进化）的概率。用monte carlo test (1000 replicates)估算p-值，p-值显示在表格的左下方（below the diagonal）；p-值小于0.05使被认为显著（

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

MEGA计算序列间遗传距离.doc

文档简介

温馨提示

最新文档

评论

MEGA计算序列间遗传距离.doc

文档简介

温馨提示

最新文档

评论

相关文档