基因组数据分析解析课件_第1页
基因组数据分析解析课件_第2页
基因组数据分析解析课件_第3页
基因组数据分析解析课件_第4页
基因组数据分析解析课件_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基因组数据注释和功能分析 通过序列比对工具BLAST学习,了解蛋白编码基因的功能注释原理介绍多序列联配工具ClustalX分子进化分析软件MEGA4的基本知识,掌握系统发生树绘制的基本方法序列比对的进化基础序列比对的目的:从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系通过判断两个序列之间的相似性来判定两者是否具有同源性相似性:直接的数量关系,如:序列之间相似部分的百分比同源性:质的判断,两个基因在进化上是否曾有共同祖先的推断BLAST基本局部比对搜索工具 (Basic Local Alignment Search Tool)NCBI 上 BLAST 服

2、务的网址:/blast/NCBI 的 BLAST 程序及数据库下载网址: ftp:/blast选择物种选择blast程序Query SequenceAmino acid SequenceDNA SequencetBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslated程序名搜索序列数据库内容备注blastpProteinProtein比较氨基酸序列与蛋白质数据库使用取代矩阵寻找较远的

3、关系,进行SEG过滤blastnNucleotideNucleotide比较核酸序列与核酸数据库寻找较高分值的匹配,对较远的关系不太适用blastxNucleotideProtein比较核酸序列理论上的六框架的所有转换结果和蛋白质数据库用于新的DNA序列和ESTs的分析,可转译搜索序列tblastnProteinNucleotide比较蛋白质序列和核酸序列数据库,动态转换为六框架结果用于寻找数据库中没有标注的编码区,可转译数据库序列tblastxNucleotideNucleotide比较核酸序列和核酸序列数据库,经过两次动态转换为六框架结果转译搜索序列与数据库序列与核酸相关的数据库与蛋白质相

4、关的数据库选择数据库序列或目标序列的GI号以文件格式上传配对与错配空位罚分PSI-BLAST:位点特异迭代 打分矩阵:PAM 30PAM 70BLOSUM80BLOSUM62BLOSUM45选择打分矩阵(scoring matrix)The PAM family Based on global alignments The PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence. Other PAM matrices are extrapolated from PAM

5、1.The BLOSUM family Based on local alignments. BLOSUM 62 is a matrix calculated from comparisons of sequences with no less than 62% divergence. All BLOSUM matrices are based on observed alignments; they are not extrapolated from comparisons of closely related proteins. 进行比对的数据库图形化结果The Expect value

6、(E) is a parameter that describes the number of hits one can expect to see just by chance when searching a database of a particular size.上机实习1:网上运行blastx和blastn(NCBI blast网址:http:/BLAST/)lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGC

7、CACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTC

8、CAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACAC

9、TCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGG

10、GTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC对contig34进行网上blastn(演示),blastx(自行操作)比对本地运行BLAST下载 (http:/blast/download.shtml )安装(安装到C:)数据库的格式化(formatdb)程序运行 (blastall) 双击安装到D盘产生三个文件夹bindatadoc将 db,in复制到Blast/bin文件夹下bin含可执行程序(将数据库及需要比对操作的数据放

11、入该文件);data文件夹含打分矩阵及演示例子的序列数据信息;doc文件夹含关于各子程序的说明文档。 数据库的格式化formatdb命令用于数据库的格式化: formatdb option1option2option3 formatdb常用参数 -i database_name 需要格式化的数据库名称 -p TF 待格式化数据库的序列类型 (核苷酸选F;蛋白质选T;默认值为T) 例:formatdb -i db -p T 对蛋白质数据库“db”进行格式化 程序运行blastall命令用于运行五个blast子程序: blastall option1option2option3 blastall常

12、用参数 四个必需参数 -p program_name, 程序名,根据数据库及搜索文件序列性质进行选择; -d database_name,数据库名称, 比对完成格式化的数据库; -i input_file, 搜索文件名称; -o output_file, BLAST结果文件名称; 2个常用参数 -e expectation,期待值,默认值为10.0,可采用科学计数法来表示,如2e-5; -F filter? 过滤低复杂性序列,默认为T,默认低复杂性序列不参加比对;例: blastall -p blastx -d db -F F -i in -o out -e 2e-5 blast部分参数:上机

13、实习2:本地运行blastx进入DOS命令行提示符状态 (“运行” cmd)进入C盘 “cd ”进入包含序列数据的bin目录下 “cd Blastbin”察看目录下内容 “dir” 格式化数据库db “formatdb i db p T”运行blastx“blastall p blastx i in d db o out”察看结果 more out.txt输入数据库类型:F/TBlast程序 序列输入 数据库 结果输出输入“cd ”-回车回到安装目录 C盘输入“cd blastbin”-回车到达blast程序下bin文件夹输入“dir”-回车察看bin文件夹下内容bin文件夹下包含以.exe为

14、后缀的程序文件以及这次实习需要用到的数据可文件“bd”和目标序列文件“in”输入“more db”-回车 察看db文件内容空格键翻页输入“q”跳出输入“formatdb i db p T ” -回车对db数据库进行格式化输入“dir ” -回车察看bin文件夹下内容格式化以后产生的文件输入“blastall p blastx i in d db o out ” -回车运行blastx程序产生的结果文件 “out”用”more out”察看结果文件EST数据注释小结:一、注释评价相同物种中有高度相似的序列其它物种有高度相似的序列其它物种有中度相似的序列其它物种相似度低的序列含有某些结构域或者基序

15、(motif)二、程序选择 序列信息BLASTFASTA(http:/www.ebi.ac.uk/fasta/)较高敏感度,但速度较慢(可通过ktup值调节)BLITZ(http:/www.ebi.ac.uk/searches/blitz.html)更为灵敏,所需时间更长三、低复杂度区域(LCRs)低复杂度区域过滤将该类区域转化为不明确字符(蛋白质用X,核酸用N)多序列比对的目的从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。分子钟不同生物系统的同一血红蛋白分子的氨基酸随着时间的推移而以几乎一定的比例相互量换着

16、(Zuckerkandl&Pauling,1962 )蛋白质,基因序列在单位时间以大致恒定的速度进行置换 直系同源(orthologs): 同源的基因是由于共同的祖先基因进化而产生的.旁系同源(paralogs): 同源的基因是由于基因复制产生的.用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。paralogsorthologs多序列比对的应用:系统发育分析(phylogenetic analysis)结构预测(structure prediction)序列基序鉴定(sequence motif identification)功能预测(function prediction)C

17、lustalW/ClustalX:一种全局的多序列比对程序,可以用来绘制亲缘树,分析进化关系。 MEGA4 ClustalW的运行 本地运行命令行操作的ClustalX(linux) 窗口化操作的ClustalX(windows)下载页面:(http:/www.ebi.ac.uk/clustalw)网上运行 (http:/www.ebi.ac.uk/clustalw) 目标序列各种参数设定下载ClustalXJalview结果下载上机实习2:本地运行ClastalX17-RNASE1.fasta多序列比对 (Multiple Alignment)构建进化树 (Bootstrap N-J)在C:

18、zcnishiyan1clustalx1.83文件夹下,找到clustalx.exe双击打开Clustalx窗口点击File下拉菜单中Load sequences选项,打开序列文件17-RNASE1.fasta.txt打开后的界面可在Alignment下拉菜单中的Alignment Parameters中设定各个参数点击Alignment下拉菜单中的Do Complete Alignment 进行比对比对结果 * : 和空格依次代表改为点的序列一致性由高到低 选择Trees下拉菜单中的Draw N-J Tree构建进化树,并且保存在C:zcnishiyan1clustalx1.83文件夹下,找

19、到njplotWIN95.exe双击打开用于打开进化树文件在njplotWIN95中打开刚才构建的进化树(文件后缀为.ph)在ClustalX中采用Bootstrap检验进化树Bootstrap重复值至少为100(默认设置为1000)在njplotWIN95中打开进化树(文件后缀为.phb)点击Bootstrap Value前的方框在各节点前显示该点所通过Bootstrap检验的次数MEGA4一个关于序列分析及比较统计的工具包包含距离建树,MP等建树法自动或手动进行序列比对;推断进化树;估算分子进化率,进行进化假设测验;联机进行数据库搜索;联机BLAST输入序列号:NM_198232 选择数据

20、库(Nucleotide collection) 选择符合要求的序列:19386966932095761938696819386946提取所选序列以genbank格式显示点击Add to Alignment自动跳出序列窗口进行ClustalW比对DataExport AlignmentMEGA format命名为17RNASE.meg,保存到目录C:zcnishixi1更改参数设定为:差异位点百分数(p-distance) 显示两两序列间距离 进行分子钟检验(Molecular Clock Test) 选择外类群(Outgroup):H. sapiens RNASE1A和B序列M. mulat

21、ta RNASE1P. nemaeus RNASE1采用默认设置 MEGA4可以识别fasta格式文件将17-RNASE1.fasta.txt重命名为17-RNASE1.fasta编辑 标注保守区域 标注不匹配的区域选择打开方式为MEGA4,打开17-RNASE1.fasta,自动跳出序列窗口在MEGA4主窗口构建进化树选择Bootstrap重复次数,至少为100次进化树的可靠性分析Bootstrap Method从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列重复上面的过程,得到多组新的序列对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性至少进行

22、100次重复取样原始数据多序列比对结果对序列中每个位置重复抽样,基于原比对结果生成多个样本Oringinal treeBootstrap consensus tree节点上的值为通过 Bootstrap检验的次数选择模型为P-distance不同树型Tree:树型选择Branch:分支信息修改Label:分支名称修改Scale:标尺设定Cutoff:cut off 值 软件网址说明ClustalXhttp:/bips.u-strasbg.fr/fr/Documentation/ClustalX/图形化的多序列比对工具ClustalWhttp:/www.cf.ac.uk/biosi/research/biosoft/Downloads/clustalw.html命令行格式的多序列比对工具GeneDochttp:/biomed/genedoc/多序列比对结果的美化工具BioEdithttp:/BioEdit/bioedit.html序列分析的综合工具MEGAhttp:/图形化、集成的进化分析工具,不包括MLPAUPhttp:/商业软件,集成的进化分析工具PHYLIPhttp:/phyli

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论