版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基因组数据注释和功能分析陈启昀陈 辰丁文超 张增明 浙江加州国际纳米技术研究院(ZCNI)实习一基因组数据注释和功能分析实习二核苷酸序列分析实习三芯片的基本数据处理和分析实习四蛋白质结构与功能分析实习五蛋白质组学数据分析实习六系统生物学软件实习课程内容基因组学转录物组学蛋白质组学系统生物学通过序列比对工具BLAST学习,了解蛋白编码基因的功能注释原理介绍多序列联配工具ClustalX分子进化分析软件MEGA4的基本知识,掌握系统发生树绘制的基本方法课程提纲序列比对的进化基础什么是序列比对:将两个或多个序列按照最佳匹配方式排列在一起。对应的相同或相似的符号排列在同一列上。错配与突变相应,空位与插
2、入或缺失对应。序列比对的目的:从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系通过判断两个序列之间的相似性来判定两者是否具有同源性相似性:可以被数量化,如:序列之间相似部分的百分比同源性:质的判断,两个基因在进化上是否曾有共同祖先的推断BLAST基本局部比对搜索工具(Basic Local Alignment Search Tool)NCBI上BLAST服务的网址:/blast/NCBI上BLAST程序的下载:/blast/executables/release/NCBI的BLAST数据库下载网址:/blast/db/选择物种选择blast程序Query
3、SequenceAminoacidSequenceDNASequencetBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslatedTranslated程序名搜索序列数据库内容备注blastpProteinProtein比较氨基酸序列与蛋白质数据库使用取代矩阵寻找较远的关系,进行SEG过滤blastnNucleotideNucleotide比较核酸序列与核酸数据库寻找较高分值的匹配,对
4、较远的关系不太适用blastxNucleotideProtein比较核酸序列理论上的六个读码框的所有转换结果和蛋白质数据库用于新的DNA序列和ESTs的分析,可转译搜索序列tblastnProteinNucleotide比较蛋白质序列和核酸序列数据库,动态转换为六个读码框的结果用于寻找数据库中没有标注的编码区,可转译数据库序列tblastxNucleotideNucleotide比较核酸序列和核酸序列数据库,经过两次动态转换为六个读码框的结果转译搜索序列与数据库序列以Blastx为例:目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AA
5、T CTG CTT TAT ACC CGC6个读码框翻译5端到3端第一位起始:ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC第二位起始: TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC第三位起始: GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C3端到5端第一位起始:GCG GGT ATA AAG CAG ATT GG
6、T CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT第二位起始: CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT第三位起始: GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T与核酸相关的数据库与蛋白质相关的数据库选择数据库序列或目标序列的GI号以文件格式上传BlastN配对与错配空位罚分BlastP打分矩阵:PAM30PAM70BLOSUM80BLOSUM62BLOSUM45
7、PAM模型可用于寻找蛋白质的进化起源,而BLOSUM模型则用于发现蛋白质的保守域。选择打分矩阵(scoring matrix)The PAM familyBased on global alignmentsThe PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence.Other PAM matrices are extrapolated from PAM1.The BLOSUM familyBased on local alignments.BLOSUM62 is
8、a matrix calculated from comparison s of sequences with no less than 62% divergence.All BLOSUM matrices are based on observed alignments ;they are not extrapolated from comparisons of closely related proteins.进行比对的数据库图形化结果E值(E-value)表示仅仅因为随机性造成获得这一 比对结果的可能性。这一数值越接近零,发生这一事件的可能性越小。 上机实习1:网上运行blastx和bl
9、astn(NCBIblast网址:/BLAST/)lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTG
10、ATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGA
11、AGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGC
12、TGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC对contig34进行网上blastn(演示),blastx(自行操作)比对本地运行BLAST下载NCBI上b
13、last程序:/blast/executables/release/安装(安装到C:)数据库的格式化(formatdb)程序运行(blastall)登陆NCBI的FTP下载blast程序双击安装到C盘产生三个文件夹bindatadoc将数据库文件(db)及目标序列文件(in)保存在Blast/bin文件夹下bin含可执行程序(将数据库及需要比对操作的数据放入该文件);data文件夹含打分矩阵及演示例子的序列数据信息;doc文件夹含关于各子程序的说明文档。本地数据库的构建查看db文件由fasta格式的序列组成数据库的格式化formatdb命令用于数据库的格式化:formatdb option1
14、option2 option3formatdb常用参数-i database_name 需要格式化的数据库名称-p TF 待格式化数据库的序列类型(核苷酸选F;蛋白质选T;默认值为T)例:formatdb -i db -p T对蛋白质数据库“db”进行格式化程序运行blastall命令用于运行五个blast子程序:blastall option1 option2 option3*可在dos下输入blastall查看各个参数的意义及使用blastall常用参数四个必需参数-p program_name,程序名,根据数据库及搜索文件序列性质进行选择;-d database_name,数据库名称,比
15、对完成格式化的数据库;-i input_file,搜索文件名称;-o output_file,BLAST结果文件名称;两个常用参数-e expectation,期待值,默认值为10.0,可采用科学计数法来表示,如2e-5;-m alignment view options:比对显示选项,其具体的说明可以用以下的比对实例说明例:blastall -p blastx -d db -i in -o out -e 2e-5 -m 9 (表格显示比对结果)采用blastx程序,将in中的序列到数据库bd中进行比对,结果以表格形式输入到out文件上机实习2:本地运行blastx进入DOS命令行提示符状态(
16、“运行”cmd)进入C盘“cd”进入包含序列数据的bin目录下“cd blastbin”察看目录下内容“dir”格式化数据库db“formatdb -i db -p T”运行blastx “blastall -p blastx -i in -d db -o out -e 2e-5 -m 9 ”察看结果“more out ”或在 windows下双击打开输入数据库类型:F/TBlast程序 序列输入 数据库 结果输出输入“cd”-回车回到安装目录C盘输入“cd blastbin”-回车到达blast程序下bin文件夹输入“dir”-回车察看bin文件夹下内容bin文件夹下包含以.exe为后缀的程
17、序文件以及这次实习需要用到的数据可文件“bd”和目标序列文件“in”输入“more db”-回车察看db文件内容空格键翻页输入“q”跳出输入“formatdb -i db -p T”-回车对db数据库进行格式化输入“dir”-回车察看bin文件夹下内容格式化以后产生的文件输入“blastall -p blastx -i in -d db -o out -e 2e-5 -m 9”-回车运行blastx程序产生的结果文件“out”用”more out”察看结果文件不使用-m参数时比对结果显示序列两两比对用”more out”察看结果文件多序列比对的目的从物种的一些分子特性出发,从而了解物种之间的生
18、物系统发生的关系。通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。多序列比对的应用:系统发育分析(phylogenetic analysis)结构预测(structure prediction)序列基序鉴定(sequence motif identification)功能预测(function prediction)ClustalW/ClustalX:一种全局的多序列比对程序,可以用来绘制亲缘树,分析进化关系。MEGA4ClustalW/X的运行本地运行命令行操作的Clustal W(linux & windows) 窗口化操作的ClustalX(windows)下载页面:f
19、tp:/ftp.ebi.ac.uk/pub/software/ 欧洲生物学中心(EBI)还提供了Clustal W的网上运行服务(http:/www.ebi.ac.uk/clustalw)目标序列各种参数设定下载ClustalXJalview结果下载点击Start Jalview打开java程序窗口上机实习3:本地运行ClustalX17-RNASE1.fasta多序列比对(Multiple Alignment)在C:zcni实习1Clustalx2文件夹下,找到clustalx.exe双击打开ClustalX窗口点击File下拉菜单中Load sequences选项,打开序列文件17-RNA
20、SE1.fasta.txt打开后的界面点击进行多序列比对可在Alignment下拉菜单中的Alignment Parameters中设定各个参数点击Alignment下拉菜单中的Do Complete Alignment进行比对比对结果“*”、“:”、“.” 和空格依次代表改位点的序列一致性由高到低MEGA4一个关于序列分析及比较统计的工具包包含距离建树,MP等建树法自动或手动进行序列比对;推断进化树;估算分子进化率,进行进化假设测验;联机进行数据库搜索;MEGA4可以识别fasta格式文件将17-RNASE1.fasta.txt重命名为17-RNASE1.fasta选择打开方式为MEGA4,
21、打开17-RNASE1.fasta,自动跳出序列窗口用ClustalW做多序列联配ClustalW参数设置以.meg格式保存结果回到MEGA主窗口激活所保存的文件(.meg)编辑标注 保守区域标注 不匹配的区域回到MEGA4主窗口构建进化树已被激活的文件选择Bootstrap重复次数,至少为100次四种系统进化树构建方法分化程度较大的远缘序列: 邻位相连法(neighbor-joining,NJ) 最小进化法(ME)分化程度较小的近缘序列: 最大简约法(MP) 除权配对法(UPGMA)进化树的可靠性分析BootstrapMethod从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列
22、序列重复上面的过程,得到多组新的序列对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性至少进行100次重复取样原始数据多序列比对结果对序列中每个位置重复抽样,基于原比对结果生成多个样本Original treeBootstrap consensus tree节点上的值为通过Bootstrap检验的次数不同树型Tree:树型选择Branch:分支信息修改Label:分支名称修改Scale:标尺设定Cutoff:cutoff值软件网址说明ClustalXhttp:/bips.u-strasbg.fr/fr/Documentation/ClustalX/图形化的多序列比对工具ClustalWhttp:/www.cf.ac.uk/biosi/research/biosoft/Downloads/clustalw.html命令行格式的多序列比对工具GeneDoc/biomed/genedoc/多序列比对结果的美化工具BioEdit/BioEdit/bioedit.html序列分析的综合工具MEGA/图形化、集成的进化分析工具,不包括MLPAUP/商业软件,集成的进化分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度照明工程设计、施工与监理一体化合同2篇
- 2024年淄博职业学院高职单招语文历年参考题库含答案解析
- 解三角形复习
- 二零二五年度艺术展览LOGO设计及文化传播协议2篇
- 2024年阳泉市第一人民医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 2024年江西婺源茶业职业学院高职单招语文历年参考题库含答案解析
- 2024年江苏护理职业学院高职单招职业技能测验历年参考题库(频考版)含答案解析
- 二零二五年度财务顾问与创业投资机构合作合同模板3篇
- 2024年杭州万向职业技术学院高职单招职业适应性测试历年参考题库含答案解析
- 2024年揭阳职业技术学院高职单招职业技能测验历年参考题库(频考版)含答案解析
- 十二经脉循行原文背诵
- 身份证地区对应码表
- 高一家长会课件ppt
- 牙龈癌护理查房课件
- (完整版)铝矾土进口合同中英文
- 新生儿脑病亚低温疗法的护理研究
- 《庖丁解牛》获奖课件(省级公开课一等奖)-完美版PPT
- 2023年高考语文(新高考2卷)作文讲评+备考建议+范文+素材
- 化工园区危险品运输车辆停车场建设标准
- 码头装卸作业风险辨识表
- C#入门经典(第4版)
评论
0/150
提交评论