生物信息学上机实验2019-更新ppt课件_第1页
生物信息学上机实验2019-更新ppt课件_第2页
生物信息学上机实验2019-更新ppt课件_第3页
生物信息学上机实验2019-更新ppt课件_第4页
生物信息学上机实验2019-更新ppt课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学上机练习,生物序列的信息检索 多序列比对及进化树的构建 (选做) Phylip使用,1,序列的数据库信息检索示例,待查询序列: CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTT

2、GCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC,问题,1,这是什么基因?基因的标识符是什么?在基因组上的定位是怎样的? 2,编码的蛋白质多少个氨基酸?序列标识符为?序列是? 3,该蛋白没有保守的功能结构域 ? 4,该蛋白亚细胞定位是?它的功能是怎样的? 5,该蛋白在真

3、核生物中是否保守? 6,该蛋白有没有三级结构信息,答案 1. 该基因为人的BIRC5基因;基因标识符:NM_001168.2;染色体定位:17号染色体,76210277.76221716; 2. 人的BIRC5蛋白质包含142个氨基酸,序列标识符为:NP_001159.2; 序列为:MGAPTLPPAWQPFLKDHRISTFKNWPFLEGCACP 3. BIRC5具有保守的功能结构域BIR; 4. BIRC5的细胞亚定位:胞质,核;其功能有: (1) 在瘤形成过程中可能起一定作用; (2) 阻碍G2/M期的细胞编程性凋亡; (3) Chromosomal passenger complex

4、 (CPC)的成员之一。等等。 5. 该基因在真核生物中最保守很可能是来自毛猩猩Pongo abelii的BIRC5蛋白:Q5RAH9; 6. 该蛋白的三级结构已知,在PDB中的标识符为1E31等,2,多序列比对及进化树构建,构建Cytochrome C1家族进化树 在Uniprot数据库中搜索Cytochrome C1在不同物种中的氨基酸序列,下载fasta文件 使用MEGA软件对结果进行分析: 1)多序列比对(MSA multiple sequence alignment) 2)构建进化树,Cytochrome C1家族序列获取,工具网站 / advanced sea

5、rch customize,调整结果显示格式,选择想要显示的内容,例如显示列为 Entry name Organism Sequence Protein names save 以蛋白名称:Cytochrome C1为关键词搜索,搜索结果,编辑Fasta序列文件,选择搜索结果中Entry name 以“CY1_”开头的序列(选十几个物种序列,每一个种属只选一个序列,即entry name一样的只选择一个即可) 点retrieve,编辑Fasta序列文件,Download FASTA格式的文件 直接下载下来的序列名称会很累赘,可以将该文件以文本形式打开,对序列名称进行编辑,让其看起来更加简洁明了,

6、Fasta文件格式,以为开头,后接序列名称,重启一行,输入序列 CY1_BOVIN MAAAAATLRGAMVGPRG CY1_YEAST MFSNLSKRWAQRTLSKS CY1_HUMAN MAAAAASLRGVVLGPRG,Fasta文件要求,序列名称中不含有 = 字符 氨基酸序列可以分成多行,但内部不要有空格 每个序列的title仅保留蛋白/基因名称+种属来源,如:CY1_YEAST,MEGA 5软件使用,打开MEGA 5,拉开Align菜单,选择Edit/Build Alignment,MEGA 5软件使用,Creat a new Alignment 选择Protein,MEGA

7、5软件使用,在新弹出的窗口中,选择Data-Open-Retrieve Sequences from File,然后导入刚才保存的fasta文件,多序列比对,Ctrl+A选择全部序列,Aligment-Align by ClustalW,多序列比对,可以修改各补偿值等参数,点OK,多序列比对,多序列比对完成 Dateexport alignment, 导出MEGE format和 Fasta format两份结果, 得到一个*.meg文件 和一个*.fas文件,进化树构建,关闭Alignment窗口,回到MEGA软件主窗口,File - Open A File/Session,打开之前保存的*

8、.meg文件,进化树构建,选择Phylogeny-Construct/Test Neighbor-Joining Tree 点yes,进化树构建& bootstrap 验证,点compute,Bootstrap method 验证进化树,点开选择 bootstrap,调整树的形状及树枝长度,去掉不可信的分支,从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列; 重复上面的过程,得到多组新的序列; 对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。 一般Bootstrap的值70,则认为构建的进化树较为可靠,3,(选做) Phylip使用 自展法- 进

9、化树的可靠性分析 Bootstrap Method,随机有放回的抽取原始数据的一列,直到列数和原始数据一样,有放回意味着有些列被采到多次,有的列没有采到,比较一致性,两种做法,Phylib采用,Phylip软件包介绍,由华盛顿大学遗传学系开发,免费的系统发育分析软件包。 几乎最广泛使用的系统发生分析程序,主要包括以下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘制组。 访问及免费下载地址:/phylip.html,Phylip软件包介绍,Phylip包含了35个独立的程序,这些独立的程序都实现特定的功能,这

10、些程序基本上包括了系统发生分析的所有方面。 多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。 Phylip软件包的文档是非常详细的,对于每个独立的程序,都有一个独立的文档,详细的介绍了该程序的使用及其说明,outfile是一个记录文件,记录了分析的过程和结果,可以直接用文本编辑器(如写字板)打开。 outtree是分析结果的树文件,可以用phylip提供的绘树程序打开查看,也可以用其他的程序来打开,如treeview等,Phylip软件包的应用,由于默认输出的名字是一样的,为了防止被覆盖,要把默认的输出名字改一下,Windows 版本

11、的phylip软件包,现有8段protein序列: P1 MPRFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLE P2 MPRFEANLSMMFTEVPFAERFADARKAGFDAVEFLFPYCYSDLQIQCQLE P3 WPRFEANLSMMFTEVPFAERFADARKIGFDAEEFLFPYCYSDLQIQCQLE P4 MPCFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLE P5 MPRFEANLSMEFTAVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLE P6 M

12、PRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLE P7 MPRFEANLSMEFTEVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLE P8 WPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLE,示例:Phylip软件包构建进化树,新建文本文件 testSeq.fasta 复制以下序列,注意最后是fasta格式,第一步:使用CLUSTALX多序列比对, File/Load Sequenes读入testSeq.fasta,输出格式File/Save Sequenes as 为*

13、.PHY,这步的目的是完成格式转换,准备构建进化树的序列,PHY的格式,输出的*.PHY文件: 8和50分别表示8个序列和每个序列有50个氨基酸,第二步:双击打开SEQBOOT ,按路径输入刚才生成的 *.PHY文件;设定适当参数;输出outfile文件,注意输入正确的文件地址,可以把文件拷到当前目录,随机数,可以使用默认值,输入Y,这步的目的是用Bootstrap的方法产生多个复本,重命名Outfile文本文件为Outfile1,打开如下: (包括了100个replicates,第三步:打开PROTPARS(最大简约法),输入Outfile1文件后如下显示: 设定适当参数;运行输出outfile和treefile文件,目的是构建各个副本的进化树,多组数据,重命名Outfile文本文件为Outfile2,重命名OutTree为OutTree2;打Outfile2开如右: (包括了100个replicates的结果,第四步:打开CONSENSE程序,输入outtree2,运行输出outfile和treefile文件。分别重命名为outfile3和treefile3.tre,该步骤目的是综合100个复本,构建一致的进化树,获得的结果文件中,文本文件outfile3显示如下,outfile,树文件outtree3.tre用TR

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论