生物信息学上机实验更新_第1页
生物信息学上机实验更新_第2页
生物信息学上机实验更新_第3页
生物信息学上机实验更新_第4页
生物信息学上机实验更新_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学上机实验更新第一页,共四十五页,编辑于2023年,星期三1,序列的数据库信息检索示例:待查询序列:CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC第二页,共四十五页,编辑于2023年,星期三问题1,这是什么基因?基因的标识符是什么?在基因组上的定位是怎样的?2,编码的蛋白质多少个氨基酸?序列标识符为?序列是?3,该蛋白没有保守的功能结构域?4,该蛋白亚细胞定位是?它的功能是怎样的?5,该蛋白在真核生物中是否保守?6,该蛋白有没有三级结构信息?第三页,共四十五页,编辑于2023年,星期三答案1.该基因为人的BIRC5基因;基因标识符:NM_001168.2;染色体定位:17号染色体,76210277..76221716;2.人的BIRC5蛋白质包含142个氨基酸,序列标识符为:NP_001159.2;序列为:MGAPTLPPAWQPFLKDHRISTFKNWPFLEGCACP…3.BIRC5具有保守的功能结构域BIR;4.BIRC5的细胞亚定位:胞质,核;其功能有:(1)在瘤形成过程中可能起一定作用;(2)阻碍G2/M期的细胞编程性凋亡;(3)Chromosomalpassengercomplex(CPC)的成员之一。等等。5.该基因在真核生物中最保守很可能是来自毛猩猩Pongoabelii的BIRC5蛋白:Q5RAH9;6.该蛋白的三级结构已知,在PDB中的标识符为1E31等。第四页,共四十五页,编辑于2023年,星期三2,多序列比对及进化树构建构建CytochromeC1家族进化树在Uniprot数据库中搜索CytochromeC1在不同物种中的氨基酸序列,下载fasta文件使用MEGA软件对结果进行分析:1)多序列比对(MSAmultiplesequencealignment)2)构建进化树第五页,共四十五页,编辑于2023年,星期三CytochromeC1家族序列获取工具网站/advancedsearchcustomize第六页,共四十五页,编辑于2023年,星期三调整结果显示格式

选择想要显示的内容,例如显示列为EntrynameOrganismSequenceProteinnames

save以蛋白名称:CytochromeC1为关键词搜索第七页,共四十五页,编辑于2023年,星期三搜索结果第八页,共四十五页,编辑于2023年,星期三编辑Fasta序列文件选择搜索结果中Entryname以“CY1_”开头的序列(选十几个物种序列,每一个种属只选一个序列,即entryname一样的只选择一个即可)点retrieve第九页,共四十五页,编辑于2023年,星期三编辑Fasta序列文件DownloadFASTA格式的文件直接下载下来的序列名称会很累赘,可以将该文件以文本形式打开,对序列名称进行编辑,让其看起来更加简洁明了第十页,共四十五页,编辑于2023年,星期三Fasta文件格式以>为开头,后接序列名称,重启一行,输入序列>CY1_BOVINMAAAAATLRGAMVGPRG…>CY1_YEASTMFSNLSKRWAQRTLSKS…>CY1_HUMANMAAAAASLRGVVLGPRG…>…第十一页,共四十五页,编辑于2023年,星期三Fasta文件要求序列名称中不含有‘=’字符氨基酸序列可以分成多行,但内部不要有空格每个序列的title仅保留蛋白/基因名称+种属来源,如:CY1_YEAST第十二页,共四十五页,编辑于2023年,星期三MEGA5软件使用打开MEGA5,拉开Align菜单,选择Edit/BuildAlignment

第十三页,共四十五页,编辑于2023年,星期三MEGA5软件使用CreatanewAlignment

选择Protein第十四页,共四十五页,编辑于2023年,星期三MEGA5软件使用在新弹出的窗口中,选择Data->Open->RetrieveSequencesfromFile,然后导入刚才保存的fasta文件第十五页,共四十五页,编辑于2023年,星期三多序列比对Ctrl+A选择全部序列,Aligment->AlignbyClustalW第十六页,共四十五页,编辑于2023年,星期三多序列比对可以修改各补偿值等参数,点OK第十七页,共四十五页,编辑于2023年,星期三多序列比对多序列比对完成Dateexportalignment,导出MEGEformat和Fastaformat两份结果,得到一个*.meg文件和一个*.fas文件第十八页,共四十五页,编辑于2023年,星期三进化树构建关闭Alignment窗口,回到MEGA软件主窗口,File->OpenAFile/Session,打开之前保存的*.meg文件第十九页,共四十五页,编辑于2023年,星期三进化树构建选择Phylogeny->Construct/TestNeighbor-JoiningTree点yes第二十页,共四十五页,编辑于2023年,星期三进化树构建&bootstrap验证点computeBootstrapmethod验证进化树,点开选择bootstrap第二十一页,共四十五页,编辑于2023年,星期三调整树的形状及树枝长度第二十二页,共四十五页,编辑于2023年,星期三去掉不可信的分支第二十三页,共四十五页,编辑于2023年,星期三第二十四页,共四十五页,编辑于2023年,星期三从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;重复上面的过程,得到多组新的序列;对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。一般Bootstrap的值>70,则认为构建的进化树较为可靠。3,(选做)Phylip使用自展法-进化树的可靠性分析BootstrapMethod第二十五页,共四十五页,编辑于2023年,星期三随机有放回的抽取原始数据的一列,直到列数和原始数据一样有放回意味着有些列被采到多次,有的列没有采到比较一致性,两种做法Phylib采用第二十六页,共四十五页,编辑于2023年,星期三Phylip软件包介绍由华盛顿大学遗传学系开发,免费的系统发育分析软件包。几乎最广泛使用的系统发生分析程序,主要包括以下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘制组。访问及免费下载地址:/phylip.html第二十七页,共四十五页,编辑于2023年,星期三第二十八页,共四十五页,编辑于2023年,星期三Phylip软件包介绍Phylip包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。Phylip软件包的文档是非常详细的,对于每个独立的程序,都有一个独立的文档,详细的介绍了该程序的使用及其说明。第二十九页,共四十五页,编辑于2023年,星期三第三十页,共四十五页,编辑于2023年,星期三第三十一页,共四十五页,编辑于2023年,星期三outfile是一个记录文件,记录了分析的过程和结果,可以直接用文本编辑器(如写字板)打开。outtree是分析结果的树文件,可以用phylip提供的绘树程序打开查看,也可以用其他的程序来打开,如treeview等。Phylip软件包的应用由于默认输出的名字是一样的,为了防止被覆盖,要把默认的输出名字改一下第三十二页,共四十五页,编辑于2023年,星期三Windows版本的phylip软件包第三十三页,共四十五页,编辑于2023年,星期三现有8段protein序列:>P1MPRFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLE>P2MPRFEANLSMMFTEVPFAERFADARKAGFDAVEFLFPYCYSDLQIQCQLE>P3WPRFEANLSMMFTEVPFAERFADARKIGFDAEEFLFPYCYSDLQIQCQLE>P4MPCFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLE>P5MPRFEANLSMEFTAVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLE>P6MPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLE>P7MPRFEANLSMEFTEVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLE>P8WPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLE示例:Phylip软件包构建进化树新建文本文件testSeq.fasta复制以下序列,注意最后是fasta格式第三十四页,共四十五页,编辑于2023年,星期三

第一步:使用CLUSTALX多序列比对,File/LoadSequenes读入testSeq.fasta,输出格式File/SaveSequenesas

为*.PHY这步的目的是完成格式转换,准备构建进化树的序列第三十五页,共四十五页,编辑于2023年,星期三PHY的格式输出的*.PHY文件:8和50分别表示8个序列和每个序列有50个氨基酸第三十六页,共四十五页,编辑于2023年,星期三

第二步:双击打开SEQBOOT,按路径输入刚才生成的*.PHY文件;设定适当参数;输出outfile文件。注意输入正确的文件地址,可以把文件拷到当前目录随机数可以使用默认值,输入Y这步的目的是用Bootstrap的方法产生多个复本第三十七页,共四十五页,编辑于2023年,星期三重命名Outfile文本文件为Outfile1,打开如下:(包括了100个replicates)第三十八页,共四十五页,编辑于2023年,星期三第三步:打开PROTPARS(最大简约法),输入Outfile1文件后如下显示:设定适当参数;运行输出outfile和treefile文件。目的是构建各个副本的进化树多组数据第三十九页,共四十五页,编辑于2023年,星期三重命名Outfile文本文件为Outfile2,重命名OutTree为OutTree2;打Outfile2开如右:(包括了100个replicates的结果)第四十页,共四十五页,编辑于2023年,星期三第四步:打开CONSENSE程序,输入outtree2,运行输出outfile和treefile文件。分别重命名为outfile3和treefile3.tre该步骤目的是综合100个复本,构建一致的进化树第四十一页,共四十五页,编辑于2023年,星期三获得的结果文件中,文本文件outfile3显示如下:outfile第四十二页,共四十五页,编辑于2023年,星期三树文件outtree3.tre用TREEVIEW软件打开显示:outtree第四十三页,共四

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论