序列搜索,比对以及进化树的构建_第1页
序列搜索,比对以及进化树的构建_第2页
序列搜索,比对以及进化树的构建_第3页
序列搜索,比对以及进化树的构建_第4页
序列搜索,比对以及进化树的构建_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

序列搜索,比对以及进化树的构建NCBI(NationalCenterforBiotechnologyInformation)美国国立生物技术信息中心NCBI负责管理GenBank。GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸序列。GenBank与日本DNA数据库(DNADataBankofJapan,DDBJ)以及欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库(EuropeanMolecularBiologyLaboratory,EMBL),所有这3个中心都可以独立地接受数据提交,而3个中心之间则逐日交换信息,并制成相同的充分详细的数据库向公众开放。因此他们是相等的。序列搜索,分析和比对以及使用Cluxtal,phylip用邻接法做进化树的简易教程

唐明BLAST(BasicLocalAlignmentSearchTool)即碱基局部对准检索工具,是一种序列类似性检索工具。它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同时采用启发式算法系统,即采用的是局部对准算法(LocalAlignmentAlgorithm),而不是全序列对准算法(GlobalAlignmentAlgorithm)。Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似度很高的序列。通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人的工作,还是在前人的基础上有所创新,或是发现了新的序列。(1)经由WWW使用的BLAST

,进入NBCI主页,然后链接到BLAST主页。

(2)网络版的BLAST

BLAST2是标准的网络BLAST客户软件,它可以通过NCBI匿名的FTP服务器()下的/blast/network/blast2/获取。

PowerBlast是用于大规模分析基因序列的网络BLAST客户应用软件,它可以通过NCBI匿名的FPT服务器()下的/blast/network/blast2/powerBLAST/获取。

blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询;

blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询;

blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋白质序列,然后将翻译结果对蛋白质序列数据库进行查询;

tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询;

tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后再将两种翻译结果从蛋白质水平进行查询。将序列粘帖进去nr:所有非冗余的GenBank+EMBL+DDBJ+PDB序列;但不包括EST、STS、GSS或HTGS序列。

month:最近30天注释的新增加的或修订的GenBank+EMBL+DDBJ+PDB序列

dbEST:GenBank+EMBL+DDBJ+PDB中EST部分的无冗余数据。

dbSTS:GenBank+EMBL+DDBJ+PDB中STS部分的无冗余数据。

htgs:高允许能力(HighThroughput)基因序列。

yeast:yeast(SaccharomycesCerevisiae)基因核酸序列。

E.coli:大肠杆菌(E.coli)基因核酸序列。

pdb:蛋白质数据库。

Kabat[Kabatnuc]:免疫学上感兴趣的核酸序列Kabat数据库。

Vector:GenBank载体数据库。

mito:线粒体序列数据库。

alu:从重复序列数据库(REPBASE)选取的Alu重复序列,适用于过滤查询序列中Alu重复序列。通过匿名FTP从下的/pub/jmc/alu目录中获取。

epd:真核生物的启动子数据库。

gss:基因搜寻序列,包括单递基因数据、外切核酸酶捕获序列和AluPCR序列。Blastn

:应该是出现较早的算法。比对的速度慢,但允许更短序列的比对(如短到7个碱基的序列)。MEGABLAST

:主要用来鉴定一段新的核酸序列,它并不注重比对各个碱基的不同和序列片断的同源性,而只注重被比对序列是否是数据库未收录的,是否为新的提交序列或基因。速度快。同一物种间的。DiscontiguousMEGABLAST

:灵敏度(sensitivity)更高,用于更精确的比对。主要用于跨物种之间的同源比对。进化分析的流程收集数据寻找同源基因多重联配模型选择系统发育分析假设检验建立一个序列的数据集Cluxtal-X比对,生成一个XX.phy文件将XX.phy文件拷入PHYLIP文件夹中的exe文件夹若是核酸序列使用邻接法做进化树,依次使用seqboot,dnadist,neighbor,consense四个程序做进化树蛋白质序列,则使用prodist什么是fasta格式?怎么建立?新建一个txt文本文件,命名如:bph.txtFasta的格式:>序列名称序列Clustalw/clustalx计算过程的三步曲Clustal-W是网页版本,Clustal-X是Clustal-W的图形版本。所有序列两两比较,得出两两间差异值(最粗的距离)根据序列间的差异把差异越小的序列放在一起构建一个分类树(有点像进化树)最终操作是以这个分类树作为引导树,从各个相似序列的组作为起点做多重联配,直到所有序列被联配上。Clustalx的输出结果.aln格式文件这个文件是默认输出,可以转换成各种格式,而且很多软件都支持这种格式。.dnd格式文件引导树。就是根据两两序列相似值构建的一个指导后面多重联配的启发树不能做进化分析。进化分析要考虑的所有同源位点的一个综合效应,因此应该用.aln格式文件专门做进化分析。将XXX.phy文件拷到PHYLIP文件夹中的exe文件夹下12

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论