版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、BLAST简介及其应用Basic Local Alignment Search Tool2实验目的1、了解、了解 Blast资源和功能资源和功能2、了解、了解blast的应用的应用3、掌握使用、掌握使用blast进行序列搜索进行序列搜索3生物序列的相似性相似性相似性(similarity): 是指一种很直接的数量关系,比如是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合部分相同或相似的百分比或其它一些合适的度量。比如说,适的度量。比如说,A序列和序列和B序列的序列的相似性是相似性是80,或者,或者4/5。这是个量化。这是个量化的关系。当然可进行自身局部比较。的关系。当然可进行自
2、身局部比较。4 同源性同源性(homology): 指从一些数据中推断出的两个基因或指从一些数据中推断出的两个基因或蛋白质序列具有共同祖先的结论,属于质蛋白质序列具有共同祖先的结论,属于质的判断。就是说的判断。就是说A和和B的关系上,只有是的关系上,只有是同源序列,或者非同源序列两种关系。而同源序列,或者非同源序列两种关系。而说说A和和B的同源性为的同源性为80都是不科学的。都是不科学的。生物序列的同源性5相似性和同源性关系 序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。 正因为存在这样的关
3、系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80一说。6Blast程序评价序列相似性的两个数据Score:使用打分矩阵对匹配的片段进行:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基或碱基打分,这是对各对氨基酸残基或碱基打分求和的结果,一般来说,匹配片段越打分求和的结果,一般来说,匹配片段越长、长、 相似性越高则相似性越高则Score值越大。值越大。E value:在相同长度的情况下,两个氨基在相同长度的情况下,两个氨基酸残基或碱基随机排列的序列进行打酸残基或碱基随机排列的序列进行打分,得到上述分,得到上述Scor
4、e值的概率的大小。值的概率的大小。E值值越小表示随机情况下得到该越小表示随机情况下得到该Score值的可值的可能性越低。能性越低。我们在获得一个我们在获得一个Blast结果时需要看这两结果时需要看这两个指标。个指标。 如果如果Blast获得的目标序列的获得的目标序列的Score值越高值越高并且并且E-value越低表明结果越可信,反之越低表明结果越可信,反之越不可信越不可信.7BLAST简介 BLAST既是一种算法也是一种基于该算法设计出的搜索工具,是由美国国家生物信息中心NCBI研发的一个生物信息数据库搜索工具系统,该系统对于生物基因序列数据在计算机中的表达和处理作了许多的研究,提供了一个快
5、速的基于碱基数据的搜索引擎。 BLAST是基于匹配短序列片段,用一种强有力的统计模型来确定未知序列与数据库序列的最佳局部联配,可在序列数据库中对查询序列进行相似性比对工作。8BLAST简介BLAST搜索的六大优点:搜索的六大优点:使用方便,功能齐全使用方便,功能齐全速度快,结果可信速度快,结果可信NCBI精心维护,持续开发精心维护,持续开发配套数据库不断更新配套数据库不断更新免费服务免费服务NCBI、EBI、TIGR)免费下载,本地安装免费下载,本地安装9主要的BLAST程序功能)程序名程序名查询序列查询序列数据库数据库搜索方法搜索方法Blastn核酸核酸核酸核酸在核酸数据库中比对核酸序列在核
6、酸数据库中比对核酸序列Blastp蛋白质蛋白质蛋白质蛋白质在蛋白质数据库中比对蛋白质序列在蛋白质数据库中比对蛋白质序列Blastx核酸核酸蛋白质蛋白质在蛋白质数据库中比对待检的核酸序列在蛋白质数据库中比对待检的核酸序列(用所有(用所有6种可读框翻译)种可读框翻译)Tblastn蛋白质蛋白质核酸核酸在核酸数据库在核酸数据库(用所有(用所有6种可读框翻译)种可读框翻译)中比对待检的蛋白质序列中比对待检的蛋白质序列TBlastx核酸核酸核酸核酸在核酸数据库(用所有在核酸数据库(用所有6种可读框翻译)种可读框翻译)中比对待检的核酸序列(也用所有中比对待检的核酸序列(也用所有6种种可读框翻译)可读框翻译
7、)10两种版本的BLAST比较一)w 网络版本网络版本w 包括包括NCBI在内的很多网站都提供了在在内的很多网站都提供了在线的线的BLAST服务,这也是我们最经常用服务,这也是我们最经常用到的到的BLAST服务。网络版本的服务。网络版本的BLAST服服务就有方便,容易操作,数据库同步更新务就有方便,容易操作,数据库同步更新等优点。但是缺点是不利于操作大批量的等优点。但是缺点是不利于操作大批量的数据,同时也不能自己定义搜索的数据库。数据,同时也不能自己定义搜索的数据库。11w 单机版单机版w 单机版的单机版的BLAST可以通过可以通过NCBI的的ftp站点获得,站点获得,有适合不同平台的版本包括
8、有适合不同平台的版本包括linux,dos等)。等)。获得程序的同时必须获取相应的数据库才能在获得程序的同时必须获取相应的数据库才能在本地进行本地进行BLAST分析。单机版的优点是可以处分析。单机版的优点是可以处理大批的数据,可以自己定义数据库,但是需理大批的数据,可以自己定义数据库,但是需要耗费本地机的大量资源,此外操作也没有网要耗费本地机的大量资源,此外操作也没有网络版直观、方便,需要一定的计算机操作水平。络版直观、方便,需要一定的计算机操作水平。两种版本的BLAST比较二)Why use BLAST?w BLAST 是是NCBI中用来将一个蛋白质或中用来将一个蛋白质或DNA序列和各种数据
9、库中的其他序列进行序列和各种数据库中的其他序列进行比对的主要工具。比对的主要工具。 BLAST搜索是研究一搜索是研究一个蛋白质和基因的最基本的方法之一。个蛋白质和基因的最基本的方法之一。BLAST的使用w BLAST 具有非常广泛的应用:具有非常广泛的应用:w 研究可能存在多种剪切方式的表达序列标签。研究可能存在多种剪切方式的表达序列标签。w 寻找对于一个蛋白质的功能和寻找对于一个蛋白质的功能和/或结构起关键作用的氨或结构起关键作用的氨基酸残基。基酸残基。w 确定特定的蛋白质或核酸序列有哪些已知的直系同源或确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列。旁系同源序列。w 确定哪些
10、蛋白质和基因在特定的物种中出现。确定哪些蛋白质和基因在特定的物种中出现。w 确定一个确定一个DNA或蛋白质序列身份。或蛋白质序列身份。w 发现新基因发现新基因w 确定一个特定基因或蛋白质有哪些已经发现了的变种。确定一个特定基因或蛋白质有哪些已经发现了的变种。Blast的使用w 首先在首先在NCBI的基因数据库中找到一段基因核苷的基因数据库中找到一段基因核苷酸序列或者是通过测序得到的核苷酸序列)。酸序列或者是通过测序得到的核苷酸序列)。w 将该序列用将该序列用FASTA格式存入记事本。格式存入记事本。w 进入进入Blast界面选择一种自己所需的功能进行搜界面选择一种自己所需的功能进行搜索比对。索
11、比对。w 将需要查询序列键入框中选择数据库和确定比将需要查询序列键入框中选择数据库和确定比对参数。对参数。w Blast比对)比对)网页版 具体步骤1.登陆登陆blast主页主页 /BLAST/2.根据数据类型,选择合适的程序根据数据类型,选择合适的程序3.填写表单信息填写表单信息4.提交任务提交任务5.查看和分析结果查看和分析结果1.登陆登陆blast主页主页/BLAST/组装的基因组序列库基本blast特定的BLAST所有的BLAST基因数据库181920核酸数据库中比对核酸序列蛋白质数据库中比对蛋白质序列BLASTNBLAS
12、TP蛋白质数据库中比对核酸序列蛋白质数据库中比对核酸序列核酸数据库中比对蛋白质序列21标准蛋白质数据库组装的基因序列库快速搜索基本操作特定的BLAST所有的BLAST基因数据库23特定的BLAST242.根据数据类型,选择合适的程序根据数据类型,选择合适的程序2.根据数据类型,选择合适的程序根据数据类型,选择合适的程序blastn (nucleotide BLAST):将一个核酸的查:将一个核酸的查询序列与一个核酸序列数据库相比较。询序列与一个核酸序列数据库相比较。blastp (protein BLAST):将一个氨基酸的查询:将一个氨基酸的查询序列与一个蛋白质序列数据库相比较。这类搜索序列
13、与一个蛋白质序列数据库相比较。这类搜索有专门与蛋白质搜索相关的可选参数,如对各种有专门与蛋白质搜索相关的可选参数,如对各种PAM和和BLOSUM打分矩阵的选择。打分矩阵的选择。2.根据数据类型,选择合适的程序根据数据类型,选择合适的程序blastx (translated BLAST):将一个核酸的查询:将一个核酸的查询序列按所有可能的阅读框翻译后的序列与一个蛋白序列按所有可能的阅读框翻译后的序列与一个蛋白质序列数据库进行比较。如若有一个质序列数据库进行比较。如若有一个DNA序列,想序列,想知道它编码什么蛋白质,用此程序进行搜索。它会知道它编码什么蛋白质,用此程序进行搜索。它会自动将自动将DN
14、A翻译成翻译成6种可能的蛋白质。然后此程序种可能的蛋白质。然后此程序就会将翻译的就会将翻译的6个蛋白质序列逐一与蛋白质序列数个蛋白质序列逐一与蛋白质序列数据库中的各个成员进行比较。据库中的各个成员进行比较。2.根据数据类型,选择合适的程序根据数据类型,选择合适的程序tblastx (translated BLAST):将一个核酸查询:将一个核酸查询序列的序列的6种框架的翻译结果与一个核酸序列数据库种框架的翻译结果与一个核酸序列数据库的的6种框架翻译产物进行比较。该程序不能使用种框架翻译产物进行比较。该程序不能使用BLAST网页上提供的主要的去冗余网页上提供的主要的去冗余(nr)数据库,因数据库
15、,因这一操作很消耗计算机资源。这一操作很消耗计算机资源。283.填写表单信息填写表单信息291.序列信息部分填入查询query的序列序列范围(默认全部)选择搜索数据库如果接受其他参数默认设置,点击开始搜索30去冗余GenBank编码序列PDB + SwissProt + PIR + PRF31常用的检索数据库32Pdb拥有三维空间结构的原子坐标的氨基酸序列库拥有三维空间结构的原子坐标的氨基酸序列库Nr GenBank 蛋白数据库蛋白数据库ESTExpressed sequence tags,表达序列标签数据库,表达序列标签数据库STSsequence tagged sites,序列标签位点数据
16、库,序列标签位点数据库Htgshigh throughput genomic sequences,高通量基因组序列,高通量基因组序列GSSgenome survey sequences,基因组测定序列,基因组测定序列Yeast酵母基因组中基因编码的全套蛋白质酵母基因组中基因编码的全套蛋白质E.coli大肠杆菌基因组中基因编码的全套蛋白质大肠杆菌基因组中基因编码的全套蛋白质Mito脊椎动物线粒体的全基因组序列脊椎动物线粒体的全基因组序列Alu搜集了灵长类动物的搜集了灵长类动物的Alu重复序列重复序列Swissprot蛋白质数据库蛋白质数据库w nr数据库是合并了若干个主要的蛋白质或数据库是合并了
17、若干个主要的蛋白质或DNA数据库得到的。这些数据库中经常包数据库得到的。这些数据库中经常包含有相同的序列,但含有相同的序列,但nr数据库只收录其中数据库只收录其中的一个序列的一个序列(即使在即使在nr数据库中出现看上数据库中出现看上去一样的序列,实际上还是具有一些细节去一样的序列,实际上还是具有一些细节上的区别上的区别)。 nr数据库是在要搜索现有的数据库是在要搜索现有的绝大多数序列时典型和常用的数据库。绝大多数序列时典型和常用的数据库。33341.序列信息部分填入查询query的序列序列范围(默认全部)选择搜索数据库如果接受其他参数默认设置,点击开始搜索4.提交任务提交任务5.查看和分析结果
18、查看和分析结果3536具体例子以下列蛋白序列为例,进行BLAST搜素: MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA 371.登陆NCBI的BLAST主页 /B
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 贵州财经职业学院《先进制造训练》2023-2024学年第一学期期末试卷
- 贵阳职业技术学院《户外基础技能》2023-2024学年第一学期期末试卷
- 2025浙江省安全员A证考试题库
- 白玉桃种植示范基地建设项目可行性研究报告-白玉桃市场需求持续扩大
- 广州中医药大学《商业银行管理》2023-2024学年第一学期期末试卷
- 2025江苏省安全员B证考试题库
- 2025黑龙江省建筑安全员知识题库附答案
- 2025河南省建筑安全员考试题库附答案
- 2025河北建筑安全员《A证》考试题库
- 2025年辽宁省安全员《A证》考试题库
- GB/T 30680-2014氟橡胶板通用技术条件
- GB/T 14599-2008纯氧、高纯氧和超纯氧
- 鸡鸭屠宰生产企业安全风险分级管控资料
- 超星尔雅学习通《三国志导读》章节测试(含答案)
- 常用钻井英语缩写
- 东风7C型(DF7C)内燃机车
- 规则大副货运知识点
- 《2022年上海市初中语文课程终结性评价指南》中规定的150个文言实词
- 关于转发《关于进一步加强少先队辅导员队伍建设的若干意见》的通知
- 爱丽丝梦游仙境话剧中英文剧本(共6页)
- 书法少年宫活动记录
评论
0/150
提交评论