




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1如何做序列的如何做序列的BLAST分析分析2内容提要内容提要 Blast简介简介 Blast相关问题 Blast的应用的应用 示例3Blast简介简介 BLAST 是是NCBI中用来将一个蛋白质或中用来将一个蛋白质或DNA序列和各种数据库中序列和各种数据库中的其他序列进行比对的主要工具。的其他序列进行比对的主要工具。 BLAST搜索搜索是研究一个蛋白质是研究一个蛋白质和基因的最基本的方法之一。和基因的最基本的方法之一。 Blast具有非常广泛的运用具有非常广泛的运用确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列确定哪些蛋白质和基因在特定的物种中出现确定一个DNA或蛋白质序列身份
2、发现新基因 确定一个特定基因或蛋白质有哪些已经发现了的变种研究可能存在多种剪切方式的表达序列标签寻找对于一个蛋白质的功能和/或结构起关键作用的氨基酸残基 4主要的主要的blast程序程序5主要的主要的blast程序程序程序名程序名查询序列查询序列数据库数据库搜索方法搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸蛋白质核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。Tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。TBlastx核酸核酸核酸序列6框翻
3、译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。6具体步骤具体步骤1. 登陆blast主页 /Blast.cgi2. 根据已有序列类型和搜索目标,选择合适的blast程序Blastn,Blastp,Blastx等3. 填写表单信息选择要搜索的数据库,并修改一些可选参数等4. 提交任务5. 查看和分析结果7具体步骤具体步骤 输入要分析的序列输入要分析的序列NP_006735三种三种主要的输入方式主要的输入方式 剪切然后粘贴DNA或蛋白质序列 使用FASTA格式的序列 简单地使用索引号码(如一个RefSeq 或Gen
4、Bank (GI)的序号)8具体步骤具体步骤 选择要搜索的数据库选择要搜索的数据库 (blastp)去冗余GenBank编码序列PDB + SwissProt + PIR + PRFNr数据库数据库 合并了若干个主要的蛋白质 或DNA数据库 数据库有相同的序列,但nr 数据库只收录一个 典型和常用的数据库9具体步骤具体步骤 选择要搜索的数据库(选择要搜索的数据库(blastn)10具体步骤具体步骤 调整可选参数调整可选参数1. Limit by Entrez Query可以可以用任何一种范围限定词用任何一种范围限定词来限定来限定NCBI BLAST搜索的范围搜索的范围11具体步骤具体步骤 调整
5、可选参数调整可选参数2. Max target sequences:比对之后显示的最大的比对序列的数目12具体步骤具体步骤 调整可选参数调整可选参数3. Expect threshold:期望值E是得分大于或等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。 默认值是10,表示随机出现得分等于 或高于比对得分S的期望数为10个。 当将期望选项值调小时,返回的数据 库搜索结果将变少,匹配被搜索到的 概率也会变小。 增大E值将返回更多的结果。13具体步骤具体步骤 调整可选参数调整可选参数4. Word size(字段长度) 蛋白质搜索,默认值是3 核酸序列搜索,默认值是11 改变字
6、段长度可以影响搜索 精度和速度14具体步骤具体步骤 调整可选参数调整可选参数5. Matrix (打分矩阵) 在一次BLAST搜索中,可以尝试使用几种不同的打分矩阵 高PAM值取代矩阵适合于差异较大的序列 低BLOSUM62值的取代矩阵适合于差异较大的序列15具体步骤具体步骤 调整可选参数调整可选参数6. Compositional adjustments,默认选择,一般来说可改善E值的统计计算和提高灵敏度(减少返回的假阳性结果的数目)16具体步骤具体步骤 调整可选参数调整可选参数7. Filter (选择性过滤条件), 过滤器将锁定诸如组成低复杂序列区(如Alu序列),用一系列N(任意碱基)
7、替代这些程序 过滤对绝大多数序列是有利的, 可以帮助避免那些假的数据库匹配 但某些情况下可信的匹配也会过滤掉17具体步骤具体步骤 Blast输出结果输出结果上部上部BLAST搜索的类型、关于查询内容和所搜索的数据库的描述以及一个分类连接可以将结果按照物种进行分类中部中部数据库中序列与查询序列相匹配的项的列表,分为图像和列表两种描述方式下部下部一系列的两两序列比对, 4种衡量的分数:比特分数、期望分数、一致性百分比、正性(相似性百分比)18具体步骤具体步骤 Blast输出结果输出结果databaseprogramquerytaxonomy19具体步骤具体步骤 Blast输出结果输出结果每一个条带
8、表示数据库中的一个与查询序列相匹配的蛋白质或核酸序列,被标以不同颜色表示亲缘关系的远近(根据比对的分),最接近匹配用红色表示。High scoreslow e values20具体步骤具体步骤Blast输出结果输出结果Score 使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、 相似性越高则Score值越大。E value 在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。21具体步骤具体步骤 Blast输出结果,改变格式输出结果,改
9、变格式22 BLAST搜索策略总图示例搜索策略总图示例23如何处理过多的结果在“limit Entrez query”窗口输入“refseq”,这样所有返回结果都带 有一个refseq号,可去掉冗余的数据库匹配结果。利用生物体的种类对数据库返回结果作出限制。利用序列的一部分进行搜索。如利用独立的结构域序列就可进行多结构域蛋白的检索。调整打分矩阵使其更恰当地体现你的query和数据库匹配之间的相似度。调整期望值。降低E值可减少返回的数据库中的匹配项。BLAST 搜索的一些策略搜索的一些策略24 如何处理过少的结果很多基因或蛋白在数据库中没有或只有极少数的匹配项。当新的微生物基因组测序完成时,预测到的蛋白质有一半不和其他任何蛋白相匹配。用于提高BLAST搜索得到的数据库匹配项数目的策略:去
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 复习计划健康管理师试题及答案
- 土木工程地震工程技术试题及答案
- 超星尔雅学习通《剑指CET-4:大学生英语能力基础》2025章节测试附答案
- 社会化内容分享的试题及答案
- 2025年度车辆贷款抵押与二手车鉴定评估服务合同
- 2025年度金融业务员佣金提成合同模板
- 二零二五年度湖北省旅游包车安全责任合同
- 二零二五年度汽车租赁与数据共享协议
- 二零二五年度师徒结对企业文化建设协议
- 二零二五年度工程款代付及风险管理合作协议
- 2025年河南应用技术职业学院单招职业技能测试题库完美版
- 《欣赏与设计》(教案)2024-2025学年数学六年级下册 北师大版
- 全国高校辅导员素质能力大赛试题(谈心谈话、案例分析)
- 银行信贷部门廉政风险点及防控措施
- 高一上学期统编版(2019)必修中外历史纲要上翻书大赛课件
- 某县电子政务信息化服务平台项目可行性研究报告管理资料
- 加油站的充电桩建设与运营
- DB42-T 2352-2024 道路沥青红外光谱法快速识别技术规程
- 版权知识培训课件模板
- 2025年珠海醋酸纤维有限公司招聘笔试参考题库含答案解析
- 建设工程项目全寿命过程管理
评论
0/150
提交评论