版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、BLAST+的分析流程摘要本文简单的介绍了一下序列比对工具BLAST+。这个工具主要分三个部分搜索,数据库,序列筛 选。有多个应用,本文主要针对blastn和blastp还有makeblastdb常用功能进行简要介绍。因为 BLAST+虽然机制是BLAST,但却是从头写的,可被C和C+直接调用,效率更高,性能更好。本 文用了酵母细胞色素c基因作为query,酵母基因组数据库作为database,进行简要功能的测试, 常用参数及结果文件的解释。个别program及参数的使用方式请参见-help。目录摘要1目录11. 文档目的12. 适用范围23. 概述23.1BLAST 简介 23.2BLAST
2、+ 应用 24. 业务流程及细节34.1数据34.2使用的方法或解决办法44.2.1方法的简单介绍4 4.2.2方法的常见参数以及默认值54.2.3备注94.3结果解释105. 实例126. 参考内容121文档目的BLAST是NCBI基本局部比对工具,发现序列之间的局部相似性,这个程序将核酸或者蛋白序 列与序列数据库进行比较,汁算匹配的统计值。BLAST用于功能推断和序列间进化关系以及帮助鉴别基因家族成员。BLAST+与BLAST相比,有很多改进和提髙.NCBI强烈推荐放弃BLAST,使用BLAST+,本文主要 学习和介绍BLAST+的用法。本文主要讨论本地化的BLAST+:适用系统:Wind
3、ows, MacOSX Linux/Unixo输入的数据格式有很多种:以 makeblastdb 为例有,String, asnlbin,、asnl_txt: blastdb: fasta1, 具体程序输入文件类型可参照如:blasn -help的方式查看。该软件适用系统:Windows, Mac OS X, Linux, and Solaris。3.1BLAST 简介BLAST (Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较 的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一
4、种对相似性的统计说明。BLAST采用一种局部的算法获得两个序列中具有相似性的序列。/Class/BLAST/blast_course.short.html3.2BLAST+ 应用BLAST+package有三个分类1)search tools搜索工具*blastn:核酸核酸比对(queryDB)*blastp:蛋白蛋白比对(queryDB)*blastx:核酸蛋白比对(query-DB)*tblastx:核酸-核酸比对(query-DB)核酸序列到核酸库中的一种查询。此种查询将库 中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6
5、条可能的蛋白 序列),这样每次比对会产生36种比对阵列。*tblastn:蛋白核酸比对(query-DB)*psiblast:敏感度更高的蛋白序列与蛋白序列之间的比对*rpsblast*rpsblast n2) BLAST database tools数据库工具*makeblastdb:根据fasta文件建立数据库*blastdb_aliastool: 生成GI列表的二进制文件,可以传递给blast+的gilist参数,用来 限定比对到db中的序列。*makeprofiledb*blastdbcmd:相当于以前的fastacmd,用来从格式化好的blast数据库中取序列(blastdbcmd
6、-db refseqna -entry 224071016 )3) sequence filtering tools-序列筛选工具4.业务流程及细节41数据常用为NCBI规范的fasta格式的序列文件,以、开头为一条序列:如下所示:gi| 330443743:447439-448368 Saccharomyces cerevisiae S288c chromosome XV, complete sequeneeATGTTTTCAAATCTATCTAAACGTTGGGCTCAAAGGACCCTCTCGAAAAGTTTCTACTCTACCGCAACAGGTGCTG CTAGTAAATCTGGCAA
7、GCTTACTCAAAAGCTCGTTACAGCGGGTGTTGCTGCCGCCGGTATCACCGCATCGACTT TACTCTATGCAGACTCCTTAACTGCCGAAGCTATGACCGCAGCTGAACACGGATTGCACGCCCCAGCATATGCTTG GTCCCACAATGGGCCTTTTGAAACATTTGATCATGCATCCATTAGAAGAGGTTACCAGGTTTACCGTGAAGTTTGT GCCGCCTGCCATTCTCTTGACAGAGTTGCTTGGAGAACTTTGGTTGGTGTTTCTCATACCAACGAAGAGGTTCGT AATATGGCCG
8、AAGAATTTGAATACGATGACGAACCTGATGAACAAGGTAACCCTAAAAAGAGACCAGGTAAGTTGTCCGATTACATCCCTGGCCCA7ACCCAAACGAACAGGCTGCAAGAGCTGCCAATCAAGGTGCCTTGCCACCTGA TCTATCTTTGATCGTGAAAGCTAGACACGGTGGTTGTGACTACATTTTCTCTTTGTTGACCGGTTATCCTGATGAAC CTCCTGCTGGTGTGGCTTTACCACCAGGTTCTAATTATAACCCTTACTTCCCAGGTGGTTCCATTGCAATGGCAAG AGTCT
9、TGTTTGATGACATGGTTGAGTACGAAGATGGTACCCCCGCAACGACATCTCAAATGGCAAAGGACGTTAC CACCTTTTTAAACTGGTGTGCCGAACCTGAACATGACGAAAGAAAGAGATTGGGTTTGAAAACGGTGATAATCTT ATCATCTTTGTATTTGCTATCTATCTGGGTGAAGAAGTTCAAATGGGCCGGTATCAAAACCAGAAAATTCGTTTTCA ATCCACCAAAACCAAGAAAGTAG4.2使用的方法或解决办法4.2.1方法的简单介绍1、安装 BLAST+Windows:卜载如:ncbi
10、-blast-2.2.18+.exe双击。RedHat Linux:下载合适的*.rpm,然后就可以安装或更新Install:rpm -ivh ncbi-blast-2.2.18-l.x86_64.rpmUpgrade:rpm -Uvh ncbi-blast-2.2.18-l.x86_64.rpOther Unix platforms:下载tarball并解压到指立目录。2、下载 BLAST database(1) 卜载多个数据库 tar files: (htgs.OO.tar.gz, : htgs.N.tar.gz)/update_blastdb.pl htgs(2) ftp 卜载 ftp:
11、//blast/db/ 这些数据库是已经预先进行过 makeblastdb 命 令的,下载后可以直接使用。大的数据库通常分为多个压缩包,例如nr库有M个压缩包。所有的相关压缩包 都要下载,解压。解压缩会生成对应的库文件,同时生成一个nr.pal文件。检索nr库 时输入d nr即可。有些数据库是大数据库的子集,使用这些子集数拯库时,必须同时下载其(相同日期 的)大数据库。有些BLAST数据库没有提供预先建库的文件,这些数据库可以从FASTA文件夹里下载* 卜载基因组 BLAST 数据库 /genomes/blast/db/
12、目录下部分内容说明:数据库名称数据库内容+File Name ContentDescription+/FASTAenv_nr *tar gzenv_nt *tar gzI存放FASTA格式序列的子文件夹I环境蛋白序列I环境核昔酸序列est *tar gz est_human. tar gz gss *tar gz htgs *tar gz1 EST数据库alias and mask files for human subset of the est1 GSS数据库1 htgs数据库human_genomic. *tar. gz ,人类染色体的RefSeq参考序列nr. *tar gznt. *
13、 tar gz1非冗余的蛋tl数据库nr1核昔酸数据库ntother_genomic. *tar. gz人类以外的其他生物染色体的RefSeq参考序列pataa *tar gz patnt *tar gz pdbaa *tar gz pdbnt *tar gz1专利蛋tl数据库1专利核昔酸数据库1源pdb蛋白结构数据库的蛋白序列,其根数据库“1源pdb核昔酸结构数据库的核昔酸序列,根数据库ntrefseq_genomic. *tar. gz | 基因组参考序列 refseqprotein. *tar. gz | 蛋白参考序列refseq_rna *tar gz sts *tar gz swis
14、sprot tar gz taxdb tar gz wgs *tar gz1转录本参考序列1 STS数据库1蛋tl数据库子集,其根数据库为m;1分类学信息Wgs数据库+-3、BLAST SEARCHProgramTask NameDescriptionblastpblastp蛋白query和蛋白数据库的比对blastp-short优化査询:短于30个残基blastnblastn完全匹配的传统blastnblastn-short优化查询:短于50个碱基megablast查找十分相似的序列(如物种内部或相关的物种间)dc-megablast查找距离比较远的序列(如物种间)4.2.2方法的常见参数以
15、及默认值1、格式化数据库命令:makeblastdb -in db.fasta -dbtype prot parse_seqids -out dbname 参数:-in:待格式化的序列文件-dbtype:数据库类型,prot或nuclparse_seqids:自动解读 seqid-out:数据库名Option:* Input optionsin vFile_ln Default =-input_type Default = fasta* Configuration options-title 数据库标题 Default=输入文件名parse_seqids自动解读 seqid-hashjndex
16、创建序列hash值* Sequence masking options-mask_data 以逗号分割的包含掩码数据的输入文件(eg dustmasker, segmasker,windowmasker)-gi_mask 创建 Gl 为 index 的掩码文件未 Requires: parse_seqids-gi_mask_name 以逗号分割的掩码输出文件* Requires: mask_data, gi_mask* Output options-out 创建的数据库名称Default =输入文件统max_file-sz 创建的数据库文件最大容量Default = 1GB* Taxonomy
17、 options-taxid vlntegec =0分类号 * Incompatible with: taxid_map-taxid_map 将文件序列 IDs map 到 taxonomy IDs.Format: vnewline不兼容:taxidlogfile 日志文件2、蛋白序列比对蛋白数据库命令:blastp -query seq.fasta -out seq.blast db dbname -outfmt 6 evalue le-5 um_dGScriptions 10num_threads 8参数:-query:输入文件路径及文件名-out:输出文件路径及文件名-db:格式化了的数
18、据库路径及数据库名-outfmt:输出文件格式,总共有12种格式,6是tabular格式对应BLAST的m8格式-evalue:设置输出结果的e-value值-num_descriptions: tabular格式输出结果的条数num_threads:线程数Blast结果m8格式意义进行Blast比对,用参数8可以以列表的方式输出结果,结果中从左到右每一列的02 % identity06 q. start10 e-value03 alignment length07 q. end11 bit score意义分别是:00 Query id04 mismatches08 s. start01 Su
19、bject id 05 gap openings09 s. endOptions by program type:-task task_name:指定要执行的任务 blastp. blastp-short, deltablast -comp_based_stats compo:选择适合的组合统计模型(只用于 blastp 和 tblastn )D or d: default (equivalent to 2 )0 or F or f: No composition-based statistics1: Composition-based statistics as in NAR 29:2994
20、-3005, 20012 or T or t : Composition-based score adjustment as in Bioinformatics21:902-911/2005/ conditioned on sequenee properties3: Composition-based score adjustme nt as in Bioinformatics 21:902-911,2005, unconditionally-use_sw_tback:是否使用局部最优算法-SmithWaterman算法3、核酸序列比对核酸数据库命令:blastn query seq.fast
21、a -out seq.blast db dbname -outfmt 6 evalue le-5 num_descriptions 10num_threads 8参数:-query:输入文件路径及文件名-out:输岀文件路径及文件名-db:格式化了的数据库路径及数据库名-outfmt:输出文件格式,总共有12种格式,6是tabular格式对应BLAST的m8格式-evalue:设置输出结果的e-value值-num_descriptions: tabular格式输出结果的条数num_threads:线程数Options by program type:-task task_name:指定要执行
22、的任务 blastn, blastn-short, megablastt dc-megablast rmblastn-penalty penalty:罚分,一个核酸不匹配时的罚分Integer, -reward reward):奖分,核酸匹配的得分=0-usejndex boolean:使用 megablast 数据库索引-index_name string:megablast 数据库索引名称-perc_identity float_value:Minimum percent identity of matches to report -dust DUST_options:DUST 过滤算法,
23、用no来禁用 -filtering_db filtering_database:l含过滤元素的数据库的名称-window_masker_taxid window_masker_taxid:experimental-window_masker_db window_masker_db:experimental-no _greedy):使用非贪婪动态编程扩展卜min_raw_gapped_score int_value:MzJx gap 得分vlnteger-template_type type:不连接的 megablast 模板类型templatejength:不连接的 megablast 模板长
24、度-off_diagonal_range int_value:Maxinium number of diagonals separating two hits used to initiatean extension. Increasing values of this parameter lead to a longer run time, but more sensitiveresults .If this parameter is set, a value of five is suggested. Only discontiguous megablast usestwo hits by
25、 defaultc 如果设置该参数,设为 5。=04、核酸序列比对蛋白数据库命令:blastx -query seq.fasta -out seq.blast db dbname -outfmt 6 evalue le-5 num_descriptions 10 num_threads 8参数:-query:输入文件路径及文件名vdefault=_-out:输出文件路径及文件名-db:格式化了的数据库路径及数据库名-outfmt:输出文件格式,总共有12种格式,6是tabular格式对应BLAST的m8格式-evalue:设置输出结果的e-value值-num_descriptions: ta
26、bular格式输出结果的条数num_threads:线程数Options by program type:-query_gencode int_value):用遗传密码来翻译 vdefault=l-maxJntronJength length):允许的最大的 intron 长度 Common options for 2&3&4* Input query options-query 输入文件 Default =queryjoc 在序列上的位置(Format: start-stop)* General search optionsdb -out 输出文件Default =-evalue E 值 D
27、efault = 101-word_size =2 wordfinder 算法字节大小gapopen vlntegerCost to open a gapgapextend vlnteger Cost to extend a gap-matrix 打分矩阵的名字(normally BLOSUM62)-threshold =0使得word能添加到BLAST查找表的最低分数* Formatting optionsoutfmt alignment view options:0 = pairwise,1 = query-anchored showing identities,2 = query-anc
28、hored no identities,3 = flat query-anchored, show iden廿ties,4 = flat query-anchored, no identities,5 = XML Blast output,6 = tabular;7 = tabular with comment linesz8 = Text ASN.l,9 = Binary ASN.l,10 = Comma-separated values,11 = BLAST archive format (ASN.l)Default = O-show_gis 是否显示 NCBI Gls-num_descr
29、iptions =0显示描述的数目,不适用于4Default = 500* 不兼容: max_targGt_seqs-num_alignments =0 显示匹配的序列数Default = 2501穴不 兼容: max_target_seqs-html 是否生成 HTML output?4.2.3备注BLAST与BLAST+之间的差异:BLAST+使用了 BLAST的核心算法,延续了 BLAST的优势功能,发展并增强了如BLAST的 fastacmd 程序,新增 了 如 update_blastdb.pl 等程序一模块化:三个过程:setup, scanning trace-back-ISO
30、C99标准,可被c或C+使用-Database mask:之前的版本需要第三方软件如RepeatMasker来mask数据库,c现在内 置了 WindowMasker和DUST来进行重复序列过滤。-(吏 用 Query split, Partial subject sequence retrieval 以及 Retrieving subject sequences from an arbitrary source等策略来提高长序列(如染色体序列)的比对效率,有效的降低了CPU时间,充分使用了一、二级缓存。-全新的命令行参数使用方式,添加了长字符串作为参数的支持,如-out,而不是以前的-。 分
31、离blastn, blastp, blastx等作为独立的程序以替代之前的biastali -p blastn模式。-makeblastdb/ blastdb_aliastool, blastdbcmd三个程序都和数据库有关,增强了数据库方而 的处理。添加Best-Hit算法,只报告最优的Hit。-添加了保存search strategy的功能,所谓search strategy也就是程序运行时的参数等信息。4.3结果解这里通过一个小例子来介绍一下BLAST结果的含义:命令:blastn -query NC_001147_6.FASTA -db yeast -dust no -parse_de
32、flines resultl.log-header:BLASTN 2.2.28+Referenee: Zheng Zhang, Scott Schwartz, Lukas Wagner, and WebbMiller (2000), A greedy algorithm for aligning DNA sequences1, JComput Biol 2000o 7(1-2):203-14Database: yeast.fasta17 sequenceso 12,155,026 total letters一Query:Query information:对一个query序列的基本信息描述Se
33、quences producing significant alignments:对所有 subjects 的简要 list Subjects:每个subjects是query序列在数据库中比对上的一条序列。Query二 QuerySaccharomyces cerevisiae S288c chromosome Xref|NC_001147.11 Saccharomyces cerevisiae chromosome XV, complete chromosome sequence (序列名称) Length=1091283(subject 长度)Score = 1718 bits (930
34、), Expect = 0.0Identities = 93030 (100%), Gaps = 0/930 (0%)Strand=Plus/Plus(Score Expect. Identities. Gaps, Strand)(Query start)(Query end)Query 1ATGTTTTCAAATCTATCTAAACGnGGGCTCAAAGGACCCTCTCGAAAAGTTTCTACTCT 60llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllSbjct 447440 ATGTTTTCAAATCTATCTA
35、AACGTTGGGCTCAAAGGACCCTCTCGAAAAGTTTCTACTCT 447499 (Subjet start)(Subject end)Query 61 ACCGCAACAGGTGCTGCTAGTAAATCTGGCAAGCTTACTCAAAAGCTCGTTACAGCGGGT 120llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllSbjct 447500 ACCGCAACAGGTGCTGCTAGTAAATCTGGCAAGCTTACTCAAAAGCTCGTTACAGCGGGT 447559LambdaKH1.330.6211.12GappedLambdaKH1.280.4600.850Effective search space used: 11012083908Database: y
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度传单回收与环保处理合同
- 二零二四年铲车租赁合同范本下载
- 2024年度特许经营合同的加盟费用和权益2篇
- 2024年度企业合并合同详细描述
- 植筋的合同范本
- 2024版电影联合发行合同
- 二零二四年度保险合同标的与保险范围2篇
- 2024版标准二手房交易定金支付及争议解决合同
- 2024版北京市文化艺术交流活动合同
- 湖北宜昌天然气合同范本
- 《急救知识普及》课件
- 广州市小学数学学科第二届青年教师解题比赛初赛试题(答案)
- 校园游泳馆项目运营方案
- Unit3ConservationWritingWorkshop课件-高中英语北师大版选择性
- 软件项目管理学习心得体会(19篇)
- 包装厂车间管理制度
- 抖音+剪映+Premiere短视频制作从新手到高手
- 大国霸业的兴废
- 小学教育课件教案学校突发事件:学生应对灾难突发事件的自救与互救技巧
- 医院装修改造项目投标方案(技术标)
- 粤教版科学三年级上册全册试卷(含答案)
评论
0/150
提交评论