BLSAT本地化完全教程_第1页
BLSAT本地化完全教程_第2页
BLSAT本地化完全教程_第3页
BLSAT本地化完全教程_第4页
BLSAT本地化完全教程_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、BLSAT本地化完全教程Setp1: Blast软件下载与安装1.对于windows 2000/xp 用户,下载blast-2.2.18-ia32-win32.exe安装文件/blast/executables/LATEST/blast-2.2.18-ia32-win32.exe 2.创建一个新目录,例如C:blast,将下载的文件blast-2.2.18-ia32-win32.exe复制到该目录,双击这个文件,自解压产生bin、data、doc三个目录,bin是程序目录,data是程序使用数据的目录,doc是文档目录。表:bin目录中的程序程

2、序说明bl2seq.exe进行两条序列比对blastall.exe做普通的blast比对blastclust.exe blastpgp.exe copymat.exe fastacmd.exe通过gi号,接收号等,在数据库中检索序列formatdb.exe格式化数据库formatrpsdb.exe impala.exe makemat.exe megablast.exemegablast程序rpsblast.exe seedtop.exe 3.用文本编辑器创建一个ncbi.ini文件,文件包含下面内容:NCBIDa

3、ta="C:blastdata"将ncbi.ini文件存放到系统的Windows 或者 WINNT目录。4.将”C:blastbin”目录添加路径中(该步骤非必须,但会给以后的操作带来方便),方法:1)右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量2)系统变量中,选择Path,点击“编辑”,在变量值的后面添加“; C:blastbin”,点击确定将安装路径添加到path5.测试,打开dos窗口(点击开始,选择运行,打开的输入框中输入“cmd”,确定),键入“blastall”,回车,如果安装正确,将显示 blastall的所有参数说明。安装测试注意:·

4、 如果报错:“blastall不是内部或外部命令,也不是可运行的程序或批处理文件。”,请检查环境变量设置,或者切换到安装目录的bin目录下,再执行。 · 如果报错:“FATAL ERROR: FindPath failed.”,请检查ncbi.ini文件。Step2: 构建自己的搜索数据库blast数据库指包含fasta格式的核苷酸或者蛋白质序列的文件,有三种方式得到fasta格式的序列。 1 从NCBI的FTP下载相关的数据库文件FTP地址:/blast/db/,如果你仅是一个测试,请下载一个较小的文件作为例子,例如下载大肠杆菌的核酸序列库

5、ecoli.nt.Z (1349 Kb)。FTP上的数据库文件都经过了压缩,有关每个文件的含义,请看该目录下说明文件(/blast/db/blastdb.html ),下表FASTA目录下文件的说明:文件名大小(kb)内容alu.a.gz90alu重复序列的转录的蛋白质alu.n.gz24alu重复序列drosoph.aa.gz4183果蝇的蛋白质序列 drosoph.nt.gz36059果蝇基因组组序列env_nr.gz806964环境蛋白质序列env_nt.gz2298189环境核酸序列est_human.gz1395676人的EST序列

6、est_mouse.gz774668老鼠的EST序列est_others.gz7360044除人和老鼠以外的其他物种的EST序列gss.gz4772615来源于GenBank, EMBL, and DDBJ的GSS序列htg.gz6148203来源于GenBank, EMBL, and DDBJ的高通量基因组测序序列human_genomic.gz2509222人类基因组序列(NC_#)igSeqNt.gz18900人和老鼠的免疫球蛋白可变区的核酸序列igSeqProt.gz3072人和老鼠的免疫球蛋白可变区的蛋白质序列mito.aa.gz316线粒体蛋白质序列mito.nt.gz935线粒体

7、基因组month.aa.gz50009每月更新的蛋白质序列month.est_human.gz1每月更新的人的EST序列month.est_mouse.gz1每月更新的老鼠的EST序列month.est_others.gz237790每月更新的其他物种的EST序列month.gss.gz71872每月更新的GSS序列month.htgs.gz238921每月更新的htgs序列month.nt.gz54904每月更新的核酸序列nr.gz1512614来源于GenPept, Swissprot, PIR, PDF, PDB, and RefSeq的非冗余蛋白质序列nt.gz6619394除wgs,

8、 gss, sts, pat, est, htg以外的核酸序列,注意不是非冗余的other_genomic.gz1066358人以外的其他物种的染色体序列(NC_#)pataa.gz65344专利的蛋白质序列patnt.gz890761专利的核酸序列pdbaa.gz7541来源于pdb蛋白质结构数据库中的蛋白质序列pdbnt.gz269来源于pdb的核苷酸序列sts.gz159256STS序列swissprot.gz86939swiss-prot 蛋白质序列vector.gz812载体序列wgs.gz31769282全基因组shotgun拼接序列yeast.aa.gz1906酵母蛋白质序列ye

9、ast.nt.gz3645酵母基因组序列注:更新时间为2008-5-262 从搜索结果构建数据库通过NCBI提供的数据库搜索引擎,选择相关数据库进行搜索,将得到的结果保存为fasta格式,作为blast比对用的数据库。以建立一个G蛋白基因核苷酸数据库为示:1)打开/ 主页,选择核苷酸数据库(Nucleotide),输入“G protein”,点击“Go”,开始搜索在 NCBI执行搜索2)搜索到结果页面中,在Display的下拉框中选择FASTA切换为 fasta格式3)在Send to的下拉菜单,选择file选择 file进行保存4)将结果保

10、存到磁盘保存到磁盘3 由测序结果直接构建自己的数据库测序结果,经过处理(比如去除载体、重复序列、拼接等)后,然后将结果转换为fasta格式。自己构建的数据库,数据库中fasta格式序列命名有以下三种方式:· a) gnl|database|identifier · b) lcl|identifier · c) identifieridentifier为你指定的序列名称,dababase为你要指定的数据库的名称(详细的说明参见fasta序列格式)Step3: 格式化数据库(formatdb详解)构建的fasta格式的数据库文件必须被formatdb格式化后,才能被b

11、lastall、blastpgp、MegaBLAST使用。数据库文件也可以是ASN.1格式,但较少用到,所以下面还是主要以FASTA格式为例。 formatdb 格式化数据库后,创建三个主要的文件库索引(indices),序列(sequences)和头(headers)文件。生成的文件的扩展名分别 是:.pin、.psq、.phr(对蛋白质序列)或.nin、.nsq、.nhr(对核酸序列)。另外,为便于查找还有一些ISAM 索引文件同时生成:.pni和.pnd(或.nni和.nnd)文件,其中的数字索引只包含gi号;而其他的序列识别符和索引则包含在.psi 和.psd(或.nsi和.nsd)中

12、。1.1.1.    参数说明表:formatdb命令的参数说明参数说明值默认值备注-t数据库的标题【可选】字符  -i需要创建数据库的文件名文件名  -l日志文件名文件名formatdb.log -p文件数据类型T/FTT 蛋白质F 核苷酸-o解析选项T/FFT表示解析序列文件并产生索引文件,F则不解析-a数据库文件是否为ASN.1格式T/FFT为是ASN.1格式-bASN.1的模式T/FFT为二进制,F为文本模式-eASN.1数据库的序列数T/FFT表示数据库中只有一条序列-n重命名数据库文件的名称字符窜

13、60; -v数据库卷的大小整数0单位:兆字符-s限制索引的类型T/FFT为仅用接收号创建索引-L创建数据库别名输出文件名  -FGi列表的文件名输入文件 配合-L使用-B生成的Gi二进制的文件名输出文件 配合-F使用1.1.2.    使用示例与说明格式一个蛋白质数据库formatdb -i protein_db_file_name -p T o T格式一个核酸数据库formatdb -i protein_db_file_name -p T o T用指定的Gi列表生成一个子数据库如果经常搜索一个数据库的子集,比如一

14、个核酸库中的家蚕的序列或者蛋白库中的G蛋白序列,可以用这些序列的gi号来限制搜索的范围,而没有必要重新构建这样的数据库,这样即加快了查询速度,又避免另外的磁盘开销。这里以昆虫核酸数据库的限定家蚕的序列为例子:a)  获得家蚕序列的gi号,可以从文章或者数据库中检索得到。将gi号保存到一个文本文件中,这里命名为“silkworm.gi.txt”;b)  利用formatdb程序将这个文本文件,转变为二进制文件;    formatdb -F silkworm.gi.txt -B silkworm.gic)  调用formatdb创建别名

15、文件formatdb -i insects -p T -L silkworm -F silkworm.gi -t "My silkworm database"该命令会创建一个silkworm.pal文件,包含silkworm数据库的标题,限制的gi号文件,及其他一些统计信息,如下:# Alias file created Thu Jul 5 15:04:29 2001#TITLE My database#DBLIST ./blast/insects#GILIST silkworm.gi#OIDLIST#NSEQ 1836LENGTH 640724d)  搜索家蚕数

16、据库   blastall -p blastn -d silkworm -i MYQUERY -o MYOUTPUT o参数的使用下列情况下,“-o”必须设置为TRUE:· a) 使用blastall 或者blastpgp程序,产生的结果为ASN.1格式时;· b) blast比对中,“-m”参数设置为非零的值;· c) blast比对中,使用“-I”参数,blast结果生成gi列表时;· d) 使用fastacmd程序,用接收号或者gi号从数据库中取出序列时。从NCBI FTP服务器上下载的数据库,或者能保证数据库中的fa

17、sta序列都有唯一标识符的数据库,格式数据库时,建议将-o参数设置为TRUE。超大数据库的格式化一个单独的blast数据库最大只能为4G,如果格式的数据库大于4G,在“-v”参数未设置的情况下,farmatdb程序会自动对数据库分卷,每卷最大为4G。可以使用“-v”参数设置卷的大小,比如下面命令将卷的大小设置为2G:formatdb -i hugefasta -p F -v 2000000000卷的命名规则是,原数据库的名称加两个数字的卷号扩展名,使用数据库时,还是使用原来的数据库名称:blastall -i infile -d hugefasta -p blastn -o out其实,bla

18、st程序是根据文件名为数据库名加扩展名为“nal”(对于蛋白质数据库扩展名为“pal”)的文件来判断要搜索的数据库的,如上例中,是根据文件“hugefasta.nal”来确定分卷的数据库。“.nal”或“.pal” 文件的格式为:# Alias file created Tue Jan 18 13:12:24 2000#TITLE hugefasta#DBLIST hugefasta.00 hugefasta.01 hugefasta.02#GILIST#OIDLIST# 其中TITLE行定义数据库的标题,DBLIST定义要搜索的数据库名称,数据库名称用空格分开。用户如果要同时搜索多个数据库,

19、可以按照上面文件 的格式,用文本编辑器创建类似的文件,文件名就是数据库的名称,如果是核苷酸数据库,就加“.nal”后缀,如果是蛋白质数据库就加“.pal”后缀。 DBLIST行放入数据库的名称,这样可以像使用其他数据库一样使用这个数据库。例如创建一个”multi.nal”文件,内容如下:# Alias file created Tue Jan 18 13:12:24 2000#TITLE multi#DBLIST part1 part2 part3#GILIST#OIDLIST#他包含part1,part2,part3三个数据库,如下命令,对该数据库进行blastblastall -i inf

20、ile -d multi -p blastn -o out数据库的路径问题如果你的数据库和工作目录不在同一个目录,或者你在几个目录下处理数据,并且对于数据库的需求也同,比如一个家蚕数据处理,一个是果蝇的数据处理,这时你可以用“-n”参数在工作目录下创建一个数据库别名文件,这样可以避免指定数据库是带入冗长的目录:formatdb -i insects -n ./blast/insects -p T -L wilkworm -F silkworm.gi -t "My database"这时,会生成类似与下面内容的silkworm.pal文件: # Alias file

21、 created Thu Jul  5 15:04:29 2001#TITLE My database#DBLIST ./blast/insects#GILIST silkworm.gi#OIDLIST#NSEQ 1836LENGTH 640724(通过上面的几个例子,大家一定对.pal文件有了深入的了解,就可以用文本编辑器,编写这个文件,灵活订制数据库,使搜索变得更方便)  格式化自定的数据库 如果是自己构建的数据库,数据库中fasta格式序列命名有以下三种方式:· a)  gnl|database|identifier· b)&#

22、160; lcl|identifier· c)  identifieridentifier为你指定的序列名称,dababase为你要指定的数据库的名称(详细的说明参见fasta序列格式章节)。如果要使用“-o T”设置,序列的名称应该唯一,不能重复。UNIX或linux下压缩文件不经解压直接格式数据库uncompress -c nt.Z|formatdb -i stdin -o T -p T -n "nt" -v 100000000formatdb的日志文件formatdb会默认生成一个名称为formatdb.log的日志文件,记录数据库生成的时间,及其

23、程序运行的结果。运行程序后,读一下日志文件是很好的习惯,以确保数据库正确格式化。也可以通过“-l”参数指定日志文件。命令举例:formatdb-t “E. coli genome”-i U00096.fna -p F -o T -n ecoliformatdb-t “Clusters of OrthologusGroups”-i COGsDBformatdb-t “Non-Redundant Protein Database”-i nr -o T用blastall进行序列比对blastall是最常用的blast程序之一,其功能非常强大,其下面有非常多的参数,但是一般使用的参数如:-p、-i、-

24、d、-o、-e等几个。· -p: 执行的程序名称 · -d: 搜索的数据库名称 · -i : 要查询的序列文件名(Query File) · -e:(数学)期望值(Expectation value),E值是个统计阈值,缺省值10, 意指比对结果中由于随机偶然性产生的匹配结果不大于10,E值越小结果越可靠。 · -o :查询结果输出文件名 · -m: 比对结果显示格式选项,缺省值为0 ,即pairwise格式。另外还可以根据不同的需要选择16等不同的格式。 · -I :在描述行中显示gi号T/F,缺省值F · -v

25、 :单行描述(one-line description)的最大数目,缺省值500 · -b :显示的比对结果的最大数目,缺省值250 · -F :对于要查询的序列做低复杂度区域(low complexity regions, LCR)的过滤T/F,缺省值T。对blastn用的是DUST程序,其他比对用的是SEG程序。 · 所谓“低复杂度区域”是指某些或一些残基过多表现,短周期重复等。对于高等哺乳动物的基因组序列,可以先用RepeatMask程序遮蔽重复元件。在输出结果中,对LCR区的序列核酸用“N”代替,蛋白质序列用“X”代替。 · -a:运行BLAST

26、程序所使用的处理器的数目,缺省值1 · -S:在数据库中搜索时所使用的核酸链(strand),只对blastn、blastx和tblastx有效;1表示top,2表示 bottom,3表示both;缺省值3 · -T: 产生HTML格式的输出T/F,缺省值F · -n: 使用MegaBlast搜索T/F,缺省值F · -G: 打开一个gap的罚分(0表示使用缺省设置值),默认0 · -E: 扩展一个gap的罚分(0表示使用缺省设置值),默认0 · -q: 一个核酸碱基的错配(mismatch)的罚分(只对blastn有效),缺省值-3

27、 · -r : 一个核酸碱基的正确匹配(match)的奖分(只对blastn有效),缺省值1 · -M: 所使用的打分矩阵,缺省值BLOSUM621.1.1.    参数说明基本参数、比对优化参数、结果输出参数、控制输入参数表:blastall命令的参数说明参数说明值默认值备注-p使用的程序字符String blastnblastpblastx tblastntblastx-d使用的数据库文件名File Innr -i搜索用的序列文件名File Instdin -e期望值数字Real10.0 -m控制比对

28、结果的样式0到11的整数Integer00 = pairwise,1 = query-anchored showing identities,2 = query-anchored no identities, 3 = flat query-anchored, show identities,4 = flat query-anchored, no identities,5 = query-anchored no identities and blunt ends,6 = flat query-anchored, no identities and blunt ends,7 = XML Blast

29、 output,8 = tabular,9 tabular with comment lines10 ASN, text11 ASN, binary-o比对结果存放的文件名文件名File Outstdout -F过滤询问序列StringTDUST with blastn, SEG with others-G打开gap得分Integer-1 -E延伸gap得分Integer-1 -XX dropoff value for gapped alignment (in bits)Integer0blastn 30, megablast 20, tblastx 0, all

30、 others 15-I显示gi号Show GIs in deflinesT/FF -q核酸错配罚分Integer-3blastn only-r核酸匹配得分Integer1blastn only-vNumber of database sequences to show one-line descriptions for (V)Integer500 -bNumber of database sequence to show alignments for (B)Integer250 -fThreshold for extending hitsInteger0blas

31、tp 11, blastn 0, blastx 12, tblastn 13, tblastx 13, megablast 0-gPerform gapped alignmentT/FTnot available with tblastx-Q指定询问序列使用的遗传密码Integer1 -D指定数据使用的遗传密码Integer1for tblastnx only-a使用CPU的数目Integer1 -OSeqAlign fileFile Out 可选-JBelieve the query deflineT/FF -M比对使用的矩阵StringBLOSUM6

32、2 -WWord sizeInteger0blastn 11, megablast 28, all others 3-z数据库的有效长度Effective length of the databasReal0use zero for the real size-KNumber of best hits from a region to keepInteger0off by default, if used a value of 100 is recommended-P0 for multiple hit, 1 for single hitInteger0does not apply

33、to blastn-YEffective length of the search spaceReal0use zero for the real size-SQuery strands to search against databaseInteger3for blastnx, and tblastx, 3 is both, 1 is top, 2 is bottom-T将结果保存为HTML格式T/FF -l通过gi号列表,限制搜索范围StringOptional -UUse lower case filtering of FASTA sequenceT/FOptiona

34、l -yX dropoff value for ungapped extensions in bitsReal0.00.0 invokes default behavior blastn 20, megablast 10, all others 7-ZX dropoff value for final gapped alignment in bitsInteger0blastn/megablast 50, tblastx 0, all others 25-RPSI-TBLASTN checkpoint fileFile InOptional -nMegaBlast sear

35、chT/FF -LLocation on query sequencStringOptional -AMultiple Hits window sizeInteger0default if zero (blastn/megablast 0, all others 40)-wFrame shift penaltyInteger0OOF algorithm for blastx-tLength of the largest intron allowed in a translated nucleotide sequence when linking multiple disti

36、nct alignmentsInteger00 invokes default behavior; a negative value disables linking.-BNumber of concatenated queriesInteger0for blastn and tblastn-VForce use of the legacy BLAST en gineT/FFOptional-CUse composition-based statistics for tblastnStringDD or d: default (equivalent to F)   

37、;   0 or F or f: no composition-based statistics      1 or T or t: Composition-based statistics as in NAR 29:2994-3005, 2001       2: Composition-based score adjustment as in Bioinformatics 21:902-911,          2005, conditioned on sequence properties      3: Composition-based score adjustment as in Bioinformatics 21:902-911,          2005, unconditionally 

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论