版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1Internet的核酸数据库资源生物信息学系王珍珍第二章第二章2分子生物学信息数据库分子生物学信息数据库1.核酸和蛋白质一级结构序列数据库核酸和蛋白质一级结构序列数据库2.基因组数据库基因组数据库3.生物大分子三维空间结构数据库生物大分子三维空间结构数据库4.上述三类数据库和文献资料为基础构建的二上述三类数据库和文献资料为基础构建的二级数据库级数据库3第一节第一节 核苷酸一级结构序列数据库核苷酸一级结构序列数据库 GenBank,DDBJ,and EMBL是当前最全面、规模是当前最全面、规模最大的公共核酸数据库,收录了所有已知的核酸序列。最大的公共核酸数据库,收录了所有已知的核酸序列。这这3
2、个中心都可以独立地接受数据提交,而个中心都可以独立地接受数据提交,而3个中心之个中心之间则逐日交换信息,并制成相同的充分详细的数据库间则逐日交换信息,并制成相同的充分详细的数据库向公众开放向公众开放在这里以在这里以 GenBank为例做详细介绍。为例做详细介绍。 4一、一、 GenBank数据库数据库(一) GenBank的创建及维护1.创建于1982年,迅速发展于20世纪90年代2.1988年美国成立国立生物技术信息中心(NCBI)3.1992,NCBI承担起对GenBank DNA序列数据库的维护责任 。5(二) GenBank的数据类型及来源数据类型数据类型1. 任意长度的任意长度的cD
3、NA片段片段2.单个外显子单个外显子3.完整的完整的cDNA4.任意的基因片段,以致于包涵多个基因的片段任意的基因片段,以致于包涵多个基因的片段数据来源数据来源1.个人或大规模测序中心直接递交的数据个人或大规模测序中心直接递交的数据2.通过美国专利和商标局收集注册专利的序列信息通过美国专利和商标局收集注册专利的序列信息 3.GenBank员工对员工对3400中杂志进行检索中杂志进行检索4.与与EMBL,DDBJ等大型数据库每日相互更新等大型数据库每日相互更新 一、一、 GenBank数据库数据库6nGenBank每条数据包含对序列的精确描述,序列来源生物的科学名称及树状分 类,以及特征数据栏,
4、提供序列的蛋白编码区和具有特殊生物学意义的位点,如转录 单位(transcription units)、突变或修饰位点(sites of mutationsor modifications)及重复序列(repeats),还提供特定序列编码的蛋白质序列。参考文献还给出其在MEDLINE上的特定标识号。7网址:/Genbank/8数据检索91011121314(三) GenBank数据库的结构15(三) GenBank数据库的结构161.EST数据库n分子生物学的中心法则就是指生物信息从DNA到RNA再到蛋白质,它构成了整个分子生物学的基础, 反
5、转录171.- 表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。2.长度经常介于200bp到500bp之间 1.EST数据库18n/dbEST/index.html19数据的提交n数据的提交n网址:/BankIt/20t2122232425262728数据的访问形式1.访问GenBank - 通过Entrez Nucleotides来查询。用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关
6、于Entrez更多的信息请看下文。2.另外一种选择是可以用FTP下载整个的GenBank和更新数据。3.用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。291.通过Entrez Nucleotides来查询。303132332.通过ftp来访问dbEST。/repository/dbEST3435The following files are stored in this repository:36dbEST的数据格式ndbEST的数据格式ngi number (g
7、enInfor identifier)是一个唯一标识一个特别序列的整数,每次当序列发生改变时gi编号将发生改变。n但是对应的EST的名字不一定会发生改变。37The following subdirectories exist:38nGenBank普通文件格式 参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。 nASN.1格式 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。 nFASTA格式 定义行号后只跟随序列数据(示例),。 FASTA格式39nFasta格式是一
8、种相当标准的符合生物信息学的输出,很容易读取。 nFASTA格式第一行是描述行,第一个字符必须是“”字符;随后的行是序列本身,一般每行序列不要超过80个字符,回车符不会影响程序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写;单个“-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和“*”号;任何数字都应该被去掉或换成字母(如,不明核酸用“N”,不明氨基酸用“X”)。 nFASTA格式是通常被用于序列比对的标准格式FASTA格式40nFASTA格式ngi|120475024|gb|DV935719.1|DV935719 ART1 Lycope
9、rsicon esculentum cDNA Solanum lycopersicum cDNA, mRNA sequencenTCGAAACTTTTCAGTGATAAAAAGCTTGAGAGAAAGTGAAAATCTACAGGTAAAAGATGACACTGFASTA格式41n我如何将一条序列以Fasta格式输出? nFasta格式是一种相当标准的符合生物信息学的输出,很容易读取。Biojava中有一个SeqIOTools的类提供很多方便的静态方法,能够完成很多通用的符合生物信息学的输入输出任务。下面的例子展示如何将一条序列甚至整个SequenceDB以Fasta格式输出到一个输出流如Syst
10、em.out中 FASTA格式数据的应用42nSeqnConverter 3.0n将不同格式的序列文件转换成FASTA格式软件 FASTA格式数据的应用43n1 转换多个文本文档中的序列为转换多个文本文档中的序列为 FASTA 格式:格式:所测序列保存在文本文档中,而且每个文档中只有一条序列,该功能可将其转换为通用格式FASTA格式,并将这些分散到多个文档中的序列合并到一个文本文档中,以便于操作。n2 提取多个文本文档中的提取多个文本文档中的 ncbi BLAST 结果:结果:将Blast结果中Score值最高的同源基因信息保存在一个文本文档中,每个文本文档只保存一条同源基因的信息。然后,提取
11、关键信息项(gi号、注释、SOURCE 、Score值、bits、Expect值、Identities、Gaps、Strand、function、product、chromosome)。n3 提取一个文本文档中的提取一个文本文档中的 ncbi BLAST 结果:结果:从保存于一个文本文档里的批量Blast结果中选出Score值最高的同源基因信息,然后,提取关键信息项(注释、SOURCE 、Score值、bits、Expect值、Identities、Gaps、Strand)。n4 从总序列文件库中提取目标序列:从总序列文件库中提取目标序列:只需要目标序列的文件名列表文件(不包括扩展名的文本文档
12、),可一次性自动地将这些条件序列从的所有查询序列文本文档库中提取出来。n应用实例FASTA格式数据的应用44The following subdirectories exist:45nDailyreportn拟南芥The following subdirectories exist:46The following subdirectories exist:47nBcp readmeThe following subdirectories exist:48GenBank数据格式详解49(1)LOCUS 表示的是序列在本数据库中的名称,它包含了此序列的功能信息。 “6905121 bp”表示序列长
13、度 “mRNA”代表本记录是一个RNA分子,(2)DEFINITION,在一个检索结果中列出的通常就是这一栏目的信息。包含了对此序列简单而又明确的解释。(3)ACCESSION,序列收录号。它是数据库中序列永久性的编号,对于同一序列在所有的核酸数据库中,它都是统一的。 .501.基本概念 相似性,同源性2.Blast介绍 Blast资源和相关问题3.Blast的应用 网络版 单机版4.深入了解Blast(改进程序,算法基础)5.其他的序列相似性搜索工具(fasta)3.用BLAST来在数据库中进行序列相似搜索51生物序列的相似性相似性:相似性: 是指一种很直接的数量关系数量关系,比如部分相同或
14、相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80,或者4/5。这是个量化的关系。当然可进行自身局部比较。52同源性:同源性: 指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80都是不科学的。生物序列的同源性53相似性和同源性关系序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序序列间的相似性越高的话,它们是同源序列的可能性就更高列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。 正因为存在这样的关系,很多
15、时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80一说。54序列相似性比较和序列同源性分析序列相似性比较和序列同源性分析序列相似性比较:序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;序列同源性分析:序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工
16、作必须使用多序列比较算法。常用的程序包有CLUSTAL等;55Blast简介(一) BLAST 是由美国国立生物技术信息中心是由美国国立生物技术信息中心(NCBI)开发的一个基于开发的一个基于序列相似性序列相似性的数据库搜索程的数据库搜索程序。序。 BLAST是是“局部相似性基本查询工局部相似性基本查询工具具”(Basic Local Alignment Search Tool)的的 缩写。缩写。56 Blast 是一个序列相似性搜索的程序包,其中是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。比
17、如说查询的对象和数据库的不同来定义的。比如说查询的序列为核酸,查询数据库亦为核酸序列数询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择据库,那么就应该选择blastn程序。程序。下表列出了主要的下表列出了主要的blast程序。程序。Blast简介(二)57主要的blast程序程序名程序名查询序列查询序列数据库数据库搜索方法搜索方法Blastn核酸核酸核酸核酸核酸序列搜索逐一核酸数据库中的序列核酸序列搜索逐一核酸数据库中的序列Blastp蛋白质蛋白质蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸核酸蛋白质蛋白质核酸序列核酸序列
18、6框翻译成蛋白质序列后和蛋白质数框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。据库中的序列逐一搜索。Tblastn蛋白质蛋白质核酸核酸蛋白质序列和核酸数据库中的核酸序列蛋白质序列和核酸数据库中的核酸序列6框翻框翻译后的蛋白质序列逐一比对。译后的蛋白质序列逐一比对。TBlastx核酸核酸核酸核酸核酸序列核酸序列6框翻译成蛋白质序列,再和核酸数框翻译成蛋白质序列,再和核酸数据库中的核酸序列据库中的核酸序列6框翻译成的蛋白质序列框翻译成的蛋白质序列逐一进行比对。逐一进行比对。58Blast相关的问题n怎么获得blast服务,怎么使用的问题?n为什么使用blast,可以获得什么样的信息?n其他问
19、题:实际使用时选择哪种方式(网络,本地化),参数的选择,结果的解释59Blast资源1.NCBI主站点: /BLAST/(网络版) /blast/ (单机版)2.其他站点: http:/ http:/nema.cap.ed.ac.uk/ncbi_blast.html /blast/(果蝇) 60Blast结果给出的信息 Blast结果会列出跟查询序列相似性比较高,符合限定要求的序列结果,根据这些结果可以获取以下一些信息。1.查询序列可能具有某种功能2
20、.查询序列可能是来源于某个物种3.查询序列可能是某种功能基因的同源基因这些信息都可以应用到后续分析中。61两种版本的Blast比较(一)n网络版本 包括NCBI在内的很多网站都提供了在线的blast服务,这也是我们最经常用到的blast服务。网络版本的blast服务就有方便,容易操作,数据库同步更新等优点。但是缺点是不利于操作大批量的数据,同时也不能自己定义搜索的数据库。62n单机版 单机版的blast可以通过NCBI的ftp站点获得,有适合不同平台的版本(包括linux,dos等)。获得程序的同时必须获取相应的数据库才能在本地进行blast分析。单机版的优点是可以处理大批的数据,可以自己定义
21、数据库,但是需要耗费本地机的大量资源,此外操作也没有网络版直观、方便,需要一定的计算机操作水平。两种版本的Blast比较(二)63NCBI提供的Blast服务登陆ncbi的blast主页核酸序列蛋白序列翻译序列底下有其他一些针对特殊数据库的和查看以往的比对结果等64Blast任务提交表单(一)1.序列信息部分填入查询(query)的序列序列范围(默认全部)选择搜索数据库如果接受其他参数默认设置,点击开始搜索65Blast任务提交表单(二)设置搜索的范围,entrez关键词,或者选择特定物种2.设置各种参数部分一些过滤选项,包括简单重复序列,人类基因组中的重复序列等E值上限窗口大小如果你对bla
22、st的命令行选项熟悉的话,可以在这里加入更多的参数66Blast任务提交表单(三)3.设置结果输出显示格式选择需要显示的选项以及显示的文件格式显示数目Alignment的显示方式筛选结果E值范围其他一些显示格式参数点击开始搜索67提交任务返回查询号(request id)可以修改显示结果格式修改完显示格式后点击进入结果界面68结果页面(一)图形示意结果69结果页面(二)目标序列描述部分带有genbank的链接,点击可以进入相应的genbank序列匹配情况,分值,e值70结果页面(三)详细的比对上的序列的排列情况71一个具体的例子(blastp)假设以下为一未知蛋白序列query_seq MSD
23、NGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWP
24、QIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA 我们通过blast搜索来获取一些这个序列的信息。72具体步骤1.登陆blast主页 /BLAST/2.根据数据类型,选择合适的程序3.填写表单信息4.提交任务5.查看和分析结果73分析过程(一)1.登陆ncbi的blast主页2.选择程序,因为查询序列是蛋白序列可以选择blastp,点击进入也可以选择tb
25、lastn作为演示,我们这里选blastp74分析过程(二)3.填入序列(copypaste)Fasta格式,或者纯序列4.选择搜索区域,这里我们要搜索整个序列,不填5.选择搜索数据库,这里我们选nr(非冗余的蛋白序列库)。是否搜索保守区域数据库(cdd),蛋白序列搜索才有。我们选上75分析过程(三)6.限制条件,我们限制在病毒里面找。7.其他选项保持默认值打分矩阵76分析过程(四)8.输出格式选项保持默认值9.点击开始搜索77分析过程(五)10.查询序列的一些相关信息在cdd库里面找到两个保守区域,点击可以进入78分析过程(六)图形结果79分析过程(七)匹配序列列表80分析过程(八)具体匹配
26、情况81为什么使用单机版的Blast?1.特殊的数据库要求。2.涉及序列的隐私与价值。3.批量处理4.其他原因?单机版的Blast使用(一)82单机版Blast的基本操作过程1.下载单机版的Blast程序/blast/executables/目录下,下载对应的操作系统版本。2.解压程序包(blast.tar.gz)命令是:$ tar zxvf blast.tar.gz单机版的Blast使用(二)833.获取Blast数据库a.直接从ncbi下载/blast/db/b.用Blast程序包提供的fo
27、rmatdb工具自己格式化序列数据成数据库。假设有一序列数据(sequence.fa,多序列,fasta格式),欲自己做成Blast数据库,典型的命令如下:单机版的Blast使用(三)84核酸序列:$ ./formatdb i sequence.fa p F o T/F n db_name蛋白序列:$ ./formatdb i sequence.fa p T o T/F n db_name单机版的Blast使用(四)854.执行Blast比对获得了单机版的Blast程序,解压开以后,如果有了相应的数据库(db),那么就可以开始执行Blast分析了。单机版的Blast程序包,把基本的blast分
28、析,包括blastn,blastp,blastx等都整合到了blastall一个程序里面。单机版的Blast使用(五)86以下是一个典型的blastn分析命令:(待分析序列seq.fa,数据库nt_db)$./blastall p blastn i seq.fa -d nt_db w 7 e 10 o 程序名 输入 数据库 窗口 e值 输出seq.blastn.out 该命令的意思是,对seq.fa文件中的核酸序列对nt_db数据库执行blastn搜索,窗口大小是7,e值限制是10,输出的结果保存到文件seq.blastn.out 中。单机版的Blast使用(六)875.Blastall的常用
29、参数-p 程序名应该是blastn,blastp,blastx,tblastn,tblastx中的一个-d 数据库名称,默认nr-i 查询序列文件,默认stdin-e E值限制,默认10-o 结果输出文件,默认stdout-F 过滤选项,默认T单机版的Blast使用(七)88进一步深入Blast1.blast22.Megablast3.Psi-blast4.其他(rpsblast,blastclust等)89Blast2 两个序列的blast比对,给定两个序列,相互进行blast比对。能快速检查两个序列是否存在相似性片断或者是否一致。这比起全序列比对要快很多。90Megablast nmega
30、blast采用了贪婪算法(greedy algorithm),它连接了多个查询序列进行一次搜索比对,这样节省了很多搜索数据库的时间。主要针对核酸序列。是blast经过优化后,适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较,比一般的相似性搜索程序要快10倍,可以很快的完成两组大数据的比对。91PSI-blast Position specific iterative BLAST (PSI-BLAST) 位点特异的迭代blast搜索,主要针对蛋白序列。第一次blast搜索后,结果中最相似的序列重新构建PSSM (位点特异性打分矩阵),然后再使用该矩阵进行第二轮blast搜索,再调整矩阵,搜索,如此
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度网络安全防护服务合同2篇
- 2025版果园租赁与农业观光旅游合作协议2篇
- 二零二五年度屋顶防水隔热彩钢瓦安装服务合同样本2篇
- 2025年度绿色建筑PPP项目合作协议2篇
- 二零二五年度洗衣店加盟商合同范本3篇
- 脚手架安全监理细则模版(2篇)
- 统计行政指导工作方案模版(2篇)
- 低压配电室操作规程(2篇)
- 二零二五年度新型环保建筑材料采购销售合同范本3篇
- 二零二五年度昆明公租房电子合同租赁合同签订与租赁双方责任划分3篇
- 第47届世界技能大赛江苏省选拔赛计算机软件测试项目技术工作文件
- 2023年湖北省公务员录用考试《行测》答案解析
- M200a电路分析(电源、蓝牙、FM)
- 2024-2030年全球及中国洞察引擎行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 建筑工程施工图设计文件审查办法
- 置业顾问考核方案
- 吉林市2024-2025学年度高三第一次模拟测试 (一模)数学试卷(含答案解析)
- 自考《英语二》高等教育自学考试试题与参考答案(2024年)
- 应急物资智能调配系统解决方案
- 2025年公务员考试时政专项测验100题及答案
- 《春秋》导读学习通超星期末考试答案章节答案2024年
评论
0/150
提交评论