




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
GenBankDNA序列库编辑:刘慧萍陈梅红GenBank简介GenBank检索与查询方式向GenBank递交数据GenBank 概况(/Web/Genbank/index.html) GenBank 是什么? GenBank 是 NIH 的基因序列数据库,是所有公开的DNA序列的集合 ( Nucleic Acids Research 1998 Jan 1;26(1):1-7). 截至1998年12月,GenBank大约收集了 2,162,000,000 个碱基、3,044,000 个序列。作为示例,你可以察看一下 neurofibromatosis gene的 纪录。也可以阅读关于当前版本的Genbank的完整的 release notes (发布说明)。每两个月会发布一个新的版本( release)。GenBank 也是国际核酸序列数据库协作(International Nucleotide Sequence Database Collaboration)的一部分,国际核酸序列数据库协作由以下几个部分组成:日本DNA数据库(DNA DataBank of Japan (DDBJ)),欧洲分子生物学实验室( the European Molecular Biology Laboratory (EMBL))和 NCBI的GenBank ,这三个组织每天都交换数据。 向GenBank提交数据 许多杂志要求在文章发表之前提供相应序列的基因数据库的提交信息(submission of sequence information),因为这样的话,一个序列访问号码 (accession number)就可以出现在文章中。NCBI有一个WWW形式的表格叫做 BankIt,它提供了一种快速而简便的序列提交方法。另一种方法是使用 Sequin,NCBI开发的新的可以独立运行于MAC, PC, and UNIX平台的序列递交软件,可以从FTP获得它,使用 Sequin时,用于直接提交的输出文件可以通过 E-mail 发送到NCBI,也可以将数据文件拷贝到软盘上邮寄给NCBI。Authorin是一个就的独立使用于MACs 和 PC 的软件,仍然可以用来格式化输出你的提交文件,不过我们还是建议用户改为使用 BankIt or Sequin。还有一种改进的程序用来进行批量提交序列,比如 EST, STS, 和 HTG 序列。 更新或者修改一个序列 任何时候都可以对GenBank的纪录进行更新或者修改,采用BankIt 或 Sequin的格式,通过一个电子的 表格,或者作为E-mail的正文,需要更新的序列的 accession number 一定要在主题行(subject line)中给出,E-mail发送到: 操作 GenBank GenBank可以从这里通过多种方法检索。 新的进展 NCBI 在不断的开发新的工具和增强已有的工具来提高提交序列和检索 GenBank的能力,想得到最新的消息的最简单的办法是阅读 NCBI News,NCBI News 也可以免费订阅。修改于 December 14, 1998 GenBank简介GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是美国生物技术信息中心(NCBI)建立并维护的,是世界上的权威序列数据库。数据库序列的来源为作者直接递交或间接查寻文献所得,并与世界上其他公开发 行的数据库,如EMBL,DDBJ交换每日更新的数据。GenBank发展极为迅速,仅1995年一年里增加的序列数据量,即超过以往14年的 累加数目。1995年的90.0版本含有492,483个不同的序列,总长度超过353,713,490个 碱基。其中54%是人(Homosapiens)的序列,此外还包括线虫(C.elegans)、酵母 (S.cerevisiae)、小家鼠(Mus musculus)等15,500种生物的DNA序列。GenBank每条数据包含对序列的精确描述,序列来源生物的科学名称及树状分 类,以及特征数据栏,提供序列的蛋白编码区和具有特殊生物学意义的位点,如转录 单位(transcription units)、突变或修饰位点(sites of mutationsor modifications)及重复序列(repeats),还提供特定序列编码的蛋白质序列。参考文 献还给出其在MEDLINE上的特定标识号。在GenBank中,分枝数据库dbEST和dbSTS的发展最为迅速。GenBank与其它核苷酸 序列库EMBL、DDBJ和LANL等,以及知名的蛋白质数据库SWISS-PROT、PIR、PRF和PDB 等建立了综合数据库(Integrated Database,ID)。NCBI已经建立了自己的生物大分 子三维结构库分子结构模型库MMDB(Molecular Modeling Database)。GenBank检索与查询方式GenBank数据记录检索GenBank数据可用文本检索系统(基本检索(GenBank、GenBank Updates)、高级检索)、ENTREZ高级检索系统进行检索。ENTREZ系统 可以用来检索核酸与蛋白质序列、MEDLINE相关文献或专利(PubMed)、 基因组及MMDB分子结构模型库信息。GenBank序列查询GenBank最常用的查询是序列局部相似性查询(BLAST),可通 过WWW途径或E-mail途径查询。向GenBank递交数据GenBank数据的一个主要来源是通过作者直接递交;目前许多期刊也希望刊登的 文章中的DNA或氨基酸序列能在发表前输入数据库。NCBI为此设计了方便、快捷的数 据递交软件:BankIt和Sequin。以前使用的Authorin软件已被Sequin替代,但仍可使 用。如果没有上述软件,可向NCBI(Email: )索取Email递交表。数据递交后,作者将收到一个数据存取号,表明递交的数据已被接收,此号可作 为以后向数据库查询时的凭据,作者可将其列入发表文章中。作者可要求对其递交数 据在正式发表前暂不公开,待文章发表后应尽快通知数据库(Email: ),否则将延误数据的公开。NCBI允许作者对已被收入数据库的数据进行修改、添加或删减。作者可通过 BankIt、Sequin或Email方式进行修改,注意应将数据存取号与修改内容一并通知数 据库。由于三大核酸数据库GenBank、EMBL、DDBJ之间每日都互相交换数据,因此作者 无论在哪里发表数据,只需要向其中任意一个本人认为最方便的数据库递交数据即可。BankIt直接通过WWW进行简便、快捷的递交。Sequin可供MAC、PCWindows、UNIX用户使用的递交软件,可输入有关数据的详细资料。最近修改于:有任何建议与意见请与主持人刘慧萍联系。 BLAST序列相似性查询编写朱峰陈梅红 什么是Blast相似性分析? 如何查询Blast? 查询入口:基本查询、高级查询 示例 什么是Blast相似性分析?BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的 缩写,包括一系列查询程序(见表1),是十分方便及强大的查询工具。用户可通过 e-mail得到BLAST的文件及帮助,地址为:blast-help 。表1. BLAST系列程序程 序 待查序列 数据库序列 评 价 举例 BLASTN 核酸(双链) 核 酸 1.优化参数提高速度,不敏感 2.不针对相关性较远的编码 区3.自动检查待查序列的互补 链 1,4 BLASTX 核 酸6个翻译读框 蛋 白 1.对于有潜在移码错误的初 步序列十分适用,如EST及 其它“单一通过”序列 2.适用于14种不同遗传密码3.有65种打分模式4.具有SEG或XNU算法的低复 杂的滤过选择 2,6 BLASTP 蛋 白 蛋 白 1.65种打分模式 2.低一复杂性滤过选择 3 TBLASTN 蛋 白 核 酸6个翻译读框 1.输入双链EST来查询 2.常用于发现尚未记录的开 放读框及移码错误3.14种不同遗传密码4.65种打分模式5.具有SEG或XNU算法的低复 杂度的滤过选择 5 TBLASTX 核 酸6个翻译读框 核 酸6个翻译读框 1.查询依赖于双链EST,双链 STS及Alu(e-mail服务除 外)2.14种不同遗传密码3.65种打分模式4.具有SEG或XNU算法的低复 杂度的滤过选择 每天,全世界的科学家应用“相似性”数据库查询达几千次之多。其基本操作是 输入一个待查序列(核酸或氨基酸序列),将之与数据库中所有已知序列相比,通过比 较与查询序列相似性的高低,将之在“击中序列目录”(hit list)中排序。查询结果 可为阳性、阴性或结果不确切。查询的目的在于寻找与待查序列有足够相似性的序 列,以提供功能相似的估价。若查出的序列功能不详,则可通过查询在其它生物体内 该序列的同源序列或多基因家族来探讨其功能。数据库查询的原理很简单,但已经发展了多种方法来验证查询的准确性,包括序 列一致打分系统及分子生物学基本原理:蛋白质和基因常常由不同结构和功能结构域 组成,而这些结构域通过综合多种序列而得到。统计学方法在相似性查询中尤为重 要,尤其是当数据库足够大及足够新时,查询才有意义,这一点是由众多的研究工作 保障的,每周数据库都会增加数以千计的新的序列。如何检索Blast?通过Internet,利用BLAST提交待查序列的远程服务有诸多优点,提交待查序列 的方法有3种:用E-mail、委托程序或WWW界面(基本检索、高级检索)提交序列,但 均由以下四个部分构成: 1.要执行的BLAST命令;2.查询的数据库名称;3.格及修饰物;4.查序列。 在很短的几分钟之内,你就会收到查询的结果。接着你将评估是否有任何令人感 兴趣的发现,这一过程包括以下两步:首先,确定查询结果具有统计学意义。要知道对于任一待查序列,所有数据库均 会给出一些序列的目录,但它们不一定具有生物学意义。问题在于相似性达到什么程 度对用户来说具有意义。对于任一数据库给出的匹配项,BLAST会产生P值,以评定序 列的相似性。其次,假设有十分有意义的查出项,则可在数据库中搜索该序列以得到注解,该 注解常含有更为详细的有关功能、表达及其他信息。数据库记录也会提供一些相关文 献。基本过程是应用该序列的存取号,从数据库中得到记录及应用e-mail或Internet 来得到相关的文献。NCBI的搜索服务器为World Wide Web/Mosaic。最近修改于: BLAST 高级查询窗体顶端此为 BLAST 2.0 version( 详见 ) 请先选择检索程序(Program)和检索数据库(Database): 程序(Program) 数据库(Database) 若执行 ungapped alignment(非间隔矩阵),请划(一般情况下建议不选)默认条件下,低复杂性序列将被过滤(filtered) . 请在下面输入或粘贴查询序列(以FASTA格式)或数据号 参看 FASTA 格式描述 还可以设置BLAST 高级查询选项:选择生物种类: 或键入生物名称或分类: 由此可浏览NCBI 中 database 分类 Expect Filter NCBI-gi Graphical Overview Descriptions Alignments Alignment view Query Genetic Codes (blastx only) Matrix Gap existence cost Per residue gap cost Lambda ratio 其他高级选项: The BLAST server may be very busy during the weekday, resulting in delays for users. The email option allows a user to receive the results quickly in a convenient form. If the HTML option is used, the results should be loaded into a web browser for viewing. Send reply to the Email address: In HTML format 窗体底端 最近更新于 例1、应用BLASTN搜索核酸序列数据库应用人MLHI(Genbank号为U07343和U07418)搜索相关的核酸序列,MLHI位于染色体3p21-23,与遗传性信息内结肠癌有关,结果如下:一、用e-mail 输入待查序列。(见原文)二、用BLAST在线命令委托程序(见原文)三、讨论:击中目录(hit list)是BLASTN搜索的最重要输出部
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社区慢病管理方法
- 2025年德育个人工作方案幼儿园演讲稿
- 护理学休克病人的急救护理
- 合同履行监督与评估指南
- 术后谵妄护理个案
- 保育员培训配合教育活动
- 神达电脑人力资源机构组织
- 滨州职业学院《功能高分子》2023-2024学年第二学期期末试卷
- 内蒙古鸿德文理学院《电视演播室》2023-2024学年第二学期期末试卷
- 安徽卫生健康职业学院《形势与政策Ⅲ》2023-2024学年第一学期期末试卷
- 2025陕西核工业工程勘察院有限公司招聘(21人)笔试参考题库附带答案详解
- 2025年山东、湖北部分重点中学高中毕业班第二次模拟考试数学试题含解析
- 2024年全国高中生物联赛竞赛试题和答案
- GB/T 12755-2008建筑用压型钢板
- 中国胸痛中心认证标准(标准版、基层版)
- 利益平衡理论及其在民事诉讼中的运用
- 《艺术学概论考研》课件艺术内涵的演变
- 资料员岗位季度绩效考核表
- 铺轨基地临建方案
- 《环境规划与管理》课件[1]
- 监控系统维护及方案
评论
0/150
提交评论