版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、NCBI站点的一般介绍及其它资源库的介绍,GenBank Overview 生物信息学站点地图 其它资源库的介绍,国际核苷酸序列数据库合作组织,GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DNA Data Bank of Japan ,DDBJ)以及欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库( European Molecular Biology Laboratory, EMBL) 一起,都是国际核苷酸序列数据库合作的成员。 GenBank,DDBJ,and EMBL,所有这3个中心都可以独立地接受数据提交,而3个
2、中心之间则逐日交换信息,并制成相同的充分详细的数据库向公众开放。因此他们是相等的。,什么是GenBank?,GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸序列。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。 每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。 这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成DNA序列数据库的直接提交。这些作者将序列数据库作为论文的一部分来发表,或将数据库直接公开。,GenBank,GenBank是一个有13亿碱基,来自于100,000多种生物的核苷酸序列的数据库。每条
3、纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。 遗传密码 - 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。,访问GenBank,通过Entrez Nucleotides来查询。 用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。 关于Entrez更多的信息请看下文。 用BLAST来在GenBank和其他数据库中进行序列相似搜索。 用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。,纪录样本,每个记录代表了一个单独的
4、、连续的、带有注释的DNA或RNA片段。 这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成DNA序列数据库的直接提交。这些作者将序列数据库作为论文的一部分来发表,或将数据库直接公开。 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。,DDBJ/EMBJ/GenBank特性表(见讲义或网络课件),特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。 数据纪录的格式和搜索方式可能会不一样,但是accession number,序列数据和注解都是一模
5、一样的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。,GenBank普通文件格式,参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。 ASN.1格式 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。,分子数据库概览,核酸序列 Entrez核酸 用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索核酸序列记录(在GenB
6、ank + PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用Batch Entrez(批量Entrez)。,Entrez基因组,提供了一个编码区的概要和各种物种的分类表(TaxTable)。 编码区概要列出了在基因组中所有的的蛋白,并提供链接到FASTA文件和BLAST。 分类表总结了蛋白BLAST分析的结果,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系 。,BLAST,将你的序列同核酸库中的的序列比较,检索相似的序列。(更详细的信息见下面Tools/Sequence相似搜索部分) BLAST 查找 BLAST指南,BLAST,程序对数据库搜索进
7、行大量的改良,提高了搜索速度,同时把数据库搜索建立在了严格的统计学基础上。 局部比对的限制条件不包括空位。这个限制条件对应用KarlinAltschul统计学极为有利,另一方面,既然空位没有明确地放在模型中,结果就不会像人们期望的那样接近于期望的比对。这并不是说插入确实会妨碍匹配,在大多数情况下,比对仅仅会被分解为若干个明显的HSPs。无论如何,老版本的BLAST程序(1.4以前)的局限性在新版本中已经被取消了,新版本在对待空位问题上有着明确的作法。,BLAST程序的修订版,最近发布的BLAST程序的修订版提高了搜索速度,敏感度和实用性。 这个完全重新写过的软件包指定为2.0版本(避免同WUB
8、LUST混淆,这个软件是由华盛顿大学设计的,有时称为BLAST2)应该注意到,在发布的2.0版本中,命令行的参数有很大改变。,序列相似性搜索,通过计算机网络或调制解调器登陆到Internet上并把含有你的序列的e-mail发送到NCBI。DATALIB认准你将搜索的数据库,可选择下列数据库: nr “非丰余的”蛋白或核酸序列数据库,它包括来自PDB,GenBank(R),更新的GenBank(r),EMBL的最新情报; gb GenBank(R)核酸序列数据库; emb EMBL数据库;,Entrez基因组(各种物种),Entrez是NCBI的一个计划,它包含了GenBank数据。但Entre
9、z和GenBank从本质上是不同的,前者是一个信息检索系统,而后者是一个Entrez从中检索的数据库。 Entrez基因组 超过800种在GenBank中被完整测序的物种,包括大于500种病毒,25种细菌,酵母,和许多viroids,质粒,和细胞器。还包括正在进行中的基因组,比如人,小鼠,线虫,疟原虫,果蝇,利什曼原虫,水稻,和玉米。Entrez Map Viewer,Entrez基因组,一个软件组成部分,提供整合的果蝇(细胞遗传学和序列图谱)和人类(细胞遗传学,遗传连锁,序列,放射杂交,和其它图谱)的染色体图谱的浏览。 通过每个物种的Entrez基因组页面来下载350kb的基因组。 通过NC
10、BI ftp站点来下载350kb的基因组参见在genbank/genomes目录下的readme文件,ftp链接在每个物种的Entrez基因组页面上也有。 /Sitemap/index.html,FASTA,FASTA程序是第一个广泛使用的数据库相似性搜索程序。 程序引用取代矩阵实行局部比对以获得最佳搜索。但众所周知,使用这种策略会非常耗费工作时,为了提高速度,在实施耗时的最佳搜索之前,程序使用已知的字串检索出可能的匹配。在速度和敏感度之间权衡选择依赖于ktup参数。它决定了字串的大小。增大ktup参数就会减少字串命中的数目,也就会减少所需要
11、的最佳搜索的数目和搜索的速度。 从2.0版本开始,FASTA对每一个检索的比对都提供一个统计学显著性的评估。 Ftp://pub/fasta/,FASTA格式,定义行号后只跟随序列数据,参见描述数据库的readme文件, 包括nt.Z(每天更新的非冗余BLAST核酸数据库, 包括GenBank+EMBL+DDBJ+PDB序列, 不包括EST, STS, GSS, or HTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。,FTPGenPept,下载“genpept.fsa.Z”文件,这个文件包含了
12、从GenBank/EMBL/DDBJ记录中翻译过来的FASTA格式的氨基酸序列,这些记录都有一到两个CDS特性的描述。,FTP基因组蛋白,从ftp站点的genbank/genomes目录下下载各种物种的FASTA格式的氨基酸序列*.faa和蛋白表文件*.ptt。参见readme文件。蛋白表也可以在Entrez基因组中看到。,向GenBank提交数据,关于提交序列数据,收到accession number,和对纪录作更新的一般信息。 BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。 注意在提交前用VecScreen去除载体),Sequin,提交软件程序,用于一条或者很多条的提
13、交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。 可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件,比如Entrez和PowerBLAST。,GenBank,ESTs,- 表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。,STSs 序列标签位点,短的在基因组上可以被唯一操作的序列,用于产生作图位点。 SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。 /SNP/,GSSs
14、,基因组调查序列,短的、单次(测序)阅读的cDNA序列,exon trap获得的序列,cosmid/BAC/YAC末端,及其他。 HTGs 来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。 注意:完成的人类的HTG序列可以同时在GenBank和Human Genome Sequencing页面上访问。,RefSeq,NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。 Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC
15、_xxxxxx的形式来表示。 dbEST 表达序列标签数据库,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。 dbGSS 基因组调查序列的数据库,短的、单次(测序)阅读的cDNA序列,exon trap获得的序列,cosmid/BAC/YAC末端,及其他。,dbSTS,序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。 dbSNP 单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。,UniGene 数据库,把GenBank中同某个基因有关的非冗余序列聚集成组(或整理成簇的EST和全长mRNA序
16、列库),每一个代表一种特定已知的或假设的物种基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。 人类UniGene 小鼠UniGene 大鼠UniGene 斑马鱼UniGene,完整的基因组,参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。 人,OMIM:在线人类孟德尔遗传,经常更新的人类基因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。,蛋白序列,Entrez蛋白
17、 用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索蛋白序列记录(在GenPept + Swiss-Prot + PIR + RPF + PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用Batch Entrez(批量Entrez)。,PROW,Web上的蛋白资源,关于大约200种人类的CD细胞表面分子的简短官方向导。互相检索,为每个CD抗原提供大约20中标准信息的分类(生化功能,配体,等等),结构 (Structure),结构主页 关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问分子模型数据库(MMDB)和用
18、来搜索和显示结构的相关工具。,MMDB:分子模型数据库,一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和核磁共振实验研究结果。 MMDB是来源于Brookhaven蛋白数据库(PDB)三维结构的一部分,排除了那些理论模型。MMDB重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参考。数据的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的,以及联系两者的一套指针。利用将化学、序列、和结构信息整合在一起,MMDB计划成为基于结构的同源模型化和蛋白结构预测的资源服务。 /structure/ ftp:/ncbi
19、./mmdb,MMDB,MMDB的记录以ASN.1格式存储,可以用Cn3D, Rasmol, 或 Kinemage来显示。另外,数据库中类似的结构已经被用VAST确认,新的结构可以用VASTsearch来同数据库进行比较。,Cn3D,与MMDB配套的一个三维分子结构和NMR模型显示程序“See in 3-D” 。 Cn3D:一个用于NCBI数据库的结构和序列相似显示工具,它允许观察3-D结构和序列结构或结构结构同源比较。 Cn3D用起来就象你浏览器上的一个帮助工具。可在NCBI的网址直接使用或下载到PC机上执行。 RasMol,VAST,矢量同源比较搜索工具 一个在NCB
20、I开发的计算算法,用于确定相似的蛋白三维结构。每一个结构的“结构邻居”都是预先计算好的,而且可以通过MMDB的结构概要页面的链接访问。这些邻居可以用来确认那些不能被序列比较识别的远的同源性。 VAST 搜索 结构结构相似搜索服务。比较一个新解出的蛋白结构和在MMDB/PDB数据库中的结构的三维坐标。VAST搜索计算一系列可能会被交互浏览的结构邻居,用分子图形来观察重叠和同源相似。,分类学,NCBI的分类数据库主页 关于分类计划的一般信息,包括分类资源和同NCBI分类学家合作的外部管理者的列表。 分类浏览器 搜索NCBI的分类数据库,包括大于70000个物种的名字和种系,这些物种都至少在遗传数据
21、库中有一条核酸或蛋白序列。可以检索一个特定种或者更高分类(如属,科)的核酸,蛋白,和结构记录。如果有新物种的序列数据被放到数据库中,这个物种就被加到(分类)数据库中。NCBI的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。 分类学,文献数据库概要,PubMed 一个关于生物医药科学的检索系统,包括引用,摘要,和杂志的索引术语。它包括直接由出版商提供给NCBI的文献引用以及链接到在出版商网址上的全文的URLs。 PubMed包括MEDLINE和PREMEDLINE的完整内容。它还包括一些被MEDLINE认为超出范围的文章和杂志,(这些文章或杂志)由于内容或在某一时期不在索引范围内。
22、因此PubMed是比MEDLINE的更大的集合。,杂志浏览器,允许你去查找收录到PubMed系统的杂志的名字,MEDLINE的缩写,或ISSN号码。 PubRef(开发中) 一个关于来自于广大范围的科学杂志的数目记录,和链接到出版商网址的全文。 PubRef包含了PubMEd,加上了来自其它学科的杂志出版商提供的引用和摘要。因此它是比PubMed更大的集合。这个计划的启动是因为NAS要求为科学领域的电子杂志提供一个“白皮书”服务。,PubMed中心(开发中),PubMed中心是一个无障碍的NIH资源,用于在生命科学领域中同业互查的基础研究报告。从2000年一月开始接受杂志文章。所有在PubMe
23、d中心的材料将由目前任一主要的摘要和索引服务中列出的杂志提供,或者在编辑委员会中拥有3个以上有主要资金机构的研究经费的拥有人的杂志提供。 PubMed,书籍,同书籍出版商合作NCBI为网络改编了教科书,并把他们链接到PubMed生物医药书目数据库。这是为了给PubMed提供背景信息,这样使用者可以探究在PubMed搜索结果中不熟悉的概念。目前收录的书有: Molecular Biology of the Cell, 3rd ed. Alberts B., Bray D., Lewis J., Raff M., Roberts K., Watson J.D., 1994, Garland Pub
24、lishing.,外部链接,一个登记服务,用于建立从在Entrez中的特定的文章,杂志,或生物数据到外部网址的链接。第三方可以提供一个URL,资源名字,关于他们网址的简要的描述,和关于从NCBI数据的哪里他们希望建立链接的详细说明。这个详细说明可以用对Entrez有效的布尔查询来写,也可以用特定的文章或序列的标志列表来写。这样NCBI PubMed的用户将可以通过“NCBI小房间”服务(开发中)来选择哪个外部链接在他们的搜索中是可见的。,引用匹配,允许你找到任何一篇在PubMed数据库中的文章的PubMed ID或MEDLINE UID,给出书目信息(杂志,卷,页码等)。 单篇文章的引用匹配。 许多文章的批量引用匹配。 E-mail引用匹配也是可以的,也可以用于单篇或许多文章。如果要获得帮助文件,给citation_写一封只有内容为HELP的E-Mail。,Genomes and Maps Overview,Entrez基因组(各种物种) 提供完成的基因组/染色体的图形概览,并可以探究那些逐步细化的区域。 也提供那些已经被NCBI工作人员分析过的物种的编码区的摘要和TaxTables。,检索蛋白或DNA序列,e-mail完成序列检索: mail retrievencbi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程物流合同模板参考
- 2024年度劳动合同范本
- 代收货款服务协议格式
- 房屋租赁合同纠纷调解案例分享
- 房产建筑动漫设计范本合同
- 企业与高校联合人才培养协议样本
- 物资交换合同模板
- 独家招生代理权协议
- 女方自愿离婚协议书撰写作答
- 幼儿园门卫聘用合同典范
- 芜湖市大学生乡村医生专项计划招聘考试试卷及答案
- 12J201平屋面建筑构造图集(完整版)
- 2024-2030年中国航空噪声与振动主动控制系统行业市场发展趋势与前景展望战略研究报告
- 外研版七年级英语上册教学课件Unit-1-Lesson-4-Reading-for-writing
- 大药房《质量管理体系文件》-管理制度
- 人教版(2024)第四单元-汉语拼音《ai-ei-ui》教学课件
- 植皮的护理查房
- 文化行业文化遗产保护与数字化传承方案
- 2024年中国长江三峡集团限公司“定向招聘”校园招聘(226人)高频考题难、易错点模拟试题(共500题)附带答案详解
- 2024届新高考数学大题训练:数列(30题)(解析版)
- 2024-2030年中国碳纳米管(CNT)材料行业市场发展趋势与前景展望战略分析报告
评论
0/150
提交评论