NCBI站点的一般介绍及其它资源库的介绍_第1页
NCBI站点的一般介绍及其它资源库的介绍_第2页
NCBI站点的一般介绍及其它资源库的介绍_第3页
NCBI站点的一般介绍及其它资源库的介绍_第4页
NCBI站点的一般介绍及其它资源库的介绍_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

NCBI站点的一般介绍及其它资源库的介绍GenBankOverview生物信息学站点地图其它资源库的介绍什么是GenBank?GenBank是一个有13亿碱基,来自于100,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。纪录样本关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。访问GenBank通过EntrezNucleotides来查询。用accessionnumber,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。增长统计

参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。

公布通知最新-最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。

旧-同上相同,是过去公布的统计。

遗传密码-15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。

向GenBank提交数据

Sequin提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以独立使用,或者用基于TCP/IP的“networkaware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)

ESTs-表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。GSSs基因组调查序列,短的、单次(测序)阅读的cDNA序列,exontrap获得的序列,cosmid/BAC/YAC末端,及其他。

HTGs-来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。注意:完成的人类的HTG序列可以同时在GenBank和HumanGenomeSequencing页面上访问。

STSs序列标签位点短的在基因组上可以被唯一操作的序列,用于产生作图位点。

注:SNPs-人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。国际核核苷酸酸序列列数据据库合合作组组织GenBank,DDBJ,,EMBL-合合作计计划的的概述述,并并链接接到相相应的的主页页。GenBank,DDBJ((DNADataBankofJapan),,andEMBL((EuropeanMolecularBiologyLaboratory))数据据库共共享的的数据据是每每天都都交换换的,,因此此他们们是相相等的的。数据纪纪录的的格式式和搜搜索方方式可可能会会不一一样,,但是是accessionnumber,序序列数数据和和注解解都是是一模模一样样的。。即,,你可可以用用accessionnumberU12345在在GenBank,,DDBJ或EMBL中中查找找相应应纪录录,得得到的的结果果是完完全一一样的的序列列数据据,参参考内内容等等等。。DDBJ/EMBJ/GenBank特性性表((见见讲义义)特性表表格式式和标标准被被合作作数据据库用用在序序列记记录的的注释释上,,使得得数据据共享享成为为可能能,包包括详详细的的描述述生物物特性性和特特性限限定语语的附附录,,以及及IUPAC规规定的的核苷苷酸和和氨基基酸的的代号号。FTPGenBankandDailyUpdatesGenBank普通通文件件格式式参见GenBank记录录样本本和在在GenBank公公布通通知中中的详详细描描述,,下载载大多多数最最近的的完全全公告告和日日常积积累或或非积积累更更新数数据。。ASN.1格式式——摘摘要句句法记记号1,国国际标标准组组织((ISO))数据据表示示格式式,下下载大大多数数最近近的完完全公公告和和日常常积累累或非非积累累更新新数据据。FASTA格式式定义行行号后后只跟跟随序序列数数据((示例例),,参见见描述述数据据库的的readme文件件,包括nt.Z((每天天更新新的非非冗余余BLAST核核酸数数据库库,包括GenBank+EMBL+DDBJ+PDB序列列,不包括括EST,STS,GSS,orHTGS序列列),,nr.Z(每每日更更新的的非冗冗余蛋蛋白质质),,est.Z,gss.Z,htg.Z,sts.Z,和和其它它文件件。分子数数据库库概览览核酸序序列Entrez核核酸——用用accessionnumber,作者者姓名名,物物种,,基因因/蛋蛋白名名字,,以及及很多多其它它的文文本术术语来来搜索索核酸酸序列列记录录(在在GenBank+PDB中)。。更多多的关关于Entrez的的信息息见下下。如如果要要检索索大量量数据据,也也可使使用BatchEntrez((批量量Entrez)。。RefSeqNCBI数数据库库的参参考序序列。。校正正的,,非冗冗余集集合,,包括括基因因组DNAcontigs,已已知基基因的的mRNAs和和蛋白白,在在将来来,整整个的的染色色体。。Accessionnumbers用用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和和NC_xxxxxx的的形形式式来来表表示示。。dbEST——表表达达序序列列标标签签数数据据库库,,短短的的、、单单次次((测测序序))阅阅读读的的cDNA序序列列。。也也包包括括来来自自于于差差异异显显示示和和RACE实实验验的的cDNA序序列列。。dbGSS——基基因因组组调调查查序序列列的的数数据据库库,,短短的的、、单单次次((测测序序))阅阅读读的的cDNA序序列列,,exontrap获获得得的的序序列列,,cosmid/BAC/YAC末末端端,,及及其其他他。。dbSTS序列列标标签签位位点点的的数数据据库库,,短短的的在在基基因因组组上上可可以以被被唯唯一一操操作作的的序序列列,,用用于于产产生生作作图图位位点点。。dbSNP——单单核核苷苷酸酸多多态态性性数数据据库库,,包包括括SNPs,,小小范范围围的的插插入入/缺缺失失,,多多态态重重复复单单元元,,和和微微卫卫星星变变异异。。完整整的的基基因因组组参见见下下面面Genome和和Maps部部分分,,包包括括各各种种物物种种资资源源,,人人,,小小鼠鼠,,大大鼠鼠,,酵酵母母,,线线虫虫,,疟疟原原虫虫,,细细菌菌,,病病毒毒,,viroids,,质质粒粒。。疟原原虫虫UniGene被整整理理成成簇簇的的EST和和全全长长mRNA序序列列,,每每一一个个代代表表一一种种特特定定已已知知的的或或假假设设的的人人类类基基因因,,有有定定位位图图和和表表达达信信息息以以及及同同其其它它资资源源的的交交叉叉参参考考。。序序列列数数据据可可以以以以cluster形形式式在在Unigene网网页页下下载载,,完完整整的的数数据据可可以以从从FTP站站点点repository/UniGene目目录录下下下下载载。。人类类UniGene小鼠鼠UniGene大鼠鼠UniGene斑马马鱼鱼UniGeneBLAST将你你的的序序列列同同核核酸酸库库中中的的的的序序列列比比较较,,检检索索相相似似的的序序列列。。((更更详详细细的的信信息息见见下下面面Tools/Sequence相相似似搜搜索索部部分分))BLAST查找找BLAST指南南蛋白白序序列列Entrez蛋蛋白白——用用accessionnumber,作作者者姓姓名名,,物物种种,,基基因因/蛋蛋白白名名字字,,以以及及很很多多其其它它的的文文本本术术语语来来搜搜索索蛋蛋白白序序列列记记录录((在在GenPept+Swiss-Prot+PIR+RPF+PDB中中))。。更更多多的的关关于于Entrez的的信信息息见见下下。。如如果果要要检检索索大大量量数数据据,,也也可可使使用用BatchEntrez((批批量量Entrez))。。RefSeqNCBI数数据据库库的的参参考考序序列列。。Curated,非非冗冗余余集集合合包包括括基基因因组组DNAcontigs,已已知知基基因因的的mRNAs和和蛋蛋白白,,在在将将来来,,整整个个的的染染色色体体。。Accessionnumbers用用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和和NC_xxxxxx的的形形式式来来表表示示。。FTPGenPept下载载“””文文件件,,这这个个文文件件包包含含了了从从GenBank/EMBL/DDBJ记记录录中中翻翻译译过过来来的的FASTA格格式式的的氨氨基基酸酸序序列列,,这这些些记记录录都都有有一一到到两两个个CDS特特性性的的描描述述。。完整基因因组参见下面面Genome和Maps部部分,包包括各种种物种资资源,人人,小鼠鼠,大鼠鼠,酵母母,线虫虫,疟原原虫,细细菌,病病毒,viroids,质粒粒。Entrez基基因组提供了一一个编码码区的概概要和各各种物种种的分类类表(TaxTable)。。编码区区概要列列出了在在基因组组中所有有的的蛋蛋白,并并提供链链接到FASTA文件件和BLAST。分类类表总结结了蛋白白BLAST分分析的结结果,建建议他们们的可能能功能,,并用颜颜色编码码的图来来显示物物种同其其它物种种之间的的关系((参见下下面'Genomes和Maps,'部分分Entrez基因组组的一般般描述))FTP基基因组蛋蛋白从ftp站点的的genbank/genomes目录下下下载各各种物种种的FASTA格式的的氨基酸酸序列*.faa和蛋蛋白表文文件*.ptt。参见见readme文件。。蛋白表表也可以以在Entrez基因因组中看看到。PROWWeb上上的蛋白白资源,,关于大大约200种人人类的CD细胞胞表面分分子的简简短官方方向导。。互相检检索,为为每个CD抗原原提供大大约20中标准准信息的的分类((生化功功能,配配体,等等等)BLAST将你的序序列同蛋蛋白库中中的的序序列比较较,检索索相似的的序列。。(更详详细的信信息见下下面Tools/Sequence相似搜搜索部分分)BLASTp查找PSI-BLAST结构结构主页页—关关于NCBI结构小小组的一一般信息息和他们们的研究究计划,,另外也也可以访访问分子子模型数数据库((MMDB)和和用来搜搜索和显显示结构构的相关关工具。。MMDB:分子子模型数数据库一个关于于三维生生物分子子结构的的数据库库,结构构来自于于X-ray晶晶体衍射射和NMR色谱谱分析。。MMDB是来源源于Brookhaven蛋蛋白数据据库(PDB))三维结结构的一一部分,,排除了了那些理理论模型型。MMDB重重新组织织和验证证了这些些信息,,从而保保证在化化学和大大分子三三维结构构之间的的交叉参参考。数数据的说说明书包包括生物物多聚体体的空间间结构,,这个分分子在化化学上是是如何组组织的,,以及联联系两者者的一套套指针。。利用将将化学,,序列,,和结构构信息整整合在一一起,MMDB计划成成为基于于结构的的同源模模型化和和蛋白结结构预测测的资源源服务。。MMDBMMDB的记录录以ASN.1格式存存储,可可以用Cn3D,Rasmol,或Kinemage来来显示。。另外,,数据库库中类似似的结构构已经被被用VAST确确认,新新的结构构可以用用VASTsearch来同同数据库库进行比比较。Cn3D“Seein3-D”,,一个个用于NCBI数据库库的结构构和序列列相似显显示工具具,它允允许观察察3-D结构和和序列——结构或或结构——结构同同源比较较。Cn3D用用起来就就象你浏浏览器上上的一个个帮助工工具。VAST矢量同源源比较搜搜索工具具一个在NCBI开发的的计算算算法,用用于确定定相似的的蛋白三三维结构构。每一一个结构构的“结结构邻居居”都是是预先计计算好的的,而且且可以通通过MMDB的的结构概概要页面面的链接接访问。。这些邻邻居可以以用来确确认那些些不能被被序列比比较识别别的远的的同源性性。VAST搜索索—结结构——结构相相似搜索索服务。。比较一一个新解解出的蛋蛋白结构构和在MMDB/PDB数据据库中的的结构的的三维坐坐标。VAST搜索计计算一系系列可能能会被交交互浏览览的结构构邻居,,用分子子图形来来观察重重叠和同同源相似似。分类学NCBI的分类类数据库库主页——关关于分类类计划的的一般信信息,包包括分类类资源和和同NCBI分分类学家家合作的的外部管管理者的的列表。。分类浏览览器——搜索索NCBI的分分类数据据库,包包括大于于70000个个物种的的名字和和种系,,这些物物种都至至少在遗遗传数据据库中有有一条核核酸或蛋蛋白序列列。可以以检索一一个特定定种或者者更高分分类(如如属,科科)的核核酸,蛋蛋白,和和结构记记录。如如果有新新物种的的序列数数据被放放到数据据库中,,这个物物种就被被加到((分类))数据库库中。NCBI的分类类数据库库的目的的是为序序列数据据库建立立一个一一致的种种系发生生分类学学。分类学文献数据据库概要要PubMed—一个个关于生生物医药药科学的的检索系系统,包包括引用用,摘要要,和杂杂志的索索引术语语。它包包括直接接由出版版商提供供给NCBI的的文献引引用以及及链接到到在出版版商网址址上的全全文的URLs。PubMed包包括MEDLINE和和PREMEDLINE的完完整内容容。它还还包括一一些被MEDLINE认为超超出范围围的文章章和杂志志,(这这些文章章或杂志志)由于于内容或或在某一一时期不不在索引引范围内内。因此此PubMed是比MEDLINE的更大大的集合合。杂志浏览览器允许你去去查找收收录到PubMed系系统的杂杂志的名名字,MEDLINE的缩写写,或ISSN号码。。PubRef((开发中中)—一一个关关于来自自于广大大范围的的科学杂杂志的数数目记录录,和链链接到出出版商网网址的全全文。PubRef包包含了PubMEd,,加上了了来自其其它学科科的杂志志出版商商提供的的引用和和摘要。。因此它它是比PubMed更更大的集集合。这这个计划划的启动动是因为为NAS要求为为科学领领域的电电子杂志志提供一一个“白白皮书””服务。。PubMed中中心(开开发中))PubMed中中心是一一个无障障碍的NIH资资源,用用于在生生命科学学领域中中同业互互查的基基础研究究报告。。从2000年年一月开开始接受受杂志文文章。所所有在PubMed中中心的材材料将由由目前任任一主要要的摘要要和索引引服务中中列出的的杂志提提供,或或者在编编辑委员员会中拥拥有3个个以上有有主要资资金机构构的研究究经费的的拥有人人的杂志志提供。。PubMedOMIM:在线人人类孟德德尔遗传传—经常更新新的人类类基因和和遗传失失调的目目录,有有链接到到其它相相关的文文献参考考,序列列记录,,和相关关数据库库。书籍同书籍出出版商合合作NCBI为为网络改改编了教教科书,,并把他他们链接接到PubMed—生生物医药药书目数数据库。。这是为为了给PubMed提提供背景景信息,,这样使使用者可可以探究究在PubMed搜索索结果中中不熟悉悉的概念念。目前前收录的的书有::MolecularBiologyoftheCell,3rded.AlbertsB.,BrayD.,LewisJ.,RaffM.,RobertsK.,WatsonJ.D.,1994,GarlandPublishing.外部链接接一个登记记服务,,用于建建立从在在Entrez中的特特定的文文章,杂杂志,或或生物数数据到外外部网址址的链接接。第三三方可以以提供一一个URL,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论