版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
NCBI站点的一般介绍及其它资源库的介绍GenBankOverview生物信息学站点地图其它资源库的介绍什么是GenBank?GenBank是一个有13亿碱基,来自于100,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。纪录样本关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。访问GenBank通过EntrezNucleotides来查询。用accessionnumber,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。增长统计
参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。
公布通知最新-最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。
旧-同上相同,是过去公布的统计。
遗传密码-15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。
向GenBank提交数据
Sequin提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以独立使用,或者用基于TCP/IP的“networkaware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)
ESTs-表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。GSSs基因组调查序列,短的、单次(测序)阅读的cDNA序列,exontrap获得的序列,cosmid/BAC/YAC末端,及其他。
HTGs-来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。注意:完成的人类的HTG序列可以同时在GenBank和HumanGenomeSequencing页面上访问。
STSs序列标签位点短的在基因组上可以被唯一操作的序列,用于产生作图位点。
注:SNPs-人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。国际核苷酸序序列数据库合合作组织GenBank,DDBJ,EMBL-合合作计划的概概述,并链接接到相应的主主页。GenBank,DDBJ(DNADataBankofJapan)),andEMBL((EuropeanMolecularBiologyLaboratory)数数据库共享的的数据是每天天都交换的,,因此他们是是相等的。数据纪录的格格式和搜索方方式可能会不不一样,但是是accessionnumber,序列数数据和注解都都是一模一样样的。即,你你可以用accessionnumberU12345在GenBank,,DDBJ或或EMBL中中查找相应纪纪录,得到的的结果是完全全一样的序列列数据,参考考内容等等。。DDBJ/EMBJ/GenBank特性表((见讲义))特性表格式和和标准被合作作数据库用在在序列记录的的注释上,使使得数据共享享成为可能,,包括详细的的描述生物特特性和特性限限定语的附录录,以及IUPAC规定定的核苷酸和和氨基酸的代代号。FTPGenBankandDailyUpdatesGenBank普通文件件格式参见GenBank记录录样本和在GenBank公布通知知中的详细描描述,下载大大多数最近的的完全公告和和日常积累或或非积累更新新数据。ASN.1格格式—摘摘要句法记号号1,国际标标准组织(ISO)数据据表示格式,,下载大多数数最近的完全全公告和日常常积累或非积积累更新数据据。FASTA格格式定义行号后只只跟随序列数数据(示例)),参见描述述数据库的readme文件,包括nt.Z(每天更新新的非冗余BLAST核核酸数据库,,包括GenBank+EMBL+DDBJ+PDB序列,,不包括EST,STS,GSS,orHTGS序序列),nr.Z(每日日更新的非冗冗余蛋白质)),est.Z,gss.Z,htg.Z,sts.Z,和其其它文件。分子数据库概概览核酸序序列Entrez核核酸——用用accessionnumber,作者者姓名名,物物种,,基因因/蛋蛋白名名字,,以及及很多多其它它的文文本术术语来来搜索索核酸酸序列列记录录(在在GenBank+PDB中)。。更多多的关关于Entrez的的信息息见下下。如如果要要检索索大量量数据据,也也可使使用BatchEntrez((批量量Entrez)。。RefSeqNCBI数数据库库的参参考序序列。。校正正的,,非冗冗余集集合,,包括括基因因组DNAcontigs,已已知基基因的的mRNAs和和蛋白白,在在将来来,整整个的的染色色体。。Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和和NC_xxxxxx的形形式来来表示示。dbEST——表表达序序列标标签数数据库库,短短的、、单次次(测测序))阅读读的cDNA序序列。。也包包括来来自于于差异异显示示和RACE实实验的的cDNA序列列。dbGSS——基因因组调调查序序列的的数据据库,,短的的、单单次((测序序)阅阅读的的cDNA序列列,exontrap获得得的序序列,,cosmid/BAC/YAC末端端,及及其他他。dbSTS序列标标签位位点的的数据据库,,短的的在基基因组组上可可以被被唯一一操作作的序序列,,用于于产生生作图图位点点。dbSNP——单单核苷苷酸多多态性性数据据库,,包括括SNPs,小小范围围的插插入/缺失失,多多态重重复单单元,,和微微卫星星变异异。完整的的基因因组参见下下面Genome和和Maps部分分,包包括各各种物物种资资源,,人,,小鼠鼠,大大鼠,,酵母母,线线虫,,疟原原虫,,细菌菌,病病毒,,viroids,,质粒粒。疟原虫虫UniGene被整理理成簇簇的EST和全全长mRNA序序列,,每一一个代代表一一种特特定已已知的的或假假设的的人类类基因因,有有定位位图和和表达达信息息以及及同其其它资资源的的交叉叉参考考。序序列数数据可可以以以cluster形形式在在Unigene网网页下下载,,完整整的数数据可可以从从FTP站站点repository/UniGene目目录下下下载载。人类UniGene小鼠UniGene大鼠UniGene斑马鱼鱼UniGeneBLAST将你的的序列列同核核酸库库中的的的序序列比比较,,检索索相似似的序序列。。(更更详细细的信信息见见下面面Tools/Sequence相似似搜索索部分分)BLAST查找BLAST指南蛋白序序列Entrez蛋蛋白——用用accessionnumber,作作者姓姓名,,物种种,基基因/蛋白白名字字,以以及很很多其其它的的文本本术语语来搜搜索蛋蛋白序序列记记录((在GenPept+Swiss-Prot+PIR+RPF+PDB中中)。。更多多的关关于Entrez的的信息息见下下。如如果要要检索索大量量数据据,也也可使使用BatchEntrez((批量量Entrez)。。RefSeqNCBI数数据库库的参参考序序列。。Curated,非非冗余余集合合包括括基因因组DNAcontigs,已已知基基因的的mRNAs和和蛋白白,在在将来来,整整个的的染色色体。。Accessionnumbers用用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和和NC_xxxxxx的的形式式来表表示。。FTPGenPept下载载““genpept.fsa.Z””文文件件,,这这个个文文件件包包含含了了从从GenBank/EMBL/DDBJ记记录录中中翻翻译译过过来来的的FASTA格格式式的的氨氨基基酸酸序序列列,,这这些些记记录录都都有有一一到到两两个个CDS特特性性的的描描述述。。完整整基基因因组组参见见下下面面Genome和和Maps部部分分,,包包括括各各种种物物种种资资源源,,人人,,小小鼠鼠,,大大鼠鼠,,酵酵母母,,线线虫虫,,疟疟原原虫虫,,细细菌菌,,病病毒毒,,viroids,,质质粒粒。。Entrez基基因因组组提供供了了一一个个编编码码区区的的概概要要和和各各种种物物种种的的分分类类表表((TaxTable))。。编编码码区区概概要要列列出出了了在在基基因因组组中中所所有有的的的的蛋蛋白白,,并并提提供供链链接接到到FASTA文文件件和和BLAST。。分分类类表表总总结结了了蛋蛋白白BLAST分分析析的的结结果果,,建建议议他他们们的的可可能能功功能能,,并并用用颜颜色色编编码码的的图图来来显显示示物物种种同同其其它它物物种种之之间间的的关关系系((参参见见下下面面'Genomes和和Maps,'部部分分Entrez基基因因组组的的一一般般描描述述))FTP基基因因组组蛋蛋白白从ftp站站点点的的genbank/genomes目目录录下下下下载载各各种种物物种种的的FASTA格格式式的的氨氨基基酸酸序序列列*.faa和和蛋蛋白白表表文文件件*.ptt。。参参见见readme文文件件。。蛋蛋白白表表也也可可以以在在Entrez基基因因组组中中看看到到。。PROWWeb上上的蛋白白资源,,关于大大约200种人人类的CD细胞胞表面分分子的简简短官方方向导。。互相检检索,为为每个CD抗原原提供大大约20中标准准信息的的分类((生化功功能,配配体,等等等)BLAST将你的序序列同蛋蛋白库中中的的序序列比较较,检索索相似的的序列。。(更详详细的信信息见下下面Tools/Sequence相似搜搜索部分分)BLASTp查找PSI-BLAST结构结构主页——关于于NCBI结构小组组的一般信信息和他们们的研究计计划,另外外也可以访访问分子模模型数据库库(MMDB)和用用来搜索和和显示结构构的相关工工具。MMDB::分子模型型数据库一个关于三三维生物分分子结构的的数据库,,结构来自自于X-ray晶体体衍射和NMR色谱谱分析。MMDB是是来源于Brookhaven蛋白数数据库(PDB)三三维结构的的一部分,,排除了那那些理论模模型。MMDB重新新组织和验验证了这些些信息,从从而保证在在化学和大大分子三维维结构之间间的交叉参参考。数据据的说明书书包括生物物多聚体的的空间结构构,这个分分子在化学学上是如何何组织的,,以及联系系两者的一一套指针。。利用将化化学,序列列,和结构构信息整合合在一起,,MMDB计划成为为基于结构构的同源模模型化和蛋蛋白结构预预测的资源源服务。MMDBMMDB的的记录以ASN.1格式存储储,可以用用Cn3D,Rasmol,或Kinemage来显示。。另外,数数据库中类类似的结构构已经被用用VAST确认,新新的结构可可以用VASTsearch来同数据据库进行比比较。Cn3D“Seein3-D”,,一个用用于NCBI数据库库的结构和和序列相似似显示工具具,它允许许观察3-D结构和和序列—结结构或结构构—结构同同源比较。。Cn3D用起来就就象你浏览览器上的一一个帮助工工具。VAST矢量同源比较较搜索工具一个在NCBI开发的计计算算法,用用于确定相似似的蛋白三维维结构。每一一个结构的““结构邻居””都是预先计计算好的,而而且可以通过过MMDB的的结构概要页页面的链接访访问。这些邻邻居可以用来来确认那些不不能被序列比比较识别的远远的同源性。。VAST搜搜索—结结构—结构相相似搜索服务务。比较一个个新解出的蛋蛋白结构和在在MMDB/PDB数据据库中的结构构的三维坐标标。VAST搜索计算一一系列可能会会被交互浏览览的结构邻居居,用分子图图形来观察重重叠和同源相相似。分类类学学NCBI的的分分类类数数据据库库主主页页——关关于于分分类类计计划划的的一一般般信信息息,,包包括括分分类类资资源源和和同同NCBI分分类类学学家家合合作作的的外外部部管管理理者者的的列列表表。。分类类浏浏览览器器——搜搜索索NCBI的的分分类类数数据据库库,,包包括括大大于于70000个个物物种种的的名名字字和和种种系系,,这这些些物物种种都都至至少少在在遗遗传传数数据据库库中中有有一一条条核核酸酸或或蛋蛋白白序序列列。。可可以以检检索索一一个个特特定定种种或或者者更更高高分分类类((如如属属,,科科))的的核核酸酸,,蛋蛋白白,,和和结结构构记记录录。。如如果果有有新新物物种种的的序序列列数数据据被被放放到到数数据据库库中中,,这这个个物物种种就就被被加加到到((分分类类))数数据据库库中中。。NCBI的的分分类类数数据据库库的的目目的的是是为为序序列列数数据据库库建建立立一一个个一一致致的的种种系系发发生生分分类类学学。。分类学学文献数数据库库概要要PubMed—一一个关关于生生物医医药科科学的的检索索系统统,包包括引引用,,摘要要,和和杂志志的索索引术术语。。它包包括直直接由由出版版商提提供给给NCBI的文文献引引用以以及链链接到到在出出版商商网址址上的的全文文的URLs。。PubMed包包括MEDLINE和PREMEDLINE的的完整整内容容。它它还包包括一一些被被MEDLINE认认为超超出范范围的的文章章和杂杂志,,(这这些文文章或或杂志志)由由于内内容或或在某某一时时期不不在索索引范范围内内。因因此PubMed是是比MEDLINE的更更大的的集合合。杂志浏浏览器器允许你你去查查找收收录到到PubMed系统统的杂杂志的的名字字,MEDLINE的缩缩写,,或ISSN号号码。。PubRef((开发发中))—一一个个关于于来自自于广广大范范围的的科学学杂志志的数数目记记录,,和链链接到到出版版商网网址的的全文文。PubRef包包含了了PubMEd,加加上了了来自自其它它学科科的杂杂志出出版商商提供供的引引用和和摘要要。因因此它它是比比PubMed更大大的集集合。。这个个计划划的启启动是是因为为NAS要要求为为科学学领域域的电电子杂杂志提提供一一个““白皮皮书””服务务。PubMed中中心((开发发中))PubMed中中心是是一个个无障障碍的的NIH资资源,,用于于在生生命科科学领领域中中同业业互查查的基基础研研究报报告。。从2000年年一月月开始始接受受杂志志文章章。所所有在在PubMed中心心的材材料将将由目目前任任一主主要的的摘要要和索索引服服务中中列出出的杂杂志提提供,,或者者在编编辑委委员会会中拥拥有3个以以上有有主要要资金金机构构的研研究经经费的的拥有有人的的杂志志提供供。PubMedOMIM:在线线人类类孟德德尔遗遗传——经常更更新的的人类类基因因和遗遗传失失调的的目录录,有有链接接到其其它相相关的的文献献参考考,序序列记记录,,和相相关数数据库库。书籍同书籍籍出版版商合合作NCBI为为网络络改编编了教教科书书,并并把他他们链链接到到PubMed—生生物医医药书书目数数据库库。这这是为为了给给PubMed提供供背景景信息息,这这样使使用者者可以以探究究在PubMed搜搜索结结果中中不熟熟悉的的概念念。目目前收收录的的书有有:MolecularBiologyoftheCell,3rded.AlbertsB.,BrayD.,LewisJ.,RaffM.,RobertsK.,WatsonJ.D.,1994,GarlandPublishing.外部链接接一个登记记服务,,用于建建立从在在Entrez中的特特定的文文章,杂杂志,或或生物数数据到外外部网址址的链接接。第三三方可以以提供
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度电子琴研发与生产合作合同(琴行与科技公司)
- 2024年度广告创意设计与制作合同书
- 2024年度产学研合作合同:高校与企业产学研合作项目
- 大学英语语法课件教学
- 《食物中毒与预防》课件
- 端午节课件 的
- 《全国税务反诈骗》课件
- 青岛版四年级下册数学全册教案
- xx集团中高层人力资源管理体系培训课件
- 2024年度砌块需求与供应量预测合同3篇
- 牛仔裤生产基本质量要求
- 51单片机的P0口工作原理详细讲解
- 急诊医学课程教学大纲
- 静电粉末喷涂实用工艺
- 高速公路布控图(电子版)
- 学生放学高峰期校门口疏导方案
- 建筑桩基技术规范 JGJ942008
- 第三章非均相反应
- 榆林地区电厂明细
- 经开区闲置低效工业用地盘活处置工作实施方案
- 卫生院基本公共卫生服务项目工作进度表
评论
0/150
提交评论