版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
常用数据库简介数据库(Database)用于收集、整理、储存、加工、发布和检索数据的系统。生物类的数据库种类很多投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中数据库记录通常包括两部分原始数据对这些数据进行的生物学意义的注释一个数据库通常链接了多个相关数据库核苷酸数据库-水稻抗病相关基因OsDR8
DQ176424Taxonomy数据库Pubmed数据库NCBI-Protein数据库(一)数据库工具建立纯文本数据库
GenBank
数据库、EMBL核苷酸数据库
MySQL
数据库工具
SQL(结构化查询语言)是世界上流行的和标准化的数据库语言能够快速灵活存储记录文件和图像下载网址
http:///
AceDB
数据库工具AceDB:AC.elegans
DataBase(线虫数据库)被广泛应用的管理和提供基因组数据的工具数据形式丰富遗传图谱物理图谱新陈代谢途径序列等G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63L1044NBS119RM144Y6855RA0.00111gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactgatacagaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataaatactttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac(二)各种生物数据库1、核苷酸数据库
DNA、mRNA、tRNA、rRNA序列
RNA序列以cDNA序列的形式收集核苷酸序列直接来源于实验数据大量氨基酸序列
主要是非实验来源数据
codingsequence(CDS)数据库种类很多GenBank、EMBL核苷酸数据库、DDBJ信息资源共享:以天为基础进行数据库之间的序列数据交换收集了专利的核苷酸序列UnitedStatesPatentandTrademarkOffice(USPTO)EuropeanPatentOffice(EPO)JapanPatentOffice(JPO)三大核苷酸数据库国际核苷酸序列数据库合作协议(InternationalNucleotideSequenceDatabaseCollaboration)收集的核苷酸来源(1)GenBank
/genbank/美国NCBI的数据库,有部分蛋白质序列数据每天更新,每年发行(release)六版Release185(2011.8.15)142284608
sequences130671233801
bases142284608
loci下载全部序列大概需要511GB来源于500,000多个物种大约12.2%来源于Homosapiens在GenBank数据库中序列最多的20个物种GrowthofGenBank
(1982-2009)Basepairs/1,000,000,000Entries/1,000,000Locusname(位点名)Accessionnumber(注册号或登陆号)GI(GenInfoidentifier)
NID(NucleotideID)
每个序列有一个flatfile
每条序列有三个专有的编号或标识(identifier)
LOCUSline分支缩写分支全称PRI灵长类序列(primatesequences)ROD啮齿类序列(rodentsequences)MAM其它哺乳类序列(othermammaliansequences)VRT其它脊椎动物序列(othervertebratesequences)INV无脊椎动物序列(invertebratesequences)PLN植物、真菌和海藻类序列(plant,fungal,andalgalsequences)BCT细菌序列(bacterialsequences)VRL病毒序列(viralsequences)PHG噬菌体序列(bacteriophagesequences)Thedivisions(分支)ofGenBank分支缩写分支全称SYN合成序列(syntheticsequences)UNA未注释的序列(unannotatedsequences)EST表达序列标签(expressedsequencetags)PAT已专利的序列(patentsequences)STS序列标签位点(sequencetaggedsites)GSS基因组序列(genomesurveysequences)HTG高通量基因组序列(highthroughputgenomicsequences)HTC高通量cDNA序列(highthroughputcDNAsequences)Thedivisions(分支)ofGenBank(2)dbEST(DatabaseofExpressedSequenceTags)
/dbEST/index.html
GenBank的二级数据库EST—cDNA
序列的一个片断(5’端、3’端、CDS)
300-400bp Single-passsequence
GenBank
中64%以上的序列是EST(3)UniGene数据库
/UniGene/NCBI的另一个核苷酸数据库来源于同一基因的非重复EST组成基因序列群人、大鼠、小鼠、斑马鱼、牛、蛙等拟南芥、水稻、小麦、大麦、玉米等共计97个物种UniGene主页输入关键词检索(4)dbSTS(DatabaseofSequenceTaggedSites)
/dbSTS/index.html
GenBank的二级数据库短序列(200-500bp)
已定位于染色体上的、序列已知的单拷贝DNA短片段检索:GenBank主页选择UniSTS后输入关键词检索到的条目每一条目详细内容点击“mv”查看染色体定位(5)dbGSS(DatabaseofGenomeSurveySequences)
/dbGSS/index.htmlcosmid/BAC/YACG1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63L1044NBS119RM144Y6855RA0.0011TheGSSdivisionofGenBankissimilartotheESTdivision,withtheexceptionthatmostofthesequencesaregenomicinorigin,ratherthancDNA(mRNA).GenomeSurveySequencesaretypicallygeneratedandsubmittedtoNCBIbylabsperforminggenomesequencingandareused,amongstotherthings,asaframeworkforthemappingandsequencingofgenomesizepiecesincludedinthestandardGenBankdivisions.
GenBank的二级数据库TheGSSdivisioncontains(butisnotlimitedto)thefollowingtypesofdata:random"singlepassread"genomesurveysequences.cosmid/BAC/YACendsequencesexontrappedgenomicsequencesAluPCRsequencestransposon-taggedsequences(6)HTG(High-ThroughputGenomicSequences)
/HTGS/
GenBank
的二级数据库尚未完成测序的重叠群(>2kb)的序列新序列的增加速度很快cosmid/BAC/YACAtypicalHTGrecordmightconsistofallthefirstpasssequencedatageneratedfromasinglecosmid,BAC,YAC,orP1clonewhichtogethermakeupmorethan2kbandcontainoneormoregaps.abcabcdPhase0Phase1Phase2Phase3未知序列ecosmid/BAC/YAC(7)基因组数据库
/entrez/query.fcgi?db=GenomeNCBI的另一个数据库测序完成和正在测序物种基因组序列、遗传图、物理图等序列收集在GenBank
数据形式丰富已经完成测序的基因组Taxonomiccoverage(8)dbSNP(DatabaseofSingleNucleotidePolymorphisms)
/SNP/
NCBI的数据库,创建于1998.9
约每100-300bp
有一个SNP
数据种类Singlenucleotidepolymorphism(SNP)Shortdeletion-InsertionpolymorphismInsertion/deletion(Indel)Deletion/insertion/substitution(DIS)
dbSNP主页输入关键词检索到的条目每一条目详细内容代码碱基互补代码MA或CKRA或GYWA或TWSC或GSYC或TRKG或TMVA、C或GBHA、C或TDDA、G或THBC、G或TVNG、A、T或CN标准碱基多意代码tyrosinekinase酪氨酸激酶
(9)EMBL(EuropeanMolecularBiologyLaboratory)NucleotideSequenceDatabase
EBI(EuropeanBioinformaticsInstitute)管理主要是欧洲国家产生的DNA和RNA序列序列数据文档格式与GenBank
不同数据库主页http://www.ebi.ac.uk/embl/Access/index.html输入关键词检索到的条目每一条目详细内容(10)DDBJ(DNADataBankofJapan)主要是日本产生的DNA和RNA序列数据库主页http://www.ddbj.nig.ac.jp/Welcome-e.html输入关键词检索到的条目每一条目详细内容发表文章要提供Accessionnumber(11)EPD(EukaryoticPromoterDatabase) http://www.genome.ad.jp/dbget/dbget2.html由WeizmannInstituteofScienceinRehovot(Israel)开创4806条真核生物启动子序列(2010.11,release105)人类基因组中的启动子大约19万个同一个基因具有多个启动子2、蛋白质数据库(1)SWISS-PROT由EBI和瑞士创办有详细注释的序列,数据来源于实验与44个数据库相互参照(cross-reference)数据库主页http://www.ebi.ac.uk/swissprot/点击Access在DatabaseAccess网页选择数据库、输入关键词检索到的条目(2)TrEMBL(TranslationofEMBL)
http://www.ebi.ac.uk/swissprot/EBI的数据库提交到EMBL核苷酸数据库中所有CDS的氨基酸序列
UniProt(UniversalProteinResource)合并了SWISS-PROT和TrEMBL数据库检索方法与检索SWISS-PROT相同
数据格式(3)PIR(ProteinInformationResource)
由NationalBiomedicalResearchFoundation创办可将蛋白质序列分类
结构域(4)PRF(ProteinResearchFoundation)
http://www.prf.or.jp/由日本的ProteinResearchFoundation创办已发表在杂志上的蛋白质序列修饰位点、S-S键等两月更新一次(5)PDBSTR(Re-OrganizedProteinDataBank)
http://www.genome.ad.jp蛋白质序列和二级结构
螺旋结构(6)Prosite
/prosite蛋白质家族结构域3、结构数据库(1)PDB(ProteinDataBank)
由BrookhavenNationalLaboratories创办
蛋白质核酸(DNA、RNA)其它(蛋白-核酸复合物)
71516个结构图(2011.3.1)可通过BLAST系统检索
X射线衍射图、核磁共振(NMR)光谱图和电镜图(文字和三维结构图)TotalYearlyPDBContentGrowth(2)NDB(NucleicAcidDatabase)
/
核酸的结构(3)DNA-BindingProteinDatabase
/DNA结合蛋白质的X射线衍射结构图(4)SWISS-3DIMAGEhttp://www.expasy.ch/sw3d/蛋白质的平面和立体图来源于实验结果理论模型4、酶和代谢数据库(1)KEGG(KyotoEncyclopediaofGenesandGenomes)各种代谢、遗传等路径图可检索参于各种路径的基因KEGG主页http://www.genome.ad.jp/kegg/点击“PATHWAY”“PATHWAY”网页点击任何代谢路径,如糖酵解/糖原异生途径(Glycolysis/Gluconeogenesis)检索GeneticInformationProcessingKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何遗传信息路径,如Proteinexport路径可以查看参加这一路径蛋白质的信息检索EnvironmentalInformationProcessingKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何EnvironmentalInformationProcessing路径,如MAPKsignalingpathway路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息检索CelluarProcessesKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何CellularProcesses路径,如Cellcycle路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息(2)PKR(ProteinKinaseResource)
/pkr/Welcome.do多种检索内容已知蛋白激酶的序列比较蛋白激酶分类蛋白激酶的三维结构与疾病相关的蛋白激酶其它内容5、物种分类数据库物种分类界(Kingdom)门(Phylum)纲(Class)目(Order)科(Family)属(Genus)种(Species)每一分类等级下可加设亚级(Sub-),如亚门、亚纲、亚科等。每一分类等级上可加设总级(Super-),如总纲、总目、总科等。动物界(Animal)脊索动物门(Chordata)脊椎动物亚门(Vertebrata)哺乳纲(Mammalia)啮齿目(Rodentia)鼠科(Muridae)小家鼠属(Mus)小家鼠种(musculus)举例:Mouse:MusmusculusHuman:HomosapiensArabidopsis:Arabidopsisthaliana
Poplars:Populustrichocarpa(JGI)Pine(火炬忪):Pinustaeda
ThePineGenomeInitiative(/)Eucalyptus(桉树):Eucalyptusglobulus(bluegum)TheInternationalEucalyptusGenomeNetwork(http://www.fabinet.up.ac.za/eucagen)几个林木基因组Papaya(番木瓜):Caricapapaya/papaya/Taxonomy/Taxonomy/taxonomyhome.html拟南芥系谱(lineage)各个物种的系谱树在NCBIEntrezTaxonomyHomepage网页点击“tree”在“tree”网页点击任一物种名,如“Eukaryota”真核生物的系谱树6、文献数据库各种杂志、书刊上发表的文章大多数有摘要(1)PubMed
/PubMed/美国国家医学图书馆的数据库医学分子生物学基础生物学
4800多种刊物,来源于70多个国家刊物年限:60年代中期至今(2)OMIM(OnlineMendelianInheritanceinMan)
NCBI的数据库人类基因遗传疾病
每天更新数据/Omim/检索网页(3)Agricola
/美国农部农业图书馆的数据库农业类刊物7、向数据库提交和修改核苷酸和蛋白质序列提交:Submission修改:Update数据库中的数据由大家无偿提供,共同享用(1)向GenBank提交或修改核苷酸序列
用BankIt
功能提交序列网上直接提交,简单方便提交后立刻得到临时编号一周内得到Accessionnumber用Update
功能修改
GenBank
中的序列和相关信息
修改一次,version的编号就进一位
用Sequin方法提交序列
可下载的电子表格自动确定CDS、ORF和查找重复序列(2)向SWISS-PROT提交或修改蛋白质序列
网上直接操作只接收用蛋白质直接测序的序列由核苷酸序列翻译得到的蛋白质序列将进入TrEMBLJGIanimalsEnsembl数据库检索检索数据库的方法用关键词或词组进行数据库检索
(Text-baseddatabasesearching)用核苷酸或蛋白质序列进行数据库检索
(Sequence-baseddatabasesearching)关键词或词组为基础的数据库检索关键词名词、描述性词、词组序列注册号(Accessionnumber)检索体系EntrezSequenceRetrievalSystem(SRS)Integrateddatabaseretrievalsystem(DBGET)检索须知(1)
连接词AND,OR,NOT riceANDenzyme riceANDenzymeNOTkinase
retrotransposonORretroelement用引号将两个单词组成一个词组“diseaseresistance”diseaseresistance=diseaseANDresistance检索须知(2)
wildcard“*”放在单词后使检索范围扩大,但专一性降低
Wan*=所有以Wan开头的单词
enzyme*=enzyme+enzymes1.Entrez/Entrez/NCBI的检索体系优点:三种检索体系中最容易操作的体系缺点:检索范围有限8大类35个与Entreze体系相连的数据库NucleotideSequenceDatabases(8)
CoreNucleotide,EST,GSS,SNP,Gene,HomoloGene,UniSTS,PopSet
ProteinSequenceDatabses(2)Protein,ProteinClustersStructureDatabases(4)Structure,PubChemCompound,
3DDomains,CDDTaxonomyDatabases(1)TaxonomyGenomeDatabases(2)Genomes,
GenomeProjectExpressionDatabases(4)
UniGene,GEOProfiles,GEODataSets,GENSATLiteratureDatabases(9)
PubMed,PubMedCentral,SiteSearch,Books,OMIM,OMIA,Journals,NLMCatalog,MeSHOtherDatabases(5)Probe,dbGaP,PubChemSubstance,CancerChromosomes,PubChemBioAssayEntrez主页/Entrez/Entrez系统中部分数据库之间的连接检索方法(1):数据库之间检索NCBI主页选择“EntrezHome”或Entrez主页,输入关键词各个数据库中检索到的信息数量点击相应数据库查看信息目录,每一条信息与其它数据库的相关信息链接检索方法(2):选择数据库检索NCBI主页选择数据库,输入关键词检索到的信息目录,每一条信息与其它数据库的相关信息链接查看信息内容选择数据库后,可选择在这一数据库中的检索内容、时间范围、分子类型、基因位点等检索到的信息目录点击“Limits”修改检索时间范围点击“Go”检索选择时间范围内的数据分子量检索检索一个分子量为2002的蛋白质,输入“2002[MOLWT]”,结果目录,详细内容与其他检索词相结合,如检索人类分子量为2002的蛋白质,输入“2002[MOLWT]ANDhuman[ORGN]”其他专一检索关键词[栏目缩写或全名],如“2002[MOLWT]或2002[molecularweight]检索在“Keywords”栏目中出现“kinase”的蛋白质数据,输入“kinase[Keyword]”,结果目录范围检索检索分子量在2002-2009之间的蛋白质,输入“2002:2009[MolecularWeight]”,结果的详细内容检索核苷酸长短在3000-4000之间的DNA,输入“3000:4000[SLEN]”,结果目录检索注册号在AF123456-AF123478之间的核苷酸数据,输入AF123456:AF123478[Accessionnumber],结果目录2.SRS(SequenceReterievalSystem)SRS(http://srs.ebi.ac.uk/)是一个开放的数据库查询系统,不同的SRS系统(版本)可以根据需要安装不同的数据库EuropeanBioinformaticsInstitute(EBI)的检索体系优点:检索面宽缺点:操作复杂17大类194个数据库与SRS体系相连Literature,BibliographyandReferencedatabasesNucleotidesequencedatabasesUniprotUniversalProteinResourceOtherproteinsequencedatabasesDeprecatedProteinDatabasesNucleotiderelateddatabasesProteinfunctiondatabasesProteinstructuredatabasesEnzymes,reactionsandmetabolicpathwaydatabases17大类194个数据库与SRS体系相连(续)MutationandSNPdatabasesGeneontologyresourcesBiologicalResourcesCataloguesMappingdatabasesOtherdatabasesUserowneddatabasesApplicationresultdatabasesEMBOSSresultdatabasesSRS基本检索规则与常用检索规则不同的检索规则用“|”代表“OR”,用“&”代表“AND”,用“!”代表“NOT”数字和日期检索片段长度检索时用“:”代表或,用“!”代表≠;如“12:”表示12,“:12”表示12,“!12:”表示>12,“:!12”表示<12,12:15表示12而15可以识别两种日期格式:YYYYMMDD或DD-MMM-YYYY;如20020619或19-Jun-2002索引检索(indexsearch)由数据库名、域名和检索词三部分组成,数据库和域名之间用“-”连接,域名与检索词之间用“:”(字符串检索)或“#”(范围检索)分开,如:[pir-des:elastase]表示在蛋白质数据库PIR的des(description)域搜索关键词“elastase”[swissprot-date#20010415:200220414]表示在蛋白质数据库SWISS-PROT中检索从2001年4月15日到2002年4月14日的所有记录[{swissprot
swissnew
sptrembl}-des:kinase]表示在SWISS-PROT、SWISSNEW和SPtrEMBL三个数据库中的des域搜索关键词“kinase”检索方法(1):快速检索操作简单,检索数据库有限适用于目标明确的检索在SRS主页选择数据库种类,输入关键词检索到的信息目录,每一条信息与其它数据库的相关信息链接查看信息内容检索方法(2):深入检索操作稍微复杂,可以检索所有数据库适用于范围广泛的检索在SRS主页点击“LibraryPage”在“LibraryPage”网页选择数据库,然后点击“QueryForm”在“QueryForm”网页输入关键词检索检索到的信息目录,每一条信息与其它数据库的相关信息链接3.DBGET(Integrateddatabaseretrievalsystem)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国加热泡沫切削机数据监测研究报告
- 2024年中国讯响器防静电包装管市场调查研究报告
- 2024年中国电子式过压保护器市场调查研究报告
- 2024年中国摆缸市场调查研究报告
- 2024八年级数学上册阶段专训第11招整体思想在解题中的五种应用习题课件鲁教版五四制
- 2024年武威客车上岗证模拟考试
- 2024年锦州客运资格证考试题目
- 2024年广东客运从业资格证模拟考试题库电子版
- 2024年拉萨客运资格证培训考试题2024年版
- 2024年广州客运上岗证急救知识
- 5月30日中国科技工作者日-大力弘扬科学家精神课件(带内容)
- 国家开放大学-《中国古代教育哲学》形成性考核作业作业册解答
- 教育学课件王道俊6版
- 修理厂安全隐患排查制度(3篇)
- 数学组备课组期末成绩分析
- 物流项目管理-复习题
- 量化研究课件
- 第一次家长会 课件(共张ppt) 七年级上学期
- 国家开放大学-操作系统(本)章节测试参考答案(整理版)
- 列那狐的故事习题及答案
- 诸子百家-优质课件
评论
0/150
提交评论