关键词或词组为基础的数据库检索(I)_第1页
关键词或词组为基础的数据库检索(I)_第2页
关键词或词组为基础的数据库检索(I)_第3页
关键词或词组为基础的数据库检索(I)_第4页
关键词或词组为基础的数据库检索(I)_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章关键词或词组为基础的数据库检索(I)生物信息学检索数据库的方法

用关键词或词组进行数据库检索

(Text-baseddatabasesearching)

用核苷酸或蛋白质序列进行数据库检索

(Sequence-baseddatabasesearching)GenenameAuthorAccessionnumber…Database关键词或词组为基础的数据库检索关键词名词、描述性词、词组序列注册号(Accessionnumber)检索体系NCBIEntrezSequenceRetrievalSystem(SRS)Integrateddatabaseretrievalsystem(DBGET)TrendsinBiotechnology1998,16(supplement1):3-5.最准确可靠检索须知(1)

连接词AND,OR,NOT(Booleanoperators)riceANDenzyme(AND为缺省值,可略去)riceANDenzymeNOTkinaseretrotransposonORretroelement注意事项:1、AND,OR,NOTmustbeenteredinUPPERCASE2、Booleanoperatorsareprocessedinaleft-to-rightsequencericeAND(microarrayORexpressionprofile)riceANDmicroarrayORexpressionprofile3、Theordercanbechangedbyenclosingindividual

conceptsinparentheses(processedfirst)PubMed>27000records504records用引号将两个单词组成一个词组16SrRNA=16SANDrRNA“16SrRNA”pseudopod*=pseudopod

OR

pseudopodiaOR

pseudopodium

检索须知(2)Nucleotide16SrRNA“16SrRNA”~380000sequences~3300000sequencesexactmatchwildcard,*,放在单词后使检索范围扩大,但专一性降低

表示范围,:,连接前后关键词,限定范围110:500[SequenceLength]2009/3/1:2009/9/30[PublicationDate]

1.Entrez/gquery/NCBI的检索体系优点:三种检索体系中最容易操作的体系,帮助文档完备EntrezHelpEntrez可对6大类40个数据库进行检索NucleicAcidsResearch2013,41:D8-D20Entrez可对6大类40个数据库进行检索针对基因组已测序完成的物种针对GenBank中具有大于7万条EST的物种Prokaryotic,chloroplast,mitochondrial,virus,protist,plant针对17个广泛研究的模式生物Entrez系统中数据库之间的连接NCBI主页选择“AllDatabases”或Entrez主页,输入关键词各个数据库中检索到的信息数量点击相应数据库查看信息目录,每一条信息与其它数据库的相关信息链接检索方法(1):跨库检索(cross-databasesearch)检索方法(2):选择数据库检索NCBI主页选择数据库,输入关键词检索到的信息目录,每一条信息与其它数据库的相关信息链接查看信息内容序列数据库的搜索——精简搜索结果查询insulin基因的序列不是想要的结果!如何精简?精简搜索结果的方法1:使用Limits查询人(human)的insulin基因的序列关键词[查询范围]:insulin[title]human[organism]

精简搜索结果的方法2:使用Advancedsearch如何定义查询范围?LOCUSDQ1764241980bpDNAlinearPLN12-MAR-2006DEFINITIONOryzasativa(indicacultivar-group)pathogen-induceddefense-responsiveprotein8(DR8)gene,completecds.ACCESSIONDQ176424VERSIONDQ176424.1GI:73918052KEYWORDSHTG.SOURCEOryzasativaIndicaGroupORGANISMOryzasativaIndicaGroupEukaryota;Viridiplantae;Streptophyta;Embryophyta;Tracheophyta;Spermatophyta;Magnoliophyta;Liliopsida;Poales;Poaceae;BEPclade;Ehrhartoideae;Oryzeae;Oryza.REFERENCE1(bases1to1980)AUTHORSWang,G.,Ding,X.,Yuan,M.,Qiu,D.,Li,X.,Xu,C.andWang,S.TITLEDualfunctionofriceOsDR8geneindiseaseresistanceandthiamineaccumulationJOURNALPlantMol.Biol.60(3),437-449(2006)PUBMED16514565gbdiv_pln[Properties][Title][ModificationDate]1000:2000[SequenceLength][Accession][GI]任意搜索范围:Xa21[AllFields]biomol_genomic[Properties]biomol_mrna:mRNAbiomolcrna:cRNA[PublicationDate]:记录公开日期[Keyword]:ESTGSSHTGHTCTPATSA[Organism][Author][Journal]注意:关键词和字段名(field)均不区分大小写ORIGIN1ggtacattatatattctgtttggaatatgatcaggcctagtgggaactgctttaagttta61cttattcgagctgagttaggacaacctggggccctattaggggatgatcaattatataat121gttattgttacagcacacgcttttgtaataatttttttcttagttatacctataatgatcFEATURESLocation/Qualifierssource1..646/organism="Dicathaisorbita"/organelle="mitochondrion"/mol_type="mRNA"/db_xref="taxon:69583"/clone="20006E09"/note="mitochondrialandribosomalsequencesproducedbysuppressivesubtractivehybridization"CDS<1..>646/gene="COXI"/codon_start=1/transl_table=5/product="cytochromeoxidasesubunitI"/protein_id="ACT34372.1"/db_xref="GI:253740054"/translation="GTLYILFGMWSGLVGTALSLLIRAELGQPGALLGDDQLYNVIVTAHAFVMIFFLVMPMMIGGFGNWLVPLMLGAPDMAFPRLNNMSFWLLPPALLLLLSSAA第四章讲述使用序列进行检索[FeatureKey]:promoter,mRNA,CDS,exon,intron,polyA_signalCOXI[GeneName]gene_in_mitochondrion[Properties]如何定义查询范围?human[ORGN]AND50[SLEN]:60[SLEN]AND1999[MDAT]精简搜索结果Aim:Findallhumannucleotidesequenceswiththepoly(A)signal.不同数据库的Searchfields不同,详见Limits/Advanced选项!jmolevol[JOUR]ANDdrosophila[ORGN]"polyA_signal“[FKEY]ANDhuman[ORGN]Aim:Findallhumanproteinsequenceswithlengthsbetween50and60aminoacidsthatwereenteredintothedatabaseduring1999.Aim:FindDrosophilapopulationstudiespublishedintheJournalofMolecularEvolutionSearchFieldDescriptionsforSequenceDatabase查询人insulin基因的RefSeq序列精简搜索结果的方法3:直接输入搜索字段自动将俗名转换为学名查询人insulin基因的RefSeq序列精简搜索结果的方法4:组合多次搜索结果使用Clipboard临时收集多条序列永久保存收集的序列需要注册,然后SendtoCollections第三章关键词或词组为基础的数据库检索(II)生物信息学文献数据库Pubmed的搜索

/PubMed/美国国家医学图书馆的数据库数据来源MEDLINE:已经规范处理的数据,已标注MeSHTerms,记录标有[pubmed-indexedformedline]InProcessCitations:尚未经规范处理的数据,记录标有[pubmed-inprocess]Publisher-SuppliedCitations:由出版商提供的电子文献,记录标有[PubMed-assuppliedbyPublisher]搜索结果举例Pubmed自动将检索词翻译为MeSH词汇使用MeSH词汇能获得更加全面、准确的结果精简PubMed搜索结果的方法:使用AdvancedPubMed数据库的搜索12"huazhongagriculturaluniversity"[Affiliation]PubMed数据库的字段:Affiliation[AD]

ArticleIdentifier[AID]

AllFields[ALL]

Author[AU]

Book[book]

CommentCorrections

CorporateAuthor[CN]

CreateDate[CRDT]

CompletionDate[DCOM]

EC/RNNumber[RN]

Editor[ED]

EntrezDate[EDAT]

Filter[FILTER]

FirstAuthorName[1AU]

FullAuthorName[FAU]

FullInvestigatorName[FIR]

GrantNumber[GR]Investigator[IR]

ISBN[ISBN]

Issue[IP]

Journal[TA]

Language[LA]

LastAuthor[LASTAU]

LocationID[LID]

MeSHDate[MHDA]

MeSHMajorTopic[MAJR]

MeSHSubheadings[SH]

MeSHTerms[MH]

ModificationDate[LR]

NLMUniqueID[JID]

OtherTerm[OT]

Owner

Pagination[PG]

PersonalNameasSubject[PS]PharmacologicalAction[PA]

PlaceofPublication[PL]

PMID[PMID]

Publisher[PUBN]

PublicationDate[DP]

PublicationType[PT]

SecondarySourceID[SI]

Subset[SB]

SupplementaryConcept[NM]

TextWords[TW]

Title[TI]

Title/Abstract[TIAB]

TransliteratedTitle[TT]

UID[PMID]

Version

Volume[VI]WatsonJ[author]1953[publicationdate]nature[journal]WatsonJ[AU]1953[DP]nature[TA]SearchFieldDescriptionsandTagsforPubmed精简PubMed搜索结果的方法:组合多个搜索字段小技巧:通过添加“&report=imagesdocsum”能搜索图片/pmc/?term=rice+root&report=imagesdocsumPubMedDiscoveryTools如果已知文献部分信息:单篇文献匹配器(SingleCitationMatcher):

/pubmed/citmatch多篇文献匹配器(BatchCitationMatcher):

/pubmed/batchcitmatch如何自动获得最近更新的结果?Google学术搜索/schhp?hl=zh-CN检索、管理和引用文献的工具

2.SRS(SequenceReterievalSystem)http://srs.ebi.ac.uk/

HelpEuropeanBioinformaticsInstitute(EBI)的传统检索体系优点:检索面宽缺点:操作复杂注意:目前EBI提供的SRS功能正在逐步废除,但世界上仍有很多镜像站点可以使用:德国

http://www.dkfz.de/srs/意大利

http://bioinfo.ceinge.unina.it/srs7131/EBI新版的检索体系:EBIsearch17大类194个数据库与

SRS体系相连Literature,BibliographyandReferencedatabasesNucleotidesequencedatabasesUniprotUniversalProteinResourceOtherproteinsequencedatabasesDeprecatedProteinDatabasesNucleotiderelateddatabasesProteinfunctiondatabasesProteinstructuredatabasesEnzymes,reactionsandmetabolicpathwaydatabasesMutationandSNPdatabasesGeneontologyresourcesBiologicalResourcesCataloguesMappingdatabasesOtherdatabasesUserowneddatabasesApplicationresultdatabasesEMBOSSresultdatabases检索方法(1):快速检索(Quicksearch)操作简单,检索数据库有限适用于目标明确的检索在SRS主页选择检索类别,输入关键词检索到的信息目录,每一条信息与其它数据库的相关信息链接查看信息内容检索方法(2):高级检索(advancedsearch)操作稍微复杂,可以检索所有数据库适用于范围广泛的检索在SRS主页点击“LibraryPage”在“LibraryPage”网页选择数据库,然后点击“QueryForm”在“QueryForm”网页输入关键词检索检索到的信息目录,每一条信息与其它数据库的相关信息链接3.DBGET(Integrateddatabaseretrievalsystem)http://www.genome.jp/dbget/日本GenomeNet的检索体系优点:与KyotoEncyclopediaofGenesandGenomes(KEGG)database相连 操作较SRS简单缺点:检索面较SRS窄DBGET与40多个数据库相连DBGET检索体系中数据库之间的连接检索方法(1):单库检索(basicsearch)在DBGET主页选择一个数据库输入关键词检索查看检索到的信息目录查看信息详细内容检索方法(2):跨库检索(LinkDB)在DBGET主页点击“LinkDB”在查询网页选择数据库输入关键词检索(数据库:编号)结果检索时如果所得信息与预期不符,需仔细检查:数据库不同的数据库包含不同的内容,检索前需弄清数据库所包含数据的内容和范围关键词关键词的拼写是否正确关键词的使用是否合乎主流

retrotransposon retro-transposon是否使用了过多的关键词,以至于检索范围太窄。通常先使用最主要的关键词搜索,如果结果过多再逐步缩小范围最后的提醒:生物信息学第三章关键词或词组为基础的数据库检索(上机操作)4、自习资源DBGETSearch5、上机操作1、查找与水稻抗病基因Xa21有关的资

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论