版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章 关键词或词组为基础的数据库检索(I)生物信息学第三章 生物信息学检索数据库的方法 用关键词或词组进行数据库检索 (Text-based database searching) 用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching)Gene nameAuthorAccession numberDatabase检索数据库的方法 用关键词或词组进行数据库检索 用核苷酸或关键词或词组为基础的数据库检索关键词名词、描述性词、词组序列注册号 (Accession number)检索体系NCBI EntrezSequence Retrieval S
2、ystem (SRS)Integrated database retrieval system (DBGET)Trends in Biotechnology 1998, 16 (supplement 1):3-5.最准确可靠关键词或词组为基础的数据库检索关键词名词、描述性词、词组检索检索须知(1) 连接词 AND, OR, NOT(Boolean operators)rice AND enzyme (AND为缺省值,可略去)rice AND enzyme NOT kinaseretrotransposon OR retroelement注意事项:1、AND, OR, NOT must be e
3、ntered in UPPERCASE2、Boolean operators are processed in a left-to-right sequencerice AND (microarray OR expression profile)rice AND microarray OR expression profile3、The order can be changed by enclosing individual concepts in parentheses (processed first)PubMed27000 records 504 records 检索须知(1) 连接词
4、AND, OR, NOT(Boo用引号将两个单词组成一个词组16S rRNA = 16S AND rRNA“16S rRNA”pseudopod* =pseudopod OR pseudopodia OR pseudopodium 检索须知(2)Nucleotide 16S rRNA “16S rRNA”380000 sequences 3300000 sequences exact match wild card, *, 放在单词后使检索范围扩大,但专一性降低 表示范围, :, 连接前后关键词,限定范围110:500Sequence Length 2009/3/1:2009/9/30Publ
5、ication Date 用引号将两个单词组成一个词组16S rRNA = 16S A1. Entrez/gquery/NCBI 的检索体系优点:三种检索体系中最容易操作的体系,帮助文档完备Entrez Help1. Entrezhttp:/www.ncbi.nlm.Entrez可对6大类40个数据库进行检索Nucleic Acids Research 2013, 41:D8-D20Entrez可对6大类40个数据库进行检索Nucleic AEntrez可对6大类40个数据库进行检索针对基因组已测序完成的物种针对GenBank中具有大于7万条EST的物种Prokaryotic, chlorop
6、last, mitochondrial, virus, protist, plant针对17个广泛研究的模式生物Entrez可对6大类40个数据库进行检索针对基因组已测序完Entrez系统中数据库之间的连接NCBI主页选择“All Databases”或Entrez主页,输入关键词各个数据库中检索到的信息数量点击相应数据库查看信息目录,每一条信息与其它数据库的相关信息链接检索方法(1):跨库检索 (cross-database search)Entrez系统中数据库之间的连接NCBI主页选择“All 检索方法(2):选择数据库检索NCBI主页选择数据库,输入关键词检索到的信息目录,每一条信息与
7、其它数据库的相关信息链接查看信息内容检索方法(2):选择数据库检索NCBI主页选择数据库,输入关序列数据库的搜索精简搜索结果查询insulin基因的序列不是想要的结果!如何精简?序列数据库的搜索精简搜索结果查询insulin基因的序列精简搜索结果的方法1:使用Limits精简搜索结果的方法1:使用Limits查询人(human)的insulin基因的序列关键词 查询范围: insulin title human organism 精简搜索结果的方法2:使用Advanced search查询人(human)的insulin基因的序列关键词 查询如何定义查询范围?LOCUS DQ176424 19
8、80 bp DNA linear PLN 12-MAR-2006DEFINITION Oryza sativa (indica cultivar-group) pathogen-induced defense-responsive protein 8 (DR8) gene, complete cds.ACCESSION DQ176424VERSION DQ176424.1 GI:73918052KEYWORDS HTG.SOURCE Oryza sativa Indica Group ORGANISM Oryza sativa Indica Group Eukaryota; Viridipla
9、ntae; Streptophyta; Embryophyta;Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; BEP clade; Ehrhartoideae; Oryzeae; Oryza.REFERENCE 1 (bases 1 to 1980) AUTHORS Wang,G., Ding,X., Yuan,M., Qiu,D., Li,X., Xu,C. and Wang,S. TITLE Dual function of rice OsDR8 gene in disease resist
10、ance and thiamine accumulation JOURNAL Plant Mol. Biol. 60 (3), 437-449 (2006) PUBMED 16514565gbdiv_plnPropertiesTitleModification Date1000:2000Sequence LengthAccessionGI任意搜索范围:Xa21All Fieldsbiomol_genomicProperties biomol_mrna: mRNAbiomol crna: cRNAPublication Date:记录公开日期Keyword: EST GSS HTG HTC TP
11、A TSAOrganismAuthorJournal注意:关键词和字段名(field)均不区分大小写如何定义查询范围?LOCUS DQ176424 ORIGIN 1 ggtacattat atattctgtt tggaatatga tcaggcctag tgggaactgc tttaagttta 61 cttattcgag ctgagttagg acaacctggg gccctattag gggatgatca attatataat 121 gttattgtta cagcacacgc ttttgtaata atttttttct tagttatacc tataatgatcFEATURES Loca
12、tion/Qualifiers source 1.646 /organism=Dicathais orbita /organelle=mitochondrion /mol_type=mRNA /db_xref=taxon:69583 /clone=20006E09 /note=mitochondrial and ribosomal sequences produced by suppressive subtractive hybridization CDS 646 /gene=COXI /codon_start=1 /transl_table=5 /product=cytochrome oxi
13、dase subunit I /protein_id=ACT34372.1 /db_xref=GI:253740054 /translation=GTLYILFGMWSGLVGTALSLLIRAELGQPGALLGDDQLYNVIVT AHAFVMIFFLVMPMMIGGFGNWLVPLMLGAPDMAFPRLNNMSFWLLPPALLLLLSSAA 第四章讲述使用序列进行检索Feature Key: promoter, mRNA, CDS, exon, intron, polyA_signalCOXIGene Namegene_in_mitochondrionProperties如何定义查询
14、范围?ORIGIN FEATURES humanORGN AND 50SLEN:60SLEN AND 1999MDAT 精简搜索结果Aim: Find all human nucleotide sequences with the poly(A) signal. 不同数据库的Search fields不同,详见Limits/Advanced选项!j mol evolJOUR AND drosophilaORGN polyA_signal“FKEY AND humanORGN Aim: Find all human protein sequences with lengths between 5
15、0 and 60 amino acids that were entered into the database during 1999. Aim: Find Drosophila population studies published in the Journal of Molecular EvolutionSearch Field Descriptions for Sequence DatabasehumanORGN AND 50SLEN:60SL查询人insulin基因的RefSeq序列精简搜索结果的方法3:直接输入搜索字段自动将俗名转换为学名查询人insulin基因的RefSeq序列
16、精简搜索结果的方法查询人insulin基因的RefSeq序列精简搜索结果的方法4:组合多次搜索结果查询人insulin基因的RefSeq序列精简搜索结果的方法使用Clipboard临时收集多条序列永久保存收集的序列需要注册,然后Send to Collections使用Clipboard临时收集多条序列永久保存收集的序列需要第三章 关键词或词组为基础的数据库检索(II)生物信息学第三章 生物信息学文献数据库Pubmed的搜索 /PubMed/美国国家医学图书馆的数据库数据来源MEDLINE:已经规范处理的数据,已标注MeSH Terms,记录标有pubmed-indexed for medli
17、neIn Process Citations:尚未经规范处理的数据,记录标有pubmed-in processPublisher-Supplied Citations:由出版商提供的电子文献,记录标有PubMed-as supplied by Publisher搜索结果举例文献数据库Pubmed的搜索 http:/Pubmed自动将检索词翻译为MeSH词汇使用MeSH词汇能获得更加全面、准确的结果Pubmed自动将检索词翻译为MeSH词汇使用MeSH词汇能精简PubMed搜索结果的方法:使用AdvancedPubMed数据库的搜索12huazhong agricultural universi
18、tyAffiliation精简PubMed搜索结果的方法:使用AdvancedPubMPubMed数据库的字段:Affiliation ADArticle Identifier AIDAll Fields ALLAuthor AUBook bookComment CorrectionsCorporate Author CNCreate Date CRDTCompletion Date DCOMEC/RN Number RNEditor EDEntrez Date EDATFilter FILTERFirst Author Name 1AUFull Author Name FAUFull Inv
19、estigator Name FIRGrant Number GRInvestigator IRISBN ISBNIssue IPJournal TALanguage LALast Author LASTAULocation ID LIDMeSH Date MHDAMeSH Major Topic MAJRMeSH Subheadings SHMeSH Terms MHModification Date LRNLM Unique ID JIDOther Term OTOwnerPagination PGPersonal Name as Subject PSPharmacological Act
20、ion PAPlace of Publication PLPMID PMIDPublisher PUBNPublication Date DPPublication Type PTSecondary Source ID SISubset SBSupplementary ConceptNMText Words TWTitle TITitle/Abstract TIABTransliterated Title TTUID PMIDVersionVolume VIWatson J author 1953 publication date nature journalWatson J AU 1953
21、DP nature TASearch Field Descriptions and Tags for Pubmed精简PubMed搜索结果的方法:组合多个搜索字段PubMed数据库的字段:Affiliation AD小技巧:通过添加“&report=imagesdocsum”能搜索图片/pmc/?term=rice+root&report=imagesdocsumPubMed Discovery Tools小技巧:通过添加“&report=imagesdocsum”如果已知文献部分信息:单篇文献匹配器(Single Citation Matcher): /pubmed/citmatch多篇文献
22、匹配器(Batch Citation Matcher): /pubmed/batchcitmatch如果已知文献部分信息:单篇文献匹配器(Single Cita如何自动获得最近更新的结果?如何自动获得最近更新的结果?Google学术搜索/schhp?hl=zh-CNGoogle学术搜索http:/scholar.googl检索、管理和引用文献的工具 检索、管理和引用文献的工具 http:/www.endno2. SRS (Sequence Reterieval System)http:/srs.ebi.ac.uk/HelpEuropean Bioinformatics Institute (E
23、BI) 的传统检索体系优点:检索面宽缺点:操作复杂注意:目前EBI提供的SRS功能正在逐步废除,但世界上仍有很多镜像站点可以使用:德国http:/www.dkfz.de/srs/意大利http:/bioinfo.ceinge.unina.it/srs7131/EBI新版的检索体系:EBI search2. SRS (Sequence Reterieval S17大类194个数据库与 SRS 体系相连Literature, Bibliography and Reference databasesNucleotide sequence databasesUniprot Universal Prot
24、ein ResourceOther protein sequence databasesDeprecated Protein DatabasesNucleotide related databasesProtein function databasesProtein structure databasesEnzymes, reactions and metabolic pathway databases Mutation and SNP databasesGene ontology resourcesBiological Resources CataloguesMapping database
25、sOther databasesUser owned databasesApplication result databasesEMBOSS result databases17大类194个数据库与 SRS 体系相连Literatur检索方法(1):快速检索(Quick search)操作简单,检索数据库有限适用于目标明确的检索在SRS主页选择检索类别,输入关键词检索到的信息目录,每一条信息与其它数据库的相关信息链接查看信息内容检索方法(1):快速检索(Quick search)操作简单检索方法(2):高级检索(advanced search)操作稍微复杂,可以检索所有数据库适用于范围广泛的检
26、索在SRS主页点击“Library Page”在“Library Page”网页选择数据库,然后点击“Query Form”在“Query Form”网页输入关键词检索检索到的信息目录,每一条信息与其它数据库的相关信息链接检索方法(2):高级检索(advanced search)操3. DBGET (Integrated database retrieval system)http:/www.genome.jp/dbget/日本GenomeNet的检索体系优点:与 Kyoto Encyclopedia of Genes and Genomes (KEGG) database 相连 操作较SRS
27、简单缺点:检索面较 SRS 窄DBGET与40多个数据库相连DBGET检索体系中数据库之间的连接3. DBGET (Integrated database检索方法(1):单库检索(basic search)在DBGET主页选择一个数据库输入关键词检索查看检索到的信息目录查看信息详细内容检索方法(1):单库检索(basic search)在DBG检索方法(2):跨库检索 (LinkDB)在DBGET主页点击“LinkDB”在查询网页选择数据库输入关键词检索(数据库:编号)结果检索方法(2):跨库检索 (LinkDB)在DBGET主页点检索时如果所得信息与预期不符,需仔细检查:数据库不同的数据库包含不同的内容,检索前需弄清数据库所包含数据的内容和范围关键词关键词的拼写是否正确关键词的使用是否合乎主流 retrotransposonretro-transposon是否使用了过多的关键词,以至于检索范围太窄。通常先使用最主要的关键词搜索,如果结果过多再逐步缩小范围最后的提醒:检索时如果所得信息与预期不符,需仔细检查:数据库最后的提醒:生物信息学第三章 关键词或词组为基础的数据库检索(上机操作)生物信息学第三章 4、自习资源DBGET Search4、自习资源DBGET Search5、上
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论