华中农业大学生物信息学Bioinf02-2_第1页
华中农业大学生物信息学Bioinf02-2_第2页
华中农业大学生物信息学Bioinf02-2_第3页
华中农业大学生物信息学Bioinf02-2_第4页
华中农业大学生物信息学Bioinf02-2_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

章数据库(III)生物信息学EBI(EuropeanBioinformaticsInstitute)管理与GenBank收集的数据相同序列数据展示方式与GenBank不同(网页,纯文本)数据库主页“Textsearch”输入关键词检索到的条目每一条目详细内容(10)ENA(EuropeanNucleotideArchive)(11)DDBJ(DNADataBankofJapan)与GenBank收集的序列数据相同数据库主页

提供基于关键词及序列的搜索服务

打开“ARSA”输入关键词检索到的条目每一条目详细内容与GenBank一致发表文章要提供Accessionnumber(在三大核苷酸数据库中通用)EPD(EukaryoticPromoterDatabase)

由WeizmannInstituteofScienceinRehovot(Israel)开创收集数据的转录起始位点(TSS)通过实验确定包括部分cis-element信息同一个基因可以具有多个启动子原版(EPD)包含4809条真核生物聚合酶II(eukaryoticPOLII)启动子序列新版(EPDnew)主要包含人类、小鼠和果蝇的大量启动子信息,总数超过20万(12)启动子数据库PlantProm(plantpromoterdatabase)植物启动子数据库(水稻、拟南芥)部分收集数据的转录起始位点(TSS)通过实验确定,其他的有全长cDNA序列支持包括部分cis-element信息最近更新是2009.02,总共8301条植物启动子序列可以完整下载(12)启动子数据库(13)miRNA数据库Science309:1522(2005)转录RNA折叠形成pri-miRNApre-miRNAmiRNARISC携带有活性的miRNAmiRNAgenemicroRNA(miRNA)的形成miRBase

收集了28645条hairpinprecursormiRNA序列(第21版,2014.6)来源于>100个物种可以通过miRNA名称、关键词、染色体位置等信息检索数据库分析一条DNA序列中是否可能包含miRNA(第四章介绍)(13)miRNA数据库利用miRNA编号或关键词检索(1)在数据库主页点击“searching”在“SearchmiRBase”网页的“BymiRNAidentifierorkeyword”栏目输入miRNA编号,点击“提交查询内容”检索结果目录查看详细信息利用染色体位置检索miRNA(2)在数据库主页点击“searching”在“SearchmiRBase”网页的“Bygenomiclocation”栏目选择物种和染色体,输入染色体上的核苷酸位置范围(如1000至1000000),点击“Getsequences”检索结果目录查看详细信息检索miRNA群(cluster)(3)在数据库主页点击“searching”在“SearchmiRBase”网页的“Forclusters”栏目选择物种,输入希望查询的miRNA之间的距离(核苷酸数目),点击“Getclusters”检索结果目录批量获取maturemiRNA序列:在结果目录网页的“Fetch”列选择miRNA,在该网页的底部选择“Maturesequence”,点击“FetchSequences”第二章数据库(IV)生物信息学2、蛋白质数据库由PIR、EBI和SIB于2002年创办,统一了PIR、TrEMBL和Swiss-Prot三个蛋白质数据库分为两个部分:来源于实验的有详细注释的序列(SwissProt)和自动注释序列(TrEMBL)与100多个数据库相互参照(cross-reference)可用关键词(Textsearch)和序列比对(BLASTsimilaritysearch)进行检索(1)UniProt

/UniRef100:非冗余的UniProt蛋白质序列UniRef90:聚类UniRef100中一致性超过90%且80%重叠的蛋白质,取最长的一条(序列数压缩58%)UniRef50:聚类UniRef90中一致性超过50%且80%重叠的蛋白质,取最长的一条(序列数压缩79%)UniProt蛋白质数据库的结构在数据库主页搜索框选择“ProteinKnowledgebase”库,使用关键词检索结果页面,reviewed(Swiss-Prot),unreviewed(TrEMBL)Browsebytaxonomy,keyword,geneontology,enzymeclassorpathway条目详细内容(1)UniPROT(2)PIR(ProteinInformationResource)

由NationalBiomedicalResearchFoundation创办信息整合的蛋白质序列数据库(iProClass),内容/编号与UniProtKB相同,但额外提供到超过160个数据库的链接蛋白质序列分类数据库(PIRSF),提供不同层级的蛋白质家族分类(Superfamily、HomeomorphicFamily和HomeomorphicSubfamily)(2)PIR(ProteinInformationResource)检索某一蛋白质的注释信息数据库主页“Search/Analysis”菜单“TextSearch”选择数据库“iProClass”后输入关键词或注册号检索结果列表查看详细内容检索某一蛋白质分类的信息数据库主页“Search/Analysis”菜单“TextSearch”选择数据库“PIRSF”后输入关键词或注册号检索结果列表查看详细内容(3)PRF(ProteinResearchFoundation)

由日本的ProteinResearchFoundation创办已发表在杂志上的蛋白质序列修饰位点、S-S键等两月更新一次(4)PDBSTR(Re-OrganizedProteinDataBank)

蛋白质序列和二级结构碳结构(5)Prosite

蛋白质家族结构域3、结构数据库(1)PDB(ProteinDataBank)

由BrookhavenNationalLaboratories创办蛋白质核酸其它117651个结构图(2016.4.11)可通过关键词或BLAST系统检索(第四章介绍)TotalYearlyPDBContentGrowth(1)PDB(ProteinDataBank)使用关键词或注册号检索PDB数据库主页“Search”框输入关键词或注册号检索结果列表查看详细内容(2)NDB(NucleicAcidDatabase)

包含8,089个核酸分子的结构(2016.3)(3)PDIdb(Protein-DNAInterfaceDatabase)

DNA-蛋白质复合体的X射线衍射结构及分类4、酶和代谢数据库KEGG(KyotoEncyclopediaofGenesandGenomes)各种代谢、遗传等路径图可检索参于各种路径的基因检索Metabolism(1)KEGG主页点击“KEGGPATHWAY”“PATHWAY”网页点击任一代谢路径(Metabolism),如糖酵解/糖原异生途径(Glycolysis/Gluconeogenesis)检索GeneticInformationProcessing(2)KEGG主页点击“KEGGPATHWAY”“PATHWAY”网页点击任何遗传信息(GeneticInformationProcessing)路径,如Proteinexport路径可以查看参加这一路径蛋白质的信息KEGG数据库检索EnvironmentalInformationProcessing(3)KEGG主页点击“KEGGPATHWAY”“PATHWAY”网页点击任何EnvironmentalInformationProcessing路径,如MAPKsignalingpathway路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息KEGG数据库检索CellularProcesses(4)KEGG主页点击“KEGGPATHWAY”“PATHWAY”网页点击任何CellularProcesses路径,如Cellcycle路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息KEGG数据库(2)PKR(ProteinKinaseResource)多种检索内容已知蛋白激酶的序列比较蛋白激酶分类蛋白激酶的三维结构与疾病相关的蛋白激酶其它内容5、物种分类数据库物种分类界(Kingdom)门(Phylum)纲(Class)目(Order)科(Family)属(Genus)种(Species)每一分类等级下可加设亚级(Sub-),如亚门、亚纲、亚科等。每一分类等级上可加设总级(Super-),如总纲、总目、总科等。动物界(Animal)脊索动物门(Chordata)脊椎动物亚门(Vertebrata)哺乳纲(Mammalia)啮齿目(Rodentia)鼠科(Muridae)小家鼠属(Mus)小家鼠种(musculus)Mouse:Musmusculus在Taxonomy主页输入物种俗名检索“pig”Taxonomy数据库lineage在Taxonomy主页输入物种学名检索“Homosapiens”lineage拟南芥(Arabidopsisthaliana)系谱检索某一物种的系谱(lineage):6、文献数据库(1)

/PubMed/美国国家医学图书馆的数据库医学、分子生物学、基础生物学5400多种刊物,来源于80多个国家文献年限:1947年至今提供摘要,全文链接免费全文收集在PubMedCentralEuropePubMedCentral(内容相同):(2)其它类型的文献数据库Agricola

/

美国农业部农业图书馆的数据库农业类刊物OMIM(OnlineMendelianInheritanceinMan)/omimNCBI的数据库,每天更新数据人类基因、遗传疾病在NCBI主页选择OMIM后输入关键词(疾病、基因名称等)进行检索条目(2)其它类型的文献数据库GOPubMed/web/gopubmed/基于PubMed,利用GO和MESH词表对文献全面分析快速了解相关领域文献的年度分布、期刊分布、地域分布、合作者可视化网络等信息可以根据背景知识、杂志、作者、地域和发表时间等选项对于查询结果进行筛选查询杂志“NatGenet”有关人类的研究结果(2)其它类型的文献数据库GOPubMed检索使用关键词检索“ricesnpdatabase”查看统计结果,选择杂志“NucleicAcidsRes”查看在该杂志中的相关文献7、更多的数据库第二章数据库(V)生物信息学8、向数据库提交和修改核苷酸和蛋白质序列提交:Submission修改:Update数据库中的数据由大家无偿提供,共同享用Accuracy??(1)向GenBank提交或修改核苷酸序列GenBank主页菜单“Submit”BankIt功能提交序列网上直接提交,简单方便提交后立刻得到临时编号二天内得到Accessionnumber用Update功能修改GenBank中的序列和相关信息Accessionnumber不变,修改一次,version的编号就进一位用Sequin方法提交序列可下载的电子表格自动确定CDS、ORF和查找重复序列BankIt发表文章需要提交序列(2)向UniProtKB提交或修改蛋白质序列使用SPIN网上直接操作,网页先注册(Register),然后登陆(Login)填写电子表格只接收用蛋白质直接测序的序列质谱数据通过email提交到PRIDE由核苷酸序列翻译得到的蛋白质序列将进入TrEMBLMore…

递交数据到NCBI/guide/howto/submit-sequence-data/

递交数据到ENAhttp://www.ebi.ac.uk/ena/about/submit_and_update大规模数据往往需要邮件联系9、常用序列格式FAS

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论