Chapter-3-生物数据库简介_第1页
Chapter-3-生物数据库简介_第2页
Chapter-3-生物数据库简介_第3页
Chapter-3-生物数据库简介_第4页
Chapter-3-生物数据库简介_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第三章

生物信息学数据库2内容提要主要的生物信息中心生物信息数据库常见序列格式数据库信息检索系统向数据库提交数据3主要的生物信息中心4主要生物信息中心NCBI美国国家生物技术信息中心,NationalCenterforBiotechnologyInformationNCBI管理着GenBank、UniGene、dbSNP等数据库,提供Entrez、BLAST等数据库检索工具EBI,欧洲生物信息学研究所,EuropeanBioinformaticsInstitute1994年成立于英国剑桥,其前身为位于德国海德堡的欧洲分子生物学实验室的信息部门。EBI接受了原来EMBL数据库的管理和维护,并且是欧洲分子生物学网(EMBnet)的一个特别节点。http://www.ebi.ac.uk/EMBnet,欧洲分子生物学信息网建立于1988年,在荷兰注册。中国在1996年加入其成员国,EMBnet的中国节点设在北京大学生物信息中心PKUCBI。/5主要生物信息中心EMBL,欧洲分子生物学实验室,EuropeanMolecularBiologyLaboratory主要实验室设在德国海德堡http://www.embl-heidelberg.deNIG日本国立遗传学研究所,NationalInstituteofGenetics维护和管理日本DNA数据库DDBJ。该数据库首先反映日本产生的数据,同EMBL、GenBank有合作关系。http://www.ddbj.nig.ac.jp6生物信息数据库2023/2/57生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据建立生物分子数据库2023/2/5生物信息学概论讲义8生物信息数据库生物信息数据库的特点数据库的更新速度不断加快,数据量呈指数增长趋势数据库种类的多样性。生物信息学各类数据库几乎覆盖了生命科学的各个领域核酸序列数据库蛋白质序列数据库蛋白质、核酸、多糖三维结构数据库基因组数据库……..

9生物信息数据库生物信息数据库的特点数据库的复杂性增加、层次加深数据库之间相互引用,如PDB与文献库、蛋白质二级数据库、蛋白质结构分类数据库、蛋白折叠库等十几种数据库直接关联数据库使用高度计算机化和网络化几乎所有的数据库都可以在国际互联网上访问有的系统则将多个生物信息数据库整合在一起,形成集成的生物信息数据库系统

2023/2/5生物信息学概论讲义10生物信息数据库生物信息数据库的特点面向应用各个数据库服务器除了提供数据,还提供许多分析工具核酸数据库提供的序列搜索基因识别程序蛋白质结构数据库提供的结构比较程序结构模拟程序………

2023/2/5生物信息学概论讲义11生物信息数据库生物信息数据库分类一次数据库(primarydatabase)直接来源于实验获得的原始数据,只经过简单的归类整理和注释

基本数据库或初始数据库三类一次数据库基因组数据库

核酸和蛋白质一级结构序列数据库生物大分子(主要是蛋白质)三维空间结构数据库

2023/2/5生物信息学概论讲义12生物信息数据库生物信息数据库分类二次数据库(secondarydatabase)

对原始生物信息数据进行分析、整理、归纳而形成的数据库二次数据库种类繁多以核酸数据库为基础构建的二次数据库以蛋白质序列数据库为基础构建的二次数据库以具有特殊功能的蛋白质为基础构建的二次数据库以三维结构原子坐标为基础构建的数据库……2023/2/513生物信息学数据库工具生物信息数据库染色体核酸蛋白质基因组图谱DNA序列蛋白质序列蛋白质结构基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库二级数据库复合数据库基因组作图序列测定结构测定14从1994年开始,牛津大学出版的“核酸研究(NucleicAcidsResearch)”每年第一期是生物数据库专辑,对每一个数据库的性质、内容和更新状况进行综合描述。http://www.oup.co.uk/nar/15NAR对数据库的分类(2006)DNA序列库/NucleotideSequenceDatabasesRNA序列库/RNAsequencedatabases蛋白质序列库/Proteinsequencedatabases结构数据库/StructureDatabases基因组数据库/GenomicsDatabases(non-vertebrate)代谢与信号转导/MetabolicandSignalingPathways人类及其它脊椎动物基因组/HumanandotherVertebrateGenomes人类基因与疾病/HumanGenesandDiseases芯片数据及表达数据/MicroarrayDataandotherGeneExpressionDatabases蛋白质组资源/ProteomicsResources其它分子生物学库/OtherMolecularBiologyDatabases细胞器数据/Organelledatabases植物数据库/Plantdatabases免疫学数据库/Immunologicaldatabases16GenBank美国国家生物技术信息中心的数据库提供Entrez检索工具、BLAST序列搜索等服务17EMBL/EBIEMBLDatabase欧洲分子生物学实验室(EuropeanMolecularBiologyLaboratory)核酸序列数据库,为欧洲最主要的核酸序列数据库,世界两大核酸数据库之一。目前此数据库由其分支机构—EBI(theEuropeanBioinformaticsInstitute,欧洲生物情报研究所)维护。北京大学已建立了EMBL中国镜像数据库,将该数据库移植到中国本地,并提供部分的检索服务http://www.I/mirror/mirror.html18EMBL/EBI19蛋白质序列数据库UniProtKB/Swiss-Prot蛋白序列数据库,由日内瓦大学医学生物化学系(theDepartmentofMedicalBiochemistryoftheUniversityofGeneva)与EMBL(EuropeanMolecularBiologyLaboratory,欧洲分子生物学实验室)共同维护UniProtKB/Swiss-Prot是对数据人工审读很严格的数据库,只有实际存在的蛋白质才被收入,每一条数据都有详细的注释,包括功能、结构域、翻译后的修饰等,以及齐全的引文和相关链接。http://www.expasy.ch/sprot(北京大学生物信息中心也有镜像)20蛋白质序列数据库PIR(ProteinIdentificationResource)维护者为美国华盛顿的全国生物医学研究基金(NBRF)、德国马普学会的慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)。包含所有序列已知的自然界中野生型蛋白质的信息,该数据库的主要目的是提供按同源性和分类学组织的综合的、非冗余的数据库。每周更新,每季度发行新版。内容分为四级,即:PIR1(完全分类清楚);PIR2(已检查和分类);PIR3(未检查);PIR4(未解码翻译)。/

21蛋白质序列数据库22结构数据库PDB:/

23文献数据库文献数据库包含已发表的科技论文的题录和摘要,有时也提供全文及图表等信息。可通过标题、文摘、关键字或正文、作者、作者单位等字段对文献数据库进行检索。MEDLINE/PubMedISIWebofScienceScienceDirect24文献数据库MEDLINE/PubMed文献数据库PubMed是NCBI提供的对MEDLINE数据库的在线访问服务。PubMed包含了世界上70多个国家出版的4600多种生物医学期刊的文献引用和作者信息,总共超过1200万条文献引用信息,早期的数据可至20世纪60年代中期。OLDMEDLINE包含150多万条从1953到1965年间的国际生物医学期刊文献引用和原文/PubMed/

25文献数据库26文献数据库ISIWebofScience通常所说的SCI是其中的一部分我校图书馆有订阅/

ScienceDirectElsevierScience出版公司的ScienceDirect系统,收录1,200多种全文电子期刊,学科涵盖数学、物理、化学、天文学、医学、生命科学、商业及经济管理、计算机科学、工程技术、能源科学、环境科学、材料科学、社会科学等。

2728常见序列格式29A-->adenosine/腺嘌呤

M-->AC(amino,氨基)C-->cytidine/胞嘧啶

S-->GC(strong,强键)G-->guanine/鸟嘌呤

W-->AT(weak,弱键)T-->thymidine/胸腺嘧啶

B-->GTCU-->uridine/尿嘧啶

D-->GATR-->GA(purine,嘌呤) H-->ACTY-->TC(pyrimidine,嘧啶) V-->GCAK-->GT(keto,酮基) N-->AGCT(任意碱基)-gapofindeterminatelength核苷酸IUB/IUPAC代码NomenclatureandSymbolismforAminoAcidsandPeptideshttp://www.chem.qmul.ac.uk/iupac/AminoAcid/

30Aalanine PprolineBaspartateorasparagines QglutamineCcystine RarginineDaspartate SserineEglutamate TthreonineFphenylalanine UselenocysteineGglycine VvalineHhistidine WtryptophanIisoleucine YtyrosineKlysine ZglutamateorglutamineLleucine XanyMmethionine *translationstopNasparagine -gapofindeterminatelength氨基酸IUB/IUPAC代码311.RAW序列格式原始序列数据,序列可以是一行也可以是多行,行的长度没有限制。TTTGATGAAAATCGCTTAGGCCTTGCTCTTCAAACAATCCAGCTTCTTTCACTCTCAAGTTGCAAGAAGCAAGTGTAGCAATGTGCACGCGACAGCCGGGTGTGTGACGCTGGCCAATCAGAGCGCAGAGCTCCGAAAGTTTACCTTTTATGGCTAGAGCCGGCATCTGCCATATAAAAGAGCGCGCCCAGCGTCTCAGCCTCACTTTGAGCACACGCAGCTAGTGCGGAATATCATCTGCCTGTAACCCATTCTCTAAAGTCGACAAACCCCCCCAAACCTAAGGTGAGTTGATCT322.FASTA格式FASTA序列的第一行为描述行描述行的第一个字符必须是大于号“>”,后面可以是任何一个字符串,可以只是序列的名字或者访问号,也可以包含很多的信息例如GenBank中检索出的FASTA格式序列通常会把序列的LOCUS、访问号、以及GenBank格式中的DEFINITION行都写进去从第二行开始是序列数据序列数据中间可以用回车符分割,序列数据中间不可以有空行。序列中可以使用标准IUB/IUPAC代码来表示简并性碱基和氨基酸残基。通常核苷酸符号大小写均可,而氨基酸一般用大写字母,有些程序对大小写有明确要求。一个FASTA文件里面可以包含多个序列。33FASTA格式示例单个序列核酸序列氨基酸序列34FASTA格式示例多个序列>gi|114736|sp|P22063|AXO1_RATContactin2precursor(Axonin-1)(AxonalglycoproteinTAG-1)(Transientaxonalglycoprotein1)(TAX-1)MGTHARKKASLLLLVLATVALVSSPGWSFAQGTPATFGPIFEEQPIGLLFPEESAEDQVTLACRARASPP……KPPPRRPPGNISWTFSSSSLSLKWDPVVPLRNESTVTGYKMLYQNDLHPTPTLHLTSKNWIEIPVPEDIGHALVQIRTTGPGGDGIPAEVHIVRNGGTSMMVESAAARPAHPGPAFSCMVILMLAGYQKL>gi|127857|sp|P13592|NCA2_HUMANNeuralcelladhesionmolecule1,120kDaisoformprecursor(N-CAM120)(NCAM-120)(CD56antigen)MLQTKDLIWTLFFLGTAVSLQVDIVPSQGEISVGESKFFLCQVAGDAKDKDISWFSPNGEKLTPNQQRISVVWNDDSSSTLTIYNANIDDAGIYKCVVTGEDGSESEATVNVKIFQKLMFKNAPTPQEFREGEDAVIVCD……EPAKGEPSAPKLEGQMGEDGNSIKVNLIKQDDGGSPIRHYLVRYRALSSEWKPEIRLPSGSDHVMLKSLDWNAEYEVYVVAENQQGKSKAAHFVFRTSAQPTAIPATLGGNSASYTFVSLLFSAVTLLLLC>gi|14286138|sp|P20241|NRG_DROMENeuroglianprecursorMWRQSTILAALLVALLCAGSAESKGNRPPRITKQPAPGELLFKVAQQNKESDNPFIIECEADGQPEPEYSWIKNGKKFDWQAYDNRMLRQPGRGTLVITIPKDEDRGHYQCFASNEFGTATSNSVYVRKAELNAFKDEAAKTLEAVEGEPFMLKCAAPDGFPSPTVNWMIQESIDGSIKSINNSRMTLDPEGNLWFSNVTREDASSDFYY……NKSAGRQSVSSANKPGVESDTDSMAEYGDGDTGQFTEDGSFIGQYVPGKLQPPVSPQPLNNSAAAHQAAPTAGGSGAAGSAAAAGASGGASSAGGAAASNGGAAAGAVATYV353.GenBank文件格式GenBank序列文件以纯文本方式描述GenBank序列文件由单个的序列条目组成。序列条目由字段组成,以双斜杠“//”作结束标记。每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干个次子字段,以次关键字或特性表说明符开始。序列条目的格式关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。36GenBank文件格式序列条目的关键字包括LOCUS(代码)DEFINITION(说明)ACCESSION(编号)NID符(核酸标识)KEYWORDS(关键词)SOURCE(数据来源)REFERENCE(文献)FEATURES(特性表)BASECOUNT(碱基组成)ORIGIN(碱基排列顺序)近版的核酸序列数据库引入新的关键词SV(序列版本号),用“编号.版本号”表示,并取代关键词NID。37GenBank文件格式LOCUSHSU762541230bpDNAPRI05-JAN-1999DEFINITIONHumanneuropeptideYreceptortype2gene,completecds.ACCESSIONU76254NIDg4098211VERSIONU76254.1GI:4098211KEYWORDS.SOURCEhuman.ORGANISMHomosapiensEukaryota;Metazoa;Chordata;Craniata;Vertebrata;Mammalia;Eutheria;Primates;Catarrhini;Hominidae;Homo.REFERENCE1(bases1to1230)AUTHORSZastawny,R.L.TITLEHumanneuropeptideYY2receptorgeneJOURNALUnpublishedREFERENCE2(bases1to1230)AUTHORSZastawny,R.L.TITLEDirectSubmissionJOURNALSubmitted(24-OCT-1996)AllelixBiopharmaceuticalsInc.,6850GorewayDr.,Mississauga,ONL4V1V7,Canada记录头部标识行唯一一个必须在所有GenBank记录中出现的特性序列记录的生物学意义检索号1+5或2+6格式384.EMBL文件格式EMBL数据库的每一个条目是一份纯文本文件,每一行最前面是由两个大写字母组成的识别标志。识别标志包括ID(序列名称) DE(序列简单说明)AC(序列编号) SV(序列版本号) KW(与序列相关的关键词) OS(序列来源的物种名) OC(序列来源的物种学名和分类学位置) RN(相关文献编号或递交序列的注册信息) RA(相关文献作者或递交序列的作者) RT(相关文献题目) RL(相关文献杂志名或递交序列的作者单位) RX(相关文献Mediline引文代码) RC(相关文献注释) RP(相关文献其他注释) CC(关于序列的注释信息) DR(相关数据库交叉引用号) FH(序列特征表起始) FT(序列特征表子项) SQ(碱基种类统计数)。39IDAF111847standard;RNA;HUM;2788BP.序列名称和基本性质

XX字段分界标志

ACAF111847序列接受号

XX

SVAF111847.1序列版本

XX

DT14-MAR-2000(Rel.63,Created)序列提交、更新日期

DT09-MAY-2001(Rel.67,Lastupdated,Version3)

XX

DEHomosapiensARFGAP1protein(ARFGAP1)mRNA,completecds.序列性质简要描述

XX

KW关键词

XX

OSHomosapiens(human)来源种属

OCEukaryota;Metazoa;Chordata;Craniata;Vertebrata;Euteleostomi;来源分类

OCMammalia;Eutheria;Primates;Catarrhini;Hominidae;Homo.

XX

40RN[1]参考文献条目

RP1-2788文献对应序列位置

RXMEDLINE;20171380.文献交叉索引

RXPUBMED;10704287.

RAZhangC.,YuY.,ZhangS.,LiuM.,XingG.,WeiH.,BiJ.,LiuX.,文献作者

RAZhouG.,DongC.,HuZ.,ZhangY.,LuoL.,WuC.,ZhaoS.,HeF.;

RT"Characterization,chromosomalassignment,andtissueexpression文献题目

RTofanovelhumangenebelongingtotheARFGAPfamily";

RLGenomics63(3):400-408(2000).文献出处

XX

RN[2]

RP1-2788

RAZhangC.,YuY.,ZhangS.,OuyangS.,LuoL.,WeiH.,ZhouG.,

RAZhangY.,LiuM.,HeF.;

RT

RLSubmitted(06-AUG-1999)totheEMBL/GenBank/DDBJdatabases.

RLDept.ofGenomicsandProteomics,InstituteofRadiationMedicine,

RLBeijingTaipingRoad27,Beijing,Beijing100850,P.R.China

XX

DRENSEMBL;ENSG00000100262;ENST00000263245.库间交叉索引

DRGOA;Q9NP61.

DRSWISS-PROT;Q9NP61;ARG3_HUMAN.

XX41FHKeyLocation/Qualifiers序列性质表头

FH

FTsource1..2788序列性质数据

FT/chromosome="22“

FT/db_xref="taxon:9606"

FT/mol_type="mRNA“

FT/organism="Homosapiens“

FT/map="22q13.2“

FT/clone="FLB2127“

FT5'UTR1..57

FT/gene="ARFGAP1“

FTCDS58..1608

FT/codon_start=1

FT/db_xref="GOA:Q9NP61“

FT/db_xref="SWISS-PROT:Q9NP61“

FT/evidence=NOT_EXPERIMENTAL

FT/gene="ARFGAP1“

FT/product="ARFGAP1protein“

FT/protein_id="AAF40310.1"

FT/translation="MGDPSKQDILTIFKRLRSVPTNKVCFDCGAKNPSWASITYGVFLC

FTIDCSGSHRSLGVHLSFIRSTELDSNWSWFQLRCMQVGGNASASSFFHQHGCSTNDTNAK

FTYNSRAAQLYREKIKSLASQATRKHGTDLWLDSCVVPPLSPPPKEEDFFASHVSPEVSDT

FTAWASAIAEPSSLTSRPVETTLENNEGGQEQGPSVEGLNVPTKATLEVSSIIKKKPNQAK

FTKGLGAKKGSLGAQKLANTCFNEIEKQAQAADKMKEQEDLAKVVSKEESIVSSLRLAYKD

FTLEIQMKKDEKMNISGKKNVDSDRLGMGFGNCRSVISHSVTSDMQTIEQESPIMAKPRKK

FTYNDDSDDSYFTSSSSYFDEPVELRSSSFSSWDDSSDSYWKKETSKDTETVLKTTGYSDR

FTPTARRKPDYEPVENTDEAQKKFGNVKAISSDMYFGRQSQADYETRARLERLSASSSISS

FTADLFEEPRKQPAGNYSLSSVLPNAPDMAQFKQGVRSVAGKLSVFANGVVTSIQDRYGS"

FT3'UTR1609..2788

FT/gene="ARFGAP1"

XX42SQSequence2788BP;914A;531C;602G;74

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论