06第六章 常用生物信息学数据库简介_第1页
06第六章 常用生物信息学数据库简介_第2页
06第六章 常用生物信息学数据库简介_第3页
06第六章 常用生物信息学数据库简介_第4页
06第六章 常用生物信息学数据库简介_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章常用生物信息学数据库简介Bioinformatics一、引言二、生物信息学数据库的简介主要内容三、生物信息学数据库的检索生物分子数据高速增长一、引言1.生物信息学数据库产生生物分子数据高速增长

分子生物学及相关领域研究人员迅速获得最新实验数据

建立生物分子数据库

2.生物分子数据库分类(1)一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。(2)二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。一级数据库基因组数据库—基因组数据来自基因组作图核酸或蛋白质序列数据库—测序结构数据库—X射线衍射和核磁共振这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。

国际上著名的一级核酸数据库有Genbank、EMBL和DDBJ;蛋白质序列数据库有UniPROT和PIR等;蛋白质结构库有PDB等。二级数据库它是根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库。

国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等。生物信息学工具染色体核酸蛋白质基因组图谱DNA序列蛋白质序列蛋白质结构基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库二级数据库基因组作图序列测定结构测定一级数据库一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。二级数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。(1)数据库的更新速度快,数据量呈指数增长;(2)数据库使用频率增长快;(3)数据库的复杂程度不断增加;(4)数据库网络化;(5)面向应用;(6)先进的软硬件配置。3.生物信息数据库6个明显的特征二、生物信息学数据库简介国际上权威的核酸序列数据库:(1)GenBank/Web/Genbank/index.html

(2)EMBL

http://www.embl-heidelberg.de

(3)DDBJ

http://www.ddbj.nig.ac.jp/(一)核酸序列数据库三个数据库都是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。GenBankDDBJEMBLGenBank数据库简介GenBank数据库是由美国生物技术信息中心(NationalCenterforBiotechnologyInformation,

NCBI)维护的一级核酸序列数据库。GenBank数据库的数据来源有三种:1、直接来源于测序工作者提交的序列;2、与其它数据机构协作交换的数据;3、美国专利局提供的专利数据。美国马里兰州的贝塞斯达

美国国家生物技术信息中心NCBI是美国国家医学图书馆(NLM)的一部分。建立于1988年。NCBI保管GenBank的基因测序数据和Medline的生物医学研究论文索引。所有的这些数据库都可以通过Entrez搜索引擎在线访问。核酸序列数据库检索界面:特征栏提供辅助检索功能LOCUSU000964639221bpDNAcircularBCT18-NOV-1998DEFINITIONEscherichiacoliK-12MG1655completegenome.ACCESSIONU00096KEYWORDS.SOURCEEscherichiacoli.ORGANISMEscherichiacoliBacteria;Proteobacteria;gammasubdivision;Enterobacteriaceae;Escherichia.REFERENCE1(bases1to4639221)AUTHORSBlattner,F.R.,Plunkett,G.III,Bloch,C.A.,Perna,N.T.,Burland,V.,…TITLEThecompletegenomesequenceofEscherichiacoliK-12JOURNALScience277(5331),1453-1474(1997)MEDLINE97426617…COMMENTThissequencewasdeterminedbytheE.coliGenomeProjectattheUniversityofWisconsin-Madison(FrederickR.Blattner,director).SupportedbyNIHgrantsHG00301andHG01428(fromHumanGenomeProjectandNCHGR).TheentiresequencewasindependentlydeterminedfromE.coliK-12strainMG1655.PredictedopenreadingframesweredeterminedusingGeneMarksoftware,kindlysuppliedby…实例:

E.colik-12全基因组序列文件FEATURESLocation/Qualifierssource1..4639221/organism="Escherichiacoli"/strain="K-12“/sub_strain="MG1655"/db_xref="taxon:562"promoter71..99/note="factorSigma70;predicted+1startat106"promoter104..132/note="factorSigma70;predicted+1startat139"promoter188..212/note="factorSigma32;predicted+1startat219"gene190..255/note="b0001"/gene="thrL"CDS190..255/gene="thrL"/function="leader;Aminoacidbiosynthesis:Threonine"/note="o21;100pctidenticaltoLPT_ECOLISW:P03059"/codon_start=1/transl_table=11/product="thr

operonleaderpeptide"/db_xref="PID:g1786182"/translation="MKRISTTITTTITITTGNGAG“…BASECOUNT1142136a1179433c1176775g1140877tORIGIN1agcttttcat

tctgactgca

acgggcaata

tgtctctgtg

tggattaaaa

aaagagtgtc61tgatagcagc

ttctgaactg

gttacctgcc

gtgagtaaat

taaaatttta

ttgacttagg121tcactaaata

ctttaaccaa

tataggcata

gcgcacagac

agataaaaat

tacagagtac181acaacatcca

tgaaacgcat

tagcaccacc

attaccacca

ccatcaccat

taccacaggt241aacggtgcgg

gctgacgcgt

acaggaaaca

cagaaaaaag

cccgcacctg

cagtgcggg301cttttttttt

cgaccaaagg

taacgaggta

acaaccatgc

gagtgttgaa

gttcggcggt361acatcagtgg

caaatgcaga

acgttttctg

cgtgttgccg

atattctgga

aagcaatgcc421aggcaggggc

aggtggccac

cgtcctctct

gcccccgcca

aaatcaccaa

ccacctggtg……4639021caacatcaac

tgcaagcttt

acgcgaacga

gccatgacat

tgctgacgac

tctggcagtg4639081gcagatgaca

taaaactggt

cgactggtta

caacaacgcc

tggggctttt

agagcaacga4639141gacacggcaa

tgttgcaccg

tttgctgcat

gatattgaaa

aaaatatcac

caaataaaaa4639201acgccttagt

aagtatttttc//EMBL是最早的DNA序列数据库,于1982年建立。

EMBL的数据来源主要有两条途径:

一是由序列发现者直接提交。几乎所有的国际权威生物学刊物都要求作者在文章发表之前将所测定的序列提交给EMBL、GenBank或DDBJ,得到数据库管理系统所签发的登录注册号。二是从生物医学期刊上收录已经发表的序列资料。EMBL数据库简介德国海德堡欧洲分子生物学实验室EMBL(EuropeanMolecularBiologyLaboratory)创建于1974年,是一所非营利性的分子生物学研究机构,由27个欧洲会员国及澳大利亚(准会员国)资助。该实验室在欧洲共有5处分站:位于德国海德堡的主实验室、设在英国Hinxton的欧洲生物信息学研究所(EBI)、以及位于法国格勒诺布尔(Grenoble)、德国汉堡(Hamburg)、以及意大利蒙特罗顿多(Monterotondo)的分站。EBI维护并发布EMBL核酸序列数据库—欧洲的主要核酸序列数据资源。英国辛克斯顿IDU00096standard;circulargenomicDNA;CON;4639221BP.ACU00096;SVU00096.1DT24-JUL-2003(Rel.76,Lastupdated,Version3)DEEscherichiacoliK-12MG1655completegenome.KW.OSEscherichiacoliK12OCBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;OCEnterobacteriaceae;Escherichia;Escherichiacoli.RN[1]RP1-4639221RXMEDLINE;97426617.RXPUBMED;9278503.RABlattnerF.R.,PlunkettG.III,BlochC.A.,PernaN.T.,BurlandV.,…RT"ThecompletegenomesequenceofEscherichiacoliK-12";RLScience277(5331):1453-1474(1997).DRGOA;O32528.DRREMTREMBL;AAC74436;AAC74436.DRSPTREMBL;O32530;O32530.DRSWISS-PROT;O32528;YPDI_ECOLI.…CCThissequencewasdeterminedbytheE.coliGenomeProjectattheCCUniversityofWisconsin-Madison(FrederickR.Blattner,director).CCSupportedbyNIHgrantsHG00301andHG01428(fromtheHumanGenomeCCProjectandNCHGR).TheentiresequencewasindependentlyCCdeterminedfromE.coliK-12strainMG1655.PredictedopenreadingCCframesweredeterminedusingGeneMarksoftware,kindlysuppliedby…FHKeyLocation/QualifiersFTsource1..4639221FT/db_xref="taxon:83333"FT/mol_type="genomicDNA"FT/organism="EscherichiacoliK12"FT/strain="K12"FT/sub_strain="MG1655"FTpromoter71..99FT/note="factorSigma70;predicted+1startat106"…FTCDS190..255FT/codon_start=1FT/db_xref="GOA:P03059"FT/db_xref="SWISS-PROT:P03059"FT/note="o21;100pctidenticaltoLPT_ECOLISW:P03059"FT/transl_table=11FT/gene="thrL"FT/function="leader;Aminoacidbiosynthesis:Threonine"FT/product="thr

operonleaderpeptide"FT/protein_id="AAC73112.1"FT/translation="MKRISTTITTTITITTGNGAG“…关于序列的注释信息序列特征表子项序列特征表起始SQSequence4639221BP;1142136A;1179433C;1176775G;1140877T;0other;

agcttttcat

tctgactgca

acgggcaata

tgtctctgtg

tggattaaaa

aaagagtgtc60

tgatagcagc

ttctgaactg

gttacctgcc

gtgagtaaat

taaaatttta

ttgacttagg120

tcactaaata

ctttaaccaa

tataggcata

gcgcacagac

agataaaaat

tacagagtac180

acaacatcca

tgaaacgcat

tagcaccacc

attaccacca

ccatcaccat

taccacaggt240

aacggtgcgg

gctgacgcgt

acaggaaaca

cagaaaaaag

cccgcacctg

acagtgcggg300

cttttttttt

cgaccaaagg

taacgaggta

acaaccatgc

gagtgttgaa

gttcggcggt360

acatcagtgg

caaatgcaga

acgttttctg

cgtgttgccg

atattctgga

aagcaatgcc420

aggcaggggc

aggtggccac

cgtcctctct

gcccccgcca

aaatcaccaa

ccacctggtg480

gcgatgattg

aaaaaaccat

tagcggccag

gatgctttac

ccaatatcag

cgatgccgaa540…

tattgctatc

aattagcaac

attaatacaa

caaccggcga

aaagtgatgc

aacggcagac4639020

caacatcaac

tgcaagcttt

acgcgaacga

gccatgacat

tgctgacgac

tctggcagtg4639080

gcagatgaca

taaaactggt

cgactggtta

caacaacgcc

tggggctttt

agagcaacga4639140

gacacggcaa

tgttgcaccg

tttgctgcat

gatattgaaa

aaaatatcac

caaataaaaa4639200

acgccttagt

aagtatttttc4639221//GenBank和EMBL数据库的主要内容和格式:

序列名称、长度、日期;序列说明、编号、版本号;物种来源、学名、分类学位置;相关文献作者、题目、刊物、日期;序列特征表;碱基组成;序列(每行60个碱基)。

GenBank和EMBL数据库的格式比较EMBL标识字GenBank标识字含义IDLOCUS序列名称DEDEFINITION序列简单说明ACACCESSION唯一的序列编号SVVERSION序列版本号KWKEYWORDS与序列相关的关键词OSSOURCE序列来源的物种名OCORGANISM序列来源的物种学名和分类学位置DT建立日期RNREFERENCE相关文献编号或提交注册信息RAAUTHORS相关文献作者或提交序列作者RTTITLE相关文献题目RLJOURNAL相关文献刊物名或作者单位RXMEDLINE相关文献Medline引文代码RCREMARK相关文献注释RP相关文献其它注释CCCOMMENT关于序列的注释信息DR相关数据库交叉引用号FHFEATURES序列特征表起始FT序列特征表子项SQBASECONTENT序列长度、碱基数目统计数空格ORIGIN序列////序列结束标志、空行头部特性序列(二)蛋白质序列数据库

PIRUniProt目前国际上比较权威的蛋白质序列数据库,2002年由TrEMBL(EuropeanBioinformaticsInstitute,EBI)和Swiss-Prot(SwissInstituteofBioinformatics,SIB)合并形成。数据来源于:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。

http:///UniProt

PIR是由美国生物医学基金会NBRF(NationalBiomedicalResearchFoundation)于1984年建立的。目的:

帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。(http:///pir/)PIR(ProteinInformationResource)除了蛋白质序列数据之外,PIR还包含以下信息:

(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。PIR提供三种类型的检索服务:一、基于文本的交互式查询,用户通过关键字进行数据查询。二、标准的序列相似性搜索,包括BLAST、Fasta等。三、结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。随着核酸测序技术的迅速发展,人类已经得到一部分生物的全基因组数据,如人、小鼠、大鼠等。这些数据对于我们认识基因组信息的奥秘、了解生物体的生长发育的规律是非常重要的。GDB人类基因组数据库SGD酵母基因组数据库MGD鼠基因组数据库FlyBase果蝇基因组数据库WormBase线虫基因组数据库。。。。。。。。Ensembl综合基因组数据库(三)基因组数据库GDB-人类基因组数据库—TheGenomeDatabase美国JohnsHopkins大学于1990年建立的,现由加拿大儿童医院生物信息中心负责管理。目前GDB包含对下述三种对象的描述:

1.人类基因组区域

2.人类基因组图谱3.人类基因组中的变化

包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig

图谱、集成图谱,所有这些图谱都可以被直观地显示出来;包括基因突变和基因多态性,加上等位基因频率数据。Ensembl数据库

Ensembl是一个综合基因组数据库,它是由EBI和Sanger研究所共同开发的一个系统。

Ensembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。Ensembl数据库还提供疾病、细胞等方面的信息,并且提供数据搜索、数据下载、统计分析等服务。Ensembl数据库结构图Ensembl提供多种查询方式:

通过关键字查询;用BLAST进行相似序列的搜索;另一种更直观的方式是显示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论