生物分子数据库市公开课一等奖百校联赛特等奖课件_第1页
生物分子数据库市公开课一等奖百校联赛特等奖课件_第2页
生物分子数据库市公开课一等奖百校联赛特等奖课件_第3页
生物分子数据库市公开课一等奖百校联赛特等奖课件_第4页
生物分子数据库市公开课一等奖百校联赛特等奖课件_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章生物分子数据库主讲人:孙啸制作人:刘志华东南大学吴健雄试验室第1页第一节引言生物分子数据高速增加分子生物学及相关领域研究人员快速取得最新试验数据

建立生物分子数据库

第2页生物分子数据库应满足5个方面主要需求(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性第3页生物分子数据库

一级数据库数据库中数据直接起源于试验取得原始数据,只经过简单归类整理和注释

二级数据库对原始生物分子数据进行整理、分类结果,是在一级数据库、试验数据和理论分析基础上针对特定应用目标而建立。第4页生物分子数据库几个显著特征:(1)数据库更新速度不停加紧数据量呈指数增加趋势(2)数据库使用频率增加更加快(3)数据库复杂程度不停增加(4)数据库网络化(5)面向应用(6)先进软硬件配置第5页第二节核酸序列数据库国际上权威核酸序列数据库(1)欧洲分子生物学试验室EMBL

http://www.embl-heidelberg.de

(2)美国生物技术信息中心GenBank/Web/Genbank/index.html

(3)日本遗传研究所DDBJ

http://www.ddbj.nig.ac.jp/第6页核酸序列数据增加趋势(纵轴代表总核酸序列长度,单位:百万bp)

第7页

三个数据库中数据基本一致,仅在数据格式上有所差异,对于特定查询,三个数据库响应结果一样。这三个数据库是综合性DNA和RNA序列数据库,每条统计代表一个单独、连续、附有注释DNA或RNA片段。以下着重介绍EBML第8页

MBL中数据分类情况(单位:Gigabases)(EST-Expressedsequencetags;STS-sequencetaggedsites)(取自http://www3.ebi.ac.uk/Services/DBStats/)

第9页

21Mar37,943,364,438basesin24,353,128records.

第10页“ID”为序列标识符行,包含登录号、类型,分子长度

“AC”为登录号行;“XX”为分隔符号行;

“DT”为创建和更新日期行“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文件编号;“RP”描述参考文件页码;“RA”描述参考文件作者;“RT”描述参考文件题目;“RL”描述参考文件出处;“RC”描述参考文件注解;“RX”、“DR”行描述交叉引用信息;“FH”为特征开始符号;“FT”为特征表行(1)FeatureKey,它是描述域生物功效关键字;(2)Location,指明特征在序列中特定位置;(3)Qualifiers,描述关于一个特征辅助信息;文件体由序列本身所组成,由“SQ”标志行开始。序列结束标识是“//”。EMBL核酸数据库中每一个序列数据被赋予一个登录号,它是一个永久性唯一标识

EMBL序列数据用外在ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分文件头由一系列信息描述行所组成,文件头实际上对应于一个序列注释(annotation)第11页提交数据(1)编辑电子表格(2)利用Authorin程序(3)利用基于WWW网络环境序列提交系统第12页使用EMBL(1)CD-ROM形式(2)ftp服务器(3)Gopher服务器(4)WWW服务器这是当前最惯用一个形式

第13页EMBL提供一些与序列相关检索操作(基于3W服务器)(1)序列查询最简单查询就是经过序列登录号(如X58929)或序列名称(如SCARGC)直接查询。假如找到所查询序列,则服务器将查询结果以HTML文件返回给用户假如数据库中该序列有到MEDLINE交叉索引,则系统同时返回与包含参考文件摘要等信息MEDLINE链接假如该序列有到其它数据库交叉索引,也返回对应链接第14页比如:登录号为J00231核酸序列含有这么一个交叉索引行:DR SWISS-PROT:P01860;GC3_HUMAN(2)核酸同源性搜索3W服务器支持用户使用FastA程序进行核酸同源搜索。FastA依据给定目标序列在数据库中搜索其同源序列。第15页2、基因组数据库(GDB)

人类基因组计划所得到图谱数据

当前GDB包含对下述三种对象描述:(1)人类基因组区域

包含基因、克隆、PCR标识物、断点、细胞遗传学标识、易碎位点、EST、综合区域、contigs、重复等;(2)人类基因组图谱,

包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig图谱、集成图谱,全部这些图谱都能够被直观地显示出来;(3)人类基因组中改变,

包含基因突变和基因多态性,加上等位基因频率数据。第16页与染色体相关信息第17页其它模式生物基因组数据库如:鼠基因组数据库MGD(/)酵母基因组数据库SGD(/Saccharomyces/)第18页Ensembl(/)3、人类基因组数据库EnsemblEnsembl包含全部公开人类基因组DNA序列,经过注释形成关于序列特征。现在包含其它基因组,如大鼠、小鼠、线虫、果蝇等。比如:基因经过试验发觉或者是经过GenScan程序预测其它特征: 单核苷酸多态性(SNP)、重复序列等第19页Ensembl数据库结构图第20页Ensembl提供各种查询方式

经过关键字查询用BLAST进行相同序列搜索

另一个更直观方式是显示各染色体 用户能够在染色体水平上选择感兴趣位点, 逐层放大 浏览整个基因组第21页第22页人第9号染色体及大鼠对应染色体片段第23页4、表示序列标识数据库dbESTEST(ExpressedSequenceTags)方法已被证实是识别转录序列最有效方法,EST序列大约覆盖了人类基因90%。

DbEST(/dbEST/)是GenBank一个部分,该数据库包含不一样生物EST序列数据及其它相关信息,主要是从大量不一样组织和器官得到短mRNA片段。

WEB页面或emailFTP相关EST数据dbEST数据库第24页5、序列标识位点数据库dbSTSSTS(SequenceTaggedSites)是序列标识位点dbSTS(/dbSTS/)是NCBI一个数据源,包含基因组短标识序列(STS)组成和定位信息。能够经过BLAST搜索STS序列。第25页6、面向基因聚类数据库UniGeneUniGene(/UniGene/)数据库将GenBank中序列进行自动分类,形成面向基因群非冗余集合。每个UniGene群包含:代表一个唯一基因多个序列,附有该基因相关信息,如基因表示组织类型、定位图谱除了基因序列之外,还包含大量EST序列。当前,UniGene中包含人类、大鼠、小鼠、牛相关数据,因为这些生物有大量EST数据。第26页第三节蛋白质序列数据库目标: 帮助研究者判别和解释蛋白质序列信息, 研究分子进化、功效基因组。它是一个全方面、经过注释、非冗余蛋白质序列数据库。全部序列数据都经过整理,超出99%序列已按蛋白质家族分类,二分之一以上还按蛋白质超家族进行了分类。1、PIR(ProteinInformationResource)第27页除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质分类、蛋白质起源;(2)关于原始数据参考文件;(3)蛋白质功效和蛋白质普通特征,包含基因表示、翻译后处理、活化等;(4)序列中相关位点、功效区域。第28页PIR提供三种类型检索服务:一是基于文本交互式查询,用户经过关键字进行数据查询。二是标准序列相同性搜索,包含BLAST、FastA等。三是结合序列相同性、注释信息和蛋白质家族信息高级搜索,包含按注释分类相同性搜索、结构域搜索等。第29页三个子数据库第30页2、SWISS-PROT

SWISS-PROT(http://www.expasy.ch/sprot/sprot-top.html)是当前国际上比较权威蛋白质序列数据库,其中蛋白质序列是经过注释SWISS-PROT中数据起源于不一样源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出适当数据;(3)从科学文件中摘录;(4)研究人员直接提交蛋白质序列数据

SWISS-PROT有三个显著特点:第31页(1)注释在SWISS-PROT中,数据分为关键数据和注释两大类。关键数据包含:序列数据、参考文件、分类信息(蛋白质生物起源描述)注释包含:(A)蛋白质功效描述;(B)翻译后修饰;(C)域和功效位点,如钙结合区域、ATP结合位点等;(D)蛋白质二级结构;(E)蛋白质四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质相同性;(G)因为缺乏该蛋白质而引发疾病;(H)序列矛盾、改变等。第32页(2)最小冗余尽可能将相关数据归并,降低数据库冗余程度。假如不一样起源原始数据有矛盾,则在对应序列特征表中加以注释。(3)与其它数据库连接对于每一个登录项,有许多指向其它数据库相关数据指针,这便于用户快速得到相关信息。现有交叉索引有:到EMBL核酸序列数据库索引,到PROSITE模式数据库索引,到生物大分子结构数据库PDB索引等。第33页

提交序列数据(a)编辑电子表格(b)利用Authorin程序(c)WWW服务器使用SWISS-PROT(a)CD-ROM形式(b)ftp服务器(c)Gopher服务器(d)WWW服务器(SRS)与序列相关操作(a)序列查询(b)搜索同源蛋白质序列 第34页TrEMBL(http://www.ebi.ac.uk/trembl/index.html)是与SWISS-PROT相关一个数据库。包含从EMBL核酸数据库中依据编码序列(CDS)翻译而得到蛋白质序列,而且这些序列还未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROTTrEMBL)包含最终将要集成到SWISS-PROT数据,全部SP-TrEMBL序列都已被赋予SWISS-PROT登录号。(2)REM-TrEMBL(REMainingTrEMBL)包含全部不准备放入SWISS-PROT数据,所以这部分数据都没有登录号。3、TrEMBL第35页包含:

Swiss-ProtTrEMBLPIR

用户能够经过文本查询数据库,能够利用BLAST程序搜索数据库,也能够直接经过FTP下载数据。4、蛋白质数据仓库UniProt第36页UniProt包含3个部分:(1)UniProtKnowledgebase(UniProt)

蛋白质序列、功效、分类、交叉引用等信息存取中心(2)UniProtNon-redundantReference(UniRef)数据库将亲密相关蛋白质序列组合到一条统计中方便提升搜索速度;(3)UniProtArchive(UniParc)资源库,统计全部蛋白质序列历史。第37页第四节生物大分子结构数据库1、PDB(ProteinDataBank)PDB中含有经过试验(X射线晶体衍射,核磁共振NMR)测定生物大分子三维结构蛋白质核酸糖类其它复合物第38页一个是显式序列信息(explicitsequence) 在PDB文件中,以关键字SEQRES作为显式序列标识,以该关键字打头每一行都是关于序列信息。一个是隐式序列信息(implicitsequence)

PDB隐式序列即为立体化学数据,包含每个原子名称和原子三维坐标。第39页第40页HEADERHYDROLASE19-FEB-971ADZTITLETHESOLUTIONSTRUCTUREOFTHESECONDKUNITZDOMAINOFTITLE2TISSUEFACTORPATHWAYINHIBITOR,NMR,30STRUCTURESCOMPNDMOL_ID:1;COMPND2MOLECULE:TISSUEFACTORPATHWAYINHIBITOR;。。。。。。COMPND8BIOLOGICAL_UNIT:MONOMERSOURCEMOL_ID:1;。。。。。。SOURCE7EXPRESSION_SYSTEM_PLASMID:PFLAGKEYWDSHYDROLASE,INHIBITOR,COAGULATIONEXPDTANMR,30STRUCTURESAUTHORM.J.M.BURGERING,L.P.M.ORBONSREVDAT125-FEB-981ADZ0JRNLAUTHM.J.BURGERING,L.P.ORBONS,A.VANDERDOELEN,。。。。。。REMARK1REFERENCE1REMARK1AUTHM.T.STUBBSIIREMARK1TITLSTRUCTURALASPECTSOFFACTORXAINHIBITION。。。。。。REMARK999SEQUENCEREMARK9991ADZSWSP106461-111NOTINATOMSLISTREMARK9991ADZSWSP10646183-304NOTINATOMSLISTREMARK999THEFIRSTNINERESIDUESARENOTPARTOFTHETFPIDOMAINIIREMARK999SEQUENCEBUTAREFROMTHEPFLAGPEPTIDECLONINGVECTOR.DBREF1ADZ171SWSP10646TFPI_HUMAN112182SEQADV1ADZASP1SWSP10646ILE112ENGINEEREDSEQADV1ADZTYR2SWSP10646ILE113ENGINEEREDSEQRES171ASPTYRLYSASPASPASPASPLYSLEULYSPROASPPHESEQRES271CYSPHELEUGLUGLUASPPROGLYILECYSARGGLYTYRSEQRES371ILETHRARGTYRPHETYRASNASNGLNTHRLYSGLNCYSSEQRES471GLUARGPHELYSTYRGLYGLYCYSLEUGLYASNMETASNSEQRES571ASNPHEGLUTHRLEUGLUGLUCYSLYSASNILECYSGLUSEQRES671ASPGLYPROASNGLYPHEHELIX11ASP12PHE1554HELIX22ASN34THR3653HELIX33LEU57ILE6317SHEET1A2ARG29ASN330SHEET2A2GLN38PHE42-1NPHE42OARG29CRYST11.0001.0001.00090.0090.0090.00P11ORIGX11.0000000.0000000.0000000.00000ORIGX20.0000001.0000000.0000000.00000ORIGX30.0000000.0000001.0000000.00000SCALE11.0000000.0000000.0000000.00000SCALE20.0000001.0000000.0000000.00000SCALE30.0000000.0000001.0000000.00000

图4.5PDB文件PDB文件示意第41页显示分子结构(RasMol,ChemView)第42页2、MMDB(MolecularModelingDatabase)分子模型MMDB是(NCBI)所开发生物信息数据库集成系统Entrez一个部分,数据库内容包含来自于试验生物大分子结构数据。与PDB相比,对于数据库中每一个生物大分子结构,MMDB含有许多附加信息,如分子生物学功效、产生功效机制、分子进化历史等。还提供生物大分子三维结构模型显示、结构分析和结构比较工具。第43页MMDB实用工具第44页第五节其它生物分子数据库核酸序列改变单碱基多态性SNPs(Singlenucleotidepolymorphisms)SNPs对人类遗传学研究和医学应用含有主要意义不论对于人类种群遗传学研究,还是对疾病性状分析或个体化医疗,都需要深入地研究SNPs。1、单碱基多态性数据库dbSNP(/SNP/),第45页实例:GTTTGTGATTACTTTGTAAAAACAGTGTAATAAGTACTCACTAAAGGAAATTTAGAAAATGATAAGCTTAAggccgggcatggtgcctcatgcctgtaatcctagcactttgggaggctgaggtgggtggatcacctgagctcaggagttccagatcatcctggacaatatggtgaaaccctgtctacgcttaaaatacgRaaattagccgggcgtggtggggcatgcctgtggtctcagctactttggagactaaggtagaaggatcacttgaatcctggaggtggaggttgcagagtgagccaatatcgtgccactgcactccagcctaggtgacagaggaagactctgtctcaaaaaaaagaaaaTAAGGCCAGACACGGGGGCTCATGCTTGTAATCR=A/G第46页单倍型数据第47页2、蛋白质结构分类数据库SCOPSCOP数据库(http://scop.mrc-lmb.cam.ac.uk/scop/)目标是提供关于已知结构蛋白质之间结构和进化关系详细描述,包含蛋白质结构数据库PDB中全部条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包含下述信息:到PDB连接,序列,参考文件,结构图像等。能够按结构和进化关系对蛋白质分类,分类结果是一个含有层次结构树,其主要层次是家族、超家族和折叠:(1)家族:含有显著进化关系(2)超家族:含有远源进化关系,含有共同进化源(3)折叠类:主要结构相同第48页第49页3、蛋白质二级结构数据库DSSPDSSP(http://www.sander.embl-heidelberg.de/dssp/)是一个二级结构推导数据库。对生物大分子数据库PDB中任何一个蛋白质,依据其三维结构推导出对应二级结构。对研究蛋白质序列与蛋白质二级结构及空间结构关系非常有用除了二级结构以外,DSSP还包含蛋白质几何特征及溶剂可及表面。第50页TheDSSPcodeH=alphahelixB=residueinisolatedbeta-bridgeE=extendedstrand,participatesinbetaladderG=3-helix(3/10helix)I=5helix(pihelix)T=hydrogenbondedturnS=bend例:第51页4、蛋白质同源序列比对数据库HSSPHSSP(http://www.sander.embl-heidelberg.de/hssp/)二级数据库。数据起源于PDB,或起源于SWISS-PROT对于PDB中每一个蛋白质,HSSP将与其同源全部蛋白质序列对比排列起来,从而将相同序列蛋白质聚集成结构同源家族。HSSP有利于分析蛋白质保守区域,研究蛋白质进化关系,有利于蛋白质分子设计。第52页FromPDBFromSwiss-prot多重序列比对已知结构→未知结构第53页5、OMIMOMIM(OnlineMendelianInheritanceinMan),是关于人类基因和遗传疾病分类数据库。该数据库搜集了已知人类基因及因为这些基因突变或者缺失而造成遗传疾病。OMIM使用非常方便查询程序依据输入到检索窗口一个或几个词执行简单查询,返回含有该词文档列表,用户能够在列表中选择一个或更多异常查看其OMIM统计全文:80/entrez/query.fcgi?db=OMIM

第54页浏览染色体第55页6、EPDEPD(http://www.epd.isb-sib.ch/)是真核基因开启子数据库 提供从EMBL中得到真核基因开启子序列,目标是帮助试验研究人员、生物信息学研究人员分析真核基因转录信号。第56页7、TRRDTRRD是一个关于基因调控信息集成数据库,该数据库搜集真核生物基因转录调控区域结构和功效信息。每一个TRRD条目对应于一个基因,包含特定基因各种结构-功效特征TRRD6.0包含七个相关数据表:(1)基因描述表TRRDGENES(2)控制区域表TRRDLCR(3)调控区域表TRRDUNITS(4)转录因子结合位点表TRRDSITES(5)转录因子表TRRDFACTORS(6)表示模式表TRRDEXP(7)试验起源表TRRDBIB第57页8、TRANSFACTRANSFAC(http://transfac.gbf.de/)是真核基因顺式调控元件和反式作用因子数据库,数据搜集对象从酵母到人类TRANSFAC包含6类数据:(1)SITE类数据(2)GENE类数据(3)FACTOR类数据(4)CELL类数据(5)CLASS类数据(6)MATRIX数据第58页9、BODYMAPBODYMAP(http://bodymap.ims.u-tokyo.ac.jp/)是关于人和老鼠基因表示信息数据库,基因表示数据来自于不一样组织、不一样细胞以及不一样时刻。这里基因表示数据实际上是3’端EST。经过分析这些数据,用户能够初步掌握基因活性,了解组织中mRNA组成,研究基因表示规律,发觉新基因。第59页10、PROSITEPROSITE(http://www.expasy.ch/prosite/)是蛋白质家族和结构域数据库,包含含有生物学意义位点、模式、可帮助识别蛋白质家族统计特征。PROSITE中包括序列模式包含酶催化位点、配体结合位点、与金属离子结合残基、二硫键半胱氨酸、与小分子或其它蛋白质结合区域等。PROSITE还包含依据多序列比对而构建序列统计特征,能更敏感地发觉一个序列是否含有对应特征。第60页11、DBCatDBCat是生物信息数据库目录数据库,它搜集了500多个生物信息学数据库信息,并依据它们应用领域进行了分类DNARNA蛋白质基因组图谱蛋白质结构文件著作等基本类型,(biogen.fr/services/dbcat/)第61页DBCat中分类数据库个数

数据对象数据库个数DNA87RNA29Protein94Genomic58Mapping29Proteinstructure18Literature43Miscellaneous153第62页12、PubMedPubMed(/)是NCBI维护生物学、医学文件引用数据库,提供对MEDLINE、Pre-MEDLINE等文件数据库引用查询和对大量网络科学类电子期刊链接。利用Entrez系统能够对PubMed进行方便查询检索。第63页第六节数据库搜索数据库使用关键字查询目标搜索序列搜索问题 搜索效率 标准算法—O(n2)最流行序列数据库快速搜索程序FastABLAST第64页FASTA基本思想:序列s:序列t:找出两个序列含有最大匹配相对位移1、FASTA算法位移=66810s:A-A-Tt:--A-A-T

357位移=3第65页FASTP基本算法是次序将数据库中每一个序列与查询序列比较,返回与查询序列非常相同数据库序列首先确定两个序列共同k元组(即连续k个字符,k-tup),对于蛋白质序列,k=1或2。k决定了字串大小。增大k参数就会降低字串命中数目,也就会降低所需要最正确搜索数目,提升搜索速度。第66页算法设置两个数据结构:(1)查找表

存放第一条序列各k元组位置(2)位移向量

位移决定一个序列相对于另一个发生字符替换位置。 假如共同k元组起始于s[i]和t[j],则位移等于i-j。

第67页

1234567891011s=HARFYAAQIVL

查找表

A2,6,7F4H1I9L11Q8R3V10Y512345678t= VDMAAQIA

位移+9-2-3+2+2-6+2+1-2+3+2-1位移向量-7-6-5-4-3-2-10+1+2+3+4+5+6+7+8+9+10

11211411最大匹配位移第68页位移累计最大值意义:(1)该位移下匹配最多(2)计算对应动态规划矩阵对角线附近区域实际处理:将在同一位移下距离较近多个k元组联合起来,形成区域。一个区域可被看成是一个片段对,或无空白局部对比排列,依据匹配或失配对区域进行打分。对产生5个最好区域按PAM矩阵进行重新打分,最高得分就是序列s和序列t相同性初始得分。对于数据库中每一个序列,按上述方法计算与查询序列比较初始得分。依据初始得分将全部数据库序列按非递增次序排序,对于排在前面几个含有最高初始得分序列,利用动态规划算法计算它们与查询序列最优对比排列得分,但计算过程仅限于初始对比排列(对应于初始得分对比排列)附近区域。第69页FastA最新版本是FastA3软件包,下表2列出FastA3家族全部组员:FastA家族程

序查询序列类型数据库类型FastADNADNA蛋白质蛋白质FASTXFASTYDNA蛋白质TFastA蛋白质DNATFASTXTFASTY蛋白质DNAFASTSTFASTS一系列多肽片段蛋白质DNAFASTFTFASTF有序多肽混合物蛋白质DNA第70页FastA使用界面第71页2、BLASTBLAST是基本局部对比排列搜索工具简称。研制BLAST最初目标是为了改进FastA算法性能,经过寻找更小、更加好热点,提升计算速度。为了深入提升数据库搜索速度,BLAST增加了限制,即在序列局部比对中不包含空缺字符。第72页BLAST基本思想:序列S:序列t:找出两个序列共同短片段经过扩展后形成更长相同片断扩展扩展第73页给定一个查询序列,BLAST返回全部查询序列与数据库序列得分超出某个阈值S片段对。阈值S能够由用户设定,但程序有一个缺省推荐值。选择S基本标准是:一条随机序列与查询序列比较得分不会超出S第74页在进行序列两两比较之前,BLAST首先寻找一颗“种子”,它是两个序列之间一个非常短片段对。种子能够向两个方向扩展,直至到达扩展最大可能得分。第75页BLAST计算过程分为三个阶段:(1)搜集一系列高得分串,形成高得分单词表(2)搜索种子(3)扩展种子第76页对于蛋白序列搜索:单词表——全部w个字符组成单词 与查询序列单词比较得分超出T这里,w和T是两个参数对于蛋白质序列搜索推荐w值(即种子长度)为4这一步所得到高得分单词表实际上是一些候选种子扫描数据库,搜索那些处于单词表中种子Hashtable有限自动机最终一步扩展过程比较直观。当扩展时得分低于该扩展前面最正确得分某个下限时,扩展停顿。第77页对于DNA序列搜索,单词表包含查询序列长度为w全部单词压缩数据,每个核酸仅用2位(bit)表示,4个核酸组成一个字节搜索、扩展过程与对蛋白质序列处理过程相同第78页BLAST是一个序列数据库搜索程序家族 其中有许多特定用途程序,第79页BLAST使用界面第80页第81页实际应用中倾向于蛋白质序列搜索4种字符Vs.20种字符DNA序列数据库庞大、冗余打分矩阵蛋白质序列比DNA序列愈加保守第82页3、VASTVAST是NCBI相同结构搜索工具,它将一个新蛋白质三维结构与PDB或MMDB数据库中结构进行比较。经过结构相同搜索,VAST列出若干与查询待查询结构相同蛋白质,用户利用系统提供交互显示软件Cn3D(Wangetal.,)观察重合分子模型图,详细分析这些蛋白质空间结构关系,分析蛋白质因为进化而改变结构区域。/Structure/VAST/)第83页VAST比较有三个步骤:首先,在坐标数据基础上,标出全部组成蛋白质关键部分α螺旋和β片层。然后依据这些二级结构单位位置计算向量。使用这些向量进行结构比对而不是整个一套坐标。然后,算法试图最正确地匹配这些向量,寻找类型和相对方位相同成对结构单位,而且在这些单位之间还要有一样连接方式。最终,在每个残基位置上使用蒙特卡洛方法对结构比对进行优化。第84页第七节数据库集成集成数据库一个方法是结构一个“数据仓库”,使其包含各种数据库中数据集,经过自动或手工方式添加注释和连接.Entrez和SRS就是这么一类系统。另一个实现数据库集成方法是设计智能查询工具,进行数据库虚拟集成。第85页1、Entrez查询和搜索系统集成NCBI各种数据库中信息 核酸序列 蛋白质序列 生物大分子结构 基因组数据 生物分类数据库 孟德尔人类遗传学数据(OMIM) Pubmed/gorf/gorf.html

第86页Entrez集成系统结构如图4.8所表示。

图4.8、Entrez数据库系统结构图

第87页

第88页第89页2.SRSSRS(SequenceRetrievalSystem)是EMBL研制一个基于WEB查询系统SRS采取全菜单驱动方式包含EMBL、EMBL_NEW、SwissProt、PIR等一级数据库还包含许多二级数据库, 如蛋白质家族和结构域数据库Prosite、限制酶数据库ReBase、PDB序列子集数据库NRL_3D、真核基因开启子数据库EPD、E.coli数据库ECD、酶名称和反应数据库ENZYM

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论