版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章分子生物信息数据库1一、分子生物信息数据库简介(一)诞生背景生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据
建立分子生物数据库
2分子生物数据库应满足几个方面的主要需求:(1)时间性(2)注释(3)数据质量(4)集成性3生物信息学数据库工具染色体核酸蛋白质基因组图谱DNA序列蛋白质序列蛋白质结构基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库二级数据库复合数据库基因组作图序列测定结构测定(二)、分子生物信息数据库种类
5生物信息数据库
一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释
二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。6二、一级数据库简介7(一)、基因组数据库来源于人类基因组计划及各种模式生物基因组计划1977年,最早获得的生物基因组全序列是噬菌体(53kb)8101113
AceDB
线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。
提供很好的图形界面,用户能够从大到整个基因组、小到单个序列的各个层次观察和分析基因组数据。
http://
数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献…14151、核酸序列数据库(1)欧洲分子生物学实验室的EMBL(EuropeanMolecularBiologyLaboratory)
(2)美国生物技术信息中心(NationalCenterforBiotechnologyInformation)的GenBank(3)日本遗传研究所的DDBJ(DNADataBaseofJapan)
17三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。GenBankDDBJEMBL1819“ID”为序列的标识符行,包括登录号、类型,分子的长度
“AC”为登录号行;“XX”为分隔符号行;
“DT”为创建和更新日期行“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”描述参考文献的出处;“RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“//”。EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(annotation)21EMBL标识字GenBank标识字含义IDLOCUS序列名称DEDEFINITION序列简单说明ACACCESSION唯一的序列编号SVVERSION序列版本号KWKEYWORDS与序列相关的关键词OSSOURCE序列来源的物种名OCORGANISM序列来源的物种学名和分类学位置DT建立日期RNREFERENCE相关文献编号或提交注册信息RAAUTHORS相关文献作者或提交序列作者RTTITLE相关文献题目RLJOURNAL相关文献刊物名或作者单位RXMEDLINE相关文献Medline引文代码RCREMARK相关文献注释RP相关文献其它注释CCCOMMENT关于序列的注释信息DR相关数据库交叉引用号FHFEATURES序列特征表起始FT序列特征表子项SQBASECONTENT序列长度、碱基数目统计数空格ORIGIN序列////序列结束标志、空行EMBL和GenBank数据库的行识别标志比较头部特性序列223、蛋白质序列数据库
PIR(美国)SWISS-PROT(欧洲)2325目的: 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PIR(ProteinInformationResource)262、SWISS-PROT
1986年,瑞士日内瓦大学建立;2.瑞士生物信息学研究所(SwissInstituteofBioinformatics,SIB)和欧洲生物信息学研究所(EBI)维护和管理;3.目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的。
SWISS-PROT的网址:
2930SWISS-PROT中的数据来源于:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。SWISS-PROT有三个明显的特点:31在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)(1)注释32Identification,序列的标识符行;Accessionnumber,登录号行;Description,序列描述行;Organismspecies,描述生物体种属;Organnismclassification,描述生物体分类信息;Referencenumber,描述参考文献的编号;Referenceauthors,描述参考文献的作者;Referencetitle,描述参考文献的题目;Referencelocation,描述参考文献的出处;Genename,基因名称;Date,创建和更新日期行;Referenceposition,参考文献涉及内容;Cross-references,参考文献的MEDLINE号;3334注释包括:(A)蛋白质的功能描述;(B)特殊位点和区域,如钙结合区域、ATP结合位点等;(C)与其它蛋白质序列的相似性;(D)序列残缺与疾病的关系;35(2)最小冗余尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。(3)与其它数据库的连接对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。现有的交叉索引有:到EMBL核酸序列数据库的索引,到生物大分子结构数据库PDB的索引等。3637(三)、结构数据库381、PDB(ProteinDataBank)PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构蛋白质核酸糖类蛋白质和核酸复合物
对于每一个结构,包含名称、参考文献、序列、一级结构、二级结构和原子坐标等信息。
3940一种是显式序列信息(explicitsequence) 在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。41一种是隐式序列信息(implicitsequence)
PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。42显示分子结构(RasMol,ChemView)432、蛋白质结构分类数据库SCOP(StructuralClassificationofProteins)44
SCOP(StructuralClassificationofProtein)
英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于web的蛋白质结构数据库分类、检索和分析系统;SCOP的网址:/
454647二级数据库简介48
二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;
一级数据库与二级数据库之间并无明确的界限。(例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色)491、基因组信息二级数据库TransFac(真核生物基因调控转录因子数据库)
德国生物工程研究所开发维护,始建于1988年。是真核基因顺式调控元件和反式作用因子数据库,数据搜集的对象从酵母到人类。TransFac的网址:http://
50512、蛋白质序列二级数据库
Prosite(蛋白质序列功能位点数据库)
始建于1990年代初,由瑞典生物信息学研究所SIB负责维护。
构建依据:通过多序列比对方法,得到的保守性区域,如酶的催化位点、配体结合位点、与金属离子结合的残基。
蛋白质序列功能位点数据库。()5253DSSP()对生物大分子数据库PDB中的任何一个蛋白质,根据其PDB中的原子坐标,计算氨基酸残基的二级结构构象参数。3、蛋白质结构二级数据库54TheDSSPcodeH=alphahelixB=residueinisolatedbeta-bridgeE=extendedstrand,participatesinbetaladderG=3-helix(3/10helix)I=5helix(pihelix)T=hydrogenbondedturnS=bend对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用。DSSP二级结构实例55同源蛋白质数据库HSSPHSSP()数据来源于PDB,或来源于SWISS-PROT对于PDB中的每一个蛋白质,HSSP将与其同源的所有蛋白质序列进行对比,从而将相似序列的蛋白质聚集成结构同源的家族。HSSP有助于分析蛋白质的保守区域,研究蛋白质的进化关系,有助于蛋白质的分子设计。56三其它生物分子数据库57基因组水平上由单个核苷酸的变异引起的DNA序列的多态性单核苷酸多态性SNPs(Singlenucleotidepolymorphisms)SNPs对人类遗传学研究和医学应用具有重要的意义无论对于人类种群遗传学的研究,还是对疾病易感性状分析或个体化医疗,都需要深入地研究SNPs。1、单核苷酸多态性数据库dbSNP
NCBI与人类基因组研究所(NationalHumanGenomeResearchInstitute)合作建立的,它是关于单碱基替换以及短插入、删除多态性的资源库。5859实例:GTTTGTGATTACTTTGTAAAAACAGTGTAATAAGTACTCACTAAAGGAAATTTAGAAAATGATAAGCTTAAggccgggcatggtgcctcatgcctgtaatcctagcactttgggaggctgaggtgggtggatcacctgagctcaggagttccagatcatcctggacaatatggtgaaaccctgtctacgcttaaaatacgRaaattagccgggcgtggtggggcatgcctgtggtctcagctactttggagactaaggtagaaggatcacttgaatcctggaggtggaggttgcagagtgagccaatatcgtgccactgcactccagcctaggtgacagaggaagactctgtctcaaaaaaaagaaaaTAAGGCCAGACACGGGGGCTCATGCTTGTAATCR=A/G602、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 互联网+社区服务协议
- VPS云服务器安全加固和管理优化方案
- 金融行业风险控制与数据分析一体化方案
- 大学数学竞赛题目解析征文
- 电子产品行业智能电子生产与测试方案
- 酒店旅游行业智能化酒店服务系统开发
- 健康饮食产品销售免责协议书
- 2025年北海年货运从业资格证
- 人工智能技术研发服务协议
- 公司客户服务提升战略及实施方案
- 新入职员工年终工作总结课件
- 中华传统文化之文学瑰宝学习通超星期末考试答案章节答案2024年
- 静脉导管维护
- 2023年外交学院招聘笔试备考试题及答案解析
- 年度先进员工选票标准格式
- MA5680T开局配置
- (完整word版)澳大利亚签证54表(家庭构成)
- 螺杆式风冷冷水(热泵)机组电路图
- CFG桩施工记录表范本
- 《录音技术与艺术》课程教学大纲(新版)(共11页)
- 二、菲涅耳公式表示反射波、折射波与入射波的振幅和位相关
评论
0/150
提交评论