数据搜索时有用的生物大分子数据库扫描

上传人：x*** IP属地：江西上传时间：2022-08-20 格式：DOC 页数：52 大小：3.23MB 积分：30 举报 版权申诉

已阅读5页，还剩47页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、生物大分子数据库扫描根据“Nucleic Acids Research”最新（指2007年）公布的数据，目前已有968个有关生物大分子数据库（参见文献 Galperin M Y, The Molecular Biology Database Collection, 2007, 35: D3）。有兴趣的读者可以参阅网站“http:/www.oxfordjourna/nar/database/a”。我们这里将主要类型的数据库列于表4-2。数据库类别代表数据库名及应用核苷酸序列数据库国际苷酸序列数据库集DDBJ：所有已知的核苷酸序列与蛋白质序列EMBL：所有已知的核苷酸序列与蛋白质序列GenBank

2、：所有已知的核苷酸序列与蛋白质序列DNA序列：基因，保守序列模式及调控位点有关代码DNA序列ACLAME：基因移动因子分类数据库CUTG：Genbank数据库中的代码应用分类数据库HERVd：人类内源性逆转录病毒数据库NPRD:核小体定位区间数据库TIGR Gene Indices：基因序列与组织专一化数据库VectorDB：核酸向特征及分类数据库基因结构，内含子，外显子ASD：选择性剪切数据库EASED：扩展选择性剪切EST数据库HS3D：现代人剪切位点数据库Splice DB：典型与非典型的哺乳动物剪切位点数据库转录调节位点与转录因子ACTIVITY：功能DNA/RNA位点数据库DBTBS

3、：枯草杆菌起动与转录因子数据库EPD：真核起动子数据库JASPAR：转录因子DNA结合位点位置专一化得分矩阵TESS：转录子搜索系统TRED：转录调控元素数据库TRANSFAC：转录因子和连接位点数据库RNA序列数据库16S与23S rRNA Mutation Database：16S与23S核糖体RNA突变数据库ARED：mRNA中AU丰富数据库NCIR：RNA结构中非典型相互作用数据库tmRDB：tmRNA数据库Rfam：非代码RNA家族数据库蛋白质序列数据库综合数据库EXProt：被实验证实功能的蛋白质序列数据库PA-GOSUB：根据模型器官，GO数据库确认及亚细胞定位的蛋白质序列数据库

4、Swiss-Prot：蛋白质序列数据库TrEMBL：应用计算机注释与翻译EMBL数据库UniProt：所有蛋白质序列累积数据库蛋白质性质数据库AAindex：氨基酸理化性质数据库ProNIT：蛋白质与核酸相互作用热动力学数据库ProTherm：天然型与突变型蛋白质热动力学数据库TECRdb：酶催化反应热动力学数据库蛋白质定位与靶向数据库（Protein localization and targeting）DDSubLoc：蛋白质在亚细胞单元定位数据库NESbase：核输出信号数据库NLSdb：核定位信号数据库NMPdb：核基质联合蛋白质数据库NOPdb：核仁蛋白质组数据库PSORTdb：细菌

5、中蛋白质在亚细胞单元中定位数据库SPD：分泌蛋白质数据库THGS：基因组序列中跨膜螺旋蛋白质数据库TMPDB：由实验确定的跨膜蛋白拓扑数据库蛋白质保守序列模式及活性位点数据库ASC：活性序列集合：生物活性肽数据库BLOCKS：蛋白质家族中保守区间比对数据库CSA：催化位点图谱，已知三维结构的酶的活性位点及催化位点数据库COMe：生物有机蛋白分类数据库CopS：综合肽信号数据库eBLOCKS：高度保守蛋白质序列块eMOTIF：蛋白质保守序列模式的确定与搜索Metalloprotein Site Database：金属蛋白中金属连接位点数据库O-GlyBase：蛋白质中用O和C连接的糖基化位点数据

6、库PDBsite：蛋白质三维结构功能位点数据库PROSITE：生物学显著的蛋白质模式与突变谱数据库蛋白质功能区域；蛋白质分类数据库ADDA：蛋白质功能区域分类数据库CDD：保守功能区域数据库：主要来自于Pfam，SMART，COG和KOG数据库CluSTr：Swiss-Prot+TrEMBL蛋白聚类数据库FunShift：在同一个蛋白质功能的家族的子家族之间功能异化数据库PRINTS：启发式基因家族指纹谱数据库Pfam：蛋白质家族数据库：根据多重序列比对和突变谱HMM构建ProtoMap：将Swiss-Prot依不同层次分类的数据库S4：SCOP超级家族中基于结构的序列比对数据库单个蛋白质家族

7、数据库AARSDB：酰氨转移-tRNA合成酶数据库ASPD：人工选择的蛋白质/肽数据库Bac Tregulators：AraC和TetR家族转录调节子数据库CSDBase：冷休克蛋白功能区阈数据库GPCRDB：G蛋白偶联受体数据库Histone Database：组蛋白折叠序列与结构数据库ProLysED：细菌蛋白酶数据库TrSDB：转录因子数据库结构数据库小分子数据库ChEBI：对生物有反应的化学条目AANT：氨基酸与核苷相互作用数据库碳水化合物数据库CCSD：复合碳水化合物结构数据库GlycoSuiteDB：N-和O-多糖结构与生物资源数据库核酸结构数据库NDB：核酸包含结构数据库NTDB

8、：核酸热动力学数据库RNABase：由PDB和NDB中包括RNA的结构数据库SCOR：RNA结构分类数据库，有关RNA结构，保守序列模式，功能及三级结构相互作用有关蛋白质结构方面的数据库ArchDB：蛋白质环结构自动分类数据库ASTRAL：已知结构的功能区，被选出的子集和序列结构相关的序列数据库BAliBASE：多重序列比对比较的数据库BioMagReBank：蛋白质与核酸的NMR光谱数据库CADB：蛋白质数据库的构象角数据库CATH：蛋白质功能区域自动分类数据库CE：蛋白质三级结构比对数据库CKAAPsDB：序列不相似但结构相似的蛋白质数据库Dali：应用Dali搜索引擎得到的蛋白质折叠分类

9、数据库Decoys R Us：由计算机产生构象的数据库DsiProt：蛋白质无序结构数据库DomIns：已知蛋白质结构功能区阈插入数据库eF-site：功能位点静电表面数据库：蛋白质活性位点的静电势与疏水性GenDis：蛋白质结构超级家族基因组分布数据库GTOP：根据基因组序列预测蛋白质折叠数据库HOMSTRAD：同源结构比对数据库MolMovDB：生物大分子运动数据库，主要描述蛋白质及生物大分子运动LPFC：蛋白质核结构家族库PDB：蛋白质结构数据库，搜集了所有蛋白质及核酸结构的数据库PDBsum：对PDB结构总结分析数据库PDB_TM：已知三级结构的跨膜蛋白数据库ProteinFoldin

10、g Database：蛋白质折叠实验数据库SCOP：由专家参预的蛋白质结构分类数据库Sloop：蛋白质环分类数据库Structure Superposition Database：TIM桶状结构的配对叠合数据库基因组数据库基因注释项，规范描述及相关术语有关常用命名方面的数据库Genew：人类基因命名GO：基因功能的规范描术数据库GOA：有关EBI的基因功能的规范描述数据库IUBMB Nomenclature数据库：有关酶，跨膜转移，电子转移蛋白及其它蛋白命名。IUPAC Nomenclature数据库：由IUBMB与IUPAC联合委员会通过的生化与有机小分子的命名IUPHAR-RD：国际药学联

11、合会推荐的有关受体命名和药物分类数据库分类与鉴定数据库细菌鉴定与分类的gyrB数据库综合基因数据库COG：蛋白质直系同源组聚类数据库COGENT：完全基因组跟踪数据库，根据完全基因序列预测肽DEG：细菌与酵母必须基因数据库FusionDB：细菌与古菌基因剪切（融合）事件数据库Genome Atlas：序列基因组的DNA结构性质数据库GOLD：基因组在线数据库Integr8：全基因组蛋白质功能分类数据库KEGG：基因与基因组京都百科全书，有关基因，蛋白质及代谢路径整合组数据库TransportDB：根据TC分类系统预测全基因组中的跨膜转运数据库WIT3：有关微生物全序列基因组代谢重建数据库生物种

12、类专一化数据库细菌类HCVDB：肝炎C型病毒数据库HIV Drug Resistance数据库：具有抗药性能的HIV突变数据库HIV Molecular Immunology数据库：HIV抗原决定基数据库HIV RT and Protease Sequence数据库：HIV逆转录酶及蛋白质酶序列数据库VIDA：同源病毒蛋白家族数据库VirOligo：有关PCR及其杂化的病毒专一化寡聚核苷酸数据库原核生物类总述BacMap：注释细菌基因组图谱数据库MetaGrowh：细菌病原体生长要求数据库PGTdb：原核生物生长温度数据库大肠杆菌类（Escherichia coli）ASAP：对大肠杆菌及其相

13、关基因组系统注释包裹CyberCell数据库：有关E.coli K12的应用数学模型模拟的数据库集合coliBase：有大肠杆菌，沙门氏菌属及志贺氏杆菌的数据库PEC：有关大肠杆菌染色体图谱RegulonDB：大肠杆菌中转录调节及操纵组织数据库枯草杆菌类BSORF：京都大学枯草杆菌基因组数据库NUSub：里昂大学非冗枯草杆菌数据库SubtiList：巴斯德研究院枯草杆菌基因组数据库其它细菌类BioCyc：多种细菌路径及基因组数据库CampyDB：弯曲杆菌属基因组分析数据库ClostriDB：梭菌属完成的与未完成的基因组数据库Virulence Factors：有关微生物毒性因子数据库单细胞真核

14、生物ApiEST-DB：从各种各样Apicomplexan寄生虫获得的EST序列CryptoDB：有关Cryptosporidium parvum基因组数据库ToxoDB：鼠弓形体基因组数据库真菌类酵母菌类AGD：Ashbya棉花基因组数据库CandidaDB：加拿乳头状体基因组数据库CYGD：MIPS综合酵母基因组数据库SCPD：酿酒酵母起动子数据库其它真菌类CADRE：中心化曲霉菌数据集MNCDB：MIPS粗糙链孢霉数据库无脊椎动物克氏病Intronerator：C.elegans和C. briggsae内含子和剪切数据库RNAiDB:克氏病基因表型的RNAi表型分析WILMA：克氏病注释

15、数据库WorfDB：克氏病ORF组数据库黄猩猩果蝇(Drosophila melanogaster)FlyBase：果蝇序列与基因组信息FlyBrain：果蝇神经系统数据库DPDB：果蝇多聚态数据库其它无脊椎动物AppaDB：线虫Pristionchus pacificus数据库BeetleBase：甲虫Tribolium castaneum基因组数据库CnidBase：刺胞动物进化和基因表达数据库PPNEMA：植物寄生线虫rRNA数据库代谢酶和路径；信号路径数据库酶与酶命名数据库BRENDA：酶名称与生物化学性质数据库ENZYME：酶命名与性质数据库Enzyme Nomenclature：I

16、UBMB命名委员会推荐数据库IntEnz：整合酶数据库与酶命名PDBrtf：PDB中酶的目标家族代表数据库SCOPEC：功能区阈催化功能图谱数据库代谢路径数据库BioSilico：各类代谢数据库整合KEGG 路径：全基因组代谢与调节路径数据库MetaCyc：各种生物体代谢路径与酶数据库分子间相互作用和信号路径数据库3DID：已知三维结构的蛋白质功能区阈与功能区阈相互作用蛋白质aMAZE：生物化学与信号路径网络的注释，管理与分析系统BIND：生物分子相互作用网络数据库BioCarta：代谢与信号路径在线图DIP：蛋白质相互作用数据库DRC：核糖体交互链接数据库POINT：人类蛋白质蛋白质相互作用

17、组数据库STCDB：信号转导分类数据库人类与其它脊椎动物基因组模型生物与比较基因组数据库AllGene：人类和小鼠基因，转录及蛋白质注释数据库DED：进化距离数据库FANTOM：小鼠全长cDNA克隆功能注释数据库GALA：基因组比对，注释与实验结果数据库IPI：人类，大鼠，小鼠蛋白的非冗余集国际蛋白索引数据库Polymorphix：序列多聚表型数据库Rat Genome数据库：大鼠遗传与基因组数据库TAED：自适应进化数据库VEGA：脊椎动物基因组数据人类基因组数据库，图谱及阅读器AluGene：人类基因组完全运算图GroW 21：人类21号染色体数据库GDB：人类基因与基因组图数据库Gene

18、Loc：基因定位数据库HOWDY：人类组织全基因组数据库IXDB：人类X染色体物理图Map Viewer：应用染色体位置基因组信息展示图TRBase：人类基因组串联重复数据库人类蛋白H-InvDB：全长人类cDNA克隆数据库HPMR：人类血浆膜受体数据库，包括序列，文献及表达数据库HPRD：人类蛋白参考标准数据库，包括功能区域构建，翻译后修饰及其相关疾病LIFEdb：人类蛋白质的定位，相互作用和功能数据库人类基因与疾病数据库综合数据库DG-CST：疾病基因保守序列标签数据库PMD：蛋白质突变编译数据库SOURCE：人类，小鼠与大鼠的功能基因组资源数据库ORFDB：由Invitrogen销售的O

19、RF人类突变数据库综合多形态数据库ALFRED：等位基因频率与DNA多型态数据库BayGenomics：与冠心病和肺部相关基因数据库Cypriot national mutation database：塞浦路斯人群疾病突变数据库dbQSNP：SNP等位基因频率定量数据库FESD：功能性SNP数据库，包括在人类基因的起动子，UTRs上的SNPHGVS数据库：人类突变编辑数据库IPD:免疫多聚形态数据库JSNP：日本SNP数据库rSNPs Guide：调节基因区间SNPTopoSNP：非同义SNPs的拓朴数据库癌症Atlas of Genetics and Cytogenetic in Oncol

20、ogy and Haematology：在肿瘤，血液及有癌症倾向疾病的癌症相关基因，染色体异常的数据库CGED：癌症基因表达数据库Germline p53 mutations：在人类肿瘤和细胞线p53基因的突变数据库MTB：小鼠肿瘤生物学数据库：包括肿瘤类型，基因，分类，发生率及病理学有关基因，系统或疾病专一性数据库ALPSbase：自体免疫淋巴组织增生综合症数据库BTKbase：X-链接血中丙球蛋白贫乏突变记录数据库CASRDB：钙敏感受体数据库ERGDB：雌激素响应基因数据库PGDB：前列腺及前列腺疾病基因数据库SCAdb：脊髓与小脑共济失调数据库微阵列数据与其它基因表达数据库5SAGE：

21、5末端基因表达系列分析数据库ArrayExpress：公共搜集微阵列基因表达数据库BGED：脑基因表达数据库GEO：基因表达公共站数据库，主要是搜集基因表达谱方面的数据GermOnline：有丝分裂与减数分裂细胞周期中基因表达数据库GXD：小鼠基因表达数据库MethDB：DNA甲基化数据，模式及图谱数据库蛋白质组资源数据库2D：微生物研究中蛋白组数据库系统DynaProt 2D：Lactococcus lactis 蛋白质组数据库Open Proteomics Database：人类，酵母，大肠杆菌和分枝杆菌基于质谱的蛋白质组数据库PEP：全蛋白质预测数据库，蛋白质序列在翻译前，翻译中及翻译后

22、蛋白质修饰数据库RESID: 翻译前，翻译中及翻译后蛋白质修饰数据库其它分子生物学数据库药物与药物设计数据库ANTIMIC：自然抗微生物药物肽数据库AOBase：反义寡聚核苷酸选择与设计APD：抗微生物肽数据库DART：药物不良反应靶点数据库TTD：治疗靶点数据库有关探针方面的数据库IMGT/PRIMER-DB：免疫遗传寡聚核苷酸引物数据库PrimerPCR：真核与原核基因的PCR引物数据库QPPD：人与小鼠定量PCR引物数据库RTPrimerDB：实时PCR引物和探针序列数据库未分类数据库BioImage：多维生物图像数据库细胞器数据库综合数据库OGRe：细胞器基因组修复系统Organell

23、e DB：细胞器蛋白与亚细胞结构数据库线粒体基因与蛋白方面的数据库AMPDB：阿布属线粒体蛋白的数据库HMPD：人类线粒体蛋白数据库Mitochondrome：多细胞动物线粒体基因数据库MitoDrome：果蝇核解码线粒体数据库MITOP2：线粒体蛋白，基因，疾病数据库MPLMP：植物线粒体蛋白输入机器数据库PLMtRNA：植物线粒体tRNA数据库植物数据库植物综合数据库BarleyBase：植物基因组表达图谱数据库CR-EST：大麦，豌豆，小麦及土豆数据库CroNet：农作物基因组图谱数据库FLAGdb+：有关植物基因组综合数据库Mendel：已注释的植物ESTs和STSs数据库拟南芥AGN

24、S：拟南芥基因网增补数据库，包括基因表达，转基因与突变形态AGRIS：阿布属基因调节信息服务器：包括起动子，转录因子及其目标基因方面的数据库CATMA：完全阿布属转录组微阵列数据库MAtDB：MIPS拟芥南数据库TAIR：阿布属信息资源数据库水稻BGI-RISe：北京基因组研究院水稻信息系统INE：整合水稻基因组浏览器IRIS：国际水稻信息系统RAD：水稻注释数据库RiceGAAS：水稻基因组自动注释系统Rice proteome database：水稻蛋白质组数据库其它植物MaizeGDB：玉米遗传与基因组数据库SGMD：大豆基因组与微阵列数据库免疫学数据库BCIpep：B-细胞抗原决定基数

25、据库dbMHC：人类MHC遗传与临床数据库FIMM：功能分子免疫学数据库IMGT：国际免疫学信息系统，包括免疫球蛋白，T细胞受体，MHC和RPIIMGT/Gene-DB：脊椎动物免疫球蛋白与T细胞受体数据库MHCBN：MHC连接与非连接肽数据库MHCPEP：MHC连接肽数据库MPID：MHC肽相互作用数据库VBASE2：人与小鼠Ig定位可变基因数据库那么SwissProt数据库主要内容及格式是什么呢？我们这里作一个比较详细的介绍。下面这段是一个完整的SwissProt条目，现解释如下：ID 104K_THEPA STANDARD; PRT; 924 AA.AC P15711;DT 01-APR

26、-1990 (Rel. 14, Created)DT 01-APR-1990 (Rel. 14, Last sequence update)DT 01-AUG-1992 (Rel. 23, Last annotation update)DE 104 kDa microneme-rhoptry antigen.OS Theileria parva.OC Eukaryota; Alveolata; Apicomplexa; Piroplasmida; Theileriidae;OC Theileria.OX NCBI_TaxID=5875;RN 1RP NUCLEOTIDE SEQUENCE.RC

27、 STRAIN=Muguga;RX MEDLINE=90158697; PubMed=1689460; DOI=10.1016/0166-6851(90)90007-9;RA Iams K.P., Young J.R., Nene V., Desai J., Webster P., Ole-Moiyoi O.K.,RA Musoke A.J.;RT Characterisation of the gene encoding a 104-kilodalton microneme-RT rhoptry protein of Theileria parva.;RL Mol. Biochem. Par

28、asitol. 39:47-60(1990).CC -!- SUBCELLULAR LOCATION: In microneme/rhoptry complexes.CC -!- DEVELOPMENTAL STAGE: Sporozoite antigen.CC CC This Swiss-Prot entry is copyright. It is produced through a collaborationuniprot_sprot.datCC the European Bioinformatics Institute. There are no restrictions on it

29、sCC use as long as its content is in no way modified and this statement is notCC removed.CC DR EMBL; M29954; AAA18217.1; -.DR PIR; A44945; A44945.KW Antigen; Repeat; Sporozoite.FT DOMAIN 1 19 Hydrophobic.FT DOMAIN 905 924 Hydrophobic.SQ SEQUENCE 924 AA; 103626 MW; 289B4B554A61870E CRC64; MKFLILLFNI

30、LCLFPVLAAD NHGVGPQGAS GVDPITFDIN SNQTGPAFLT AVEMAGVKYL QVQHGSNVNI HRLVEGNVVI WENASTPLYT GAIVTNNDGP YMAYVEVLGD PNLQFFIKSG DAWVTLSEHE YLAKLQEIRQ AVHIESVFSL NMAFQLENNK YEVETHAKNG ANMVTFIPRN GHICKMVYHK NVRIYKATGN DTVTSVVGFF RGLRLLLINV FSIDDNGMMS NRYFQHVDDK YVPISQKNYE TGIVKLKDYK HAYHPVDLDI KDIDYTMFHL ADA

31、TYHEPCF KIIPNTGFCI TKLFDGDQVL YESFNPLIHC INEVHIYDRN NGSIICLHLN YSPPSYKAYL VLKDTGWEAT THPLLEEKIE ELQDQRACEL DVNFISDKDL YVAALTNADL NYTMVTPRPH RDVIRVSDGS EVLWYYEGLD NFLVCAWIYV SDGVASLVHL RIKDRIPANN DIYVLKGDLY WTRITKIQFT QEIKRLVKKS KKKLAPITEE DSDKHDEPPE GPGASGLPPK APGDKEGSEG HKGPSKGSDS SKEGKKPGSG KKPGPA

32、REHK PSKIPTLSKK PSGPKDPKHP RDPKEPRKSK SPRTASPTRR PSPKLPQLSK LPKSTSPRSP PPPTRPSSPE RPEGTKIIKT SKPPSPKPPF DPSFKEKFYD DYSKAASRSK ETKTTVVLDE SFESILKETL PETPGTPFTT PRPVPPKRPR TPESPFEPPK DPDSPSTSPS EFFTPPESKR TRFHETPADT PLPDVTAELF KEPDVTAETK SPDEAMKRPR SPSEYEDTSP GDYPSLPMKR HRLERLRLTT TEMETDPGRM AKDASGKPV

33、K LKRSKSFDDL TTVELAPEPK ASRIVVDDEG TEADDEETHP PEERQKTEVR RRRPPKKPSK SPRPSKPKKP KKPDSAYIPS ILAILVVSLI VGIL/ID 是指其身份号，924 AA是指有该序列有924个氨基酸残基AC 获取号；DT 序列测得的时间DE 对该序列必要的信息的说明，如该分子的分子量为104 kDa .OS 来源 OX NCBI分类身份号RN 1RP NUCLEOTIDE SEQUENCE.RC STRAIN=Muguga;RX 有关Medline的出版号RA 作者RT 引用文献题目RL 杂志名称，出版日期，卷期页CC

34、有关它的功能描述及其它相关信息方面的描述DR EMBL数据库中的获取号DR PIR数据库中的获取号KW 关键词FT 功能区的描述SQ 有关序列方面的信息，这部分是最主要的，因为该蛋白质的序列就列在下面。/ 表明这个条目结束。通过对上面这段的分析，读者可以知道Swiss-Prot数据库基本框架及所蕴含的生物信息学内容。同时，人们也可在需要Swiss-Proto数据库时根据其格式编制出相应的计算机程序。这一点其实对生物信息学工作者非常重要，因为一个生物信息学分析方法首先要得到正确的数据，而正确的数据则必须以相应数据库格式为基准。有关该数据库用户可在“/”上获

35、取。二、PDB数据库的基本格式我们在前面曾经说过，当一个数据库的格式与内容都知道了后，说明对这个数据库的知识已有初步的掌握。同前面一样，我们现在详细介绍PDB数据库的格式。由于蛋白质结构涉及到蛋白质中每个原子的坐标，二级结构，一个蛋白质结构所占的容量是比较大的，因此它不可能象Swiss-Prot数据库那样将所有蛋白质序列放在一个文件中，而是一个蛋白质一个文件。因此，到目前为止，PDB数据库应有41952个文件，这样就涉及到其文件名的问题，PDB数据库的文件如图4-10所示：图4-10 PDB数据库中的文件名格式下面是一个典型的PDB数据库格式的描述：PDB中所的分子空间结构信息文件的格式基本上

36、都是一样的。文件由若干记录组成，每一记录有80个字符（包括空格）。开头的6个字符标明该记录的名称，现将各记录的意义分别叙述如下：HEADER该记录列出分子所属功能类，正式收入PDB日期以及该分子的判别码OBSLTE该记录列出已被新分子文件取代的一些旧的分子的有关信息。COMPND该记录出分子名SOURCE该记录说明分子来源AUTHOR该记录列出提供座标者的姓名REVDAT该记录列出文件历次修改的日期等有关信息SPRSDE该记录列说明此文件取代旧文件的有关信息JRNL该记录引用与确定该分子空间结构有关的主要文献REMARK该记录为关于该分子文件的其它信息。其中：REMARK1专用于列出与该结构有

37、关的其它文献，REMARK2和REMARK3分别是关于晶体结构的分辨率及精华的信息SEQRES列出蛋白质一级结构HET列出非标准基团或残基的信息（主要是指除标准20个氨基酸残基以外的基团信息。具体格式如下：1-3列是“HET”；8-10列是非标准基团表示符；13列是链表示符号；14-17顺序号；18列是插入码；21-25列是非标准基团中的原子数目；31-70为注释HELIX列出分子中有关螺旋的信息。1-6列是“HELIX”； 8-10列是顺序号； 12-14螺旋表示符；16-18 残基名；20链表示符；22-25残基序号；26 插入码；28-30残基名；32链表示符；34-37残基序号；38插

38、入码；39-40螺旋类别；41-70注释。 SHEET列出分子中有关折叠的信息，其格式如下：1-5列为SHEET；8-10股号；12-14折叠表示符；15-16股数；18-20残基名；22链表示符；23-26残基序列号；27插入码；29-31 残基名；33 链表示符；34-37残基序号；38 插入码；39-40类型判别码；42-45 原子名；46-48 残基名；50链表示符；51-54 残基序号；55插入码；57-60 原子名；61-63 残基名；65 链表示符；66-69残基序号；70插入码。TURN列出分子中有转角(发夹结构)的信息；SSBOND残出分子中有关二硫键的信息；SITE列出重要

39、功能部位 1-4 SITE；8-10序号；12-14功能部位表示符；16-17组成功能部位的残基数；19-61 组成功能部位的四个残基的位置信息。当然如果某功能部位由四个以上残基组成，则可以增加SITE记录以包含全部残基的位置信息，但增加的记录其功能部位表示符（12-14列）就与原来记录一致。CRYST该记录列出关于晶体结构的单晶胞参数及空间群标识；ORIGX该记录列出将下交坐变换为用户送交坐标的参数；SCALE由正交坐标变换为分数坐标的参数；MATRIX列出代表非晶体学对称性的变化参数；TVECT列出无限共价连接结构的变换向量；ATOM列出标准基团的各原子的坐标。这是PDB的核心。其格式如

40、下：1-4 ATOM；7-11 原子序列号； 13-16原子名； 18-20 残基名； 22 链表示符；23-26残基序列号；31-38 原子X座标； 39-46 原子的Y座标； 47-54 原子Z坐标；55-60占有率；61-66 温度因子。 SIGATM列出原子参数的标准差； ANISOU列出各向异性温度因子；SIGUIJ列出各向异性温度因子的标准差； TER列出链的末端残基。有时某个蛋白质结构因为某些原因会插入一些不是该蛋白质结构的氨基酸残基，其对应的原子就不是“ATOM”,而是“HETATM”，表明这些原子是外来原子，不是蛋白质本身的。三 PDB数据库中有关蛋白质结构的获取我们前面说过

41、，PDB网站为“”，那么如何通过这个网站获取你所要的蛋白质结构数据呢？有下列几条途径。第一种描述如下：1. 打开“”网站，可得如图4-11的界面，输入所需要的蛋白质代码如“1g0v”，然后点击“Site Search”按钮，得到如图4-12所示的界面；2. 点击图4-12左上面的“Download Files”，得到的界面的部分如图4-13所示。3. 点击图4-13中的“PDB File”就可以得到你所需要的PDB结构。这里在图4-13的右边有相应的蛋白质结构图。第二种主要是在Linux操作系统中可以比较方便的使用，具体命如下：$ wget q /pub/pdb/data/structure

42、s/all/pdb/pdb1g0v.ent.Z通过这个命令可以到得蛋白质文件：pdb1g0v.ent.Z，然后解压缩即：$ gunzip pdb1g0v.ent.Z就可以得到文本文件的蛋白质结构文件。第三种则是通过匿名用户登录“”网页，然后应用“get”命令下载你所要的文件。通过上述方式，我们可以得到所需要的蛋白质结构。一 SCOP数据库的分类基本原则及其格式SCOP是由剑桥大学于1995年构建。其宗旨是将现有的已知结构的蛋白质的功能区域按类，折叠方式，超级家族，家族进行逐层次地人工分类。具体如下：（1）家族( family): A. 所有蛋白质的相等残基数大于等于%30 B 低于%30但

43、功能与结构非常相似（2）超级家族(superfamily): 源于一个共同的祖先（3）共同折叠方式(common fold): 相同的主要二级结构有相同的排列和连结方式（4）类：同一类折叠方式构成一类SCOP数据库将现有的蛋白质分成11类，如表4-3所示：表4-3 SCOP数据库中蛋白质结构的分类符号意义符号意义a全螺旋g小蛋白类b全片断h无规卷曲类c/i低分辩蛋白类d+j肽类e多功能区域蛋白类k设计蛋白类f膜蛋白类及细胞表面肽类SCOP数据库与PDB数据库的文件格式完全一致，如果有不同，那就是它将PDB数据库中一个蛋白质结构的文件根据其功能区域分别放在不同文件中存放。相应的文件名也与PDB

44、数据库的文件名密切相关，下图以一个实际的例子来说明其意义：图4-14 SCOP文件名解析这里有一点必须说明，当蛋白质只有一条链（或链没有命名）时，则链名称以下划“_”来表示，如蛋白质“d1eut_1.b.1.18.2.pdb”。同样的，如果该链只有一个功能区域时，则对应的位置同样用下划线“_”来表示，如蛋白质“d1hhib_.b.1.1.2.pdb”。为使读者对上述各类别有一个感性的认识，我们这里举出6个蛋白质分别代表a，b,c，d，e，f类。见图4-15，图4-16与图4-17。三、如何获取整个SCOP数据库 SCOP数据库的网站为“scop.mrc-lmb.cam.ac.uk/scop/”

45、，读者如果忘记了该网站，也可以在“google”网站中输入“SCOP”，则出现第一个条目便是SCOP网站。其网页可见图4-22，然后点击其中的“top of the hierarch”则可得到图4-23所示的网站，这样用户只可以按照其中的内容逐步点击相关按钮就可以得到自己所需的蛋白质。这里我们要重点介绍的是如何获取整个SCOP数据库。用户可按如下方式操作：1.点击网站“http:/astral.berkel/pdbstyle-1.71.html”，可得图4-24的网站。2.按图4-24所指示的“点击”下载“part1”,“part2”及“part3”得到如下三个文件：“pdbstyle-1.

46、71-1.tar”，“pdbstyle-1.71-2.tar”，“pdbstyle-1.73-3.tar”。然后应用命令“tar xf file”将其展开，如：“tar xf pdbstyle-1.71-1.tar”得到各个功能区域蛋白的数据。3.由于我们要知道各个功能域是哪一类，哪一种折叠方式，哪一种超级家族及哪一种家族。因此需要下载另一个文件，它在网站:“http:/scop.mrc-lmb.cam.ac.uk/scop/parse/index.html”打开该网站，可以得到图4-25所示页面。4.下载图4-25所示页面的“dir.cla.scop.txt”的1.71版，然后根据我们应用“

47、PERL”语言编制的程序（见图4-26）建立比较实用的即文件名如图-14所示的scop数据库文件。5.执行文件“scop.pl”即“perl scop.pl pdbstyle-1.71 scop-1.71所在路径 dir.cla.scop.txt”按回车键即可PROSITE中涉及的保守序列模式或功能位点有：1.酶的催化位点；2.辅基基团连接位点，如血红素，吡哆醛磷酸盐，辅酶R等3.与金属离子结合的氨基酸残基4.能形成二硫键的半胱氨酸5.与其它分子相连的区域，如与ADP/ATP，GDP/GTP，钙，DNA，另一个蛋白质等因此，Prosite数据库实际上是蛋白质序列功能位点数据库。与PROSITE

48、数据库相类似的数据库还有：蛋白质序列指纹图谱数据库PRINTS、蛋白质序列模块数据库BLOCKS、蛋白质序列家族数据库、蛋白质序列谱数据库PROFILE、蛋白质序列识别数据库IDENTIFY等。它们的共同特点是基于多重序列比对从不同侧面来描述蛋白质有关性质。一般地，PROSITE数据库使用正则表达式来表示保守序列模式，具体说明如下图所示：图4-27 PROSITE数据库中保守序列模式表达方式根据上图的正则模式表达方式。如序列片段GFxxLxxxxRxxRxGxKPxT就可以是其中可能的保守序列模式之一。PROSITE数据库主要包括两个数据库文件：一个为数据文件为PROSITE本身即PROSIT

49、E.DAT，该文件给出了能进行匹配的序列及序列的详细信息。另一个为说明文件即 PROSITE.DOC，它给出了给出该序列模式的生物学功能及其文献资料来源。从数据库所包括的条目（entry）来看，它包括：保守序列模式条目（即MOTIF或PATTERN）和序列突变谱即PROFILE条目。由于建立序列突变谱需要适当的方法，为此我们首先介绍PROSITE中建立序列突变谱的方法。三、PROSITE数据库格式在PROSITE数据库的众多项中，其中有关描述序列突变谱读者可以参阅PROSITE网站上的“profile.txt”。在PROSITE数据库中，每行共有128列，其分配方式如下图所示：图4-29 PR

50、OSITE数据库各列的分配方式但一般情况下，除序列突变谱即“MA”行有128列外，其它行的列一般不会超过78列。在PROSITE数据库中，不同的两个字符的代码代表的含义不同，我们将它们的中英文含义列于如下图：图4-30 PROSITE数据中各行代码的含义接下来我们对它们加以详细描述。（一）IDID中的第一项为条目的名称，一般由2-21个大写字母组成，字母可以是A-Z，0-9及下划线，如：ID ENTRY_NAME；ENTRY_TYPE.第二项为PROSITE数据库条目的类型。目前，在PROSITE数据库中，它主要有三种：PATTERN,MATRIX及RULE。如：图4-31 三各类型的ID（二

51、）ACAC是PROSITE数据库的获取号，类似于人的身份证号，一个条目中只有一个获取号。当人们用到PROSITE数据库具体某个条目时，一般引用这个获取号。其格式为：AC PSnnnnn这里的“PS”代表PROSITE数据库。“nnnnn”是5个阿拉伯数字，如：AC PS00123（三）DT说明日期项。其格式为：DT MMM-YYYY （CREATED）; MMM-YYYY(DATA UPDATE); MMM-YYYY(INFO UPDATE)说明如下：“MMM”代表月；“YYYY”代表年。第一个时间即“MMM-YYYY（CREATED）”说明该条目第一次收载进来的时间；第二个时间即“MMM-Y

52、YYY（DATA UPDATE）说明原始基本数据最后一次修改的时间；第三个时间即“MMM-YYYY（INFO UPDATE）说明除原始基本数据外其它内容的修改时间；（四）DE这一项主要是提供相关的信息。如DE Myb DNA-binding domain repeat signature 1.DE Iron-containing alcohol dehydrogenases signature.DE Zinc finger, C2H2 type, domainDE Globin profile(五)PA就时我们前面所说的正则模式。我们在前面曾以一个具体例子作了比较简单的描述，这里我们对它进行比

53、较详细的描述。它包括如下要素：1.氨基酸残基用标准的IUPAC一个字母代码来表示，如丙氨酸用A，甘氨酸用G等。2.“x”代表任何一个氨基酸残基；3. 如果在某个位置上不是比较确定，相对比较模糊，则用方括号来表示，如ACD说明这个位置可以是氨基酸残基A，C或D组成。4. 有时这种模糊的位置也可以用大括号即“”来表示这个位置不可能含某类氨基酸，如“AD”说明在这个位置上不可能出现丙氨酸A和天门冬氨酸D。5.重复部分可以用一个字符及相应的数字来表示，如x(3)表示“x-x-x”，x(2,4)表示x-x或x-x-x或x-x-x-x。6.如果保守序列模式在蛋白质N端或C端时，则它们分别用“”来表示。如”

54、代表“F-GSTV-P-R-L-G”或“F-GSTV-P-R-L”。现我们举几个例子来说明它们：例1 PA AC-x-V-x(4)-ED其含意是“Ala或Cys-任何残基-Val-任何残基-任何残基-任何残基-任何残基但除Glu或Asp”外。例2 PA A-x-ST(2)-x(0,1)-V其含意是氨基端即N端为丙氨酸，这样可以翻译为“Ala-任何残基-Ser或Thr-Ser或Thr-任何残基或没有-Val。（六）MA主要是蛋白质序列突变谱。（七）PP 主要描述与后处理过程有关系的空容。 (八)NR 主要是以本条目中所代表保守序列模式与Swiss-Prot数据库（扫描）每个序列进行比较得到的结

55、果。其基本格式为：NR /QUALIFIER=data；/QUALIFIER=data；这里的修饰词“QUALIFIER”主要是指：/RELEASE Swiss-Prot数据库发布的版本号和该版本收集的蛋白质条目数；/TOTAL 找到Swiss-Prot数据库命中的条目数；/POSITIVE 属于当前考虑范围内命中的条目数；/UNKNOWN 属于当前考虑范围内可能命中的条目数；/FALSE_POS 假命中点数（即在数值计算中符合条件但实际上不是相关蛋白的个数）/PARTRIAL 属于被考虑范围内，但由于它们只是一个序列片段且与这个保守序列模式或序列突变谱不符合的这样的序列个数。比如：NR /

56、RELEASE=52.0,260175NR /TOTAL=1550(351); /POSITIVE=1517(332); /UNKNOWN=0(0); /FALSE_POS=33(19)NR /FALSE_NEG=0; /PART9IAL=0; 其含意为在Swiss-Prot数据库中，它为52.0版本，共有260175个条目，其中对351个不同序列，发现该模式有1550次，其中阳性有332条序列，出现1517次，假阳性的有19条序列，出现33次，假阴的为0（即没有被发现），片段序列的为0。（九）CC其格式为：CC /QUALIFIER=data; /QUALIFIER=data; 修饰辞项即q

57、ualifier有：/TAXO_RANGE 分类范围/MAX-REPEAT 在某个蛋白质内模式或序列突变谱最多重复出现的次数。/SITE 在该保守序列模式中能引起人们兴趣的位点。/SKIP-FLAG 由于比较含糊在实际应用时被忽视。/VERSION 该模式或序列突变谱的版本号下面我们逐一介绍之。1. /TAXO-RANGE=ABEPV“A”代表太古代（archaea）“B”代表噬菌体“E”代表真核生物“P”代表原核生物“V”代表真核生物细菌2. /MAX-REPEAT其意思是对所给保守序列模式或序列突变谱，其出现的最大次数，其格式为：/MAX-REPEAT=nn;3. /SITE 主要是对所给

58、的保守序列模式或序列突变谱中出现人们感兴趣的位点如酶催化活性位点。其格式为： /SITE=nn,text_description例如：/SITE=3,active_site;/SITE=5,disulfide; “nn”是让人感兴趣的位点在该保守序列模式中的位置。如保守序列模式：A-ILMV-x(2,4)-A-C-P含有二硫键，则有：/SITE=5,disulfide;再如保守序列模式：C-CPWHF-CPWR-C-H-CFWY有：/SITE=1,heme; /SITE=4,heme; /SITE=5,heme_iron这说明有两个半胱氨酸（位点1与4）与血红素相连，第5个位点即H与铁血红素

59、相连。 4 /SKIP-FLAG这主要针对有翻译后修饰的蛋白质序列，尽管有用，但有些程序出于某种考虑将它忽略掉。为此这些条目将在“CC”行中有这方面的标记。如/SKIP-FLAG=TRUE5 /VERSION当PA或MA项的数据出现修改时，其数值才增加。主要是说明该条目的变化。在19.0版中，其数值均高置为1，即/VERSION=1;6 /MATRIX_TYPE主要叙述由序列突变谱确定的蛋白质区域。具体分如下几个参数：Protein_domain 说明该序列突变谱指向蛋白质保守区间；Repeat_region 说明该序列突变谱指向重复单元的区间；Localization_signal 说明该序

60、列突变谱指向的区间对蛋白质在细胞的定位很重要Composition 说明该序列突变谱指向的区间的组成复杂性比较低 7 /SCALING_DB这个条目主要是用于校正序列突变谱时所用的数据库。8 /AUTHOR说明是谁创造这个序列突变谱或这个序列突变谱是由谁更新的。9 /FT_KEY和/FT_DESC根据实际需要，人们要对由序列突变谱确定的区间进行描述，这项的设置就是为了能让计算机能有效地读取。其主要参数有：NP_BIND,MOTIF,DOMAIN,REPEAT,DNA_BIND或ZN_FING(十)DR行DR主要是指向Swiss-Prot数据库相应的条目，其格如下：DR AC_NB，ENTRY_

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据搜索时有用的生物大分子数据库扫描

文档简介

温馨提示

最新文档

评论

数据搜索时有用的生物大分子数据库扫描

文档简介

温馨提示

最新文档

评论

相关文档