生物奥赛培训 生物信息学课件_第1页
生物奥赛培训 生物信息学课件_第2页
生物奥赛培训 生物信息学课件_第3页
生物奥赛培训 生物信息学课件_第4页
生物奥赛培训 生物信息学课件_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学和生物数据库生物信息学-数据库生物学已经积累了相当丰富多样和复杂的数据。这些数据可以被分类,但相当难于综合以及用公式进行描述。随着生物学知识大量增加,要完成对数据的处理只能使用计算机。目标:在分子生物学和基因组学中常见数据类型的概述介绍主要序列数据库,比较它们包含的数据内容和注释质量的区别数据库接受数据的形式(文本搜索,相似性搜索,浏览和交叉索引)序列与非序列数据库介绍以及它们的用途一级序列与结构数据库介绍生物信息学-数据库物种基因组图谱DNA序列RNA序列...AATGGTACCGATGACCTGGAGCTTGGTTCGA...分子生物学数据类型物种基因组图谱DNA序列RNA序列蛋白质序列...TRLRPLLALLALWPPPPARAFVNQHLCGSHLVEA...分子生物学数据类型物种基因组图谱DNA序列RNA序列蛋白质序列RNA结构E.colismallsubunitrRNAGutellR.R.(1994)Collectionofsmallsubunit(16S-and16S-like)ribosomalRNAstructuresNucleicAcidsRes

22:3502分子生物学数据类型物种基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构RNA结构PDBentry1CISP.Osmark,P.Sorensen,F.M.Poulsen分子生物学数据类型物种基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体蛋白质模体RNA表达RNA结构分子生物学数据类型物种基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体蛋白质模体蛋白质表达RNA表达RNA结构分子生物学数据类型物种基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体蛋白质模体底物代谢途径蛋白质表达RNA表达RNA结构KEGGdatabase,分子生物学数据类型物种基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体蛋白质模体抑制因子和药物底物代谢途径蛋白质表达RNA表达RNA结构分子生物学数据类型药物设计与抑制因子结合的HIV-1蛋白酶复合体PDBentry1DIFA.M.Silva,R.E.Cachau,H.L.Sham,J.W.Erickson物种组织和细胞基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体蛋白质模体抑制因子和药物底物代谢途径蛋白质表达RNA表达RNA结构分子生物学数据类型种群物种组织和细胞基因组图谱DNA序列RNA序列蛋白质结构DNA模体蛋白质模体抑制因子和药物底物代谢途径蛋白质表达RNA表达RNA结构蛋白质序列分子生物学数据类型种群物种组织和细胞基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体蛋白质模体抑制因子和药物底物代谢途径蛋白质表达RNA表达RNA结构突变/多形性疾病分子生物学数据类型种群物种组织和细胞基因组图谱DNA序列RNA序列蛋白质序列蛋白质结构DNA模体蛋白质模体抑制因子和药物底物代谢途径蛋白质表达RNA表达RNA结构突变/多形性疾病文献分子生物学数据类型序列数据库含注释的序列数据库SWISS-PROT,GenBank等用途:功能识别,获取信息无注释的序列数据库EST数据库,高通量基因组序列用途:发现新基因对特定对象的数据库RDP,G-蛋白偶联受体数据库等用途:视数据库而定,通常用于获取特定领域的信息通用核酸数据库主要数据库:GenBank(美国)EMBL(欧洲)DDBJ(日本)GenBank剖析I:数据结构记录分为3部分:记录起始特征表序列GenBank剖析II:记录起始LOCUSANACIAG3042bpDNAPLN28-NOV-1996DEFINITIONA.nidulansaciAgeneforAciAprotein.ACCESSIONZ11612S51247NIDg5544KEYWORDSaciAgene;AciAprotein.SOURCEEmericellanidulans.ORGANISMEmericellanidulansEukaryotae;mitochondrialeukaryotes;Fungi;Ascomycota;Euascomycetes;Plectomycetes;Eurotiales;Trichocomaceae;Emericella.REFERENCE1(bases1to3042)AUTHORSSaleeba,J.A.,Cobbett,C.S.andHynes,M.J.TITLECharacterizationoftheamdA-regulatedaciAgeneofAspergillusnidulansJOURNALMol.Gen.Genet.235(2-3),349-358(1992)MEDLINEREFERENCE2(bases1to3042)AUTHORSSaleeba,J.A.TITLEDirectSubmissionJOURNALSubmitted(24-JAN-1992)JenniferA.Saleeba,DepartmentofGenetics,Universityof,Melbourne,GrattanStreet,Parkville,Victoria,3052,AustraliaGenBank记录起始III:特征FEATURESLocation/Qualifierssource1..3042/organism="Emericellanidulans"/strain="Glasgow"/chromosome="Segmentofchromosome1"mRNAjoin(969..1263,1318..1493,1553..2624)/gene="aciA"exon969..1263/gene="aciA"/number=1mRNAjoin(1205..1263,1318..1493,1553..2624)/gene="aciA"exon1205..1263/gene="aciA"/number=1CDSjoin(1249..1263,1318..1493,1553..2495)/gene="aciA"/codon_start=1/product="AciA"/db_xref="PID:g5545"/db_xref="SWISS-PROT:Q03134"通用蛋白质数据库SWISS-PROT人工维护详细注释GenPept/TREMBL翻译编码序列来源于GenBank/EMBL简略注释,包含大量数据PIR不同注释类型使用序列数据库搜索记录起始以关键词搜索注释(物种名,基因名等)搜索序列使用BLAST搜索序列相似性搜索含有特定特征的序列浏览使用其它数据库的后续链接后续链接:SWISS-PROTentry交叉索引DREMBL;M16591;AAA52643.1;-.DREMBL;M16592;AAA52644.1;-.DRPIR;A27812;TVHUHC.DRPDB;2HCK;20-AUG-97.DRPDB;3HCK;15-OCT-97.DRPDB;1BU1;11-NOV-98.DRMIM;142370;-.DRPROSITE;PS00107;PROTEIN_KINASE_ATP;1.DRPROSITE;PS00109;PROTEIN_KINASE_TYR;1.DRPROSITE;PS50011;PROTEIN_KINASE_DOM;1.DRPROSITE;PS50001;SH2;1.DRPROSITE;PS50002;SH3;1.DRPFAM;PF00017;SH2;1.DRPFAM;PF00018;SH3;1.DRPFAM;PF00069;pkinase;1.无冗余数据库仅含序列数据:无法浏览,只能使用序列检索序列来源于多个数据库如:NRNucleic(genbank+EMBL+DDBJ+PDBDNA)NRProtein(SWISS-PROT+TrEMBL+GenPept+PDBprotein)国际基因组数据库(中国)简略注释数据库ESTs(ExpressedSequenceTags)cDNAs3’或5’端大量测序所产生高通量基因组序列来源于基因组DNA大规模测序LOCUST12742157bpmRNAEST28-OCT-1993DEFINITIONzEST00149-5ZeamayscDNAclonecsuh00149/umc3825'endsimilartosimilartoshortchainalcoholdehydrogenase.ACCESSIONT12742NIDg409680KEYWORDSEST.SOURCEMaizeclone=csuh00149/umc382library=MaizeLeaf,Stratagene#937005strain=B73vector=Uni-ZAPprimer=SKRsite1=EcoR1Rsite2=Xho1mRNAisolatedfromilluminatedleavesandsheathsof5weekoldplant.cDNAdirectionallyclonedintovector..ORGANISMZeamaysEucaryotae;Embryophyta;Magnoliophyta;Liliopsida;Cyperales;Poaceae;Zea.REFERENCE1(bases1to157)AUTHORSBaysdorfer,C.TITLETheMaizecDNAProgramJOURNALUnpublished(1993)COMMENTContact:BaysdorferCCaliforniaStateUniversityDeptBiolSci,CaliforniaStateUniv,Hayward,CA94542Tel:5108813459Fax:5107272035Email:.FEATURESLocation/Qualifierssource1..157/organism="Zeamays"/clone="csuh00149/umc382"/strain="B73"BASECOUNT33a42c51g26t5othersORIGIN1CCTCAAGGGCGTCGACNNNATGCCCGAGGACGTCGCCCAGGNNGTGCTCT51ACCTGGCCAGCGACGAGGCGAGGTACGTCAGCGCGGTCAACCTCATGGTG101GACGGAGGCTTCACAGCCGTAAACAATAACCTCAGGGCGTTTGAGGATTA151GTTGAGGdbESTentry归类核酸序列数据库综合不同来源的序列数据(ESTs,RNAs,基因组DNA),提供基因序列和表达的完整信息TIGR基因索引(人、鼠、果蝇等)序列数据按基因排列UniGene(人、鼠)序列数据按基因分类GenBank数据库—数据库格式GenBank纯文本文件格式(GenBankflatfile,GBFF):GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库,它们是怎样交换数据的呢?GBFF文件格式GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一。头部中部尾部GENBANK纯文本文件格式>LOCUSSCU498455028bpDNAPLN21-JUN-1999DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.ACCESSIONU49845VERSIONU49845.1GI:1293613KEYWORDS.SOURCEbaker'syeast.ORGANISMSaccharomycescerevisiaeEukaryota;Fungi;Ascomycota;Hemiascomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)MEDLINE95176709REFERENCE2(bases1to5028)AUTHORSRoemer,T.,Madden,K.,Chang,J.andSnyder,M.TITLESelectionofaxialgrowthsitesinyeastrequiresAxl2p,anovelplasmamembraneglycoproteinJOURNALGenesDev.10(7),777-793(1996)MEDLINE96194260REFERENCE3(bases1to5028)AUTHORSRoemer,T.TITLEDirectSubmissionJOURNALSubmitted(22-FEB-1996)TerryRoemer,Biology,YaleUniversity,NewHaven,CT,USAFEATURESLocation/Qualifierssource1..5028/organism="Saccharomycescerevisiae"/db_xref="taxon:4932"/chromosome="IX"/map="9"CDS<1..206/codon_start=3/product="TCP1-beta"/protein_id="AAA98665.1"/db_xref="GI:1293614"/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAAEVLLRVDNIIRARPRTANRQHM"gene687..3158/gene="AXL2"CDS687..3158/gene="AXL2"/note="plasmamembraneglycoprotein"/codon_start=1/function="requiredforaxialbuddingpatternofS.cerevisiae"/product="Axl2p"/protein_id="AAA98666.1"/db_xref="GI:1293615"/translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF……(有部分序列未列出)

VDFSNKSNVNVGQVKDIHGRIPEML"BASECOUNT1510a1074c835g1609tORIGIN1gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg61ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct……(有部分序列未列出)

4921ttttcagtgttagattgctctaattctttgagctgttctctcagctcctcatatttttct4981tgccatgactcagattctaattttaagctattcaatttctctttgatc//其他序列文件格式文本格式简单文本格式Line,PlainTextStadenFASTABionet(allowscomments)加入注释的文本格式GenBankGCG二进制格式(通常都带有注释)MacVector序列文件格式例子(Fasta)>gi|995614|dbj|D49653|RATOBESERatmRNAforobese.CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC以上这个FASTA文件中包含了gi号码、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。一种最简单的fasta序列形式可以表示为:>D49653CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG….序列文件格式例子(GenBank)LOCUSRATOBESE539bpss-mRNAROD23-SEP-1995DEFINITIONRatmRNAforobese.ACCESSIOND49653KEYWORDS.SOURCERattusnorvegicus(strainOLETF,LETOandZucker,)differentiatedadiposecDNAtomRNA.ORGANISMRattusnorvegicusEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;Myomorpha;Muridae;Murinae;Rattus.REFERENCE1(bases1to539)AUTHORSMurakami,T.andShima,K.TITLECloningofratobesecDNAanditsexpressioninobeseratsJOURNALBiochem.Biophys.Res.Commun.209,944-952(1995)STANDARDfullautomaticCOMMENTSubmitted(10-Mar-1995)toDDBJby:TakashiMurakamiDepartmentofLaboratoryMedicineSchoolofMedicineUniversityofTokushimaKuramotocho3-chomeTokushima770JapanPhone:+81-886-33-7184Fax:+81-886-31-9495.序列文件格式例子(GenBank)NCBIgi:995614FEATURESLocation/Qualifierssource1..539/organism="Rattusnorvegicus"/strain="OLETF,LETOandZucker"/dev_stage="differentiated"/sequenced_mol="cDNAtomRNA"/tissue_type="adipose"CDS30..533/partial/note="NCBIgi:995615"/codon_start=1/product="obese"/translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC"BASECOUNT121a167c133g118tORIGIN1ccaagaagaagaagaccccagcgaggaaaatgtgctggagacccctgtgccggttcctgt61ggctttggtcctatctgtcctatgttcaagctgtgcctatccacaaagtccaggatgaca121ccaaaaccctcatcaagaccattgtcaccaggatcaatgacatttcacacacgcagtcgg181tatccgccaggcagagggtcaccggtttggacttcattcccgggcttcaccccattctga241gtttgtccaagatggaccagaccctggcagtctatcaacagatcctcaccagcttgcctt301cccaaaacgtgctgcagatagctcatgacctggagaacctgcgagacctcctccatctgc361tggccttctccaagagctgctccctgccgcagacccgtggcctgcagaagccagagagcc421tggatggcgtcctggaagcctcgctctactccacagaggtggtggctctgagcaggctgc481agggctctctgcaggacattcttcaacagttggaccttagccctgaatgctgaggtttc//序列文件格式例子(GCG)LOCUSRATOBESE.G539BPSS-RNAENTERED09/23/95DEFINITIONRatmRNAforobese.ACCESSION-KEYWORDS-SOURCERattusnorvegicus;NorwayratORGANISMEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;Myomorpha;Muridae;Murinae;RattusREFERENCE[1]AUTHORSMurakami,T.&Shima,K.TITLECloningofratobesecDNAanditsexpressioninobeserats.JOURNALBiochem.Biophys.Res.Commun.,209,3,944-952,(1995)COMMENTDatabaseReference:DDBJRATOBESEAccession:D49653

Submitted(10-Mar-1995)toDDBJby:TakashiMurakamiDepartmentofLaboratoryMedicineSchoolofMedicineUniversityofTokushimaKuramotocho3-chomeTokushima770JapanPhone:+81-886-33-7184Fax:+81-886-31-9495序列文件格式例子(GCG)FEATURESFromTo/SpanDescriptionpept30533obese????1539source;/organism=Rattusnorvegicus;/strain=OLETF,LETOandZucker;/dev_stage=differentiated;/sequenced_mol=cDNAtomRNA;/tissue_type=adiposeBASECOUNT121A167C133G118T0OTHERORIGIN?RATOBESE.GLength:539Jan30,1996-05:32PMCheck:5797..1CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGT61GGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACA121CCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGG181TATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGA241GTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTT301CCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGC361TGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCC421TGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGC481AGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC//序列文件格式例子(ASN.1)

ASN.1是NCBI用来存储和维护所有数据的格式

Seq-entry::=set{level1,classnuc-prot,descr{pub{pub{sub{authors{namesstd{{namename{last"Murakami",initials"T."}}},affilstr"TakashiMurakami,SchoolofMedicine,UniversityofTokushima,DepartmentofLaboratoryMedicine;Kuramotocho3-chome,Tokushima,Tokushima770,Japan(E-mail:-u.ac.jp,Tel:+81-886-33-7184,Fax:+81-886-31-9495)"},mediumemail,datestd{year1995,month3,day10}}}},pub{pub{muid95251725,article{title{name"CloningofratobesecDNAanditsexpressioninobeserats."},authors{namesstd{{namename{last"Murakami",initials"T."}},{namename{last"Shima",initials"K."}}},affilstr"DepartmentofLaboratoryMedicine,SchoolofMedicine,UniversityofTokushima,Japan."},fromjournal{title{iso-jta"Biochem.Biophys.Res.Commun.",ml-jta"BiochemBiophysResCommun",issn"0006-291X",name"Biochemicalandbiophysicalresearchcommunications."},imp{datestd{year1995,month4,day26},volume"209",issue"3",pages"944-952",language"eng"}},ids{pubmed7733988,medline95251725}},pmid7733988}},update-datestd{year2000,month2,day1},source{org{taxname"Rattusnorvegicus",common"Norwayrat",db{{db"taxon",tagid10116}},orgname{namebinomial{genus"Rattus",species"norvegicus"},mod{{subtypestrain,subname"OLETF,LETOandZucker"}},lineage"Eukaryota;Metazoa;Chordata;Craniata;Vertebrata;Euteleostomi;Mammalia;Eutheria;Rodentia;Sciurognathi;Muridae;Murinae;Rattus",gcode1,mgcode2,div"ROD"}},subtype{{subtypetissue-type,name"adipose"},{subtypedev-stage,name"differentiated"}}}},seq-set{seq{id{ddbj{name"RATOBESE",accession"D49653",version1},gi995614},descr{title"RatmRNAforobese(leptin),completecds.",genbank{source"Rattusnorvegicus(strain:OLETF,LETOandZucker)differentiatedadiposecDNAtomRNA.",keywords{"obese(ob)","leptin","obesity","obproduct","secretoryprotein"}},molinfo{biomolmRNA},create-datestd{year1995,month9,day22}},inst{reprraw,molrna,length539,seq-datancbi2na'5A00EE7A2157B96BD7BA7FAD737B5CEF427B9735102D4A384500574D0853ED14A34384FD11192DACD652922AD16BFA1F4F56A7D154F78BFB508E85215E92DCD048D74527E5F5401B9E48C9D385E88179885D75379E97DD42279D5E59215BA5E48252225E8E9B5E825D9DC75122BAE9DE24A792A7779284F7D04BE85F257839E2BF4'H},annot{{dataftable{{datagene{locus"obese(ob)"},locationint{from0,to538,idgi995614}}}}}},seq{id{ddbj{accession"BAA08529",version1},gi995615},descr{title"leptin(obproduct)[Rattusnorvegicus]",molinfo{biomolpeptide},create-datestd{year1995,month9,day22}},inst{reprraw,molaa,length167,seq-datancbieaa"MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC"},annot{{dataftable{{dataprot{name{"leptin(obproduct)"}},locationwholegi995615},{dataprot{processedsignal-peptide},comment"secretoryprotein",locationint{from0,to20,idgi995615}},{dataprot{name{"secretedprotein,leptin"},processedmature},locationint{from21,to166,idgi995615}}}}}}},annot{{dataftable{{datacdregion{frameone,code{id1}},productwholegi995615,locationint{from29,to532,idgi995614}}}}}}*47生物分子数据库

一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释

二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。*48国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL

(2)美国生物技术信息中心的GenBank

(3)日本遗传研究所的DDBJ

1、核酸序列数据库1988,由此三家组成了国际核酸序列数据库协作组织(INSDC),规定:数据交换与共享(每24小时进行一次),使用统一的数据记录格式处理提交数据,以保证各数据库相应记录在内容上的一致性,数据的维护与更新。三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。GenBank:EMBL

DDBJ

22November2010

Totalnucleotides:301,588,430,60822November2010Numberofentries:199,575,971*56*57“ID”为序列的标识符行,包括登录号、类型,分子的长度

“AC”为登录号行;“XX”为分隔符号行;

“DT”为创建和更新日期行“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”描述参考文献的出处;“RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;“FH”为特征开始符号;“FT”为特征表行(1)FeatureKey,它是描述域生物功能的关键字;(2)Location,指明特征在序列中的特定位置;(3)Qualifiers,描述关于一个特征的辅助信息;文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“//”。EMBL核酸数据库中的每一个序列数据被赋予一个登录号,它是一个永久性的唯一标识

EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(annotation)*58基因组数据库(GDB)人类基因组数据库Ensembl表达序列标记数据库dbEST面向基因聚类数据库UniGene*592、基因组数据库(GDB)

人类基因组计划所得到的图谱数据

目前GDB包含对下述三种对象的描述:(1)人类基因组区域

包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;

(2)人类基因组图谱,

包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化,

包括基因突变和基因多态性,加上等位基因频率数据。*60与染色体相关的信息*61其它模式生物基因组数据库如:鼠基因组数据库MGD()酵母基因组数据库SGD()*62Ensembl()3、人类基因组数据库EnsemblEnsembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。例如:基因通过实验发现的或者是通过GenScan程序预测的其他的特征: 单核苷酸多态性(SNP)、重复序列等*63Ensembl数据库结构图*64Ensembl提供多种查询方式

通过关键字查询用BLAST进行相似序列的搜索

另一种更直观的方式是显示各染色体 用户可以在染色体水平上选择感兴趣的位点, 逐层放大 浏览整个基因组*65*66人的第9号染色体及大鼠对应的染色体片段*674、表达序列标记数据库dbESTEST(ExpressedSequenceTags)方法已被证明是识别转录序列的最有效方法,EST序列大约覆盖了人类基因的90%。

DbEST()是GenBank的一个部分,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNA片段。

WEB页面或emailFTP有关EST的数据dbEST数据库*685、面向基因聚类数据库UniGeneUniGene()数据库将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。每个UniGene群包含:代表一个唯一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱除了基因的序列之外,还包括大量的EST序列。目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的EST数据。*692、SWISS-PROT

SWISS-PROT()是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据

*70

(1)注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括:

(A)蛋白质的功能描述;

(B)翻译后修饰;

(C)域和功能位点;

(D)蛋白质的二级结构;

(E)蛋白质的四级结构;

(F)与其它蛋白质的相似性;

(G)由于缺乏该蛋白质而引起的疾病;

(H)序列的矛盾、变化等。SWISS-PROT有三个明显的特点:(2)最小冗余(3)与其它数据库的连接*71*72*73TrEMBL()包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROTTrEMBL)(2)REM-TrEMBL(REMainingTrEMBL)3、TrEMBL*74生物大分子结构数据库1、PDB(ProteinDataBank)蛋白质核酸糖类其它复合物

一种是显式序列信息(explicitsequence)一种是隐式序列信息(implicitsequence)*75CurrentHoldingDataSubmitDataKeywordSearchIntroductiontoselectedmolecularData*76DownloadDataPDBRelatedSoftware*77HEADERHYDROLASE19-FEB-971ADZTITLETHESOLUTIONSTRUCTUREOFTHESECONDKUNITZDOMAINOFTITLE2TISSUEFACTORPATHWAYINHIBITOR,NMR,30STRUCTURESCOMPNDMOL_ID:1;COMPND2MOLECULE:TISSUEFACTORPATHWAYINHIBITOR;。。。。。。COMPND8BIOLOGICAL_UNIT:MONOMERSOURCEMOL_ID:1;。。。。。。SOURCE7EXPRESSION_SYSTEM_PLASMID:PFLAGKEYWDSHYDROLASE,INHIBITOR,COAGULATIONEXPDTANMR,30STRUCTURESAUTHORM.J.M.BURGERING,L.P.M.ORBONSREVDAT125-FEB-981ADZ0JRNLAUTHM.J.BURGERING,L.P.ORBONS,A.VANDERDOELEN,。。。。。。REMARK1REFERENCE1REMARK1AUTHM.T.STUBBSIIREMARK1TITLSTRUCTURALASPECTSOFFACTORXAINHIBITION。。。。。。REMARK999SEQUENCEREMARK9991ADZSWSP106461-111NOTINATOMSLISTREMARK9991ADZSWSP10646183-304NOTINATOMSLISTREMARK999THEFIRSTNINERESIDUESARENOTPARTOFTHETFPIDOMAINIIREMARK999SEQUENCEBUTAREFROMTHEPFLAGPEPTIDECLONINGVECTOR.DBREF1ADZ171SWSP10646TFPI_HUMAN112182SEQADV1ADZASP1SWSP10646ILE112ENGINEEREDSEQADV1ADZTYR2SWSP10646ILE113ENGINEEREDSEQRES171ASPTYRLYSASPASPASPASPLYSLEULYSPROASPPHESEQRES271CYSPHELEUGLUGLUASPPROGLYILECYSARGGLYTYRSEQRES371ILETHRARGTYRPHETYRASNASNGLNTHRLYSGLNCYSSEQRES471GLUARGPHELYSTYRGLYGLYCYSLEUGLYASNMETASNSEQRES571ASNPHEGLUTHRLEUGLUGLUCYSLYSASNILECYSGLUSEQRES671ASPGLYPROASNGLYPHEHELIX11ASP12PHE1554HELIX22ASN34THR3653HELIX33LEU57ILE6317SHEET1A2ARG29ASN330SHEET2A2GLN38PHE42-1NPHE42OARG29CRYST11.0001.0001.00090.0090.0090.00P11ORIGX11.0000000.0000000.0000000.00000ORIGX20.0000001.0000000.0000000.00000ORIGX30.0000000.0000001.0000000.00000SCALE11.0000000.0000000.0000000.00000SCALE20.0000001.0000000.0000000.00000SCALE30.0000000.0000001.0000000.00000

图4.5PDB文件PDB文件示意*78显示分子结构(RasMol,ChemView)*792、MMDB(MolecularModelingDatabase)分子模型MMDB是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论