版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
GeneBank的使用学习课件第1页/共127页生物信息学数据库欧洲分子生物学实验室的EMBLhttp://www.embl-heidelberg.de美国生物技术信息中心的GenBank/Genbank/日本国立遗传研究所的DDBJhttp://www.ddbj.nig.ac.jp/searches-e.html核酸序列数据库第2页/共127页GenBank数据库结构作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。DDBJ数据库的内容和格式与GenBank相同,此处不作详细介绍。分别介绍EMBL和GenBank的数据库结构第3页/共127页GenBank数据库数据注释
(/genbank/)GenBank库包含所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。NCBI可提供广泛的数据查询、序列相似性搜索以及其它分析服务。数据库序列文件:注释内容——文章索引文件:检索目录——文摘第4页/共127页GenBank数据库结构完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库数据格式为FastA。第5页/共127页GenBank数据库结构GenBank中最常用的是序列文件。序列文件的基本单位:是序列条目,包括核苷酸碱基排列顺序和注释两部分。生物信息资源中心通过计算机网络提供该数据库文件。注释条目:文章的格式(/genbank/第6页/共127页Genbank第7页/共127页Genbank查找页面第8页/共127页D31716描述部分第9页/共127页CDsarerecurringunitsinpolypeptidechains(sequenceandstructuremotifs),theextentsofwhichcanbedeterminedbycomparativeanalysis.Molecularevolutionusessuchdomainsasbuildingblocksandthesemayberecombinedindifferentarrangementstomakedifferentproteinswithdifferentfunctions.CDs编码序列,含终止密码子polyA_signal多聚A信号
第10页/共127页D31716特性表序列本身关键字CDsarerecurringunitsinpolypeptidechains第11页/共127页D31716序列本身第12页/共127页第13页/共127页序列结束4859bp第14页/共127页D31716第15页/共127页GenBank数据记录第16页/共127页GenBank数据记录第17页/共127页GenBank数据库结构GenBank序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。字段分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记第18页/共127页GenBank数据库结构序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可占一行,也可以占若干行。若一行中写不下时,继续行以空格开始第19页/共127页GenBank数据库物种:GenBank库里的数据按来源于大约100,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)记录:每条GenBank数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,及序列本身第20页/共127页GenBank数据库序列特征表:包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等分类:所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被分成若干文件第21页/共127页注释内容序列条目关键字:LOCUS(代码),DEFINITION(说明),ACCESSION(编号),NID符(核酸标识),KEYWORDS(关键词),SOURCE(数据来源),REFERENCE(文献),FEATURES(特性表),BASECOUNT(碱基组成)ORIGIN(碱基排列顺序)。新版的核酸序列数据库将引入新的关键词SV(序列版本号),用“编号.版本号”表示,并取代关键词NID第22页/共127页LOCUSLOCUS(代码):是该序列条目的标记,或者说标识符,蕴涵这个序列的功能:如HUMCYCLOX表示人的环氧化酶。序列长度类型种属来源录入日期等说明字段是有关这一序列的简单描述第23页/共127页ACCESSIONACCESSION(编号):具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。第24页/共127页KEYWORDSKEYWORDS(关键词)字段:由该序列的提交者提供,包括该序列的基因产物其它相关信息第25页/共127页SOURCESOURCE(数据来源)字段:说明该序列是从什么生物体、什么组织得到的次关键字ORGANISM(种属):指出该生物体的分类学地位第26页/共127页REFERENCEREFERENCE(文献)字段:说明该序列中的相关文献,包括AUTHORS(作者),TITLE(题目)及JOURNAL(杂志名)等,以次关键词列出。MEDLINE的代码:该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。一个序列可有多篇文献,以不同序号表示,并给出该序列中哪一部分与文献有关。第27页/共127页FEATURESFEATURES(特性表):具有特定的格式,用来详细描述序列特性。特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库,如分类数据库(taxon9606),以及蛋白质序列数据库(PID:g181254)。序列中各部分的位置都在表中标明,5’非编码区,编码区,3’非编码区,多聚腺苷酸重复区域等。翻译所得信号肽以及最终蛋白质产物碱基含量字段,给出序列中的碱组成第28页/共127页ORIGINORIGIN行是序列的引导行下面便是碱基序列以双斜杠行“//”结束。第29页/共127页GenBank数据库—数据库格式FASTA格式
>gi|1293613|gb|U49845.1|SCU49845SaccharomycescerevisiaeTCP1-betagene,partialcds;andAxl2p(AXL2)andRev7p(REV7)genes,completecdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT……(该序列没有完全列出)第30页/共127页GenBank数据库—数据库格式(1)FASTA格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。大于号(>)表示一个新文件的开始结束用(//)FASTA格式并没有什么特殊的要求。第31页/共127页FASTA格式序列的提交第32页/共127页GenBank数据库—数据库格式(1)FASTA格式特点:只存储了最少量的信息它将所存储的信息转化为简单的字符串人和计算机对其存储的信息都具有极大的可读性FASTA格式在许多分子生物学软件包中得到广泛应用。第33页/共127页GenBank数据库—数据库格式(2)GenBank纯文本文件格式(GenBankflatfile,GBFF):GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库,它们是怎样交换数据的呢?第34页/共127页GBFF文件格式GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一。第35页/共127页头部中部尾部GENBANK纯文本文件格式>LOCUSSCU498455028bpDNAPLN21-JUN-1999DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.ACCESSIONU49845VERSIONU49845.1GI:1293613KEYWORDS.SOURCEbaker'syeast.ORGANISMSaccharomycescerevisiaeEukaryota;Fungi;Ascomycota;Hemiascomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)MEDLINE95176709REFERENCE2(bases1to5028)AUTHORSRoemer,T.,Madden,K.,Chang,J.andSnyder,M.TITLESelectionofaxialgrowthsitesinyeastrequiresAxl2p,anovelplasmamembraneglycoproteinJOURNALGenesDev.10(7),777-793(1996)MEDLINE96194260REFERENCE3(bases1to5028)AUTHORSRoemer,T.TITLEDirectSubmissionJOURNALSubmitted(22-FEB-1996)TerryRoemer,Biology,YaleUniversity,NewHaven,CT,USAFEATURESLocation/Qualifierssource1..5028/organism="Saccharomycescerevisiae"/db_xref="taxon:4932"/chromosome="IX"/map="9"CDS<1..206/codon_start=3/product="TCP1-beta"/protein_id="AAA98665.1"/db_xref="GI:1293614"/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAAEVLLRVDNIIRARPRTANRQHM"gene687..3158/gene="AXL2"CDS687..3158/gene="AXL2"/note="plasmamembraneglycoprotein"/codon_start=1/function="requiredforaxialbuddingpatternofS.cerevisiae"/product="Axl2p"/protein_id="AAA98666.1"/db_xref="GI:1293615"/translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF……(有部分序列未列出)
VDFSNKSNVNVGQVKDIHGRIPEML"BASECOUNT1510a1074c835g1609tORIGIN1gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg61ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct……(有部分序列未列出)
4921ttttcagtgttagattgctctaattctttgagctgttctctcagctcctcatatttttct4981tgccatgactcagattctaattttaagctattcaatttctctttgatc//第36页/共127页GBFF格式按域(Field)可以划分为三个部分头部包含整个记录的信息(描述符);第二部分包含了注释这一记录的特性;第三部分是核苷酸序列本身。所有序列数据库记录都在最后一行以“//”结尾。第37页/共127页GBFF格式头部-Locus行所有的GBFF都起始于LOCUS行:+++++1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第38页/共127页GBFF格式头部-Locus行1、LOCUS行:第一项是LOCUS名称:最初这一名称是用来表示本记录描述的基因座,以方便检索相似序列:前三个字母代表特定物种的名称第四、第五个字母代表如基因产物等特定的类别名称。如HUMHBB(人-珠蛋白基因区域)。第39页/共127页GBFF格式头部-Locus行LOCUS这种“十字符”命名方式已经无法满足基因在基因座中所包含的信息。LOCUS名称目前唯一的作用是它在数据库中是独一无二的,已不在具有任何实际意义。仅使用检索号码(acessionnumber)以满足对LOCUS名称的要求1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第40页/共127页GBFF格式头部-Locus行第二项是序列长度。GenBank对提交的序列长度没有上限要求。根据国际序列数据库合作计划的协议,为方便不同的软件处理序列,规定单条数据库记录的长度不能超过350kb。GenBank已经很少接受长度低于50bp的序列。1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第41页/共127页GBFF格式头部-Locus行第三项表明序列的分子类型:其序列必须是一种单一的分子类型。包括:基因组DNA、RNA、RNA前体、mRNA(cDNA)、tRNA等。1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第42页/共127页GBFF格式头部-Locus行第四项是GenBank分类码:由三个字母组成,分类码将GenBank数据库分为17个分支1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第43页/共127页GenBank分类码(GenBankDivision)类中文名称符号类符号primatesequences灵长类动物序列PRIrodentsequences啮齿类动物序列RODothermammaliansequences其它哺乳动物序列MAMothervertebratesequencs其它脊椎动物序列VRTinvertebratesequences无脊椎动物序INVPlants,fungal,andalgalsequences植物、真菌和藻类序列PLNbacterialsequences细菌序列BCTviralsequences病毒序列VRLbacteriophagesequences噬菌体序列PHGsyntheticsequences人工合成序列SYNunanntotatedsequences未注释序列UNAESTsequences表达序列标签ESTpatentsequences专利序列PATSTSsequences序列标记位点STSgenomesurveysequences基因组测定序列GSSHTGSsequences高通量基因组序列HTGunfinishedhigh-throughputcDNAsequencing未完成测序的高通量cDNA序列HTC第44页/共127页GBFF格式头部-Locus行第五项是最后修订日期。某些时候,它也是数据第一次被公开的日期。这项简单的信息并无法对此做出判断。1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第45页/共127页GBFF格式头部-DEFINITION行2、DEFINITION行:主要对GenBank记录中所含的生物学意义做出总结。它的说明内容包括来源物种、基因/蛋白质名称;+++++1102030405060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.第46页/共127页GBFF格式头部-DEFINITION行如果序列是非编码区,则包含对序列功能的简单描述;如果序列是一段编码区,则标明该序列是部分序列(partialcds)还是全序列(completecds)。+++++1102030405060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.第47页/共127页GBFF格式头部-ACCESSION行3、检索号(ACCESSION):是序列记录的唯一指针。检索号通常由一个字母加5个数字(U12345)或者由两个字母加6个数字(AF123456)组成。+++++1102030405060ACCESSIONU49845DearGenBankSubmitter:ThankyouforyourdirectsubmissionofsequencedatatoGenBank.WehaveprovidedaGenBankaccessionnumberforyournucleotidesequence:bankit660463AY795899WestronglyrecommendthatthisGenBankaccessionnumberappearsinanypublicationthatreportsordiscussesthesedata,asitgivesthecommunityauniquelabelwithwhichtheymayretrieveyourdatafromouron-lineservers.第48页/共127页GBFF格式头部-ACCESSION行检索号在数据库中是唯一而且不变的,即使数据的提交者改变数据的内容。在ACCESSION行中可能出现多个检索号,可能是因为数据提交者提交了一条与原记录相关的新记录,或者新提交的记录覆盖了原有的旧记录。第一个检索号为主检索号,而其余的统称为二级检索号。第49页/共127页GBFF格式头部-VERSION行4、版本号行:它的格式是:检索号.版本号。版本号于99年2月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。在数据库中,如果某条序列数据发生了变化,即使是单碱基的改变,它的版本号都将增加,而它的检索号保持不变如由U12345.1变为U12345.2。+++++++11020304050607079VERSIONU49845.1GI:1293613第50页/共127页GBFF格式头部-VERSION行版本号系统与跟在其后的GI(GenInfoIdentifier)号系统是平行运行当一条序列改变后,它将被赋予一个新的GI号,同时它的版本号将增加。当依据核酸序列的内部序列进行蛋白质翻译时,蛋白质的翻译发生任何变换,核酸序列都将被赋予一个新的GI号。+++++++11020304050607079VERSIONU49845.1GI:1293613第51页/共127页GBFF格式头部-KEYWORDS行5、关键词行:是用来描述序列的。如果该行中没有任何内容,那么就只包含一个“.”。由于没有对照词汇表,所以NCBIGenBank拒绝接受关键词,它只存在于旧的记录中。+++++++11020304050607079KEYWORDS.第52页/共127页GBFF格式头部-SOURCE行6、序列来源行:没有做特殊的规定,它通常包含序列来源生物的简称,有些时候也包含分子类型。Organism:以NCBI的分类数据库为依据,指明物种的正式科学名称。+++++++11020304050607079SOURCEbaker'syeast.ORGANISMSaccharomycescerevisiaeEukaryota(真核);Fungi(真菌);Ascomycota(子囊菌门);Hemiascomycetes(半子囊菌纲);Saccharomycetales;Saccharomycetaceae;Saccharomyces.第53页/共127页GBFF格式头部-REFERENCE行7、参考文献行:将与该数据有关的参考文献均收录在内,将最先发表的文献列于第一位。如果序列数据没有被文献报道,该行将显示“inpress”或“unpublished”如所引用文献存在于MEDLINE数据库中,将出现一个MEDLINE单一指针(uniqueidentifier,UID)以便检索。+++++++11020304050607079REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)MEDLINE95176709第54页/共127页GBFF格式头部-REFERENCE行如果序列是直接提交而未经发表的,就将在标题(TITLE)中注明“直接提交(DirectSubmission)”在期刊(JOURNAL)中注明提交日期,提交者姓名以及提交者的工作单位。+++++++11020304050607079REFERENCE
1
(bases1to1939)
AUTHORS
Yi,CAO.,Dairong,QIAO.,Qinghua,HE.andShunji,HE.
TITLE
CloningandexpressionstudiesofacDNAencodingUDP-glucosedehydrogenasefromDunaliellasalina
JOURNAL
Unpublished第55页/共127页GBFF格式中部特性表(FEATURES):它描述基因和基因的产物,以及与序列相关的生物学特性。特性表提供一个参考词汇表以对合法的特性进行注释这些特性包括该序列是否执行一个生物学功能;它是否与一个生物学功能的表达相关;它是否与其它分子相互作用;它是否影响一条序列的复制;它是否与其它序列的重组相关;它是否是一条已识别的重复序列;它是否有二级或三级结构;它是否存在变异或者它是否被修订过。第56页/共127页GBFF格式中部特性表格式:按表单的方式设计的,包含三个部分:第一,特性关键词(Featurekey);第二,特性位置(Location);第三,限定词(Qualifiers)。FEATURESLocation/Qualifierssource1..5028/organism=“Saccharomycescerevisiae”酿酒酵母/mol_type="genomicDNA"基因组DNA/db_xref="taxon:4932"分类学/chromosome="IX"染色体/map="9"第57页/共127页GBFF格式中部-FEATURES第一,特性关键词(Featurekey),是一个简要说明功能组的关键词,允许加入新的或未定义的特性;第二,特性位置(Location),指明在特性表中的什么地方找到相关特性,在位置特性中可以包含操作符(Operator)和功能性描述符(Descriptor)以指明序列需经过怎样的处理才能得到相应的特性;第三,限定词(Qualifiers),相关特性的辅助信息,限定词使用一组标准化的对照词汇表以利于计算机从中提取信息。第58页/共127页GBFF格式中部-FEATURES例1KeyLocation/QualifiersCDS23..400/product="alcoholdehydrogenase"/gene="adhI"特性表含义:该编码序列(CDS)起始于第23碱基,终止于第400碱基产物是乙醇脱氢酶基因名称是“adhI”。第59页/共127页GBFF格式中部-FEATURES例2KeyLocation/QualifiersCDSjoin(544..589,688..1032)/product="T-cellreceptorbeta-chain"特性表含义:它表示记录中所存储的序列为部分编码序列,表达产物“T-细胞受体beta链”由序列内两个片段结合生成指明两个片段在序列中所处的位置。第60页/共127页GBFF格式中部-特性表关键词1、特性表的关键词:以树型结构生成misc_feature生物学特性无法用特性表关键词描述的序列misc_difference序列特性无法用特性表关键词描述的序列conflict同一序列在不同的研究中在位点或区域上有差异unsure序列不能确定的区域old_sequence该序列对以前的版本做过修订variation包含稳定突变的序列modified_base修饰过的核苷酸gene已识别为基因或已命名的序列区域misc_signal无法用信号特性关键词描述的信号序列promoter转录起始区CAAT_signal真核启动子上游的CAAT盒,与RNA结合相关TATA_signal真核启动子的TATA盒-35_signal原核启动子中的-35框-10_signal原核启动子Pribow盒GC_signal真核启动子的GC盒RBS核糖体结合位点polyA_signalRNA转录本的剪切识别位点enhancer增强子attenuator与转录终止有关的序列terminator转录终止序列rep_origin双链DNA复制起始区第61页/共127页GBFF格式中部-特性表关键词misc_RNA无法用RNA关键词描述的转录物或RNA产物prim_transcript初始转录本precursor_RNA前体RNAmRNA信使RNA5'clip前体转录本中被剪切掉的5’端序列3'clip前体转录本中被剪切掉的3’端序列5'UTR5’非翻译区3'UTR3’非翻译区exon外显子CDS蛋白质编码序列sig_peptide编码信号肽的序列transit_peptide转运蛋白编码序列mat_peptide编码成熟肽的序列intron内含子polyA_siteRNA转录本的多聚腺苷酸化位点rRNA核糖体RNAtRNA转运RNAscRNA小细胞质RNAsnRNA小核RNAsnoRNA加工和修饰rRNA的小核RNA第62页/共127页GBFF格式中部-特性表关键词immunoglobulin_relatedC_region免疫相关蛋白上的稳定区D_segment码免疫球蛋白重链的可变区基因之一J_segment编码免疫球蛋白轻链和重链的可变区基因之一N_region插入重排免疫球蛋白片段间的核苷酸S_region免疫球蛋白重链的开关区V_region免疫球蛋白轻链和重链的可变区,和T-细胞受体α,β和γ链;编码可变的氨基末端部分;可由V_segment,D_segment,N_region和J_segment组成V_segment免疫球蛋白轻链和重链的可变区段,和T-细胞受体α,β和γ链;编码大多数可变区(v_region)和前导肽的最后几个氨基酸repeat_region基因组中所包含的重复序列第63页/共127页GBFF格式中部-特性表关键词repeat_unit单个的重复元件LTR长末端重复序列Satellite卫星重复序列misc_binding无法描述的核酸序列结合位点primer_bind复制、转录的引物结合位点protein_bind蛋白质结合区STS测序标签位点misc_recomb无法用重组特性关键词描述的重组事件iDNA通过重组所消除的DNAmisc_structure无法用结构关键词描述的核酸序列高级结构或构型stem_loop发夹结构D-loop线粒体中DNA中的取代环第64页/共127页GBFF格式中部-Location2、特性位置(Location):用来描述在序列中的什么区域能够找到相关的特性,位置特性可以包含Complement、Join、Order等三个操作符(Operator)。467指明序列中的单个碱基340..565指明包括起始和中止碱基在内的一段连续序列<345..500指明序列起始于起始碱基号之前的某个位置,但起始碱基号之前的特性边界未知第65页/共127页GBFF格式中部-Location<1..888指明特性起始于第一个已测序的碱基之前(102.110)指明正确位置未知,但包含在102和110号碱基之间(23.45)..600指明序列特性起始碱基在23和45碱基之间,终止于600号碱基(122.133)..(204.221)指明序列特性起始于122和133碱基之间,终止于204和221号碱基之间123^124指明123和124号碱基之间的位点,如限制性酶切位点145^177指明145和177碱基之间的某个位点第66页/共127页GBFF格式中部-Locationjoin(12..78,134..202)12至78碱基及134至202碱基之间序列相应连以构成一段连续序列complement(join(2691..4571,4918..5163))纪录中的特性处于2691至4571碱基以及4918至5163碱基之间的序列相连构成的连续序列的互补链上join(complement(4918..5163),complement(2691..4571))将4918至5163碱基之间序列的互补链与2691至4571间序列的互补链结合以构成一段连续序列第67页/共127页GBFF格式中部-Locationcomplement(34..(122.126))指明序列特性起始于与122至126碱基之间某个互补的碱基,终止于与34号碱基互补的碱基J00194:100..202指明起始于100号碱基,终止于202号碱基的序列在数据库中的主检索号为J00194第68页/共127页GBFF格式中部-Qualifiers3、限定词(Qualifier):为进一步说明特性表关键词和特性位置提供的信息给出了一个通用机制。格式:在“/”后跟上限定词名称,加上“=”,其后是限定词的值KeyLocation/QualifiersCDS86..742次黄嘌呤磷酸核糖转移酶/product="hypoxanthinephosphoribosyltransferase"/label=hprt/note="hprtcatalyzesvitalstepsinthereutilizationpathwayforpurinebiosynthesisanditsdeficiencyleadstoformsof""gouty""arthritis"rep_origin234..243缺乏/direction=leftCDS109..564/usedin=X10009:catalase
重复利用易患痛风的关节炎过氧化氢酶第69页/共127页常见的特性表关键词所使用的限定词限定词含义限定词含义/allele=给定基因的等位基因/anticodon=tRNA反义密码子的位置及它所编码的氨基酸/bound_moiety=嵌合范围/cell_line=获得序列的细胞系/cell_type=获得序列的细胞类型/chromosome=获得序列的染色体/citation=已被引用的参考文献数/clone=获得序列的克隆子/clone_lib=获得序列的克隆文库/codon=指出与参考密码子不同的密码子/codon_start=相对于序列第一个碱基,编码序列密码子的偏移量/cons_splice=区分内含子剪切位点和“5'-GT.AG-3'”剪切位点/country=DNA样本的来源国/cultivar=所获序列植物的栽培变种/db_xref=其它数据库信息的交叉索引号/dev_stage=序列来源于某种生物的特定发育阶段/direction=DNA复制方向/EC_number=序列产物的酶学编号/environmental_sample=序列直接从环境材料中获得而没有指明来源物种/evidence=序列特性来源于实验还是推理/exception=指明DNA序列未按通常的生物学规律翻译,如RNA编辑/focus指出在纪录中的来源特性在其它物种中还有不同的来源特性/frequency=在种群中发生变异的频率/function=序列所代表的功能/germline如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于未重排DNA/haplotype=序列来源于某种物种的单倍体/insertion_seq=序列来源于某种插入元件/isolation_source=描述序列来源物种的生理、环境和地理信息/isolate=序列来源的生物个体/label=序列特性的俗名第70页/共127页常见的特性表关键词所使用的限定词(续)/lab_host=为扩增序列来源物种所用的实验室宿主/map=相关特性在基因图谱上的位置/macronuclear指明DNA来源于染色体分化的大核期/mod_base=被修饰碱基的简写/note=评论及附加信息/number=从5’→3’注明遗传元件的顺序/organelle=获得序列的细胞器/organism=提供测序用遗传物质的物种的科学名称/PCR_conditions=描述PCR的反应条件/phenotype=序列特性所导致的表型/pop_variant=获得序列的群体变异种名称/plasmid=获得序列的质粒名称/product=序列编码产物的名称/protein_id=蛋白质的检索号/proviral整合在基因组中的前病毒/pseudo假基因/rearranged如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于重排DNA/replace=表明特性间的间隔序列已被替换/rpt_family=重复序列/rpt_type=重复序列的组织方式/rpt_unit=指明重复区域的重复元件构成/sequenced_mol=获得序列的分子类型/serotype=同一物种的不同血清学特征/serovar=同一原核生物的血清学特征/sex=获得序列的物种性别/specific_host=获得序列的天然宿主/specimen_voucher=指明来源物种保存于什么地方/standard_name=特性的通用名称/strain=获得序列的菌株/sub_clone=获得序列的亚克隆/sub_species=获得序列的来源物种的亚种/sub_strain=获得序列的来源微生物亚种/tissue_lib=获得序列组织库/tissue_type=获得序列组织类型/transgenic指明物种的来源特性是否是转基因受体/translation=按通用或指定的密码子表翻译的氨基酸序列/transl_except=标明序列中未按指定密码子表翻译的氨基酸的位置/transl_table=描述在翻译中与通用密码表不同的密码表/transposon=转座子/usedin=表明该特性在其它检索中也被使用/variety=获得序列的生物变种/virion病毒颗粒第71页/共127页GBFF格式尾部-ORIGIN序列:类似于FASTA格式给出了所记录的序列。ORIGIN1gatcctccatatacaacggtatctccacctcaggtttaga41tctcaacaacggaaccattgccgacatgagacagttaggt81atcgtcgagagttacaagctaaaacgagcagtagtcagct……(有部分序列未列出)4921ttttcagtgttagattgctctaattctttgagctgttctc4961tcagctcctcatatttttcttgccatgactcagattctaa5001ttttaagctattcaatttctctttgatc//第72页/共127页总结全面了解GBFF文件格式及其所涉及的各个方面GBFF是核苷酸和蛋白质序列数据库最常用的数据格式。正确地理解数据库格式成分的含义,知道从中如何提取生物学知识在数据库中进行检索,使用不同的工具进行生物信息学分析,具有十分重要的意义。第73页/共127页图C2.2人类某一EST克隆的Genbank(dbEST)第74页/共127页第75页/共127页第76页/共127页EMBL生化实验技术质谱分析(Mass
Spectrometry)等细胞生物学(Cell
Biology),研究细胞膜上蛋白和脂肪的分布,包括膜运输、微管网络、细胞核及细胞周期,焦点是Rab蛋白。细胞生物物理(Cell
Biophysics),重点是理论创新和实际应用的研究,尤其是光学显微镜的完善使用。分化(Differentiation),集中研究果蝇的早期发育。第77页/共127页EMBL的研究内容基因表达(Gene
Expression),研究基因到蛋白质信息传递的过程,尤其是核糖体合成在整个细胞生命过程中的重要作用。结构生物学(Structure
Biology),在过去9年中建立了cDNA测序技术、生物计算、蛋白工程、晶体学、电子显微镜(EM)及核磁共振(VMR),研究肌肉巨型蛋白分子Titin。Grenoble研究分部,主要研究蛋白质合成过程,尤其揭示了G-蛋白-鸟苷酸交换因子偶联物的结构Hamburg研究分部,有关长期的分子生物学国际合作研究历史,着重于结构生物学研究,如光学测量系统、晶体学、X-线吸收光谱及小角散射。第78页/共127页EMBL的研究内容Hinxton研究分部EBI,重点是与世界上其他分子生物学数据库进行合作研究,主要有EMBL核酸序列数据库,于1980年开始建立,随后参予了与日内瓦大学共同进行的SWISS-PROT的建设。在SWISS-PROT与EMBL核苷酸序列库之间的数据转移的基础上,产生了新的数据库TREMBL,即使核苷酸序列库的核苷酸序列自动翻译成SWISS-PROT蛋白序列库中的蛋白序列。放射性杂交数据库(Radiation
Hybrid
Database)。Monterotondo研究中心:EMBL和欧洲其他研究机构一起,加入到哺乳类生物学和生物医学等的研究行列,该中心位于意大利罗马北部的Monterotondo。EMBL着重于鼠遗传学研究第79页/共127页EMBL数据记录第80页/共127页EMBL数据库结构EMBL数据库的基本单位也是序列条目,包括核甘酸碱基排列顺序和注释两部分。序列条目由字段组成,每个字段由标识字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次标识字或特性表说明符开始,最后以双斜杠“//”作本序列条目结束标记。第81页/共127页EMBL数据库结构条目的关键字包括:ID(序列名称),DE(序列简单说明),AC(序列编号),SV(序列版本号),KW(与序列相关的关键词),OS(序列来源的物种名),OC(序列来源的物种学名和分类学位置),RN(相关文献编号或递交序列的注册信息),RA(相关文献作者或递交序列的作者),第82页/共127页EMBL数据库结构RT(相关文献题目)RL(相关文献杂志名或递交序列的作者单位),RX(相关文献Mediline引文代码),RC(相关文献注释),RP(相关文献其他注释),CC(关于序列的注释信息),DR(相关数据库交叉引用号),FH(序列特征表起始),FT(序列特征表子项),SQ(碱基种类统计数)第83页/共127页EMBL数据库记录注释代码和内容说明代码(Code)(Fullmeaning)全称说明(Comments)IDACDTDEKWOSOCOGRNRCRPRXRARTRLDRFHFTCCXXSQblank//identifieraccessionnumberdatadescriptionkeywordsorganism(species)organism(classification)Organellereferencenumberreferencecommentreferencepositionscross-referencereferenceauthorsreferencetitlereferencelocationdatabasecross-referencefeatureheaderfeaturetabledatacommentsspacerlinesequenceheadersequencedataterminationline(身份号)(记录号)(日期)(描述)(关键词)(物种)(分类)(细胞器)(文献编号)(文献说明)(文献大小)(相关文献)(文献作者)(文献题目)(文献出处)(相关文献数据库)(主表头)(主表数据)(说明)(空白行)(序列头)(空白)(终止行)该行的第一项内容是该数据库记录的名称,该名称是唯一的,是由EMBL数据库给定的。其它内容注明了该记录的一些状况(如是否已经被核实—本例中为已核实,即standard;记录的碱基数等)每个记录号均是唯一的,并从不更改,是由GenBank给定的。如果两个记录被合并成一个记录,原始上着2个记录号均会被注明2个日期被注出,一个是该数据第一次被记录时间,另一个是最后一次的时间。对该基因的文字描述描述该基因的关键词物种名称物种的一个简单分类,该分类并不一定准确,应谨慎从事该基因是否在某一个特殊的细胞器中与该记录研究相关的文献信息见文中说明该记录主要内容列表表头见文中说明对记录的文字说明有关该序列大小和组成的信息一个记录的终止符号第84页/共127页第85页/共127页http://www.ebi.ac.uk/ena/第86页/共127页第87页/共127页第88页/共127页相关文献数据库(DR)的说明许多二级数据库内容来自初始数据库OMIM数据库是有关人类遗传疾病的数据,如OMIM中的一个记录与EMBL中一个已知序列的基因有关,则该基因将与该记录建立联系,EMBL库中该序列的DR栏中将包括OMIM和OMIM中相关记录的名称。DR栏中有该DNA序列翻译成蛋白质序列的SWISS-PROT记录号等。第89页/共127页EMBL数据库记录相关文献数据库第90页/共127页相关文献数据库(DR)的说明DR栏内容有助于了解与该原始DNA序列相关信息的状况和存贮站点。与DR栏有关的数据库:SWISS-PROT、EMBL、OMIM、PROSITE(保守蛋白质模序数据库)、HSSP、PDB、PIR、MEDLNE(与RL栏相关的文献摘要数据库)等。第91页/共127页相关文献数据库(DR)的说明注释中另一个需要说明的重要内容是主表数据(featuretabledata,FT)栏。主表试图将尽可能多的序列信息囊括其中,并以计算机可以阅读的格式编排。3个主要DNA数据库(EMBL、GenBank和DDBJ)已经对该表的表述格式达成了一致。具体表述在:www.ebi.ac.uk/ebi_docs/embl_db/ft/feature_table.html第92页/共127页GeneralInformation第93页/共127页AdditionalInformation第94页/共127页AdditionalInformation第95页/共127页Sequence第96页/共127页PrimaryAccession-头部第97页/共127页PrimaryAccession-中部第98页/共127页PrimaryAccession-尾部第99页/共127页序列文件格式文本格式简单文本格式Line,PlainTextStadenFASTABionet(生物网膜allowscomments)加入注释的文本格式GenBankGCG二进制格式(通常都带有注释)MacVector第100页/共127页序列文件格式例子(Fasta)>gi|995614|dbj|D49653|RATOBESERatmRNAforobese.CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC以上这个FASTA文件中包含了gi号码、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。一种最简单的fasta序列形式可以表示为:>D49653CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG….第101页/共127页序列文件格式例子(GenBank)LOCUSRATOBESE539bpss-mRNAROD23-SEP-1995DEFINITIONRatmRNAforobese.ACCESSIOND49653KEYWORDS.SOURCERattusnorvegicus(strainOLETF,LETOandZucker,)differentiatedadiposecDNAtomRNA.ORGANISMRattusnorvegicusEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;Myomorpha;Muridae;Murinae;Rattus.REFERENCE1(bases1to539)AUTHORSMurakami,T.andShima,K.TITLECloningofratobesecDNAanditsexpressioninobeseratsJOURNALBiochem.Biophys.Res.Commun.209,944-952(1995)STANDARDfullautomaticCOMMENTSubmitted(10-Mar-1995)toDDBJby:TakashiMurakamiDepartmentofLaboratoryMedicineSchoolofMedicineUniversityofTokushimaKuramotocho3-chom
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度租赁合同中的租赁物描述
- 二零二四年度物流叉车调度与数据分析合同
- 2024年度股权转让合同:关于股东之间转让某公司0%股权的协议2篇
- 二零二四年度园林企业苗木种植与收购合同
- 2024年度高速铁路电缆桥架施工合同2篇
- 2024年度旅游景点开发及运营合同
- 健身房转让合同模板
- 二零二四年度机械设备维修与保养合同
- 供材料合同范本
- 04版个人住宅拆除重建合同
- 福建省泉州市2024-2025学年高一上学期11月期中物理试题(无答案)
- 基于单片机的粮仓多点温湿度监控系统设计-毕业设计说明书
- 先兆流产课件-课件
- 为犯罪嫌疑人提供法律咨询委托协议范例
- 内蒙古包头市昆都仑区第九中学2024-2025学年八年级上学期期中考试道德与法治试题(含答案)
- 中层管理人员财务知识培训
- 大型养路机械司机(打磨车)高级工技能鉴定考试题库(含答案)
- 北京大学心理课程设计
- 地理-湖南省长沙市(炎德英才大联考)长郡中学2025届高三上学期月考试卷(三)试题和答案
- 软件平台施工组织方案
- 2024年部编版高一上学期期末语文试卷及解答参考
评论
0/150
提交评论