版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
GenBank数据库结构作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。DDBJ数据库的内容和格式与GenBank相同,此处不作详细介绍。分别介绍EMBL和GenBank的数据库结构GenBank数据库数据注释
()GenBank库包含所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。NCBI可提供广泛的数据查询、序列相似性搜索以及其它分析服务。数据库序列文件:注释内容——文章索引文件:检索目录——文摘GenBank数据库结构完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库数据格式为FastA。GenBank数据记录GenBank数据记录GenBank数据库结构GenBank中最常用的是序列文件。序列文件的基本单位:是序列条目,包括核苷酸碱基排列顺序和注释两部分。生物信息资源中心通过计算机网络提供该数据库文件。注释条目:文章的格式GenBank数据库结构GenBank序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。字段分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记GenBank数据库结构序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可占一行,也可以占若干行。若一行中写不下时,继续行以空格开始GenBank数据库物种:GenBank库里的数据按来源于大约100,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)记录:每条GenBank数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,及序列本身GenBank数据库序列特征表:包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等分类:所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被分成若干文件注释内容序列条目关键字:LOCUS(代码),DEFINITION(说明),ACCESSION(编号),NID符(核酸标识),KEYWORDS(关键词),SOURCE(数据来源),REFERENCE(文献),FEATURES(特性表),BASECOUNT(碱基组成)ORIGIN(碱基排列顺序)。先版的核酸序列数据库将引入新的关键词SV(序列版本号),用“编号.版本号”表示,并取代关键词NIDLOCUSLOCUS(代码):是该序列条目的标记,或者说标识符,蕴涵这个序列的功能:如HUMCYCLOX表示人的环氧化酶。序列长度类型种属来源以录入日期等说明字段是有关这一序列的简单描述ACCESSIONACCESSION(编号):具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。KEYWORDSKEYWORDS(关键词)字段:由该序列的提交者提供,包括该序列的基因产物其它相关信息SOURCESOURCE(数据来源)字段:说明该序列是从什么生物体、什么组织得到的次关键字ORGANISM(种属):指出该生物体的分类学地位REFERENCEREFERENCE(文献)字段:说明该序列中的相关文献,包括AUTHORS(作者),TITLE(题目)及JOURNAL(杂志名)等,以次关键词列出。MEDLINE的代码:该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。一个序列可有多篇文献,以不同序号表示,并给出该序列中哪一部分与文献有关。FEATURESFEATURES(特性表):具有特定的格式,用来详细描述序列特性。特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库,如分类数据库(taxon9606),以及蛋白质序列数据库(PID:g181254)。序列中各部分的位置都在表中标明,5’非编码区,编码区,3’非编码区,多聚腺苷酸重复区域等。翻译所得信号肽以及最终蛋白质产物碱基含量字段,给出序列中的碱组成ORIGINORIGIN行是序列的引导行下面便是碱基序列以双斜杠行“//”结束。GenBank数据库—数据库格式FASTA格式
>gi|1293613|gb|U49845.1|SCU49845SaccharomycescerevisiaeTCP1-betagene,partialcds;andAxl2p(AXL2)andRev7p(REV7)genes,completecdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT……(该序列没有完全列出)GenBank数据库—数据库格式(1)FASTA格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。大于号(>)表示一个新文件的开始结束用(//)FASTA格式并没有什么特殊的要求。FASTA格式序列的提交GenBank数据库—数据库格式(1)FASTA格式特点:只存储了最少量的信息它将所存储的信息转化为简单的字符串人和计算机对其存储的信息都具有极大的可读性FASTA格式在许多分子生物学软件包中得到广泛应用。GenBank数据库—数据库格式(2)GenBank纯文本文件格式(GenBankflatfile,GBFF):GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库,它们是怎样交换数据的呢?GBFF文件格式GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一。头部中部尾部GENBANK纯文本文件格式>LOCUSSCU498455028bpDNAPLN21-JUN-1999DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.ACCESSIONU49845VERSIONU49845.1GI:1293613KEYWORDS.SOURCEbaker'syeast.ORGANISMSaccharomycescerevisiaeEukaryota;Fungi;Ascomycota;Hemiascomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)MEDLINE95176709REFERENCE2(bases1to5028)AUTHORSRoemer,T.,Madden,K.,Chang,J.andSnyder,M.TITLESelectionofaxialgrowthsitesinyeastrequiresAxl2p,anovelplasmamembraneglycoproteinJOURNALGenesDev.10(7),777-793(1996)MEDLINE96194260REFERENCE3(bases1to5028)AUTHORSRoemer,T.TITLEDirectSubmissionJOURNALSubmitted(22-FEB-1996)TerryRoemer,Biology,YaleUniversity,NewHaven,CT,USAFEATURESLocation/Qualifierssource1..5028/organism="Saccharomycescerevisiae"/db_xref="taxon:4932"/chromosome="IX"/map="9"CDS<1..206/codon_start=3/product="TCP1-beta"/protein_id="AAA98665.1"/db_xref="GI:1293614"/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAAEVLLRVDNIIRARPRTANRQHM"gene687..3158/gene="AXL2"CDS687..3158/gene="AXL2"/note="plasmamembraneglycoprotein"/codon_start=1/function="requiredforaxialbuddingpatternofS.cerevisiae"/product="Axl2p"/protein_id="AAA98666.1"/db_xref="GI:1293615"/translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF……(有部分序列未列出)
VDFSNKSNVNVGQVKDIHGRIPEML"BASECOUNT1510a1074c835g1609tORIGIN1gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg61ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct……(有部分序列未列出)
4921ttttcagtgttagattgctctaattctttgagctgttctctcagctcctcatatttttct4981tgccatgactcagattctaattttaagctattcaatttctctttgatc//GBFF格式按域(Field)可以划分为三个部分头部包含整个记录的信息(描述符);第二部分包含了注释这一记录的特性;第三部分是核苷酸序列本身。所有序列数据库记录都在最后一行以“//”结尾。GBFF格式头部-Locus行所有的GBFF都起始于LOCUS行:+++++1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999GBFF格式头部-Locus行1、LOCUS行:第一项是LOCUS名称:最初这一名称是用来表示本记录描述的基因座,以方便检索相似序列:前三个字母代表特定物种的名称第四、第五个字母代表如基因产物等特定的类别名称。如HUMHBB。GBFF格式头部-Locus行LOCUS这种“十字符”命名方式已经无法满足基因在基因座中所包含的信息。LOCUS名称目前唯一的作用是它在数据库中是独一无二的,已不在具有任何实际意义。仅使用检索号码(acessionnumber)以满足对LOCUS名称的要求1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999GBFF格式头部-Locus行第二项是序列长度。GenBank对提交的序列长度没有上限要求。根据国际序列数据库合作计划的协议,为方便不同的软件处理序列,规定单条数据库记录的长度不能超过350kb。GenBank已经很少接受长度低于50bp的序列。1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999GBFF格式头部-Locus行第三项表明序列的分子类型:其序列必须是一种单一的分子类型。包括:基因组DNA、RNA、RNA前体、mRNA(cDNA)、tRNA等。1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999GBFF格式头部-Locus行第四项是GenBank分类码:由三个字母组成,分类码将GenBank数据库分为17个分支1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999GenBank分类码(GenBankDivision)类中文名称符号类符号primatesequences灵长类动物序列PRIrodentsequences啮齿类动物序列RODothermammaliansequences其它哺乳动物序列MAMothervertebratesequencs其它脊椎动物序列VRTinvertebratesequences无脊椎动物序INVPlants,fungal,andalgalsequences植物、真菌和藻类序列PLNbacterialsequences细菌序列BCTviralsequences病毒序列VRLbacteriophagesequences噬菌体序列PHGsyntheticsequences人工合成序列SYNunanntotatedsequences未注释序列UNAESTsequences表达序列标签ESTpatentsequences专利序列PATSTSsequences序列标记位点STSgenomesurveysequences基因组测定序列GSSHTGSsequences高通量基因组序列HTGunfinishedhigh-throughputcDNAsequencing未完成测序的高通量cDNA序列HTCGBFF格式头部-Locus行第五项是最后修订日期。某些时候,它也是数据第一次被公开的日期。这项简单的信息并无法对此做出判断。1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999GBFF格式头部-DEFINITION行2、DEFINITION行:主要对GenBank记录中所含的生物学意义做出总结。它的说明内容包括来源物种、基因/蛋白质名称;+++++1102030405060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.GBFF格式头部-DEFINITION行如果序列是非编码区,则包含对序列功能的简单描述;如果序列是一段编码区,则标明该序列是部分序列(partialcds)还是全序列(completecds)。+++++1102030405060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.GBFF格式头部-ACCESSION行3、检索号(ACCESSION):是序列记录的唯一指针。检索号通常由一个字母加5个数字(U12345)或者由两个字母加6个数字(AF123456)组成。+++++1102030405060ACCESSIONU49845DearGenBankSubmitter:ThankyouforyourdirectsubmissionofsequencedatatoGenBank.WehaveprovidedaGenBankaccessionnumberforyournucleotidesequence:bankit660463AY795899WestronglyrecommendthatthisGenBankaccessionnumberappearsinanypublicationthatreportsordiscussesthesedata,asitgivesthecommunityauniquelabelwithwhichtheymayretrieveyourdatafromouron-lineservers.GBFF格式头部-ACCESSION行检索号在数据库中是唯一而且不变的,即使数据的提交者改变数据的内容。在ACCESSION行中可能出现多个检索号,可能是因为数据提交者提交了一条与原记录相关的新记录,或者新提交的记录覆盖了原有的旧记录。第一个检索号为主检索号,而其余的统称为二级检索号。GBFF格式头部-VERSION行4、版本号行:它的格式是:检索号.版本号。版本号于99年2月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。在数据库中,如果某条序列数据发生了变化,即使是单碱基的改变,它的版本号都将增加,而它的检索号保持不变如由U12345.1变为U12345.2。+++++++11020304050607079VERSIONU49845.1GI:1293613GBFF格式头部-VERSION行版本号系统与跟在其后的GI(GenInfoIdentifier)号系统是平行运行当一条序列改变后,它将被赋予一个新的GI号,同时它的版本号将增加。当依据核酸序列的内部序列进行蛋白质翻译时,蛋白质的翻译发生任何变换,核酸序列都将被赋予一个新的GI号。+++++++11020304050607079VERSIONU49845.1GI:1293613GBFF格式头部-KEYWORDS行5、关键词行:是用来描述序列的。如果该行中没有任何内容,那么就只包含一个“.”。由于没有对照词汇表,所以NCBIGenBank拒绝接受关键词,它只存在于旧的记录中。+++++++11020304050607079KEYWORDS.GBFF格式头部-SOURCE行6、序列来源行:没有做特殊的规定,它通常包含序列来源生物的简称,有些时候也包含分子类型。Organism:以NCBI的分类数据库为依据,指明物种的正式科学名称。+++++++11020304050607079SOURCEbaker'syeast.ORGANISMSaccharomycescerevisiaeEukaryota(真核);Fungi(真菌);Ascomycota(子囊菌门);Hemiascomycetes(半子囊菌纲);Saccharomycetales;Saccharomycetaceae;Saccharomyces.GBFF格式头部-REFERENCE行7、参考文献行:将与该数据有关的参考文献均收录在内,将最先发表的文献列于第一位。如果序列数据没有被文献报道,该行将显示“inpress”或“unpublished”如所引用文献存在于MEDLINE数据库中,将出现一个MEDLINE单一指针(uniqueidentifier,UID)以便检索。+++++++11020304050607079REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)MEDLINE95176709GBFF格式头部-REFERENCE行如果序列是直接提交而未经发表的,就将在标题(TITLE)中注明“直接提交(DirectSubmission)”在期刊(JOURNAL)中注明提交日期,提交者姓名以及提交者的工作单位。+++++++11020304050607079REFERENCE
1
(bases1to1939)
AUTHORS
Yi,CAO.,Dairong,QIAO.,Qinghua,HE.andShunji,HE.
TITLE
CloningandexpressionstudiesofacDNAencodingUDP-glucosedehydrogenasefromDunaliellasalina
JOURNAL
UnpublishedGBFF格式中部特性表(FEATURES):它描述基因和基因的产物,以及与序列相关的生物学特性。特性表提供一个参考词汇表以对合法的特性进行注释这些特性包括该序列是否执行一个生物学功能;它是否与一个生物学功能的表达相关;它是否与其它分子相互作用;它是否影响一条序列的复制;它是否与其它序列的重组相关;它是否是一条已识别的重复序列;它是否有二级或三级结构;它是否存在变异或者它是否被修订过。GBFF格式中部特性表格式:按表单的方式设计的,包含三个部分:第一,特性关键词(Featurekey);第二,特性位置(Location);第三,限定词(Qualifiers)。FEATURESLocation/Qualifierssource1..5028/organism="Saccharomycescerevisiae"/mol_type="genomicDNA"/db_xref="taxon:4932"/chromosome="IX"/map="9"GBFF格式中部-FEATURES第一,特性关键词(Featurekey),是一个简要说明功能组的关键词,允许加入新的或未定义的特性;第二,特性位置(Location),指明在特性表中的什么地方找到相关特性,在位置特性中可以包含操作符(Operator)和功能性描述符(Descriptor)以指明序列需经过怎样的处理才能得到相应的特性;第三,限定词(Qualifiers),相关特性的辅助信息,限定词使用一组标准化的对照词汇表以利于计算机从中提取信息。GBFF格式中部-FEATURES例1KeyLocation/QualifiersCDS23..400/product="alcoholdehydrogenase"/gene="adhI"特性表含义:该编码序列(CDS)起始于第23碱基,终止于第400碱基产物是乙醇脱氢酶基因名称是“adhI”。GBFF格式中部-FEATURES例2KeyLocation/QualifiersCDSjoin(544..589,688..1032)/product="T-cellreceptorbeta-chain"特性表含义:它表示记录中所存储的序列为部分编码序列,表达产物“T-细胞受体beta链”由序列内两个片段结合生成指明两个片段在序列中所处的位置。GBFF格式中部-特性表关键词1、特性表的关键词:以树型结构生成misc_feature生物学特性无法用特性表关键词描述的序列misc_difference序列特性无法用特性表关键词描述的序列conflict同一序列在不同的研究中在位点或区域上有差异unsure序列不能确定的区域old_sequence该序列对以前的版本做过修订variation包含稳定突变的序列modified_base修饰过的核苷酸gene已识别为基因或已命名的序列区域misc_signal无法用信号特性关键词描述的信号序列promoter转录起始区CAAT_signal真核启动子上游的CAAT盒,与RNA结合相关TATA_signal真核启动子的TATA盒-35_signal原核启动子中的-35框-10_signal原核启动子Pribow盒GC_signal真核启动子的GC盒RBS核糖体结合位点polyA_signalRNA转录本的剪切识别位点enhancer增强子attenuator与转录终止有关的序列terminator转录终止序列rep_origin双链DNA复制起始区GBFF格式中部-特性表关键词misc_RNA无法用RNA关键词描述的转录物或RNA产物prim_transcript初始转录本precursor_RNA前体RNAmRNA信使RNA5'clip前体转录本中被剪切掉的5’端序列3'clip前体转录本中被剪切掉的3’端序列5'UTR5’非翻译区3'UTR3’非翻译区exon外显子CDS蛋白质编码序列sig_peptide编码信号肽的序列transit_peptide转运蛋白编码序列mat_peptide编码成熟肽的序列intron内含子polyA_siteRNA转录本的多聚腺苷酸化位点rRNA核糖体RNAtRNA转运RNAscRNA小细胞质RNAsnRNA小核RNAsnoRNA加工和修饰rRNA的小核RNAGBFF格式中部-特性表关键词immunoglobulin_relatedC_region免疫相关蛋白上的稳定区D_segment码免疫球蛋白重链的可变区基因之一J_segment编码免疫球蛋白轻链和重链的可变区基因之一N_region插入重排免疫球蛋白片段间的核苷酸S_region免疫球蛋白重链的开关区V_region免疫球蛋白轻链和重链的可变区,和T-细胞受体α,β和γ链;编码可变的氨基末端部分;可由V_segment,D_segment,N_region和J_segment组成V_segment免疫球蛋白轻链和重链的可变区段,和T-细胞受体α,β和γ链;编码大多数可变区(v_region)和前导肽的最后几个氨基酸repeat_region基因组中所包含的重复序列GBFF格式中部-特性表关键词repeat_unit单个的重复元件LTR长末端重复序列Satellite卫星重复序列misc_binding无法描述的核酸序列结合位点primer_bind复制、转录的引物结合位点protein_bind蛋白质结合区STS测序标签位点misc_recomb无法用重组特性关键词描述的重组事件iDNA通过重组所消除的DNAmisc_structure无法用结构关键词描述的核酸序列高级结构或构型stem_loop发夹结构D-loop线粒体中DNA中的取代环GBFF格式中部-Location2、特性位置(Location):用来描述在序列中的什么区域能够找到相关的特性,位置特性可以包含Complement、Join、Order等三个操作符(Operator)。467指明序列中的单个碱基340..565指明包括起始和中止碱基在内的一段连续序列<345..500指明序列起始于起始碱基号之前的某个位置,但起始碱基号之前的特性边界未知GBFF格式中部-Location<1..888指明特性起始于第一个已测序的碱基之前(102.110)指明正确位置未知,但包含在102和110号碱基之间(23.45)..600指明序列特性起始碱基在23和45碱基之间,终止于600号碱基(122.133)..(204.221)指明序列特性起始于122和133碱基之间,终止于204和221号碱基之间123^124指明123和124号碱基之间的位点,如限制性酶切位点145^177指明145和177碱基之间的某个位点GBFF格式中部-Locationjoin(12..78,134..202)12至78碱基及134至202碱基之间序列相应连以构成一段连续序列complement(join(2691..4571,4918..5163))纪录中的特性处于2691至4571碱基以及4918至5163碱基之间的序列相连构成的连续序列的互补链上join(complement(4918..5163),complement(2691..4571))将4918至5163碱基之间序列的互补链与2691至4571间序列的互补链结合以构成一段连续序列GBFF格式中部-Locationcomplement(34..(122.126))指明序列特性起始于与122至126碱基之间某个互补的碱基,终止于与34号碱基互补的碱基J00194:100..202指明起始于100号碱基,终止于202号碱基的序列在数据库中的主检索号为J00194GBFF格式中部-Qulifier3、限定词(Qulifier):为进一步说明特性表关键词和特性位置提供的信息给出了一个通用机制。格式:在“/”后跟上限定词名称,加上“=”,其后是限定词的值KeyLocation/QualifiersCDS86..742/product="hypoxanthinephosphoribosyltransferase"/label=hprt/note="hprtcatalyzesvitalstepsinthereutilizationpathwayforpurinebiosynthesisanditsdeficiencyleadstoformsof""gouty""arthritis"rep_origin234..243/direction=leftCDS109..564/usedin=X10009:catalase
常见的特性表关键词所使用的限定词限定词含义限定词含义/allele=给定基因的等位基因/anticodon=tRNA反义密码子的位置及它所编码的氨基酸/bound_moiety=嵌合范围/cell_line=获得序列的细胞系/cell_type=获得序列的细胞类型/chromosome=获得序列的染色体/citation=已被引用的参考文献数/clone=获得序列的克隆子/clone_lib=获得序列的克隆文库/codon=指出与参考密码子不同的密码子/codon_start=相对于序列第一个碱基,编码序列密码子的偏移量/cons_splice=区分内含子剪切位点和“5'-GT.AG-3'”剪切位点/country=DNA样本的来源国/cultivar=所获序列植物的栽培变种/db_xref=其它数据库信息的交叉索引号/dev_stage=序列来源于某种生物的特定发育阶段/direction=DNA复制方向/EC_number=序列产物的酶学编号/environmental_sample=序列直接从环境材料中获得而没有指明来源物种/evidence=序列特性来源于实验还是推理/exception=指明DNA序列未按通常的生物学规律翻译,如RNA编辑/focus指出在纪录中的来源特性在其它物种中还有不同的来源特性/frequency=在种群中发生变异的频率/function=序列所代表的功能/germline如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于未重排DNA/haplotype=序列来源于某种物种的单倍体/insertion_seq=序列来源于某种插入元件/isolation_source=描述序列来源物种的生理、环境和地理信息/isolate=序列来源的生物个体/label=序列特性的俗名常见的特性表关键词所使用的限定词(续)/lab_host=为扩增序列来源物种所用的实验室宿主/map=相关特性在基因图谱上的位置/macronuclear指明DNA来源于染色体分化的大核期/mod_base=被修饰碱基的简写/note=评论及附加信息/number=从5’→3’注明遗传元件的顺序/organelle=获得序列的细胞器/organism=提供测序用遗传物质的物种的科学名称/PCR_conditions=描述PCR的反应条件/phenotype=序列特性所导致的表型/pop_variant=获得序列的群体变异种名称/plasmid=获得序列的质粒名称/product=序列编码产物的名称/protein_id=蛋白质的检索号/proviral整合在基因组中的前病毒/pseudo假基因/rearranged如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于重排DNA/replace=表明特性间的间隔序列已被替换/rpt_family=重复序列/rpt_type=重复序列的组织方式/rpt_unit=指明重复区域的重复元件构成/sequenced_mol=获得序列的分子类型/serotype=同一物种的不同血清学特征/serovar=同一原核生物的血清学特征/sex=获得序列的物种性别/specific_host=获得序列的天然宿主/specimen_voucher=指明来源物种保存于什么地方/standard_name=特性的通用名称/strain=获得序列的菌株/sub_clone=获得序列的亚克隆/sub_species=获得序列的来源物种的亚种/sub_strain=获得序列的来源微生物亚种/tissue_lib=获得序列组织库/tissue_type=获得序列组织类型/transgenic指明物种的来源特性是否是转基因受体/translation=按通用或指定的密码子表翻译的氨基酸序列/transl_except=标明序列中未按指定密码子表翻译的氨基酸的位置/transl_table=描述在翻译中与通用密码表不同的密码表/transposon=转座子/usedin=表明该特性在其它检索中也被使用/variety=获得序列的生物变种/virion病毒颗粒GBFF格式尾部-ORIGIN序列:类似于FASTA格式给出了所记录的序列。ORIGIN1gatcctccatatacaacggtatctccacctcaggtttaga41tctcaacaacggaaccattgccgacatgagacagttaggt81atcgtcgagagttacaagctaaaacgagcagtagtcagct……(有部分序列未列出)4921ttttcagtgttagattgctctaattctttgagctgttctc4961tcagctcctcatatttttcttgccatgactcagattctaa5001ttttaagctattcaatttctctttgatc//总结全面了解GBFF文件格式及其所涉及的各个方面GBFF是核苷酸和蛋白质序列数据库最常用的数据格式。正确地理解数据库格式成分的含义,知道从中如何提取生物学知识在数据库中进行检索,使用不同的工具进行生物信息学分析,具有十分重要的意义。EMBL生化实验技术质谱分析(Mass
Spectrometry)等细胞生物学(Cell
Biology),研究细胞膜上蛋白和脂肪的分布,包括膜运输、微管网络、细胞核及细胞周期,焦点是Rab蛋白。细胞生物物理(Cell
Biophysics),重点是理论创新和实际应用的研究,尤其是光学显微镜的完善使用。分化(Differentiation),集中研究果蝇的早期发育。EMBL的研究内容基因表达(Gene
Expression),研究基因到蛋白质信息传递的过程,尤其是核糖体合成在整个细胞生命过程中的重要作用。结构生物学(Structure
Biology),在过去9年中建立了cDNA测序技术、生物计算、蛋白工程、晶体学、电子显微镜(EM)及核磁共振(VMR),研究肌肉巨型蛋白分子Titin。Grenoble研究分部,主要研究蛋白质合成过程,尤其揭示了G-蛋白-鸟苷酸交换因子偶联物的结构Hamburg研究分部,有关长期的分子生物学国际合作研究历史,着重于结构生物学研究,如光学测量系统、晶体学、X-线吸收光谱及小角散射。EMBL的研究内容Hinxton研究分部EBI,重点是与世界上其他分子生物学数据库进行合作研究,主要有EMBL核酸序列数据库,于1980年开始建立,随后参予了与日内瓦大学共同进行的SWISS-PROT的建设。在SWISS-PROT与EMBL核苷酸序列库之间的数据转移的基础上,产生了新的数据库TREMBL,即使核苷酸序列库的核苷酸序列自动翻译成SWISS-PROT蛋白序列库中的蛋白序列。放射性杂交数据库(Radiation
Hybrid
Database)。Monterotondo研究中心:EMBL和欧洲其他研究机构一起,加入到哺乳类生物学和生物医学等的研究行列,该中心位于意大利罗马北部的Monterotondo。EMBL着重于鼠遗传学研究EMBL数据记录EMBL数据库结构EMBL数据库的基本单位也是序列条目,包括核甘酸碱基排列顺序和注释两部分。序列条目由字段组成,每个字段由标识字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次标识字或特性表说明符开始,最后以双斜杠“//”作本序列条目结束标记。EMBL数据库结构条目的关键字包括:ID(序列名称),DE(序列简单说明),AC(序列编号),SV(序列版本号),KW(与序列相关的关键词),OS(序列来源的物种名),OC(序列来源的物种学名和分类学位置),RN(相关文献编号或递交序列的注册信息),RA(相关文献作者或递交序列的作者),EMBL数据库结构RT(相关文献题目)RL(相关文献杂志名或递交序列的作者单位),RX(相关文献Mediline引文代码),RC(相关文献注释),RP(相关文献其他注释),CC(关于序列的注释信息),DR(相关数据库交叉引用号),FH(序列特征表起始),FT(序列特征表子项),SQ(碱基种类统计数)EMBL数据库记录注释代码和内容说明代码(Code)(Fullmeaning)全称说明(Comments)IDACDTDEKWOSOCOGRNRCRPRXRARTRLDRFHFTCCXXSQblank//identifieraccessionnumberdatadescriptionkeywordsorganism(species)organism(classification)Organellereferencenumberreferencecommentreferencepositionscross-referencereferenceauthorsreferencetitlereferencelocationdatabasecross-referencefeatureheaderfeaturetabledatacommentsspacerlinesequenceheadersequencedataterminationline(身份号)(记录号)(日期)(描述)(关键词)(物种)(分类)(细胞器)(文献编号)(文献说明)(文献大小)(相关文献)(文献作者)(文献题目)(文献出处)(相关文献数据库)(主表头)(主表数据)(说明)(空白行)(序列头)(空白)(终止行)该行的第一项内容是该数据库记录的名称,该名称是唯一的,是由EMBL数据库给定的。其它内容注明了该记录的一些状况(如是否已经被核实—本例中为已核实,即standard;记录的碱基数等)每个记录号均是唯一的,并从不更改,是由GenBank给定的。如果两个记录被合并成一个记录,原始上着2个记录号均会被注明2个日期被注出,一个是该数据第一次被记录时间,另一个是最后一次的时间。对该基因的文字描述描述该基因的关键词物种名称物种的一个简单分类,该分类并不一定准确,应谨慎从事该基因是否在某一个特殊的细胞器中与该记录研究相关的文献信息见文中说明该记录主要内容列表表头见文中说明对记录的文字说明有关该序列大小和组成的信息一个记录的终止符号相关文献数据库(DR)的说明许多二级数据库内容来自初始数据库OMIM数据库是有关人类遗传疾病的数据,如OMIM中的一个记录与EMBL中一个已知序列的基因有关,则该基因将与该记录建立联系,EMBL库中该序列的DR栏中将包括OMIM和OMIM中相关记录的名称。DR栏中有该DNA序列翻译成蛋白质序列的SWISS-PROT记录号等。EMBL数据库记录相关文献数据库相关文献数据库(DR)的说明DR栏内容有助于了解与该原始DNA序列相关信息的状况和存贮站点。与DR栏有关的数据库:SWISS-PROT、EMBL、OMIM、PROSITE(保守蛋白质模序数据库)、HSSP、PDB、PIR、MEDLNE(与RL栏相关的文献摘要数据库)等。相关文献数据库(DR)的说明注释中另一个需要说明的重要内容是主表数据(featuretabledata,FT)栏。主表试图将尽可能多的序列信息囊括其中,并以计算机可以阅读的格式编排。3个主要DNA数据库(EMBL、GenBank和DDBJ)已经对该表的表述格式达成了一致。具体表述在:GeneralInformationAdditionalInformationAdditionalInformationSequencePrimaryAccession-头部PrimaryAccession-中部PrimaryAccession-尾部序列文件格式文本格式简单文本格式Line,PlainTextStadenFASTABionet(allowscomments)加入注释的文本格式GenBankGCG二进制格式(通常都带有注释)MacVector序列文件格式例子(Fasta)>gi|995614|dbj|D49653|RATOBESERatmRNAforobese.CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC以上这个FASTA文件中包含了gi号码、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。一种最简单的fasta序列形式可以表示为:>D49653CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG….序列文件格式例子(GenBank)LOCUSRATOBESE539bpss-mRNAROD23-SEP-1995DEFINITIONRatmRNAforobese.ACCESSIOND49653KEYWORDS.SOURCERattusnorvegicus(strainOLETF,LETOandZucker,)differentiatedadiposecDNAtomRNA.ORGANISMRattusnorvegicusEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;Myomorpha;Muridae;Murinae;Rattus.REFERENCE1(bases1to539)AUTHORSMurakami,T.andShima,K.TITLECloningofratobesecDNAanditsexpressioninobeseratsJOURNALBiochem.Biophys.Res.Commun.209,944-952(1995)STANDARDfullautomaticCOMMENTSubmitted(10-Mar-1995)toDDBJby:TakashiMurakamiDepartmentofLaboratoryMedicineSchoolofMedicineUniversityofTokushimaKuramotocho3-chomeTokushima770JapanPhone:+81-886-33-7184Fax:+81-886-31-9495.序列文件格式例子(GenBank)NCBIgi:995614FEATURESLocation/Qualifierssource1..539/organism="Rattusnorvegicus"/strain="OLETF,LETOandZucker"/dev_stage="differentiated"/sequenced_mol="cDNAtomRNA"/tissue_type="adipose"CDS30..533/partial/note="NCBIgi:995615"/codon_start=1/product="obese"/translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC"BASECOUNT121a167c133g118tORIGIN1ccaagaagaagaagaccccagcgaggaaaatgtgctggagacccctgtgccggttcctgt61ggctttggtcctatctgtcctatgttcaagctgtgcctatccacaaagtccaggatgaca121ccaaaaccctcatcaagaccattgtcaccaggatcaatgacatttcacacacgcagtcgg181tatccgccaggcagagggtcaccggtttggacttcattcccgggcttcaccccattctga241gtttgtccaagatggaccagaccctggcagtctatcaacagatcctcaccagcttgcctt301cccaaaacgtgctgcagatagctcatgacctggagaacctgcgagacctcctccatctgc361tggccttctccaagagctgctccctgccgcagacccgtggcctgcagaagccagagagcc421tggatggcgtcctggaagcctcgctctactccacagaggtggtggctctgagcaggctgc481agggctctctgcaggacattcttcaacagttggaccttagccctgaatgctgaggtttc//序列文件格式例子(GCG)LOCUSRATOBESE.G539BPSS-RNAENTERED09/23/95DEFINITIONRatmRNAforobese.ACCESSION-KEYWORDS-SOURCERattusnorvegicus;NorwayratORGANISMEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;Myomorpha;Muridae;Murinae;RattusREFERENCE[1]AUTHORSMurakami,T.&Shima,K.TITLECloningofratobesecDNAanditsexpressioninobeserats.JOURNALBiochem.Biophys.Res.Commun.,209,3,944-952,(1995)COMMENTDatabaseReference:DDBJRATOBESEAccession:D49653
Submitted(10-Mar-1995)toDDBJby:TakashiMurakamiDepartmentofLaboratoryMedicineSchoolofMedicineUniversityofTokushimaKuramotocho3-chomeToku
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 变频器维修技术培训课件
- 建筑企业员工行为培训
- 中考数学二轮复习专项18~20题对点提分训练(三)课件
- 2025蛇年年终总结新年计划工作总结模板
- 15.3 串联和并联(8大题型)(含答案解析)
- 期中模拟检测(1-4单元)(试题)(含答案)-2024-2025学年四年级上册数学北师大版
- 吉林省白山市抚松县 2024-2025学年七年级上学期期中道德与法治试卷(含答案)
- T-ZFDSA 22-2024 芦根蜂蜜饮制作标准
- 【山东省安全员A证】考试题库及答案
- 编舞基础理论知识单选题100道及答案解析
- 国开2024年秋《机械制图》形考作业1-4答案
- 运动安全与健康智慧树知到期末考试答案章节答案2024年浙江大学
- 中国哲学经典著作导读智慧树知到期末考试答案章节答案2024年西安交通大学
- (完整版)四宫格数独题目204道(可直接打印)及空表(一年级数独题练习)
- 2024中国中煤招聘笔试参考题库含答案解析
- 23S519 小型排水构筑物(带书签)
- GA/T 544-2021多道心理测试系统通用技术规范
- 矩阵论知到章节答案智慧树2023年哈尔滨工程大学
- 手机号码归属地数据库
- 个人车位租赁合同电子版
- SQE工作手册范本
评论
0/150
提交评论