(高清版)GBT 40419-2021 健康信息学 基因组序列变异置标语言(GSVML)_第1页
(高清版)GBT 40419-2021 健康信息学 基因组序列变异置标语言(GSVML)_第2页
(高清版)GBT 40419-2021 健康信息学 基因组序列变异置标语言(GSVML)_第3页
(高清版)GBT 40419-2021 健康信息学 基因组序列变异置标语言(GSVML)_第4页
(高清版)GBT 40419-2021 健康信息学 基因组序列变异置标语言(GSVML)_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

35.240.80GB/T40419—2021健康信息学(ISO25720:2009,MOD)国家市场监督管理总局国家标准化管理委员会IGB/T40419—2021 Ⅲ 1 13术语和定义 14GSVML定位 35GSVML结构 3 附录A(资料性)GSVML开发情况说明 20A.1GSVML开发需求分析 20A.2GSVML开发过程 21A.3基本参考资料 22附录B(规范性)GSVML的DTD 附录C(规范性)GSVML的XML模式 ⅢGB/T40419—2021本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。本文件使用重新起草法修改采用ISO25720:2009《健康信息学基因组序列变异置标语言(GS-本文件与ISO25720:2009相比做了下述结构调整:——按照GB/T1.1—2020的规定对原文件中的引言、第2章、第5章、第6章和附录C的内容进的第3章和第4章调整为本文件的第2章和第3章,原文件的附录A和附录B调整为本文件的附录B和附录C。本文件与ISO25720:2009的技术性差异及其原因如下:——按照GB/T1.1—2020的规定对本文件范围进行了修改; 将原文件中第3章的“EN13606(allparts)”调整为本文件中第2章的ISO13606(所有部分) 删除了原文件的参考文献的第20项和22项。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国标准化研究院提出并归口。GB/T40419—2021基因组序列变异研究的爆炸式增长产生了海量的实验数据,并以各种类型的数据格式储存在世界实现全球范围内的交换与共享。国际标准制定组织针对这些数据已经或正在制定相关的标准,HL7(HealthLevelSeven,健康信息交换与传输标准)是针对临床数据制定的标准,DICOM(DigitalImagingandCommuncationinMedicine,医学数字成像和通信)和JPEG(联合图像专家组)是针对影像数据制定的标准,而基因组序列变异置标语言(GenomicSequenceVariationMarkupLanguage,GSVML)是鉴于基因组序列变异——特别是SNP(SingleNucleotidePolymorphism,单核苷酸多态性)和STRP(ShortTandemRepeatPolymorphism,短串联重复多态性)对于改善人类健康的基因医学和药物基因组学具有重大的作用,并且它们是针对基因组数据、尤其是人类相关的DNA变异数据所制定的标准。GSVML开发情况说明见附录A。案例给出了GSVML的规定。SNP和STRP是人类健康相关研究中主要的和简单的多态性,可以其为中心将本文件的应用扩展到其他序列变异数据中。1GB/T40419—2021健康信息学库模式情况下的基因组序列变异数据交换。生物学物种。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文本文件。carerecordcommunication)下列术语和定义适用于本文件。对系统提供刺激的事物或人。注:执行者包括人和其他半自动的物品(如机器、计算机任务和系统)。3.2用于生物信息数据的可扩展语言规范和容器。3.3细胞置标语言cellmarkuplanguage;cellML为基于计算机的生物模型提供一种标准方法进行表示和交换的可扩展置标语言。3.4包含用于人类和小白鼠各种肿瘤组织的基因组表达数据,并提供用于获取基因组数据的方法和试剂信息的数据库。3.5医学信息学领域中用于医学成像设备(如放射学成像)与其他系统之间进行数字信息交换,并确保其互操作性的标准。2GB/T40419—20213.6对细胞核中的遗传信息进行编码的分子。3.7DNA序列变异DNAsequencevariation群体中不同个体之间的DNA序列差异。3.8文档类型定义documenttypedefinition;DTD由特定类型的HTML、SGML或XML文档中的所有数据元素的格式定义组成的独立文档。3.9切入点entrypoint3.10基于基因或遗传学的医学。3.113.12为了在万维网浏览器页面展示而插入到文件中的一组标记符号或代码。3.13一组用于标记文档的符号和规则。3.14描述神经元模型和神经元网络的置标语言。3.15根据患者的基因型开发合理的方法优化药物治疗的制药学分支。3.163.17个体之间在DNA序列方面的差异。3.18系统生物学置标语言systemsbiologymarkuplanguage;SBML用于系统生物学模拟的置标语言。3GB/T40419—20213.19定义不同类型电子文档结构和描述其内容的置标语言。3.20在群体中以可察觉的频率发生的基因序列中的单核苷酸变异。3.21简单对象访问协议simpleobjectaccessprotocol;SOAP3.22具有许多重复的、长度为2~5个碱基的DNA可变片段。3.23特征为相同或密切相关的序列的拷贝数高度变异的多态性类别。3.24无线置标语言wirelessmarkuplanguage规定无线应用协议(WirelessApplicationProtocol,WAP)设备的内容和用户界面的XML语言。3.25专为网络设备展示设计且结合HTML和XML的优点开发的语言。3.26专为网络文档设计的SGML简化版。3.27XML模式XMLschema对XML文档的结构进行描述并对内容进行约束的语言。4GSVML定位GSVML被用于与人类健康相关的数据交换消息。在人类健康应用领域中的GSVML开发和标准通过提供可共享的XML数据交换格式来满足这些基本要求。GSVML可用于在各类数据类型之间进行临床基因组序列变异数据交换。在更高层次的临床数据标准化中,GSVML可用于描述基因组序列5GSVML结构数据的附加数据,如实验分析、流行病学和相关基因等。间接注释准则描述了变异数据的解释性/高层4流行病学流行病学疾病表型组学注释变异类型变异数据体细胞HL7临床基因组模型(试用)变异属GSVML(根)GSVML的详细结构见图2~图19。GSVMLGSVML根variationdatadirectannotationgsvml0..c+图2GSVML的详细结构5GB/T40419—2021variation_typevariation_typeAvariation_attsource0*1..._dbrefstructuredbrefAdatabaseattbvariationdbrefversionx6GB/T40419—2021chromosomenumberpositionmaplocationorientationassgene1-1-10location_dbref图4GSVML的详细结构7GB/T40419—2021molecular_type营lengthvariation_attf3sequencevalidationstatus_successratesourcereleasedate学source_modify_datesourcesourcerawdatasourcedbref*1图4GSVML的详细结构(续)8ass_gene_nameass_geneass_gene_structureaminoacidsubstitutioncodonsubstitutionassgenesymbolassgene_aliasass_geneassgeneass_geneassgene_evidence_typechanged_motif2122 changedmotif changedmotifname_二assgene_dbref1图5GSVML的详细结构9GB/T40419—2021GSVMLGSVML根variationdatadirect_annotation====:::::indirect_annotation图6GSVML的详细结构whole_genome_sequence==5555====555:====0.,odirectannotation_mendeliansegregate_=homozygote_detect somatic_mutation口variation_identity0田2-2epidemiology.::::::::口disease_epidemiology二二population2-3var_ann_misc_descriptionvarannmisc口000var_ann_misc_dbref图7GSVML的详细结构GB/T40419—2021experimental_analysisvariation_identifyexperimentalassayresuhexperimental_assay_descripti..三experimental_assay_parameter2-1u子publication2-1-2-1-2营pcr_confirmedper_primerpcrpcrprofile图8GSVML的详细结构titleauthorournal宣submitternameournal同wolume言address.email2-1-1publicationissueissue_supplement2-1-2submitterpagesyearpublication_statusmeshterm当tel曰-institution2.submitterdbrefpublication=s===53publicationi-337311isubmitterdbref20.o*1允许循环引用图9GSVML的详细结构GB/T40419—2021method_namemethod_nameexperiment_analysisvariation_characterizemethod_descriptionAss0..0method_urlvariation_characterizelinkdisindex-0..0t.di_valuedescend_identity[.-maximumlodscore__genetic_statisticsp-valueAprimed图10GSVML的详细结构行行GB/T40419—2021epidemiology(Statisticaldatasection)epidemiologydisease_epidemiology0population2-3-1race,population_deseriptionx;;xpopulation_parametergendersample_sizepopulation_misc0.,opopulationdbret522haplotypehaplotype_frequencyallele_frequencygenotypegenotype_frequency0..00图11GSVML的详细结构GB/T40419—20210..00..0..00..00营r言laboratoryfindingsexprssion言sysmptoms_expressionphylaxes_expression_prob..-0responder_sideffects_express.1111111111111211111111111111111112111212121:00..00图12GSVML的详细结构GB/T40419—2021GSVMLGSVML根variationdata0..0direct_annotation0..0indirectannotation十0..0图13GSVML的详细结构indirectannotationpersonal_description,phenoypedescriptio00phenotypedhrefpherotypetypephenotype_conditionphenotype_probability.0..0:=2===2===:2===3=,0.00clinical_annotation田284omiestype,omies,omies000_expressioncondition口_口omicsepesionprobablty1expression_condition_probabiomiesannotation十0..0图14GSVML的详细结构GB/T40419—2021clinical_annotation3-1diseased:::2:7::20ISSCSsmcnt2-3-13-1-23-1-23-1-33-1-33-1-43-1-400003-1-63-1-60*1plan3-1-7plan3-1-700*1*1*1图15GSVML的详细结构GB/T40419—2021vnonym0definition_concerptclassificationprobabili..laboratory_findings3-1-3disease_descriptiondiagnostic_standard3-1-2diagnosticdifferentialdiagnostic_criteria甲0.003-1-7prophylaxesdescriptiontherapy甲0pathological_findings0diagnosticetiology_descriptiondisease_descriptiondiagnostic_criteriaprophylaxesexpressionetiologyetiologyprophylaxesetologycondition3-1-43-1-10..00..00图16GSVML的详细结构symptoms_description3-1-2symptoms_condition0..00symptoms_expressionproba图17GSVML的详细结构GB/T40419—2021laboratory_findings_type3-1-3laboratory_findings_descriptionlaboratory_findings_condition77118311788311:7:laboratory_findings_expresio..pathological_findings_descrip..3-1-4pathological_findingspathological_findings_conditionpathological_findings_plication_descriptioncomplicationcomplicationcondition营complication_expression_prob...图17GSVML的详细结构(续)clinicalannotation田imiiiifamily_history_description:=====::=::====::::::=0..03-1-6relationstructure允许循环描述familyhistorydbref*]22family_historypsponderpspondersidefctsdsenppondor_sideffects_causeruspondrsdefictscondionphysiclsurgeryradiationpharmaticalrespondersideffectstherapy3-1-7vativ6GSVML的DTD和XML模式GSVML的DTD见附录B。GSVML的XML模式见附录C。20GB/T40419—2021(资料性)GSVML开发情况说明当前医疗保健领域中存在多种不同类型的数据。随着后基因组时代的来临,世界各国在产生临床数据和影像数据的同时,也产生了大量的基因组数据(见图A.1)。对于基因组研究和基因组医学而言,基因组数据的管理变得越来越重要。而采用信息化方法对临床数据、影像数据和基因组数据进行管理已变得与基础性的湿实验(台式)研究一样重要。临床数据HL7影像数据DICOM,JPEG影像数据DICOM,JPEGGSVMLHL7CG目前世界各国存在多种组学数据有待用于人类健康领域。基因组数据包括基因组序列、DNA序列为切入点、并在DNA序列变异中选择SNP为核心对象的原因有以下三个方面:c)SNP数据已对基因医学和药物基因组学等在人类健康中的应用产生了巨大影响。当前的观点认为SNP是了解人体对外部刺激(如外来入侵、治疗措施以及人体与环境之间的相互作用等)产生反应的关键。外来入侵的典型案例是细菌感染,不同的个体对细菌感染的反应各不相同。白。SNP数据就是典型案例。基因组序列变异数据的处理缺乏标准化的数据格式。为了对世界各国积累的SNP数据进行利用,应制定SNP数据交换标准,内容包括数据格式定义和信息交换等。置标语言是满足这一要求的合理选择。置标语言是对文本进行标记时使用的一套符号及其使用规则。标准通用置标语言(StandardGen-eralizedMarkupLanguage,SGML)是第一个标准化的置标语言,与Unix系统提供的troff及nroff文本布局语言极其相似。超文本置标语言(HypertextMarkupLanguage,HTML)是建立在SGML基础之上的。可扩展置标语言(ExtensibleMarkupLanguage,XML)是SGML的精简本,专为Web文档而设计。XML是可扩展的HTML(XHTML)、无线置标语言(WirelessMarkupLanguage,WML)的基础,也是诸如简单对象访问协议(SimpleObjectAccessProtocol,SOAP)之类的系统交互协议进行标GB/T40419—2021读形式进行定义的。以XML为基础的生物医学领域置标语言已发展了几十年,用于加强研究人员之间的数据交换。生物信息序列置标语言(BioinformaticSequenceMarkupLanguage,BSML)、系统生物学置标语言(SystemsBiologyMarkupLanguage,SBML)、细胞置标语言(Cell置标语言(NeuroMarkupLanguage,Neuro-ML)都是置标语言的范例。多态性挖掘与注释程序(PolymorphismMiningandAnnotationPrograms,PolyMAPr)是以SNP为中心,并尝试通过编程对诸如单核苷酸多态性数据库(dbSNP)、癌症基因剖析工程(CancerGeneAnatomyProject,CGAP)和日本单核苷酸多态性(JapaneseSingleNucleotidePolymorphisms,JSNP)之类的公共数据库实现挖掘、注释和功能分析。上述各项置标语言都曾被用于处理基因组信息,并开发了相应的程序。但一直没有开发以基因组序列变异为中心的置标语言。GSVML是第一个以为人类健康服务为准则、以基因组序列变异为中心的置标语言。其所有的需度和区域)进行可共享的表示。这些表示还应扩展应用到其他异相关基因、个体序列、实验分析之类的变异注释对于理解基因组序列变异的基本原理和情况至关重注释确定变异的含义。考虑到SNP是经过深入研究的一种多态性,并对人类健康和应对措施影响很大,因此可认为GSVML最有可能成为指定的人类健康置标语言。实际应用于人类健康的应用程序应能处理直接或间接的SNP注释。直接的SNP注释是指通用注释信息(如与SNP相关的基因和试验准备),间接的SNP注释是指源于SNP变异的所有组学数据和临床数据。这些附加信息有助于理解每位患者基于基因的临床情况。考虑到增加多种附加信息的要求,所以GSVML的开发与标准化不可能独立进行,需要与其他国际标准制定组织(如HL7)进行协调。GSVML旨在用于与人类健康相关的数据交换消息,因此GSVML的开发与标准化过程中应时刻于提高临床效果很重要。适应能力和方便安装对于降低医疗费用很重要。GSVML试图通过提供可共享的基于XML的数据交换格式来满足这些基本需求。GSVML可用于在各种数据类型之间进行临床基因组序列变异数据交换。在更高层次的临床数据标准化框架中,GSVML起到描述基因组序列变异A.2GSVML开发过程GSVML的开发过程有如下8个步骤。——步骤1:根据对用例的调研设置元素和需求。——步骤2:构建基本结构和DTD。——步骤3:调研现有的生物学置标语言及其对需求的适用性,并与MAGE-ML、BSML、SBML、RNAML、ProML、CellML,PolyMAPr等进行比较。——步骤4:细化基本结构和DTD,构建XML模式(XMLSchema、XSD)。——步骤6:检查HL7基因型模型的接口能力。——步骤7:细化GSVML的需求及其所需的元素。——步骤8:细化基本结构、DTD和XML模式。图A.2给出了GSVML的开发过程框架。其中,GSVML是与HL7临床基因组学特别兴趣小组(HealthLevelSevenClinicalGenomicsSpecialInterestGroup,HL7CGSIG)联合开发的。设计工作与标准化过程之间曾有多次反复的过程。GB/T40419—2021共享格式的提取其他可考虑的数据格式用例分析数据库模式分析未来愿景(可扩展性)消息传输设计应用假设消息传输设计GSVML设计设计工作反馈ISO标准化过程(验证与理由)A.3基本参考资料A.3.1概述本条列出了开发GSVML的参考资料和一份并不详尽的、普适性最强的基本参考资料清单。对于本文件总结了人类健康中基因组序列变异数据交换的典型用例,具体位置用于SNP数据交换的三类准则的六个用例。a)类型I:临床实践应用用例1:遗传诊断或遗传咨询在遗传诊断或遗传咨询中,SNP数据是在医学专家、实验室技术人员和咨询人员之间进行交换。这种情况中,个体的SNP数据应与其临床数据一起发送/接收。更先进的诊断还会要求增加个体的基因组数据(包括组学数据)。用例2:药物基因组学处方在药物基因组学处方中,SNP数据在大多数情况下不会进行交换。交换的数据应是处方、理由及其注释。这种情况中,个体的SNP数据不与其处方结果一起发送/接收。用例3:基因疗法的SNP数据应与其临床数据和基因组数据一起发送/接收。用例4:基于个体多态性的疾病预防在基于个体多态性的疾病预防中,SNP数据是在医学专家和实验室技术人员之间进行交换。这种GB/T40419—2021b)类型Ⅱ:临床试验应用个体的SNP数据应与其临床数据和用于详细说明实验所需的其他数据一起发送/接收。所需的临床数c)类型Ⅲ:转化研究应用种情况中,个体的SNP数据应与其临床数据和用于详细说明实验说明所需的其他数据一起发送/接收。A.3.2.2临床应用场景说明图A.3是GSVML在临床应用场景中的通用用例。通过GSVML,每个执行者都可以顺利地交换数据,而不需改变其现有的数据库模式。同样,研究人员也可以轻松地交换基因组序列变异数据。例如,在遗传诊断中,个体的SNP数据是在诸如医院和医学实验室之类的设施之间进行交换。这些数据也在医学专家、实验室分析人员、咨个体的SNP数据应与其临床数据和某些情况中的组学数据封装在一起用于进一步的检查。为了分析个体的SNP数据,就需要将个体的SNP数据与派生于SNP数据但具有不同类型数据格式的数据库进患者第二诊疗意见医学专家GSVML医学专家咨询人员医院SNP数据库医学实验室图A.3通用用例框架示例在对用例和必备元素进行总结前,应列出对GSVML的需求应考虑的因素(见图A.4)。GB/T40419—2021用例转化研究(包括分析研究阶段)临床试验(人体试验)临床实践(遗传诊断、基因疗法等)数据准则变异数据(等位基因、类型、部位、长度、区域)直接注释(相关基因、实验分析)间接注释(组学、临床、环境)图A.4对GSVML的需求应考虑的因素a)转化研究(包括分析研究阶段);b)临床试验(人体试验);务人员等。表A.1的行是数据类别,并有十一个表示数据格式需求的元素。这些行分类到三个准则中,即基因组序列变异数据、变异数据的直接注释和变异数据的间接注释。基因包含在SNP注释中。临床信息和观察结果包含在间接注释的临床注释中。包括蛋白质组学数据在内的各种组学数据包含在间接注释的组学注释。这些元素的需求在用例之间是不同的。例如,组学表A.1用例与必备元素的总结E——必需NE——非必需R——参考(知识)变异数据直接注释间接注释位置流行病学实验分析其他个体基因组序列组学注释临床注释表型环境条件准则用例元素参与方等位基因类型部位长度区域相关基因频率人口等疾病流行病学临床实践遗传诊断或咨询医学专家咨询人员(患者)REEERRRENENER尽最大可能包括家族病史候选人员EGB/T40419—2021表A.1用例与必备元素的总结(续)E———必需NE——非必需R——参考(知识)变异数据直接注释间接注释位置流行病学实验分析其他个体基因组序列组学注释临床注释表型环境条件准则用例/元素参与方等位基因类型部位长度区域相关基因频率人口等疾病流行病学临床实践源自药物基因组学的处方医学专家药剂师医院药店患者制药公司REEERRERNENENE正常没有正常没有作为结果E基因疗法医学专家护士医院REEERRRENENER尽最大可能包括应对方信息作为结果E基于个体多态性的疾病预防医学专家营养咨询人员REEERREENENENE包括其他多态性包括疾病史候选人员NE临床试验医学专家临床调查员护士研究人员临床检查(CT等)EEEEEERRERE尽最大可能包括详细的时间进程候选人员E转化研究医学专家临床调查员护士研究人员临床检查(CT等)EEEEEERRERE尽最大可能包括详细的时间进程候选人员EGB/T40419—2021A.3.3SNP数据库的多样性表A.2给出了国际现有SNP数据库的多样性分析结果。以分子类型为例,每个数据库都使用了单词“cDNA”或“RNA”。这两个词在序列方面意义几乎相表A.2国际现有SNP数据库的多样性分析结果对比项JSNPdbSNPHGVBaseALFRED人类SNP数据库URLhttp://snp.ims.u-to-kyo.ac.jp/index_ja.htmlhttp://www.ncbi.SNP/http://hgvbase.cgb.ki.se/http://alfred.med/alfred/index.asphttp://www.broad./snp/human/index.html分子类型NA基因组,cDNADNA,RNANA公司)变异类型删除/插人多态性微卫星删除/插入异性序列微卫星或短串联重复命名变体无变异混合编译多核苷酸多态性删除/插入短串联重复序列通用型等位基因频率人群仅限日本人大约700多元人群多元人群多元人群生物体人类智人拟南芥秀丽隐杆线虫白领姬钨斑姬鹑原鸡小家鼠黑猩猩恶性疟原虫褐家鼠人类人类人类A.3.3.2数据表示的多样性表A.3给出了SNP数据库中数据表示的多样性。GB/T40419—2021表A.3SNP数据库中数据表示的多样性对比项JSNPHGVBaseAlfred人类SNP数据库5'侧翼序列CAGGAAAC…]CAGGAAAC..CAGGAAAC...5'-ta…NA序列CAGGCAAC..CAGGCAAC..NA等位基因..C...重复CACACACACACACACACACACACAAlleleCACACAAlleleCACACACAAlleleCACACACACACACACACACACACACACACACACA删除A/-ObservedA/-AlleleAAlleleA/NA/NSNP数据的表示也有很大的差异。A.3.3.3序列变异数据表示的多样性表A.4给出了序列变异数据表示的多样性。表A.4SNP数据库之间序列变异数据表示的多样性对比项Alfred人类SNP数据库(微卫星)VNTR插入删除替换OOOOOOOOOOOOOOOOOO△△△△△△△不可用不可用不可用不可用不可用GB/T40419—2021表A.4SNP数据库之间序列变异数据表示的多样性(续)对比项人类SNP数据库TC有可能不可用插入删除CC/-有可能不可用GB/T40419—2021表A.4SNP数据库之间序列变异数据表示的多样性(续)对比项JSNPdbSNPHGVBaseAlfred人类SNP数据库STRPMIC《/snp-type)(snp-5flank_seq)AA(/snp-5flank_seq)(snp-3flank_seq)AG(/snp-3flank_seq)(snp-allele_na_set)(snp_allele_na-nuc)AAAAAAA(NSE-ss_subsnp-classValue="microsat"/)(NSE-ss_observed)(/NSE-ss_observed)curationStatus="MRA"type="TandemRepeat"status="Proven")(definitionmolecule="DNA")(upStreamSeq)CGCCACTTTGTC-CCGGC(/upStreamSeq)(dnSaeamSeq)GGAAAGGC-CAACGGTCG</dnStreamSeq)Record"/)repeat="(A)10")AAAAAAAAAA(/al-有可能不可用STR000008185.ALE₀00013696repeat="(A)12">AAAAAAAAAAAA(/allele)O——术语准确;△——术语不准确;※——该数据库以前就有,但当前不可用。A.3.4置标语言比对A.3.4.1通则结果总结如下可总结如下:a)所有置标语言都能描述DNA序列数据,但表示方式不同;b)不是每种置标语言都能详细描述变异数据;c)几乎所有的置标语言都能描述蛋白质组信息,但条件词汇的定义各不相同;标语言中意指生物分类;e)所有置标语言都不具有对临床注释数据的描述能力或可扩展性;f)所有置标语言都不具有与HL7基因型模型进行交互的能力。GB/T40419—2021A.3.4.2置标语言到数据类别的映射每种置标语言都有其特定的应用目标。将每种置标语言映射到表A.1中的数据类别可说明GSVML在置标语言中的定位。A.微阵列基因表达置标语言(MAGE-ML)微阵列基因表达置标语言(MicroArrayGeneExpressionMarkupLanguage,MAGE-ML)是一种用于描述关于DNA阵列实验和基因表达数据信息的数据格式。MAGE-ML可用来表示诸如表A.1中间接注释的组学数据之类的表达式数据。生物信息学序列置标语言(BioinformaticSequenceMarkupLanguage,BSML)对生物序列信息进行编码,包括对诸如序列、基因、电泳凝胶和多重比对之类的有生物学意义的对象的图形表示。BSML可将分子序列数据表示为表A.1中间接注释的组学数据和直接注释的个体序列。A.系统生物学置标语言(SBML)系统生物学置标语言(SystemsBiologyMarkupLanguage,SBML)可表示许多研究中常见的生物系统的模型,包括细胞信号通路、代谢通路、生化反应等。SBML可用来表示诸如表A.1中间接注释的组学注释的分子网络。A.RNAMLRAN置标语言(RNAMarkupLanguage,RNAML)旨在促进多个RNA信息学程序之间的互操作。RNAML是交换信息的标准语法。RNAML可用来表示诸如表A.1中间接注释的组学注释的A.PolyMAPrPolyMAPr是一个以SNP为中心的程序,试图实现对公共数据库(dbSNP、CGAP和JSNP)的挖A.3.5与HL7的交互分析A.3.5.1通则方法和参考信息模型(ReferenceInformationModel,RIM)。RIM具有强大的描述创建消息的能力。本条通过对CGWG开发的HL7v3(第10次投票版本)基因型模型(见图A.5)与GSVML的内容进行比对来检验与HL7的交互能力。GB/T40419—2021切入点:基因型多肽基因表达个体等位基因(1..3)序列变异(SNP等)临床表型单体型图A.5HL7v3基因型信息模型与解释A.通则HL7基因型模型描述了与基因型相关的数据。HL7建议基因型作为健康领域中基因组信息交换的基本单位。HL7基因型模型并不是生物学模型,而是针对个性化医疗愿景的医疗保健需求。相比之物学模型。这种差异通常反映在这些模型的切入点、结构和内容等方面的差异上(如A.~A.所述)。A.切入点HL7v3基因型模型的切入点是基因型(基因位点)。相反,GSVML的切入点是变异位点(见GB/T40419—2021HLHL7切入点几基因型基因DNA序列RNA序列蛋白质序列GSVML切入点性能序列表达性能性能变异户图A.6GSVML需求应考虑的因素型有关。GSVML中,变异与基因型、等位基因和序列有关。表达和表型被描述为直接注释或间接注释。具体见图A.7。HLHL7切入点变异数据表型GSVML切入点表型序列表型等位基因基因型表达表型表型图A.7HL7基因型模型与GSVML的结构GB/T40419—2021HL7v3基因型模型和GSVML都具有遗传信息和源自遗传信息的基础信息。在HL7v3中,相关联的临床信息是在其他信息模型中进行描述的。另一方面,GSVML具有描述各种相关联的信息(如实与HL7v3基因型模型的比对见表A.5。HL7v3基因型模型变异数据O直接注释△间接注释△A.3.5.3HL7基因型信息模型HL7基因型信息模型见图A.8。HL7CGSIG从临床和更广泛的角度建立了该模型。该模型将GSVML是一种共享数据交换格式,旨在交换基因组序列变异数据及其注释信息(包括临床信息)。GB/T40419—2021而ISO13606主要针对的是EHR标准化。二者的目标范围不同,但相互补充。此外,考虑到未来的基ISO13606采用的是明确将知识和信息模型分离的两层次方法学,而传统方法采用的是将知识与信息模型混合在一起的单一方法学。GSVML可使用这两种方法学。用户可选择预设的简化本体和信ISO13606有5个部分(第1部分:参考模型,第2部分:原型交换规范,第3部分:参考原型与术语方法学中的核心概念是第1部分中的参考模型以及第2部分和第3部分中的原型。GSVML类别与ISO13606各个部分之间的对应关系框架见图A.9。将GSVML应用于ISO13606的最简便方法是对整个GSVML进行封装。对于更多的显式基因组EHR,在ISO13606的第1部分、第2部分和第3部分中应对GSVML进行明确说明。ISO13606的当前版本给出了可包含基因组信息及其注释信息的框架,但没有给出专用于基因组信息及其注释信息的信息模型或知识模型。GSVML可作为ISO13606的补充部分。内容内容变异数据源直接注释间接注释表型疾病流行病学组学注释第1部分第2部分第3部分GB/T40419—2021<?xmlversion=1.0'encoding='Shift_JIS?)"gsvmlelement:GenomicSequenceVariationMarkupLanguagevariation_data:variationdatadirect_annotation:directannotationofvariationdataindirect_annotation:indirectannotationofvariationdata"assessmentelementassessment_result:resultsoftheassessmentassessment_dbref:databasereferenceoftheassessmentass_gene_name:genenameass_gene_structure:categoryofgenestructuree.g.exon,introncodon_substitution:codonsubstitutiongeneratedbyvariationcodon_position:codonpositionass_gene_symbol:genesymbolass_gene_alias:genealiasass_gene_product:geneproductchanged_motif:motifchangeexistsornotchanged_motif_name:nameofmotifchanged_splice_site:splicesitechangeexistornotsplice_variant_number:numberofsplicevariantandrefSeqass_gene_dbref:databasereferenceinformation"ass_gene_dbrefelementdatabase_name:nameofthedatabasedatabase_id:IDofthedatabaselink_url:URLofthedatabasedatabase_attbt:attributeofthedatabasedata_id:IDofthedatumdata_attbt:attributeofthedversion:versionofthedatabase"clinical_annotationelementdisease:diseaseinformation"clinical_annotationdbrefelementdatabase_name:nameofthedatabasedatabase_id:IDofthedatabaselink_url:URLofthedatabasedatabase_attbt:attributeofthedatabasedata_id:IDofthedatumversion:versionofthedatabase"clinicalobservationelementsubjective_findings:subjectivefindingsinclinicalobservationobjective_findings:objectivefindingsinclinicalobservationassessment:assessmentoftheclinicalobservationplan:planoftheclinicalobservationclinicalobservation_dbref:databasereferenceoftheclinicalobservation"clinical_observation_dbrefelementdatabase_name:nameofthedatabasedatabase_id:IDofthedatabaselink_url:URLofthedatabasedatabase_attbt:attributeofthedatabasedata_id:IDofthedatumdata_attbt:attributeoftversion:versionofthedatabase"complicationelementcomplication_description:descriptionofthecomplicationcomplication_condition:conditiontoexpressthecomplicationcomplication_:probabilitywhenthecomplicationisexpressed"conservativeelementpharmaceutical:pharmaceuticalelementphysical:physicaltreatmentelement"diagnostic_criteriaelementdiagnostic_standard:standarddiagnosticcriteriadiagnostic_modify:modifieddiagnosticcriteriadiagnostic_differential:differentialdiagnosisuse"differenceselementrace:racialdifferencegender:genderdifference"direct_annotationelementwhole_genome_sequence:wholegenomesequenceofthedatummendelian_segregate:knownmendelizationhomozygote_detect:homozygoteindividualsobservationinsamplesomatic_mutation:knownsomaticmutationexperimental_analysis:explanationoftheexperimentalandtheanalysisepidemiology:epidemiologyofthediseaseandassociatedgenevar_ann_misc:variationannotationmiscellaneousdisease_description:descriptionofthediseasedisease_epidemiology:epidemiologyofthediseasedisease_dbrefelement:databasereferencesofthediseaseattributesid:ofthedisease__ date:created _date:modified"disease_dbrefelementdatabase_name:nameofthedatabasedatabase_id:IDofthedatabaselink_url:URLofthedatabasedatabase_attbt:attributeofthedatabasedata_id:IDofthedatumversion:versionofthedatabase"disease_descriptionelementname:nameofthediseasesynonym:synonymofthediseasedefinition_concept:definitionorconceptofthediseaseclassification:classificationofthediseaseetiology:etiologyofthediseaselaboratory_findings:elementoflaboratoryfindingsofthediseasepathological_findings:pathologicalfindingsofthediseasesymptoms:symptomsofthediseasediagnostic_criteria:criteriaofdiagnosisforthediseasetherapy:therapyofthediseasecomplication:complicationsofthediseaseprophylaxes:prophylaxesofthedisease"disease_epidemiologyelementstriking_age:strikingageofthediseasestriking_body_area:strikingbodyareaofthediseasestriking_land_area:strikinglandareaofthediseaselaterality:lateralityofthediseasee.g.hemilateral,bilateraldifferences:statisticaldifferencesprognosis:prognosisofthediseaseetiology_expression_probability:expressionprobabilityoftheetiologylaboratory_findings_expression_probability:expressionprobabilityofthelaboratoryfindingssymptoms_expression_probability:expressionprobabilityofthesymptomprophylaxes_expression_probability:expressionprobabilityoftheprophylaxespathological_findings_expression_probability:expressionprobabilityofthepathologicalfindingscomplication_expression_probability:expressionprobabilityofthecomplication"environmental_conditionelementexpression_condition:environmentalconditionoftheexpression"epidemiologyelementass_gene:associatedgenedisease_epidemiology:epidemiologyoftheassociateddiseasepopulation:populationofthevariationfrequency:frequencyofthevariationetiology_description:descriptionoftheetiologyanditsmechanismetiology_condition:conditionstoexpresstheetiologyetiology_expression_probability:expressionprobabilityoftheetiology"experiment_analysiselementvariation_identify:informationtoidentifythevariationvariation_characterize:characterizationofthevariationdatum"experimental_assay_dbrefelementdatabase_name:nameofthedatabasedatabase_id:IDofthedatabaselink_url:URLofthedatabasedatabase_attbt:attributeofthedatabasedata_attbt:attributeofthedatumversion:versionofthedatabase"expression_conditionelementexpression_condition_description:oftheexpressionconditionexpression_condition_probability:oftheexpressionconditionomics_annotation:annotationoftheomicsfamily_history_description:descriptionofthefamilyhistoryfamily_history_dbref:database_referenceofthefamilyhistory"family_history_dbrefelementdatabase_name:nameofthedatabasedatabase_id:IDofthedatabaselink_url:URLofthedatabdatabase_attbt:attributeofthedatabasedata_attbt:attributeofthedatumversion:versionofthedatabase"family_history_descriptionelementfamily_member:memberofthefamilyrelation_structure:relationalstructureofthefamily"family_memberelementpersonal_info:personalinformationofvariationdataphenotype:phenotypeofthesequencevariationclinical_annotation:clinicalannotationofthesequencevariation"frequencyelementhaplotype:haplotypehaplotype_frequency:frequencyofthehaplotypeallele:observedalleleallele_frequency:frequencyoftheobservedallelegenotype:genotypegenotype_frequency:frequencyofthegenotype_id:IDofthefrequencyid:IDofthesubmitter__id:IDofthepopulation_id:IDoftheassay_id:IDofthepublication_date:datecreated_date:datemodifiedperson_info:personalinformationofvariationdataphenotype:phenotypeofthesequencevariationomics_annotation:annotationtypeoftheomicsenvironmental_condition:environmentalconditionsoftheexpressionclinical_annotation:clinical"laboratory_findingselementlaboratory_findings_type:typeoflaboratoryfindingse.g.urine,blood,ECG,imagelaboratory_findings_description:descriptionofthelaboratoryfindingslaboratory_findings_condition:conditionofthelaboratoryfindings"link_dis_indexelementd:dvalueforLinkageDisequilibriumtestd_prime:dprimeforLDtestchromosome_number:thenumberofthechromosomeposition:positionofthevariationinthechromosomemap:chromosomemaponwhichthevariationisorientation:chromosomeorientationonwhichthevariationisass_gene:associatedgenelocation_dbref:databasereferenceoflocation"methodelementmethod_name:statisticalmethodnamemethod_description:descriptionorexplanationofthemethodmethod_url:URLofthemethod"objective_findingselementlaboratory_findings:laboratoryfindingsofthedisease40pathological_findings:pathologicalfindingsofthediseasecomplication:complicationsofthediseasefamily_history:familyhistory"omics_annotationelementomics_typeelement:typeofomicsomics_descriptionelement:descriptionoftheomicsomics_dbrefelement:databasereferenceoftheomicspathological_findings_description:descriptionofthepathologicalfindingpathological_findings_condition:conditionofthepathologicalfindingpathological_findings_expression_probability:expressionprobabilityofthepathologicalfindingpcr_confirmed:artifactverificatione.g.variationfoundonrepeatPCRsamplepcr_primer:primersequencepcr_product:PCRproducte.g.singleband,multibandpcr_profile:PCRprofilepersonal_description:descriptionofthepersonalinformationpersonal_dbref:databasereferenceofthepersonalinformation"pharmaceuticalelementresponder_sideffects:responderand/orsideeffectsphenotype_description:descriptionofthephenotypephenotype_dbref:databasereferencesofthephenotyopeid:IDofthephenotypeid:IDofthesubmitter_date:datecreated_date:datemodified_"phenotype_dbrefelementdatabase_name:nameofthedatabasedatabase_id:IDofthedatabaselink_url:URLofthedatabasedatabase_attbt:attributeofthedatabasedata_id:IDofthedatumversion:versionofthedatabasephenotype_type:typeofthephenotypephenotype_condition:conditiontoexpressthephenotypephenotype_probability:probabilitytoexpressthephenotypeontheconditionstherapy:therapyofthedisease"populationelementpopulation_description:descriptionofthepopulationorganism:organismdifferences:statisticaldifferencespopulation_parameter:parameterofpopulationsample_size:samplesizeofpopulationpopulation_misc:populationmiscellaneouspopulation_dbref:databasereferencesofthepopulationattributes_id:IDofthepopulationid:IDofthesubmitter__date:datecreated_date:datemodified"population_dbrefelementdatabase_name:nameofthedatabasedatabase_id:IDofthedatabaselink_url:URLofthedatabasedatabase_attbt:attributeofthedatabased

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论