2024罕见病表型术语识别及诊断知识图谱构建技术要求_第1页
2024罕见病表型术语识别及诊断知识图谱构建技术要求_第2页
2024罕见病表型术语识别及诊断知识图谱构建技术要求_第3页
2024罕见病表型术语识别及诊断知识图谱构建技术要求_第4页
2024罕见病表型术语识别及诊断知识图谱构建技术要求_第5页
免费预览已结束,剩余2页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目次前言 II1范围 12规范性引用文件 13术语和定义 14缩略语 15概述 16罕见病表型术语识别 2数据收集和整理 2目次前言 II1范围 12规范性引用文件 13术语和定义 14缩略语 15概述 16罕见病表型术语识别 2数据收集和整理 2术语标准化 2实体识别和关系抽取 2数据标注和验证 2罕见病诊断知识图谱构建技术要求 2概述 2知识获取 2知识抽取 3知识融合 3知识建模 3知识评估 4知识推理 4知识存储 4安全性要求 578I罕见病表型术语识别及诊断知识图谱构建技术要求1 范围本文件适用于罕见病表型术语识别及诊断知识图谱系统的构建。2 规范性引用文件(包括所有的修改单适用于本文件。GB/T22239 信息安全技术 网络安全等级保护基本要求GB/T35273 信息安全技术 个人信息安全规范罕见病表型术语识别及诊断知识图谱构建技术要求1 范围本文件适用于罕见病表型术语识别及诊断知识图谱系统的构建。2 规范性引用文件(包括所有的修改单适用于本文件。GB/T22239 信息安全技术 网络安全等级保护基本要求GB/T35273 信息安全技术 个人信息安全规范3 术语和定义下列术语和定义适用于本文件。知识图谱 knowledgegraph表型术语 PhenotypeOntology表型术语被定义为一些临床观察到的,偏离正常形态、功能、生理或者行为的描述。人类表型术语HumanPhenotypeOntology,HPO4 缩略语LHS 学习型健康医疗系统 LearningHealthSystemRDF 资源描述框架 ResourceDescriptionFramework5 概述应针对检验、检查等结构化数据识别HPO表型术语的判断逻辑规则,以及在电子病历(EMR)中的自然语言处理程序(NLP),以二者为基础从EMR中识别表型术语,并结合OMIM、孤儿院等罕见病知识库,1续获得协作网内罕见病确诊病例后,通过LHS等理念进一步完善诊断知识图谱。6 罕见病表型术语识别数据收集和整理EMRHPO表型术语。术语标准化应对罕见病相关的术语和表达进行标准化。实体识别和关系抽取应设计整合基于词典及机器学习的NLP数据标注和验证应对识别和抽取的结果进行人工标注和验证,以确保结果的准确性和可靠性。标注人员应具备相关医学知识,能够正确理解和标注罕见病表型术语。续获得协作网内罕见病确诊病例后,通过LHS等理念进一步完善诊断知识图谱。6 罕见病表型术语识别数据收集和整理EMRHPO表型术语。术语标准化应对罕见病相关的术语和表达进行标准化。实体识别和关系抽取应设计整合基于词典及机器学习的NLP数据标注和验证应对识别和抽取的结果进行人工标注和验证,以确保结果的准确性和可靠性。标注人员应具备相关医学知识,能够正确理解和标注罕见病表型术语。EMR,设计从结构化数据中抽取语义一致的表型术语算法。7 罕见病诊断知识图谱构建技术要求概述构建针对检验、检查等结构化数据识别HPO表型的逻辑判断规则以及自然语言处理程序,以二者为基础从EMR中识别表型术语,并结合OMIM、Orphanet等罕见病知识库,通过疾病-表型-权重三元组关联分析,形成罕见病诊断语义知识图谱。总技术路线见图1。图1 总技术路线图知识获取2知识获取阶段应明确知识图谱构建的数据来源,针对不同的数据来源制定相应的获取策略并进行获取,做好后续构建流程的数据准备。知识获取包括知识采集和知识导入。对知识获取阶段的技术要求如下:——应能从协作网异构EMR中全面、准确识别HPO表型术语;——应明确构建知识图谱所需数据的来源,如文献、书籍等非结构化数据、数据库中的结构化数据、图像、语音、视频等非文本数据等;——对于组织内的内部数据,应对数据进行脱敏转换后进行使用;——对于互联网数据,应利用爬虫工具或自行开发爬虫程序爬取数据,并经过数据解析、清洗后形成数据集;——对于组织外的合作伙伴数据,应通过接口获取或者通过数据文件的传送获取数据;——应将获取到的数据导入到数据库或存储中,以用于后续的分析。知识获取阶段应明确知识图谱构建的数据来源,针对不同的数据来源制定相应的获取策略并进行获取,做好后续构建流程的数据准备。知识获取包括知识采集和知识导入。对知识获取阶段的技术要求如下:——应能从协作网异构EMR中全面、准确识别HPO表型术语;——应明确构建知识图谱所需数据的来源,如文献、书籍等非结构化数据、数据库中的结构化数据、图像、语音、视频等非文本数据等;——对于组织内的内部数据,应对数据进行脱敏转换后进行使用;——对于互联网数据,应利用爬虫工具或自行开发爬虫程序爬取数据,并经过数据解析、清洗后形成数据集;——对于组织外的合作伙伴数据,应通过接口获取或者通过数据文件的传送获取数据;——应将获取到的数据导入到数据库或存储中,以用于后续的分析。知识抽取知识抽取阶段应将非结构化或半结构化的原始数据抽取成图谱标准知识,方便图谱高效地进行知识构建,知识抽取包括实体抽取、事件抽取、属性挖掘和知识标化等。对知识抽取阶段的技术要求如下:——应能针对协作网内异构的EMR,设计从结构化数据中抽取语义一致的表型术语算法;OCRNLP——应支持通过图谱的模式建模能力将业务领域知识抽象成图谱的实体、关系、属性、约束等;NLP——宜支持通过有限配置构建事件抽取服务,并将抽取结果写入图谱;——应支持从不同信息源中采集特定实体的属性信息。知识融合对知识融合阶段的技术要求如下:——应能对权威罕见病诊断知识库与协作网内多家医院罕见病病例库进行持续知识整合;——在同构环境下,应支持每个实体在全局有唯一实例,如通过提供系统插件以及搜索引擎、图查询、实体相似度等能力,实现开发少量代码即可快速发现、消除重复冗余实体;——应支持包括异构多源实体、不同图谱下同质异构实体的融合,如通过提供可解释、可回溯的规则管理能力,方便管理融合策略;——应支持为不同领域同实体共享、差异化迭代提供的实体继承能力,宜支持选择深度、浅度继承公共实体,新增或覆盖已有属性;——宜支持多源知识子图的融合,如通过提供子图约简、图嵌入、子图相似度等能力,实现高效地融合知识图谱间的结构信息与语义信息。——宜支持关系分层继承能力,方便概念管理;——宜支持多语言的知识融合;——宜支持新增知识的实时融合。知识建模3知识建模阶段应首先将业务知识转化成图谱形式表达,完成结构化数据到语义逻辑知识化的建模,并完成知识图谱内容的构建。知识构建包括模式定义、自动化建模、混合索引及实时调度等。对知识建模阶段的技术要求如下:——通过对罕见病大型队列电子病历中的表型数据提取,整合并优化疾病临床表型本体、语义模型和知识图谱,强化罕见病的推理权重,建立基于表型大数据的罕见病辅助诊断模型,为罕见病的临床诊治提供表型证据支持;——应支持通过图谱的模式建模能力将业务领域知识抽象成图谱的实体、关系、属性、约束等;——应支持针对模式的增删改查等操作;——宜支持引用其他领域已有的关系、实体定义等;——应支持自动化的知识建模服务;——宜支持自上而下和自下而上的途径进行知识构建;——应支持针对文本、向量、空间等索引查询召回能力的索引配置能力;——宜支持流、批一体的构建链路,支持业务数据变更后秒级通过图谱构建链路更新到图谱中;知识建模阶段应首先将业务知识转化成图谱形式表达,完成结构化数据到语义逻辑知识化的建模,并完成知识图谱内容的构建。知识构建包括模式定义、自动化建模、混合索引及实时调度等。对知识建模阶段的技术要求如下:——通过对罕见病大型队列电子病历中的表型数据提取,整合并优化疾病临床表型本体、语义模型和知识图谱,强化罕见病的推理权重,建立基于表型大数据的罕见病辅助诊断模型,为罕见病的临床诊治提供表型证据支持;——应支持通过图谱的模式建模能力将业务领域知识抽象成图谱的实体、关系、属性、约束等;——应支持针对模式的增删改查等操作;——宜支持引用其他领域已有的关系、实体定义等;——应支持自动化的知识建模服务;——宜支持自上而下和自下而上的途径进行知识构建;——应支持针对文本、向量、空间等索引查询召回能力的索引配置能力;——宜支持流、批一体的构建链路,支持业务数据变更后秒级通过图谱构建链路更新到图谱中;——宜支持多人在线协同编辑,且实时更新。知识评估知识评估阶段用于保障新加入知识图谱的知识的质量,应主要包括规则评估、人工评估、智能评估三种方式。对知识评估阶段的技术要求如下:——应支持规则评估结合外部接口调用来评测知识正确性,或依赖系统规则评测知识的时效性、覆盖率等;——应支持人工评估与知识标注平台无缝打通;——宜支持带条件的对实体、属性、关系等做无偏采样,自动打通外包、众包评估,持续评测知识质量;——应支持智能评估与算法模型结合,针对知识正确性、结构稳定性等进行评估。知识推理对知识推理阶段的技术要求如下:——应支持知识问答能力,基于知识图谱实现知识问答;——应支持关联分析能力,基于知识图谱实现知识的关联分析;——宜支持规则推理能力,包括基于专家经验,在图上进行基于路径和节点属性计算的迭代推理能力;——宜支持表示推理能力,包括并不限于通过联动图谱存储、图训练框架实现表示推理能力;通过对知识的嵌入表示,然后结合深度学习实现推理能力,同时可支持多种算法,结合业务下游模型进行关系预测、属性预测、推荐排序等。知识存储知识存储阶段将知识图谱的概念层和数据层以计算机可识别的数据格式进行保存的物理形式,知识图谱的存储并不用依赖特定的底层结构,一般的做法是按照数据和应用的需求采用不同的4底层存储。7.8.3 对知识图谱系统的知识存储组件的功能要求如下:——应满足基础的图数据存储需求,设计具备良好可伸缩性和灵活性的知识存储结构,可满足多RDF——应具备查询、读取、计算和应用需求的支持,可以实现和不同存储、计算组件的交互,可以底层存储。7.8.3 对知识图谱系统的知识存储组件的功能要求如下:——应满足基础的图数据存储需求,设计具备良好可伸缩性和灵活性的知识存储结构,可满足多RDF——应具备查询、读取、计算和应用需求的支持,可以实现和不同存储、计算组件的交互,可以满足上层应用对于存储组件进行增删查改的功能和性能需求;——应具备对于安全性、可靠性、维护和管理的支持,可以实现基于角色的访问控制、加密、多用户、高可用性、备份和还

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论