医疗大数据搜索系统的建设与应用_第1页
医疗大数据搜索系统的建设与应用_第2页
医疗大数据搜索系统的建设与应用_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医疗大数据搜索系统的建设与应用摘要:医院信息化的建设过程中,各个系统围绕业务应用分批分期建立,逐步 覆盖业务全流程的同时,积累了大量医疗数据,这些数据均具有多源异构、分布 式、碎片化等特点。为有效整合分散于各独立系统中的数据,并利用这些数据更 好地为临床科研服务,以满足日益增长的临床科研数据服务需求。本文对医疗大 数据搜索系统的建设与应用进行探讨。关键词:医疗大数据;搜索系统;建设应用1功能实现1.1科研数据中心科研数据中心按照人数和人次维度建立索引以满足不同科研的查询需求,并 以ElasticSearch专用格式建立索引文档。索引文档设计时需保留数据间的业务关 系,这不仅可实现搜索内容的秒级

2、呈现,还支持组合、多级条件查询。另外索引 项目的建立也结合了临床业务常用查询需求,确保符合用户科研搜索使用习惯。 1.2数据搜索及导出在对数据库存储结构非常熟悉的情况下,基于传统关系型数据库的复杂检索 可能需要耗费几个甚至十几个小时。本文提出的医疗大数据搜索系统通过大数据 搜索引擎技术,可实现互联网的快速交互响应,支持用户对搜索内容的秒级呈现, 同时还结合了临床业务建立常用查询、导出项目,方便医生的快速学习和使用。 1.3数据管理及隐私保护考虑到医疗数据的患者隐私保护与保留数据的研究规律,在数据脱敏设计上 去除单一粗暴的隐私数据替换功能,采用当前主流的脱敏技术,提供多种脱敏方 式,包括全部替换

3、、局部替换、日期偏移、数据映射、截断、遮罩、数值取整和 自动编号等。另外,基于科研机构对数据的审计需求,系统对用户导出的查询数 据进行副本留痕,并对留痕文件进行加密处理,降低服务器被攻击后数据泄露的 风险。1.4医学文本后结构化处理除众多的结构化数据外,医学文本类数据(如患者的现病史、既往史、病程 记录、影像学报告等)也含有十分重要的信息。文本后结构化处理结合了 NLP、 语义语法规则库等人工智能技术,能够将医学文本中的信息进行结构化提取,方 便医生利用。由于病种特点和个人书写习惯等问题,结构化的算法需要不断学习 以达到更高的准确率。为提高用户科研效率,减少结构化数据的迭代周期,系统 提供可视

4、的后结构化配置界面和实时结构化应用程序编程接口(applicationprogramminginterface,API),保证调整规则及算法后可及时看到效 果。1.5统计分析功能在临床医生的科研工作中通过统计分析的方法挖掘临床数据中的规律是一个 必不可少的环节。目前,临床医生大多将数据导出后,使用通用的统计分析软件 进行数据分析。但这种方法存在几个问题:(1)导出数据的安全性较难保证;(2)通用的统计分析软件功能强大但操 作复杂,对使用者的统计学知识要求较高;(3)部分功能未针对医疗行业进行 细化。因此,系统在主流的R语言算法基础上构建了专业的统计分析工具,通过 浏览器端在线分析、增加智能化推

5、荐算法功能等方式解决上述问题。同时,系统 不仅提供了数据预处理功能,还提供了对研究变量可根据医学统计学方法进行缺 失值分析填补、离散化处理等功能,为数据分析的全流程提供帮助。2应用效果2.1数据规模科研数据中心包括院内自信息化以来的存量数据,收录有效就诊患者 31748245人次,其中门诊就诊30849299人次,住院就诊898946人次,详细数据 时间周期如图1所示。据统计,科研数据中心已提供了 41017个科研变量,共计 9亿多条数据。同时,数据中心支持以增量方式接入院内新产生的业务数据,提 供实时的数据利用服务能力。图1科研数据中心数据时间周期2.2科研查询服务目前,医疗大数据搜索系统已

6、为妇科、肾内科、耳鼻喉科、肝病科、血液科、风湿免疫 科等十几个科室的科研课题提供了数据查询服务。医疗大数据搜索系统改变了跨系统查询耗 费时间长的问题,实现了医生对于权限内的数据自行创建、查询,秒级显示查询结果,且与 CDR进行集成以辅助医生对患者历次就诊结果进行查看与分析等功能。2.3数据安全保障按照医院管理流程对检索条件进行逐级审批管理,保证了数据安全。审批时可显示审批 履历、标识检索条件和结果涉及的敏感项,并设置过期时间。医疗大数据搜索系统参考 HIPAA法案定义的18项身份识别信息进行数据脱敏设置,并根据医院自身情况设置隐私患者 及隐私病区。2.4提高运行效率医疗大数据搜索系统采用医学N

7、LP和机器学习技术处理通用后结构化变量30个、专科后 结构化归一变量44个,提供了医生可设置的后结构化配置界面,实现了医生修改规则后可 实时通过系统看到后结构化的效果。通过提高后结构化效率,缩短了医生数据分析时间,进 而提高了科研效率。2.5数据统计分析系统基于主流的R语言统计分析工具包构建统计分析方法库,保证了结果的准确性;聚 焦于医疗常用的分析方法(如各类假设检验、生存分析等)提高了行业的专业度;将数据查 询结果与统计分析集成,保证了数据的保密性和安全性;纳入了智能分析模块,可以根据数 据的类型(离散型、连续型)、分布情况(是否正态)等帮助用户推荐分析方法,提升了系 统的易用性。3讨论医疗

8、大数据搜索系统有效整合了分散于各独立系统间的数据,提高了临床科研数据查询 的质量和效率。但其建设仍处于摸索过程中,需要反思与持续改进。3.1产品选型目前,医院尚缺乏自主研发能力,这就必然涉及产品选型。传统HIT公司虽熟悉医院的 业务场景、工作流程和医疗业务系统架构,在系统的对接方面具有一定的优势。但大数据往 往仅是传统HIT公司的方向之一,因此在技术更新、人才吸纳、市场推广等方面很难有突破。 而大数据公司由于其应用场景的不断拓展、技术研发的深入,在团队、人才和市场占有率方 面有显著优势。但大数据公司对医院业务了解较少,切入时间可能较长。因此,医院在产品 选型时,要结合实际,兼顾近期、远期目标,

9、选择适合的产品。3.2适度原则大数据搜索平台的建设势必涉及对前端系统的改造。就电子病历系统而言:一方面,需 要对病历模板进行标准化改造,规范数据来源;另一方面,不能限制医生的思路,保留其自 由发挥的空间,病程记录等自由文本的结构化用后结构化方法来实现。因此,需要把握好适 度原则。3.3数据安全在系统的建设和实施过程中,要确保数据的安全,不被外界窃取和篡改,不予非授权方 使用。因此,亟须建立相应的管理制度,采用数据加密技术和数据访问授权机制等方法,避 免“一锅端”,保障数据的安全性。3.4患者隐私应建立规范的数据查询流程,保证各环节正常、有序地运转,使数据利用真正落地。同 时,在数据利用过程中,

10、要妥善处理好患者隐私,严格按照伦理委员会的伦理批件提供相应 的数据,保护患者的人格和尊严。3.5人才培养由于大数据的迅猛发展,需要一批了解医疗业务和信息技术的复合型人才。麦肯锡研究 报告指出,美国等信息发达的国家中大数据领域相关人才的缺失于2018年达到1419万。 而我国的大数据发展才刚刚起步,培养一批双料”复合型人才是当前和今后很长一段时间内 生物医学大数据发展的重要工作。结束语:医疗大数据搜索系统改变了传统人工翻阅纸质病历的模式,具有省时、省力、高效的优 势,实现了从既定思维到创新性思维的转变,可从海量原始数据中发现规律,为临床科研提 供了更多思路,对回顾性研究和前瞻性探索都具有重大意义。但是,利用医疗大数据搜索系 统为临床科研提供服务还处于起步阶段,缺乏成熟的产品与案例,建设过程必然是逐步探索 的过程,需要临床科研人员的积极配合和深度参与,并且在使用过程中不断积累经验完善系 统,以吸引更多的临床科研人员参与,形成良性循环并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论