版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医疗数据共享第七章区块链与数据共享
01医疗数据的特点与相关概念数据增长速度快根据IDC在2014年发布的数据,从TB到PB到EB,再到ZB,医疗数据以48%的年增长率增长。数据实时性强医疗信息服务中会存在大量在线或实时数据分析处理的需求,如针对临床中的诊断和处方。数据体量大根据艾瑞咨询发布的《2022年中国医疗科技行业研究报告》,中国医疗数据的体量目前已达近50万亿GB。数据异构性强医疗数据中有结构化的数据,有结构化到非结构过渡的半结构化数据,也有非结构化的数据。1.1医疗数据数据隐私属性强医疗数据与道德伦理有千丝万缕的关系,病患缺陷一旦被公开,接踵而来的就是各种社会歧视,心理素质差的病患很可能引发心理疾病的多米诺效应。数据价值大安永发表了题为Realizingthevalueofhealthcaredata的报告,深度分析了医疗数据的价值,第一次对不同类型医疗数据的价值给出了量化报告。数据标准化低虽然有通用数据模型、标准术语集等国际或国内的标准规范指导,但在实际执行过程中,很难完全遵循规范甚至完全不遵循规范。数据安全属性高医疗数据遭到篡改或破坏,将对医疗机构的声誉造成负面影响并危害医患双方的隐私安全,也会对科学研究产生偏差。1.1医疗数据医疗数据共享示例观察性研究合作的一个显著例子是观察性医疗结果合作组织(ObservationalMedicalOutcomesPartnership,OMOP)。OMOP是一种公私合作关系,由美国食品药品管理局(FoodandDrugAdministration,FDA)主持,美国国家卫生研究院(NationalInstitutesofHealth,NIH)基金组织管理,制药公司联合资助。这些公司与学术研究人员、健康数据合作伙伴共同建立了一项研究计划,旨在利用观察性医疗数据,推动主动医疗产品安全监察科学的发展。OMOP建立了一个多方利益相关者的治理结构,并设计了一系列方法学实验,对不同的流行病学设计和统计方法的性能进行测试。1.1医疗数据察性数据可以反映患者接受诊疗期间的总体情况,全球越来越多的患者在接受治疗期间产生的数据被收集和保存,从而形成了所谓的医疗健康大数据。收集数据的目的包括三方面:①直接用于研究(通常以调查问卷或登记数据的形式);②支持诊疗活动的开展(通常称为EHR,即电子健康档案或电子病历);③医疗费用管理(如用于医保,或者商业保险费率的确定)。这些数据的格式和内容编码各不相同。没有一个观察性数据库能够全面记录患者在接受诊疗期间积累的所有临床事件,必须从许多不同的数据源中提取研究结果,并进行对比分析,才能减小潜在的记录偏差的影响。同时,为了得出有统计学意义的结论,需要对大量患者的观察数据进行研究,这些观察数据很有可能分布在不同物理位置的数据存储媒介上。1.2通用数据模型
标准化术语集(StandardizedVocabularies)是OHDSI研究网络的基础部分,也是通用数据模型(CDM)的组成部分。它通过规范数据内容来实现定义、方法和结果的标准化,为通过远程网络实现研究和分析奠定基础。通常情况下,观察性医疗数据会以统一编码的结构化数据或自由文本形式呈现,但数据的描述方式不尽相同。科研人员在对数据进行整合、分析和挖掘的同时,面临着描述方式不统一的难题。OHDSI不仅要求数据格式上的统一,还要求数据内容上的统一。面向医学词汇的分类方法规模大、复杂性高,词汇内容涉及医疗保健的各个方面,例如诊疗操作、药物、医疗器械等,包括医疗保健机构在对患者数据进行采集、分类以及分析时使用的受控词表、术语表、层级结构或本体。1.3标准化术语集1.4队列队列是什么在OHDSI研究中,队列定义为在一段时间内满足一个或者多个入选标准的一组人,其在整个OHDSI分析工具和网络研究中都是研究问题的主要构建模块。队列可能出现如下的情况,包括:①一个人可能属于多个队列;②一个人可能在多个不同的时间段属于同一队列;③同一时间段内,一个人可能不在同一队列里;④一个队列可能有零个或者多个成员。建立队列的方法主要有两种:基于规则的队列、基于概率的队列。基于规则的队列定义规则用来描述在队列中的患者。定义这些规则在很大程度上取决于队列设计者个人的专业领域知识以及其对目标治疗领域的知识来建立队列纳入标准。基于规则的队列定义是在特定时间段内(如“在最近六个月出现这种症状”)明确规定一个或者多个入选标准(如“血管性水肿患者”)。01基于概率的队列定义基于概率的队列是使用概率模型来计算患者在队列中的可能性。尽管基于规则的队列定义是队列定义中一种广泛使用的方法。03队列示例我们用一个实际的案例介绍队列的建立过程。首先用简单的规则建立全样本病例库,比如通过住院科室ID筛选特定的科室,然后在字段“术后诊断/病室首页诊断"包含特定的术语“直”或者在字段“病理诊断”包含“直肠/直乙”。02队列建立的有效性构建队列的策略取决于专家对疾病定义的临床严格程度的共识,也就是说,队列设计取决于要回答的研究问题。1.4队列
医疗保健体系中拥有不同类型的观察性数据库,可能是在同一机构中(单中心),也可能是多中心的。这些数据库与医疗保健系统本身一样有很强的多样性,反映了不同的人群、医疗机构和数据获得的过程。整个数据分析与决策的过程需要具备广泛的临床、科学和技术能力,非常复杂,具体体现在以下几点:1.5从数据到证据
需要对健康信息学有透彻的理解,包括患者和医疗服务提供者之间的互动、临床系统到最终存储库的全程数据来源情况、数据采集和管理过程中可能出现的偏差等。需要掌握流行病学原理和统计方法,才能将临床问题转化为观察性研究,进而产生相关的答案。需要具备一定的技术能力,才能对包含数百万例患者的数据集实施和执行有效的数据科学算法,而这些数据集往往需要进行数年的随访。需要临床知识来整合观察性数据网络中获取的证据与其他信息来源获得的证据,并确定这种新知识应如何影响健康政策和临床实践。1.5从数据到证据数据分析数据质量问题包括不正确的数据转换、不正确的数据解读、使用不适当的分析方法。数据发布数据质量问题可能源于发布数据供后续使用的过程中。数据采集和整合数据质量问题可能源于手动输入错误、偏倚(如报销时虚报医药费)、电子健康档案中表格的错误连接、使用默认值替换缺失值等。数据存储和知识共享潜在的数据质量问题源于缺乏规范的数据模型归档和元数据。1.6证据与数据质量02医疗数据共享的现状及挑战医院内部的数据共享逐步由多对多集成模式转化到数据服务总线(ESB)模式。ESB是一种体系结构,能够将消息(数据)在多种通信协议之间路由、在多种格式之间转换。这种模式可以降低连接各异构应用系统的工作量,降低相连接的应用系统之间的耦合度,从而提高整个系统的灵活性和面对变化的响应速度。基于ESB可以构建全院数据中心,含有的数据。通过专业的医疗行业服务总线,将数据汇聚到院内的临床数据中心(ClinicalDataRepository,CDR)、运营数据中心(OperationalDataRepository,ODR)、科研数据中心(ResearchDataRepository,RDR),如图7-10所示。在全院数据中心基础上,进一步构建平台上的服务和应用。2.1医院内部数据共享现状医学科研是医院尤其是三级医院持续发展的动力,是衡量医院的医疗水平、学术水平高低的重要标志。医院自身的数据,具体到某个专病队列时,数据量往往有限,多中心科研平台的建设能较好地解决数据量和数据多样性等问题。在数据协同方式上,目前的多中心科研平台多采用中心数据库方式,如图7-11所示,各合作医院根据需求,将经过脱敏后的数据提供给中心平台;中心平台则提供各种智能化的工具,提升分析和研究的效率。2.2多种数据协同现状
2.2多种数据协同现状
仅提供基本的科研流程管理,在线分析数据工具不足或缺少,无法满足科研人员的科研实践需求。医疗数据具有异构性、大体量及实时性的特点,对数据处理的要求高。各系统、各中心的医疗数据标准不一,对数据整合/融合的要求高。医疗数据的隐私性,对多中心平台传统的中心化数据存储方式提出了挑战,需要采用新的技术手段去保护数据,避免隐私泄露。医疗数据的高价值,需要建立有效的监管和跟踪手段,知道数据被谁用,怎么用,用了多少,以保护数据提供者的利益,激发参与者持续高质量的维护和贡献新数据。2.3医疗数据共享协作挑战03医疗数据共享平台的架构设计
面向科研应用的医疗数据共享平台的业务应用架构的设计如图7-12所示,在设计业务应用架构时兼顾了单中心与多中心的情况。其中大部分模块已讲述,部分功能简介如下:①增加了应用层和门户层,这是系统要实际运行和运营必备的部分;②增加了数据安全体系尤其是隐私计算模块,这部分在7.4节中会详细阐释;③针对多中心的情况,增加了多中心病例等级注册上报的模块,具体的院间联盟实现方式在7.4节中介绍3.1业务构架
3.1业务构架
根据7.1、7.2节的介绍,我们可以梳理出面向科研应用的医疗数据共享平台的核心业务流程,分为如下5个步骤。①专病库(群)构建:从HIS、EMR/HER、LIS等业务系统(数据源)筛选相应的数据,构建专病库(群)。②科研病例筛选:通过多维度复合查询和筛选,多维度筛选科研病例。③队列生成与管理:通过自动或手动入组出组,生成并管理试验组队列。④CRF表单填写:基于形成的科研标准数据集,定义CRF(病例报告表,CaseReportForm)表单。⑤统计分析:在线或将数据导入专业系统,进行统计分析或其他高级应用。3.2业务流程分析
面向科研的医疗数据共享平台数据流设计,通过前置库从各业务系统或临床数据中心备份库中采集诊疗数据,对于历史数据,采取批量采集的方式;对于增量数据,通过增量机制进行增量采集。由于同一个患者在不同科室的就诊情况相互影响,在后续某学科科研库的数据清洗、整合、疾病建模等过程中,可能需要获取患者在其他科室的就诊信息;同时,临床科研数据库数据入库规则与患者主索引有关,即以患者为主线,如果患者在不同的科室提供的信息有差异,可能在业务系统中会被视为两个不同的患者,因此在科研库中需要合并成一个患者,才能确保患者诊疗信息的完整性和准确性。3.3数据流设计数据规范(术语集)在数据清洗流程启动之前,需要建立平台的数据规范,即主数据,以便打通不同来源的数据。医疗行业的主数据规范有很多,哪怕同一类型的数据(如诊断)。数据发布平台在设计和实现中,需要让用户动态开发和部署AI模型,用于临床科研和临床应用。数据对接与采集医疗健康、基因组学的数据特点,决定了其数据对接方式的多样性。对于临床数据,平台通过与HIS、LIS、EMR、PACS、RIS等各医疗信息系统的数据库和集成平台的数据库进行对接。数据清洗清洗应用根据具体数据来源的系统主数据规范对其原始数据进行清洗。3.4智能化设计04医疗数据共享平台的技术支撑
根据7.3节中的业务流程、业务架构、数据流设计和隐私计算的要求,本节将围绕平台的动态数据架构设计方案展开介绍,如图7-17所示。平台通过信息系统对接和数据上传等方式导入临床、生物信息等多模态数据,在数据脱敏后,以数据集形式存储到平台。平台的每个数据集都有相应的管理者,在平台内使用时需要得到管理者的动态授权,不能离开平台使用。4.1动态数据架构应用
4.1动态数据架构应用
由于数据和数据结构有动态调整的需求,平台采用仓储式的数据仓库模式进行支撑,实现多模态数据(临床信息系统文本数据、病理、影像数据、基因组学、蛋白质组学等)在隐私保护前提下的价值共享,实现多方参与的联合协作研究,从而实现在数据协作中“不分享原始数据,分享数据的价值"。平台支持对数据集存储资源、计算资源进行弹性管理,以可用不可见或可用可见的数据申请使用授权方式实现数据所有权和使用权的分离;通过数据治理、主数据管理、资源目录、数据检索等提供统一的数据服务;通过各种平台内置的和用户自行开发的医疗、生信、AI等专业应用对数据进行分析、统计和模型训练;数据应用的结果以数据集的方式存储在平台上,平台通过区块链记录数据演化的整个过程,形成存证,实现数据的全生命周期管理;通过智能合约,将协作中的数据以资产化方式进行价值流通。4.1动态数据架构应用
医疗数据具有极强的隐私属性,应考虑完整的隐私安全计算,解决数据保护和数据共享这两个看起来相互冲突的需求。隐私安全计算方便每位科研工作者广泛地与机构内外的其他科研工作者合作,并保证科研协作时的数据的所有权、数据安全和隐私。4.2隐私安全计算应用
研究人员需要评估某专病(如癌症)筛查手段的灵敏度和特异性,传统的做法是,他会与科研平台签署一个保密协议,在科研数据平台中查找相关患者的数据,将数据导出后对数据进行统计或建模,评价该筛查手段的灵敏度和特异性。这样操作的结果会使患者的原始数据离开平台,而平台从此失去对于这部分数据的安全和隐私保护。这类仅依靠法律、行政来保证数据安全和隐私的做法存在巨大的隐患。在基于隐私计算理念设计的系统中,原始数据本身禁止输出,只有数据的再生数据、数据的计算结果、数据的建模被输出。4.2隐私安全计算应用
隐私安全计算的整体设计从底层开始,采用高性能存储、容器编排、沙盒计算、联邦学习、区块链、智能合约、差分隐私等技术,解决数据全生命周期过程中的安全授权使用、隐私保护、价值分享等一系列技术挑战,让科研工作者可以高效地分工合作。4.2隐私安全计算应用
区块链技术具有分布式对等、数据块链式、防伪造和防篡改、可溯源、透明可信、高可靠性等优势,实现数据操作全生命周期的存证记录,通过智能合约实现价值交易各方的权益。区块链技术应用有利于建立更有效的信任机制,优化业务协作机制和流程,降低资产交易和事务处理成本,以及提高事务处理的透明性和安全可靠性。医疗数据共享平台可以通过部署在研究院所、医院及合作机构等组织下的平台节点形成可靠的联盟链。联盟链内的成员互相信任、公开平等,各方皆可通过部署在本地的节点对区块链的数据存储、分析及使用等服务功能进行调用。4.3区块链应用技术
4.3区块链应用技术
医疗数据共享平台作为一个数据汇总及分析协作平台,必须兼顾“安全”和“开放”这两个貌似矛盾的需求。一方面,每位科研工作的参与者对于科研数据本身和数据处理过程的知识产权都非常关注,期望平台在整个科研过程中保证数据安全;另一方面,科研工作者期待平台的数据安全保障不要影响科研工作效率,在平台上能够迅速找到所需的数据,便捷地处理数据,高效地与其他科研工作者进行项目协作。针对单中心平台内部的数据共享,会进行区块链存证;针对多中心跨平台的数据共享,将在智能合约中进行管理。针对单中心平
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园篮球培训
- 思科交换机培训
- (基础卷)第一单元 圆和扇形(单元测试)数学六年级上册单元速记巧练系列(冀教版)教师版
- 河北省唐山市滦州市2024-2025学年七年级上学期11月份期中考试生物试题(无答案)
- T-YNZYC 0085-2023 绿色药材 云黄连产地加工规程
- T-TSSP 029-2023 鲜笋浆(粉)加工技术规程
- 河北省邯郸市部分校2024-2025学年高三上学期第二次联考生物试题 含解析
- 河北省邢台市邢襄联盟2024-2025学年高三上学期10月份期中联考数学试题 含解析
- Windows Server网络管理项目教程(Windows Server 2022)(微课版)课件项目2 活动目录的配置与管理
- 浙江大学《现代汉语语法修辞》在线作业及答案
- 快消品行业新零售整体解决方案
- 浙教版小学二年级下册《综合实践活动》我的课间活动-课件
- 全国职业院校技能大赛中职组法律实务比赛试题附答案
- 《耳鼻咽喉-头颈外科学》见习教学大纲(五官)
- 第3课中国特色社会主义进入新时代(高教版2023基础模块)
- 危重症常见的管道护理
- 《一匹出色的马》说课课件
- 生物的多样性及其保护 单元作业设计
- 村级财务培训课件
- 二级安全教育考试卷及答案
- 绿色物流阶段测试试题及答案
评论
0/150
提交评论