2022年医疗大数据解决最佳方案_第1页
2022年医疗大数据解决最佳方案_第2页
2022年医疗大数据解决最佳方案_第3页
2022年医疗大数据解决最佳方案_第4页
2022年医疗大数据解决最佳方案_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医疗大数据PAGE41医疗大数据解决方案与信息系统的耦合度为零的数据才是合格的大数据全国97.8万家医疗机构的信息系统基本上都是用关系数据库而建立的,然而要对关系数据库中的数据进行挖掘非常困难。大数据并不是小数据之和,关系数据库系统不适合处理大数据。

目录TOC\o"1-4"\h\z\u医疗大数据解决方案 1第1章概要 41.1名词定义 5第2章医疗大数据面临的挑战 72.1医疗大数据与医院信息系统之间的具有本质的差异 72.1.1小问题放大万倍就会大的吓人 92.2医疗大数据面临八大难题 102.3国家大数据标准工程堪比“两弹一星” 142.4医疗行业的信息系统顶层设计为何难产 152.5大数据挖掘中的问题:大数据的关键不在于大而在于如何挖掘 162.5.1我国医疗行业每年产生多少数据 162.5.2挖掘关系数据库系统所产生的医疗数据非常困难 172.5.3仅患者与数据的对应关系就是一个大问题 182.6关系数据库理论的致命伤 192.6.1关系数据库中的数据在大数据环境中为何变成无意义的数据 192.6.2关系数据库系统是一种完全封闭的系统:外来数据无法入住 222.6.3关系数据库中的数据与数据系统密不可分 222.6.4关系数据库中的数据与数据结构密不可分 232.6.5关系数据库中的数据与应用程序密不可分 232.6.6关系数据库中的数据一旦脱离相应的系统就成了无意义的数据 242.6.7关系数据库无法实现病历信息的结构化存贮 242.6.8关系数据库中的数据都是“方言”,大数据需要的是“普通话” 242.7关系数据库如何处理国家医疗大数据中数万个数据库、数千万张表 252.8大数据之梦十年后成真 262.8.1信息化社会由概念到比较成熟用了30多年时间 272.8.2千年虫问题的启示 272.8.3大数据工程远比千年虫问题复杂 282.8.4五年之内(2020年前)医疗大数据只是纸上谈兵 292.9必须开发新型的软件工具才能对医疗大数据进行高效挖掘 29第3章发明专利:医学信息的结构化存贮方法 303.1在了解医学信息的结构化存贮方法时的注意事项 313.2医学信息的结构化存贮方法 323.3数据的完整性是大数据的根本 383.3.1大数据的策略:以适当的数据冗余而使数据易识别 383.3.2一个事物的数据 403.3.3事物分类 403.3.4关系数据库的缺陷:关系 423.3.5数据的可识别性 463.3.6数据的多样性 483.3.7元数据及国际元数据标准非常重要 483.3.8大数据的关键:让数据自己说话 493.3.9大数据的策略:用数据代替程序 513.4与信息系统的耦合度为零的数据才是合格的大数据 523.5医学信息的结构化存贮方法与关系数据库的对比 553.6应用医学信息的结构化存贮方法的注意事项 553.7超大表化问题:分为多张表 563.8关系数据库中的二维表是数据不具独立性的一个根本原因 563.9“万能数据结构表”存放病历信息的例子 563.10医学信息的结构化存贮方法实现互联互通非常简单 583.11结构化录入病历信息的例子:症状的结构化 58第4章独立数据库在医疗大数据方面的优势 614.1大数据中最重要的就是查询 614.2超大表问题 614.2.1自动调整表的长度 624.2.2自动查询多张表 624.3用独立数据库实现国家医疗大数据的存贮处理 634.3.1独立数据库如何处理国家医疗大数据中数十万个数据库、数千万张表 634.3.2疾病、症状的相关数据 65

概要关系数据库理论存在很多很严重的问题,例如,用关系数据库系统所设计出的信息系统都是孤岛型系统,难以实现系统之间的互联互通;在大数据时代,人们发现,对全国97.8万家医疗机构所产生的医疗数据进行挖掘非常困难,当前的大多数医疗信息系统都是用关系数据库系统而设计的。用关系数据库系统所设计出的信息系统之所以难以互联互通,孤岛问题严重,根本原因在于“异构数据”。《医学信息的结构化存贮方法》中的“万能数据结构表”可以存贮各种各样的数据,也可说用《医学信息的结构化存贮方法》所设计出的信息系统所产生的数据都是“同构”的,不存在“异构数据”的问题。关系数据库理论先天不足,不可能解决“异构数据”问题。医院信息系统所处理的数据只是某家医院所产生的某些特定的数据(可称作小数据)。医疗大数据所要处理的数据是全国97.8万家医疗机构所拥有的数十万个医疗信息系统所产生的数据,这些数据存贮在数千万张表中,这些系统由不同的开发商所开发,各系统的数据结构各不相同。每家医院的信息化工作都涉及几十个厂家,每个厂家的数据、标准、采集、存储都不一样。因此,即便是在一家医院,都会出现很多孤岛,整个医疗行业的信息孤岛问题更严重。各家医院信息系统的标准、接口都不同,这成为利用率低、共享难的原因之一。不仅如此,数据种类的多样化也为数据标准的制定和应用带来了挑战。小数据的特点是数据的类型和数据都是有限的,在处理数据前能事先确定数据的类型。而大数据的数据特点是“多样性(Variety)”,在处理数据时很难先事先确定数据的类型,甚至不能确定数据的类型。目前关系数据库在数据处理中占据统治地位,而关系数据库在处理数据时事先要确定数据的类型,因此,在处理数据类型不能事先确定的大数据时,关系数据库就遇到了难以逾越的障碍。医疗大数据与医院信息系统所产生的数据具有本质的差别。现有的各种信息系统所处理的数据都是小数据。目前人们只是认识到大数据重要性,大数据还只是处于概念阶段。大数据梦想将在10年后梦想成真,5年之内,难有突破性进展。国家医疗大数据所面临的最大难题:当前的医疗信息系统不能适应医疗大数据的实际需求,需要对现有的信息系统进行彻底的改造才能适应大数据时代的潮流。然而,要彻底改造全国现的医疗信息系统,所花费的代价是非常高昂的!名词定义数据与系统的耦合度:数据与系统的耦合度越高,数据对系统的依赖程度就越高。当数据对系统的依赖程度比较高时,数据一旦脱离了原有的系统就变成了无意义的数据。大数据的数据来源于成千上万家单位的系统,因此,大数居中的数据应该是与系统的耦合度为零的数据,否则就需要很多的应用程度来解读数据,这会增加数据处理的难度、成本。万能数据结构表:由发明专利技术“医学信息的结构化存贮方法”在模仿大脑记忆、联想的基础上而所提出的一种新型数据结构,可以在同一张表中存贮各种各样的数据。独立数据库:由发明专利技术“医学信息的结构化存贮方法”而建立的数据库即可称为独立数据库。独立数据库与关系数据库有本质的差异。数据的独立性:数据的独立性是由发明专利技术“医学信息的结构化存贮方法”所提出的概念,是指数据不信依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而独立地表达出某种含义。关系数据库中的数据不具有独立性,需要借助于注释、数据结构、应用程序才能解读数据的含义。数据的完整性:数据的完整生是由发明专利技术“医学信息的结构化存贮方法”所提出的概念,是指数据不信依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而完整地表达出某种含义。关系数据库中的数据不具有完整性,需要借助于注释、数据结构、应用程序才能解读数据的含义。数据的可识别性:在班、组这样的小环境中可以用每个人的姓名而区分出每一个人,然而在全国范围内,由于人数太多,很多姓名都有重名现象,因此仅靠姓名就不能准确无误地识别出每一个人。大数据时代以前的关系数据库中的数据只是应用于某个机构内部,因此各个数据就容易识别,然而如果把关系数据库中的数据放到大数据环境中,那么这些数据就成了不可识别的数据。在大数据时代,需要通过数据的独立性、数据的完整性而确保每一个数据都是可识别的。在医疗大数据中,各个医疗数据分别由各家医疗机构所产生、拥有。事物分类:事物分类是由发明专利技术“医学信息的结构化存贮方法”所提出的概念。大数据时代以前的信息系统的最终用户是通过应用程序而看到各种数据,最终用户并不直接与数据库中的数据打交道,数据库中的数据需要通过应用程序解读后最终用户才能读懂。在大数据时代,大数据中包含成千上万家机构的数据,因此,大数据中的每一个数据库是由哪家机构所产生,数据库中各表中所存贮的数据是什么等等都是非常重要的信息,只有搞清楚这些信息,才能正常解读各数据的真实含义。在“万能数据结构表”中,“信息系统的名称、数据库的名称、表名”是以“事物分类”的形式存贮在表中,其目的是让数据具体独立性、完整性,以此确保各数据在大数据中具有可识别性。

医疗大数据面临的挑战本章内容提要:大数据并不是小数据之和,大数据与小数据有本质的差异。关系数据库只适合于处理小数据而不适合处理大数据。用关系数据库来处理大数据时会遇到很多难以克服的困难。五年之内(2020年前)大数据难以取得根本性突破,大数据之梦十年之后才能梦想成真。维基百科关于大数据的定义也明确指出当前的主流软件工具不能高效地处理大数据,要高效处理大数据必须开发新的软件工具。目前的大多数信息系统所产生的数据都存贮在关系数据库系统中。关系数据库中的数据的一大特点(或者说一大问题)就是“数据严重依赖于数据库系统及应用程序”,当关系数据库系统中的数据脱离了相应的数据库系统及应用程序后,这些数据基本上就成了难以阅读的无用数据。医疗大数据与医院信息系统之间的具有本质的差异如果把全国各家医院所产生的数据全部集中上传到国家医疗大数据中心,这些数据的数据量一定会非常庞大,这些数据能不能称为国家医疗大数据?按维基百科对大数据的定义:“大数据是指所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、处理的数据。”这些数据可以称为国家医疗大数据。维基百科的定义也明确地说明了把全国各家医院全部集中起来的“数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、处理”。为什么不能处理呢?例如,患者就医时,医生非常关心患者的病史。医生能否从国家医疗大数据中心获得患者在全国任意一家医院就医时的所有病历呢?假设全国各家医院的所有信息系统所产生的数据都已全部集中在国家医疗大数据中心,而且医生具有获得这些数据的权限。截至2014年3月底,全国医疗卫生机构数达97.8万个,其中:医院2.5万个,基层医疗卫生机构91.8万个,专业公共卫生机构3.2万个,其他机构0.3万个。全国按2.5万家医院计算,一家医院按4个信息系统计算,全国共有10万个医院信息系统,这些信息系统所产生的数据存贮在数千万张表中。医疗大数据应该说是永久有用的,可用来研究人类疾病的历史变化情况。因此,国家医疗大数据应是整个国家数年内、数十年内所产生的全部数据的总和,甚至需要存贮数百年、数千年。国家医疗大数据所涉及的信息量是一般的医院信息系统的数据量的数万倍、数十万倍以上。医生要想获得患者以往的病史数据,就必须从数据千万张表中查询患者的病史数据。了解关系数据库理论者都知道,如果说仅有表中的数据,没有相应的软件工具,那么,从数千万张表中查询数据,即使最优秀的程序员,在目前的技术条件下,一周的时间内肯定查不出来患者的所有病史数据。因为程序员在查询数据前,首先要搞清楚如下问题:这些数据分别是哪家医院所产生的?这些数据分别是什么样的数据库系统产生的?这些数据分别存贮在哪些表中?各张表的结构是什么?表中会含有大量的代码,各个代码的含义是什么?同一数据库中会有多张表,这些表之间的关系是什么?各张表中所存贮的是什么数据?数据的类型是什么?国家医疗大数据文件中含有数千万张表,一张表详细情况说明基本上要用一页复印的信息量来描述,共需数千万页复印纸才能描述清楚全部表的基本情况。面对全国97.8万家医疗机构,2万多家有一定规模的医院,数万个医院信息系统,数千万张表,程序员在一周的时间内肯定搞不清楚上述问题。从理论上而言,只要有数据,程序员可以查询到任何需要信息,然而由于国家医疗大数据的数据量太大,数据关系太复杂,数据结构太多、数据类型太多、不标准的数据太多,结果是太难太难。处理小数据时并未感到关系数据库有什么不足之处,在大数据时代人们已认识到关系数据库系统不适合处理大数据。小问题放大万倍就会大的吓人国家医疗大数据并不是把全国各家医院所产生的数据全部集中在一起就可以称作是合格的医疗大数据。如果仅是把全国各家医院所产生的数据全部集中在一起,而没有处理这些数据的应用程序,那么,这些数据也没什么用处。目前不是没有大数据,而是有很多大数据,然而人们不能高效地对这些数据进行处理。到目前为止,还没有成功处理上万家医疗机构所产生的医疗大数据的成功案例。大数据比小数据大多少倍?目前没有明确的定义,应该说真正的大数据要比小数据大一万倍以上,最少也应大一百倍以上。大数据的大表现在:一是数据量大(是小数据“万倍以上”),二是数据类型多(是小数据“万倍以上”),三是所涉及到的单位多(是小数据“万倍以上”),四是所涉及到的用户多种多样(是小数据“万倍以上”),五是对数据的需求多种多样而且不确定(是小数据“万倍以上”)。在处理大数据时,会有很多的“万倍以上”的问题。3岁小朋友都可以数清楚自已家里有几口人,然而全国有多少人?由于人数十分庞大,全国人口普查就成了一项十分艰巨的大工程。自有人类以来,还无人能够数百之百准确地数清楚全球在某段时间内的人数。大家都认为当今的计算机技术已非常先进,然而时至今日,全球、全国的人口普查都做不到百分之百准确。我国历次人口普查都要花费大量的人力、物力。宇宙之中有多少个星球体?谁也数不清,因为整个宇宙实在是太大了,宇宙中的星球数量实在是太多了,谁也数不清,永远也数不清。事物的数量大到一定程度后一项非常简单的工作就会变成一项非常艰巨的大工程。小数据所处理的数据犹如小朋友数家里的人数,大数据所处理的数据犹如全国人口普查。大数据的特点:小数据中的小问题一旦放大万倍就会大的吓人!在大数据处理中,会遇到数量众多的小问题。当前的绝大多数信息系统都是用关系数据库系统而建立的。在设计数据库系统时,设计人员习惯于用代码来表示各种数据,例如一些设计人员人用数字“0”来代表女性、用“1”代表男性),有的用“M”来代表男性、“F”来代表女性。全国各行各业拥有数千万个信息系统,其中的数千万张表中拥有人的性别这种字段。在当前的情况下,人们是用数据抽取的方法来而使性别这种字段中的数据全部转换为统一的、标准的数据,例如统一为“男”、“女”。要把全国数千万张表中的性别数据全部转换为统一的数据,就是一项非常艰巨的系统工程。要真正建立起国家医疗大数据,要解决很多个数量十分庞大的小问题。大数据一般比小数据大数万倍、数十万倍,小数据中的小问题一旦放大数万倍、数十万倍就会大的吓人!在小数据时代,人们所设计的信息系统只是用来处理某个机构、某个部门内部的某个局部问题进行统计、分析,一个信息系统中只有几张表、几十张表。在大数据时代,人们更关注全国,甚至全球范围内的对所有事物进行统计、分析,涉及到数百万、数千万个信息系统、数亿张表。小数据是为机构内部的人员所使用,是从机构的角度看问题,而大数据而是从全国,甚至全球来考虑问题。对医疗行业而言,全国拥有近97.8万家医疗机构,数百万从业人员,为全国13亿人服务。目前商业智能所处理的还只是一家企业内部的数据,人们已感到对企业内部的数十个信息系统中的数据进行处理已非常困难,而大数据所要处理的是整个行业的数据,比商业智能复杂数万倍。大数据=价值大=困难大=问题大=代价大医疗大数据面临八大难题当前国内的各家医院的各种信息系统都是为了满足自己的需求而开发的,可以比较好地满足各家医院自己的各种需求,并发挥出了重要的作用。然而,当人们从国家医疗大数据的角度来考虑问题时,就会发现要从全国的所有医疗机构的所有信息系统中挖掘出有价值的信息实在是大难了!主要有下述八大难题。各自为政:各家医疗机构各自为政,都想要别人的的数据,都不希望自己的数据共享给他人。到目前为止,医疗数据都存贮在各家医疗机构内部,从各家医疗机构获得数据非常难。数据不标准:医疗行业还未建立全国统一的、标准化、规范的数据,各家医院的医疗数据各不相同。数据不标准问题是影响大数据处理的一个重大问题,在大数据时代,各行各业的数据标准化工作是大数据的一项非常重要的基础工作,这项基础工作搞不好,大数据挖掘工作不可能搞好。医疗行业的数据标准化工作也是一项工程量巨大的系统工程,需要大量的医务人员共同参与才能完成。国内还未做好这项基础工作。数据不标准、不规范,会严重影响数据挖掘的结果。【数据不一致可以有多种情况,如数据类型不一致,随意缩写造成的不一致,计量单位不一致等。当从多个不同的数据源整合数据时,由于定义的不同,更容易产生数据不一致问题。在不同的数据源中,相同类型的信息可能表现为不同的格式。例如,电话号码通常定义为字符型数据,但在有些数据源中可能将定义数值型数据,因此应将其标准化。典型的例子是字段“性别”,一些人用数字“0”、“1”、“2”来表示“不清”、“男”、“女”。而在其它数据库中,可能直接用“不清”、“男”、“女”来描述。另一种情况是字段值在不同的数据源中不一致,如“出生地”可能分别使用“上海”、“沪”、“上海市”、“沪市”、“SHANGHAI”、“SH”等表示上海市出生的人。解决这一问题首先应该进行标准化,然后根据标准逐步消除数据不一致的问题。】业务及业务流程不标准:要对全国的某个行业的大数据进行分析统一,行业内的业务及业务流程的标准化工作也是一项非常重要的工作,否则,各个机构的数据也就会百花齐放、各不相同,不利于分析统计。数据多样性(Variety)【数据结构不标准、不统一】:全国有97.8万家医疗机构,这些机构的全部信息系统有数十万个,这些系统由不同的开发商所开发,各系统的数据结构不尽相同。【每家医院的信息化工作都涉及几十个厂家,每个厂家的数据、标准、采集、存储都不一样。因此,即便是在一家医院,都会出现很多孤岛,更别说整个医疗行业了。各家医院信息系统的标准、接口都不同,这成为利用率低、共享难的原因之一。】数据与数据库系统、应用系统密切不可分:关系数据库系统中的每一个数据都要先定义数据结构才能入住数据库。信息系统的最终用户所看到的数据都需要应用程序的解读,最终用户看不懂关系数据库中的数据。不能实现医学信息的结构化存贮:医学信息非常复杂,医务人员习惯于用自然语言编写各种医学档案,例如医生都是用自然语言编写病历。然而,计算机很笨,不能理解自然语言,因此只有把医学信息结构化之后进行存贮,才能用计算机进行处理。而当前的众多医学信息都未能很好地进行结构化存贮。信息孤岛:各家医院的各个信息系统不能实现全国互联互通。老系统升级改造难题:当前的信息系统都是小数据系统,不适应大数据时代的需求,然而要对现有的信息系统进行全面改造也是非常困难的,其代价也是非常高昂的。【为什么要升级改造?因为当前的各家医院的信息系统所产生的数据各不相同,数据不标准、不规范。要对大数据进行处理,必须确保全国各家医疗机构的信息系统所产生的数据是统一的、标准的、规范的医学标准数据。只有这样,才能高效处理大数据。】从理论上而言,医疗大数据挖掘很简单,只要懂关系数据库,基本上就能对医疗大数据进行挖掘。然而,要想对全国近百万个医疗机构、数十万个信息系统的全部数据进行高效地挖掘,所面临的挑战是非常严重的。如何解决八大难题?各自为政:这个问题必须国家卫生和计划生育委员会以行政命令的方式来解决,强制要求各医疗单位实时地把各种医疗信息上传到国家医疗大数据中心。若没有强制的行政命令,不可能建立起合格的国家医疗大数据。数据不标准难题:此难题涉及到的数据量太大、工程量太大。国家卫计委及很多人士虽说早就注意到此问题的存在,然而直到目前还未从根本上解决医疗行业的数据标准化问题。此问题不从根本上解决,那么医疗大数据的挖掘就等于说大话。医疗行业数据标准化工作是大数据挖掘的基础工作。此问题应该由国家卫计委组织业内外力量来解决,解决此问题需要3至5年的时间。有了国家医疗大数据标准之后,还需要用标准的医疗数据去代替现有的不标准的医疗数据,而此项工作的工作量也是非常巨大的。标准化工作是不赚钱的基础性工作,商业机构没有从事这项工作的动力,应该由国家卫计委来解决。业务、业务流程不标准:目前全国各医疗机构的业务及业务流程并不标准,因此,各医疗机构所产生的数据也各不一样。要建立国家医疗大数据,就必须道先对全国医疗机构的业务流程进行标准化处理,这也是一项工程量巨大的基础性系统工程。这项工作也应该由国家卫计委来解决。此项工作最快需要三至五年的时间才能完成。只有解决了上述三项基础性问题,才能够建立起国家医疗大数据这个大厦的坚实地基,否则医疗大数据只能是空中楼阁。由于上述三个因素牵涉到全国各个医疗机构的方方面面,非常复杂,十年之内很难看到真正的国家医疗大数据的曙光。下述4个问题属于技术问题,关系数据库理论解决不了这4个问题,可由发明专利技术“医学信息的结构化存贮方法”从技术上加以彻底解决:数据多样性(Variety)【数据结构不标准、不统一】:目前关系数据库占据统治地位,绝大多数信息系统都是用关系数据库而建立的。医院的各种信息系统中,多数也是用关系数据库系统而建立。例如,目前国内医疗行业的HIS系统是由多个开发商所开发,各家开发商所用的数据库系统不一样,所用的数据结构结构及数据类型也不一样。因此,如果要对全国各家医疗机构的HIS系统中的数据进行分析,那么首先就要把各种数据全部转换为同一的数据结构,然后才能对数据进行分析统计。然而要对全国近百万个医疗机构的数十万个、数百万个信息系统中的数据进行转换,也是一项工程量巨大的系统工程。另一外很重要的问题是,所有这些信息系统中的数据要转换为哪一种统一的、标准的数据结构,也是需要国家卫计委制定相应的标准、规范。数据与数据库系统、应用系统密不可分。不能实现医学信息的结构化存贮:医学信息非常复杂,用关系数据库不能实现病历信息的结构化存贮。有人用XML实现病历信息的结构化存贮,然而XML只适合处于少量数据,不适合对全国的病历信息的处理。信息孤岛。信息系统改造:现有的医疗信息系统就犹如广州的城中村,广州的城中村虽有一定的作用,然而城中村与广州这样的国际化大都市非常不协调。改造广州城中村的最佳方案就是推倒重建,局部的修补是没用的。然而要全部推倒重建,所花费的资金是非常巨大的。国家大数据标准工程堪比“两弹一星”大数据工程,标准先行。国家大数据标准的工程的工程量要比“两弹一星”的工程量大。国家大数据标准涉及到每一个行业,也涉及到各种各样的业务。大数据标准涉及数据的标准化、数据结构的标准化、业务的标准化、业务流程的标准化。大数据标准化工作完成之后还要对现有的信息系统进行改造,这种改造的工程量及代价也是非常高昂的。目前的信息系统所产生的数据不适应大数据的需求。历史对秦始皇统一文字、统一度量衡、统一货币的评价非常高:功惠千秋。大数据所面临的问题也犹如秦始皇时代所面临的“文字不统一、度量衡不统一、货币不统一”问题。因此,要解决大数据所面临的问题,也需要由秦国、秦始皇那样强大的机构、领袖人物以行政命令的形式强制推行,才能从根本上解决问题。大数据八大难题中的五大难题(各自为政、数据不标准、业务流程不标准、数据多样性(Variety)【数据结构不标准、不统一】、信息孤岛)与秦始皇曾经遇到的问题有些类似。为解决千年虫问题,全球花费了超千亿美元的资金。彻底砸烂小数据而建立大数据新环境的代价远远超过千年虫问题。千年虫只是解决一个时间数据的问题,而彻底砸烂小数据建立大数据新环境则涉及到几乎所有信息系统的所有数据!小数据:只要能满足自己需求,能解决自己的问题即可。大数据:不只是满足自己的需求、解决自己的问题,还要考虑他人的需求。重点是如何让他人能够找到所需要的数据。要让他人、大家找到所需要的数据,最重要的是大家都要遵循相同的标准,大家都讲普通话,而不是方言,这犹如泰始皇统一六国后的“书同文”的标准化改革。当前在处理大数据时的首要工作就是数据抽取(ETL:“Extract”、“Transform”、“Load”,“抽取”、“转换”、“装载”),其实数据抽取工作也类似“秦始皇的书同文”,只是数据抽取并未能真正象秦始那样从根本上解决书同文问题。要使大数据真正做到“书同文”,需要象秦始皇那样从根本上解决问题。而真正实现大数据“书同文”时,就不再需要数据抽取。与当前人们所提到的大数据相比,关系数据库所处理的数据则是小数据。大数据中的数据是数万家、数十万家以上的各中机构中各种数据的总和。而关系数据库所处理的小数据则是一家机构或几家机构中的部分数据。当我们面对数十万个、数百万个以上的信息系统中的数据(大数据)时,就会发现,我们面临很多挑战:“(维基百科对大数据的定义)无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理”。也就说明用关系数据库系统已“无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理”大数据。在小数据时代,信息系统的用户是通过应用程序而查到自己所需要的数据,而信息系统对关系数据库中的数据进行处理后而以用户能够理解的形式展现给用户。然而,在大数据时代,这种方法行不通了。因为在小数据时代,我们所要处理的数据是有限的、可确定的,而在大数据时代,我们所要处理的数据是无限的,不确定的数据。秦始皇之所以能使“书同文”成为现实,是因为他拥有至高无上的权威;“两弹一星”之所以能成功,关键在于“两弹一星”关系到国家的生死存亡,国家大力支持。大数据的成败与国家的支持是分不开的。医疗行业的信息系统顶层设计为何难产国家卫生和计划生育委员会几年前就注意到了医疗行业信息系统顶层设计的重要性,并希望从根本上解决此问题,但至今未能从根本上实现医疗行业信息系统的顶层设计。为什么要进行顶层设计?因为当前的各种医院信息系统存在严重的问题,信息孤岛问题严重,不能互联互通。顶层设计建立在医疗数据标准化、医疗业务流程标准化的基础之上。而如今医疗数据标准化、医疗业务流程标准化这两个基础工作还未做好,因此顶层设计就不可能有结果。技术上的原因:关系数据库理论的先天不足。客观原因:问题非常复杂、牵涉面太广、所需资金非常巨大。顶层设计非常难,比顶层设计更难的是有了顶层设计之后再对全国的医疗信息系统进行全面更新换代。大数据挖掘中的问题:大数据的关键不在于大而在于如何挖掘如果把全国97.8万个医疗卫生机构所产生的数据全部存贮到国家医疗大数据中心,这些数据可以称作是“国家医疗大数据”,然而这样的数据并不能称作是真正合格的“国家医疗大数据”,因为,对这样的数据的挖掘非常困难,从这些数据中挖掘出有用数据的代价非常高,犹如沙里淘金,大海捞针。大数据不是小数据之和。大数据的关键不在于大,而在于挖掘。只有可以让大家高效挖掘、任意挖掘的大数据才是真正合格的大数据。我国医疗行业每年产生多少数据国家医疗大数据的概况:截至2014年3月底,全国医疗卫生机构数达97.8万个,其中:医院2.5万个,基层医疗卫生机构91.8万个,专业公共卫生机构3.2万个,其他机构0.3万个。仅按全国拥有2.5万家医院、每家医院4个信息系统计算,全国约有10万个以上的医院信息系统,每个信息系统按20张表估算,全国共拥有200百万张表。除了存贮在关系数据库系统中的数据外,还有其它类型的数据:XML、音像、文本等。国家医疗大数据的数据量估算:南京军区南京总医院目前拥有5台存储设备,2台专用于PACS,其中HIS、LIS、EMR等数据3T,病案缩微数据12T,PACS数据120T左右,每个月的数据增长为2T左右,每年产生的数据量:24T/年。国家医疗大数据的数据量估算=2.5万家(未计小医疗机构的数据)*24T/年=60万T/年。国家医疗大数据的数据量估算:6万T/年至100万T/年。挖掘关系数据库系统所产生的医疗数据非常困难如果全国97.8万家医疗机构以镜像的方式把所有数据都上传到国家医疗大数据中心,那么该如何对这些数据进行挖掘?全国共有97.8万家医疗机构,这些医疗机构所拥有的信息系统有10万个以上,这些医疗机构所拥有的数据库有10万个以上,这些数据库中的表有200万张以上。这些医疗机构的数据存贮在数十万个以上的文件夹中(存贮XML、音像、文本等数据)。患者病史可能是患者自出生以来的所有情况,病史数据可能存贮在几十年的数据中,并不仅是一年的数据中。当前的大多数医疗数据都是存贮在关系数据库中,关系数据库中的数据与数据库系统密切相关、与数据结构密切相关、与应用程序密切相关、数据不标准。如果只是以镜像的方式把全国97.8万家医疗机构的数据全部上传到国家医疗大数据中心,要从这些数据中挖掘数据,也是非常困难的。要从国家医疗大数据中查询患者病历数据,必要首先搞清楚如下情况:10万个以上的数据库各用什么数据库系统?10万个以上的数据库的数据存贮在哪里?IP?如何访问数据库(帐号)?100万张以上的表中的每张表的数据结构100万张以上的表中各表之间的关系100万张以上的表中的各个数据代码的含义10万个以上的文件夹中存贮什么样的数据基础医疗数据大多存在于HIS、LIS、PACS、EMR、手术麻醉、体检、心电等多个子系统中。各系统来源于不同的生产厂商,数据存放在不同的数据库,数据多而散,数据库的设计缺乏标准化,不同数据库中的数据靠患者主索引等进行关联,关联关系相当复杂。各自厂家研发人员除了对自家系统的数据结构非常了解之外,缺乏对其他系统数据结构的了解,整体数据分析能力较差。专业做数据分析及整合的公司,缺乏对医院实际操作流程的深入了解,导致对数据流向及关联关系的分析不够准确,且很难准确的拿到各子系统的基础数据,最终未必能做到数据全面、准确。仅患者与数据的对应关系就是一个大问题如果说要从国家医疗大数据中查询患者影像数据,那么,该如何实现?在当前的医疗信息系统中,关于患者的编码并不是唯一的,也不是全国统一的。要查询某个患者的医疗数据,最理想的查询方式就是以患者的身份证号作为查询条件而查询相关数据。由于目前国内的各种医疗信息系统中的各个表中并不一定拥有患者身份证这一字段,从而使查询变得非常繁琐。例如:下面的表中的数据是一个PACS系统中的数据。此表中并没有包含可以直接识别患者身份的数据。因为由下表中的“姓名”及“门诊及住院号”并不能准确地识别出是哪一个患者。国内同名的人非常多,仅由姓名查义患者的数据是不行的。“门诊及住院号”只是各家医院自己的编号,也不能把“门诊及住院号”作为查询条件。在上面的PACS系统表中未包含患者身份证数据。因此,需要从HIS系统中根据患者身份证号而查出患者的“门诊或住院号”,再根据“门诊或住院号”而从PACS系统表中查出PACS影像数据。“患者与数据的对应关系”这样的问题其实是大数据中的一个非常突出的问题。为了查询的方便,一定要把数据的最主要的特征在数据中表现出来。但关系数据库理论未考虑此问题。在大数据挖掘中,仅是确定患者的身份就是一项艰巨的工程。对小数据而言,程序员知道相关的数据存贮在哪个表中,但在大数据环境中,程序员不知道想要查询的数据存贮在哪里。关系数据库理论的致命伤关系数据库系统只适合于处理小数据,而不适合处理大数据,其根本原因在于关系数据库理论的先天不足。关系数据库中的数据在大数据环境中为何变成无意义的数据如果在国家医疗大数据中心查询到下表的数据,谁能看懂?该表中的数据是某家医院的信息系统中的关系数据库中的数据,普通人看不懂,医生也只能靠猜测才能猜出部分内容。下面的两张表中的数据也是关系数据库中的数据,这两张表中的数据也是普通人难以看懂的:IDXMXBNLTZSG1张三男5672180IDXMXBZYFXYFQTFY2146张三男5672180上面两表中的数据的实际含义如下:ID姓名性别所龄体重身高1张三男5672180ID姓名性别中药费西药费其它费用2146张三男5672180下表是用发明专利技术“医学信息的结构化存贮方法”而设计的表,该表中的数据无论是谁,只要懂汉语,就可以看懂表中内容:ID事物代号事物特征事物特征值超长特征值单位附件时间100280事物分类体育管理系统2014.3.2101280事物分类教练信息2014.3.2102280事物分类教练基本情况2014.3.2103280身份证号XXXXXXXXXX

2014.3.2105280姓名张三2014.3.2106280性别男2014.3.2107280年龄562014.3.2108280体重72

KG

2014.3.2109280身高180CM2014.3.211001280事物分类病历2014.5.311011280事物分类住院病历2014.5.311021280事物分类医疗费用2014.5.311031280身份证号XXXXXXXXXX

2014.5.311041280住院号XXXXXXXXXX

2014.5.311051280姓名张三2014.5.311061280性别男2014.5.311071280中药费56元2014.5.311081280西药费72

2014.5.311091280其它费用180元2014.5.3相对大数据而言,关系数据库理论是小数据时代的产物,只适合处理小数据,而不适合处理大数据。关系数据库中的数据基本上都是不合格的失真数据,因为关系数据库系统所面对的用户只是熟悉关系数据库理论的设计人员,而不是最终的用户。关系数据库的最终用户所看到的数据是设计人员利用应用程序对关系数据库中的数据进行解读之后的数据,最终用户并不是直接阅读关系数据库中的数据。最终用户也看不懂关系数据库中的数据。关系数据库理论非常注重数据的冗余,用关系数据库所建立的信息系统所产生的数据所占用的存贮空间比较小,但关系数据库在减少数据冗余的同时也导致关系数据库中的数据只有通过应用程序的解读才能让最终用户读懂数据的含义。关系数据理论的一个致命伤就是由设计人员随意定义数据结构(表结构),关系数据库理论中没有定义数据结构的国际标准。由此而带来的严重问题就是不同的设计者所设计出的数据结构各不相同,每一个信息系统只认识自己所定义的数据,而不认识其它信息系统所定义的数据。系统与系统之间不能互联互通,用关系数据库理论所设计出的信息系统都是孤岛型信息系统。在小数据环境中,可由应用程序来解读数据的真实含义。然而在大数据环境中,面对数百万张以上的表,就是灾难。数据犹如语言,数据互联互通、信息共享的基础就是大家都讲“普通话”。而用关系数据库理论所设计的每一个信息系统都有自己独特的“方言”,任何两个信息系统之间谁也听不懂对方的“方言”。关系数据库理论中根本就没有“普通话”的概念。在小数据时代,一个信息系统只应用于一个单位,甚至只应用于某个部门,例如医院的HIS系统、PACS系统、LIS系统。在互联网时代、大数据时代,人们逐步发现信息系统之间的互联互通、信息共享,以及处理数百万家单位的全部数据具有更大的价值。此时人们才发现原来用关系数据库理论所设计的信息系统不能互联互通,用关系数据库理论不能处理数百万家单位所产生的大数据。关系数据库理论是单机时代时代的产物。在创立关系数据理论之初根本就没有考虑系统之间的互联互通、信息共享、大数据问题。关系数据库理论只适用于一个单位内部,不适合于处理单位之间数据互联互通。关系数据库理论于1970年的6月由IBM公司的研究员埃德加.考特(EdgarFrankCodd)创立【论文名称为《大型共享数据库数据的关系模型》(ARelationalModelofDataforLargeSharedDataBanks)】。ORACLE诞生于1979年。关系数据库是信息化社会的功臣,也是当今严重的信息孤岛的罪魁祸首!关系数据库理论是单机时代、局域网时代的产物,是一种以自我为“中心”的孤岛型理论,没有与外界进行数据交换及数据共享的概念,也没有数据接口及互联互通的概念。而当今的互联网是一种没有中心的网络,系统之间的互联互通是重中之重。用关系数据库理论所建立的信息系统都是孤岛型的,不能互联互通。关系数据库的特点是:鸡犬之声相闻,老死不相往来。我只处理我的系统中的数据,我不处理你的系统中的数据,你也不能处理我的系统中的数据。我不管你的数据,你也别想管我的数据。我的就是我的,你的就是你的,你我之间没关系。你的数据来到我的系统中是无意义的数据,我的数据到了你的系统中也是意义的数据。我的数据只能在我的系统中生存,你的数据只能在你的系统中生存。正因如此,用关系数据库理论所设计出的信息系统全都是孤岛型信息系统。关系数据库系统是一种完全封闭的系统:外来数据无法入住关系数据库系统犹如私人住宅,只有家庭成员才能入住,外人莫入。大数据所需要的是旅馆。旅馆向所有人开放,谁来了都可以入住,只要有房间。关系数据库系统中并没有现成的位置供数据入住到数据库中,数据要入住关系数据库系统中,首先必须先为其定义数据结构,或者说只有已定义数据结构的数据入能入住到数据库中,而绝大多数外来数据都未经过定义,因此,外来数据都不能入住到数据库系统中。关系数据库中的数据与数据系统密不可分关系数据库有多种(ORACLE、SQLSERVER、DB2、ACCESS等等),每一种数据库都有自己的特点,各种数据库系统只能处理自己的数据,不能处理其它系统的数据,例如由ORACLE所产生的数据只能由ORACLE系统处理,SQLSERVER处理不了ORACLE所产生的数据。关系数据库中的数据在相应的数据库系统中才是有意义的,一旦脱离了相应的数据库系统就成了无意义的数据。关系数据库中的数据与数据结构密不可分关系数据库中的每一个数据都是有数据结构的,一旦失去相应的数据结构,就成了无意义的数据。对小数据而言,一个信息系统只有几张表、几十张表,多的也只有几百张表。而对大数据而言,例如国家医疗大数据,就会涉及到数十万个信息系统中的数百万张表。而现有的信息系统都只是小数据信息系统,只能认识自己的系统中的数据,都不认识其它系统的数据,都不能处理其它系统的数据。对关系数据库而言,它只能处理特定的数据,所谓特定的数据就是只有事先在关系数据库定义了结构的数据关系数据库才能处理,不能处理事先未定义结构的数据。而大数据所面临的数据以不确定,或不好确定为特点,面对不确定的数据、不确定的数据结构,关系数据库无能为力。大数据的特点:大数据所面临的是无穷的数据、无穷的数据结构,这是关系数据库所不能解决的。因此,要处理大数据,必须从根本上解决大数据所涉及到的“无穷的数据、无穷的数据结构”问题。例如,真正合格的大数据处理软件工具,不但能够处理国家医疗大数据,也应该能够其它各行各业的数据。关系数据库中的数据与应用程序密不可分目前的信息系统都是通过应用程序来解读关系数据库中的数据,而每个应用程序只能解读自己的系统中的数据而无法解读其它系统中的数据。关系数据库中的数据不具独立性、完整性,数据一旦脱离相应的数据库系统及相应的应用程序就变成了无意义的数据。例如,程序员在设计信息系统时习惯用代码来表达数据,例如有的用“1”代表男性,用“0”代表女生,而另一些人则用“M”代表男性,用“W”代表女性。在医院信息系统中,各个信息系统可由应用程序来解读各个代码,然而,在医疗大数据挖掘中,这种不规范、不标准、不统一的代码带给数据挖掘人员的将是灾难!因为医疗大数据挖掘人员所面临的是全国数万家医院的数十万个信息系统。若要对数十万个信息系统的数据中的代码进行分析、转换,将是一项工程量非常巨在的工程。因此,对大数据而言,尽量不要在数据库中采用代码。例如下表中的“性别码”、“婚否码”:关系数据库中的数据一旦脱离相应的系统就成了无意义的数据关系数据库中的数据只有在某个特定的系统中才有意义,一旦脱离了这个系统就成了无意义的数据。正因如此。也可以认为关系数据库中所存贮的根本就不是最终用户所能读懂的数据,而是只是专业的设计人员自己才能懂的“代码”。关系数据库无法实现病历信息的结构化存贮结构化电子病历系统是医院信息系统的核心,这是国际上公认的。关系数据库可以应用于各行各业,然而在医疗行业关系数据库遇到了巨大挑战,准确地说是束手无策,医学信息非常复杂,用关系数据库不能实现病历信息的结构化存贮。XML虽说可以实现病历信息的结构化,然而要从全国每年所产生的几十亿份电子病历中查询信息是非常困难的,查询速度非常低。用医学信息的结构化存贮方法可以在关系数据库中实现电子病历信息及医学知识库信息的结构化存贮,查询速度远远超过从XML电子病历中查询信息的速度。医学信息的结构化存贮方法可用于各行各业,最突出的应用则是在医疗行业。关系数据库中的数据都是“方言”,大数据需要的是“普通话”用关系数据库所设计出的每一个信息系统都有自己特定的“方言”。关系数据库理论中没有“普通话”的概念,每设计一种信息系统,就产生一种方言。系统之间谁也听不懂对方所讲的话,必须翻译才行。医疗行业的现状:相当于每个医疗信息系统讲一种方言,各医院之间不能互联互通,甚至同一家医院内部的信息系统之间也不能互联互通。在小数据时代,数据只是在一个单位内部使用,甚至只是在一个单位的某个部门使用。在大数据时代,最需要的是各个机构之间、各个系统之间的数据的互联互通,数据不只是在单位内部使用,也要供单位外的人使用。小数据系统只处理自己的数据,大数据系统要可以处理来自各种各样的小数据系统中的所有数据。大数据最需要的就是普通话,一种可以让各个信息系统都能听懂的语言。关系数据库如何处理国家医疗大数据中数万个数据库、数千万张表例子:如果说全国的各家医疗机构的数据以镜像的方式全部上传到国家医疗大数据中心,那么,国家医疗大数据中就拥有10万个以上的医疗信息系统所产生的数据库,这些数据库中共含有数千万张表,该如何编写一个通用的查询患者病史的通用应用软件?患者病史数据有可能包含在10万个以上的数据库中的数千万张以上的表中,所有数据库、所有表中的数据都有可能涉及到。要在国家医疗大数据中查询患者的病史数据,需要查询全国数十年内所产生的国家医疗大数据。首先需要搞清楚国家医疗大数据中的10万个以上的信息系统所产生的数据存贮在哪些数据库中,这些数据库的地址、是什么数据库系统所产生的数据,各数据库中含有哪些表,这些表(数千万张表)的数据结构是什么、这些表之间的关系。其次是数据抽取(ETL),然而要对数十万个数据库中的数千万张表中的数据进行抽取的确是一项工程量浩大的工程。为了说明问题的简单化,下面以查询PACS中的数据为例来说明问题。查询患者的病史应该以患者的身份证号作为查询条件,而不能以患者的姓名作为查询条件,因为国内有很多同名同姓者。如果某些医疗信息系统中未能使用患者的身份证号,那么,在大数据环境中,患者的病史数据基本上是查不到的,或者说查起来非常困难。查询过程如下:以身份证号为查询条件而查询患者曾经在哪家医院就医。一般是从HIS系统查询患者身份证号。面对数万个HIS系统,各由不同的开发商所开发,数据结构各不相同。要搞清楚对应的数据库及对应的表,也是一项大工程。从数万个HIS系统中的数十万个表中查询是否有对应的身份证号再以身份证号从数万个HIS系统中查询出相应的住院号、门诊号以住院号、门诊号而从数万个PACS系统中查询相应PACS数据。如果说哪家医院的信息系统的数据结构有变化,那么相关的程序都要进行修改。这就是关系数据库的先天不足。而医院的信息系统的升级改造是非常普遍的。这种升级改造对国家医疗大数据的通用查询软件工具也是一项大考验。上述例子表明,查询任何一个病史数据都要编写大量的程序。如果对全国每年的某种疾病进行统计,那么会因为各家医疗机构的信息系统所用的疾病名不标准、不规范、不统一而带来很大的麻烦。病历数据存贮在XML文件中。全年每年产生76亿份病历,从76亿份病因中快速地查询数据也是很困难的。结论:处理数十万个关系数据库系统所产生的大数据是非常困难的!大数据之梦十年后成真由于医疗大数据面临八大难题以及对全国各家医疗医疗机构现有的信息系统进行全面改造非常困难,国家医疗大数据之梦十年后才能成真。大数据不仅仅是数据问题,而是非常复杂的综合问题。国家医疗大数据并不是把各家医疗机构的数据全部存贮到一个云平台就能称作是合格的国家医疗大数据。要建立合格的国家医疗大数据,需要对原有数据进行抽取,更需要对全国各家医疗机构现有的信息系统进行全面整改。信息化社会由概念到比较成熟用了30多年时间“信息化”的概念是上世纪60年代初提出的。在80年代,关于“信息社会”的较为流行的说法是“3C”社会(通讯化、计算机化和自动控制化),“3A”社会(工厂自动化、办公室自动化、家庭自动化)和“4A”社会(“3A”加农业自动化)。到了90年代,关于信息社会的说法又加上多媒体技术和信息高速公路。“信息化社会”的概念从提出到比效成熟用了30多年,而时至今日,“信化社会”之梦还没有全部成真。大数据的概念是2012年提出的,根据以往的经验,要创造一个时代,最起码以也十年以上的时间。千年虫问题的启示计算机2000年问题,又叫做“千年虫”、“电脑千禧年千年虫问题”或“千年危机”。缩写为“Y2K”。是指在某些使用了计算机程序的智能系统(包括计算机系统、自动控制芯片等)中,由于其中的年份只使用两位十进制数来表示,因此当系统进行(或涉及到)跨世纪的日期处理运算时(如多个日期之间的计算或比较等),就会出现错误的结果,进而引发各种各样的系统功能紊乱甚至崩溃。因此从根本上说千年虫是一种程序处理日期上的BUG,而非病毒。“千年虫”问题的根源始于60年代。当时计算机存储器的成本很高,如果用四位数字表示年份,就要多占用存储器空间,就会使成本增加,因此为了节省存储空间,计算机系统的编程人员采用两位数字表示年份。随着计算机技术的迅猛发展,虽然后来存储器的价格降低了,但在计算机系统中使用两位数字来表示年份的做法却由于思维上的惯性势力而被沿袭下来,年复一年,直到新世纪即将来临之际,大家才突然意识到用两位数字表示年份将无法正确辨识公元2000年及其以后的年份。1997年,信息界开始拉起了“千年虫”警钟,并很快引起了全球关注。“千年虫”是人类不经意造成的失误,为了抓住这只“虫”,全球至少已花费2000亿美元(有的媒体报道为3000亿美元,有的为6000亿美元)。新年伊始,联合国“国际2000年问题协调中心”、美国的“国际‘千年虫’监控中心”等机构先后宣布,133个国家的能源、通讯等十几个对“千年虫”敏感行业都顺利过渡,仅十多个国家出现一些轻微案例,但均及时纠正,未造成严重后果。全球唯一受“千年虫”严重影响的国家只有非洲的赞比亚,其政府、金融、电力、航空、服务一片混乱。政府宣布放假3日,避免社会功能瘫痪殃及其他系统。有人称“千年虫”工程是人类最大的信息工程、人类最庞大的抢救工程。大数据工程远比千年虫问题复杂若用当前的技术如何处理国家医疗大数据?首先是制订数据标准、数据结构标准,以及业务和业务流程的标准:这些工作的工程量非常大,需要五年左右的时间才能完成。目前虽说大家已认识到了标准化工作的重要性,但在实际行动上的力度还不够。其次是数据抽取:对原有的数据进行抽取。若要对全国97.8万家医疗机构所产生的所有数据进行抽取,其工程量也是非常巨大的。这个抽取工作需要以国家医疗数据标准为基础。第三是对现有信息系统的改造:只有对现有的信息系统进行彻底改造才能产生标准化的数据,这样才能适应大数据的需要。然而对全国各家医院的信息系统进行全面改造,所花费的代价是非常高的。到目前为止,各行各业的信息系统基本上都不标准,都不适应大数据的需求,对现有信息系统的改造的代价远远超对千年虫问题的处理。第四是数据同步:对现有信息系统进行改造之后,数据要实时地同步到国家医疗大数据中心。五年之内(2020年前)医疗大数据只是纸上谈兵五年之内,医疗大数据还只是处于探索阶段、发展阶段。五年之后医疗大数据才能逐步变成现实。从某种方面而言,五年之内(2020年前)中国没有真正合格的国家医疗大数据。真正的合格的国家医疗大数据是可以进行高效挖掘的数据,并不是把所有的数据堆集在一起就能称为医疗大数据。不能进行高效处理、挖掘的数据只能称为“数据垃圾”,五年之后才能将“数据垃圾”变成宝。必须开发新型的软件工具才能对医疗大数据进行高效挖掘维基百科对大数据的定义:“大数据是指所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、处理的数据。”维基百科对大数据的定义也意味着当前的主流软件工具已不能满足时代发展的要求,需要开发新软件工具来处理大数据,也意味着当前的医疗信息系统不能适应医疗大数据的实际需求,需要对现有的信息系统进行彻底的改造才能适应大数据时代的潮流。

发明专利:医学信息的结构化存贮方法维基百科关于大数据的定义已明确指出,目前的主流软件工具已不适合处理大数据,其言外之意就是要高效处理大数据,必须创造发明新的软件工具。人的大脑才是最好的数据处理工具。最好的大数据的处理工具应该在模仿大脑的记忆、思维方式的基础上而开发出来的软件工具。在大数据的4V特性中,最关键的问题就是数据类型的“多样性(Variety)”。人的大脑是如何处理数据的多样性的?对人的大脑而言,没有数据类型的概念。人的大脑通过视觉、听觉、触觉、嗅觉、味觉、痛觉等感觉器官而接收信号。对于同一感觉器官所接收的信号而言,它们的类型都是一样的。如果说大脑中的数据有数据类型,也只有六种类型(视觉型、听觉型、触觉型、嗅觉型、味觉型、痛觉型)。从某种方面而言,大脑中的数据只有一种类型,即模拟型数据。大脑通过联想而实现对信号的处理。联想共有三种:同时联想、相似联想、接近联想。同时联想:在同一时间内由不同的感觉器官所接收的信号同时输入大脑时,这些信号之间就可以形成联想关系。相似联想:同一感觉器官所接收到的信号相似时就可以形成联想关系。接近联想:在空间和时间上相互接近的事物的信号输入到大脑之中时,这些事物之间可以开成联想关系。大脑是以“穿糖葫芦”的形式存贮信号:当人的大脑接收第一个视觉信号时,大脑是从最接近视觉的存贮区域开始存贮信号,并以“穿糖葫芦”的形式逐一存贮所接收到的视觉信号。大脑是以六列的二维表的形式来存贮信号。对于同一存贮区域的信号,例如视觉存贮区域的信号,大脑是以相似联想、接近联想的形式而处理信号。对于不同存贮区载的信号,例如视觉存贮区域的信号与听觉存贮区域的信号,大脑是以同时联想的形式处理信号。大脑以同时联想、相似联想、接近联想的方式就可以联想(犹如计算机中的查询、检索)到大脑中的所有信号。人的大脑只用“一张表“就可以存贮所有的信号,只用识别和联想即可处理所有的信号。医学信息的结构化存贮方法就是在模仿大脑的上述记忆、联想形式的基础上而发明出的一种新型的数据结构,这种数据结构类似大脑记忆信息的结构,所以具有非常强大的功能。在了解医学信息的结构化存贮方法时的注意事项医学信息的结构化存贮方法的数据结构是一种与关系数据库中的二维数据结构完全不同的一种新型数据结构。正因如此,它拥有很多优异的功能、特性,而这些功能、特性是关系数据库及XML不可能实现的。医学信息的结构化存贮方法的一个最突出的特性就是非常适合处理病历信息,可以使电子病历完全结构化,也可以很容易地解决信息孤岛问题,也非常适合大数据存贮、挖掘。然而医学信息的结构化存贮方法是关系数据库理论的异类,与关系数据库理论格格不入,医学信息的结构化存贮方法在存贮和处理数据时也与关系数据库理论完全不同。用关系数据库理论的方法在进行大数据挖掘时会遇到很多困难,用医学信息的结构化存贮方法进行大数据挖掘时会使原来非常困难的问题变得非常简单。对于了解关系数据库理论者而言,在阅读医学信息的结构化存贮方法的相关内容之前,需要先忘掉关系数据库理论,不要在一开始就拿关系数据库与医学信息的结构化存贮方法相比较。要想真正理解医学信息的结构化存贮方法,需要先了解它真正优于关系数据库的地方,即医学信息的结构化存贮方法非常适合处理病历信息,可以使病历信息结构化,也可以很容易地解决信息孤岛实现互联互通,而关系数据库则无法使病历信息结构化,也不能有效地解决信息孤岛问题。学习关系数据理论基本上需要一个月的时间,“医学信息的结构化存贮方法”也是一种新型的数据库理论,因此,需要花一定的时间才能真正理解其内容,刚开始时肯定会遇到一些问题,这很正常。金庸的小说描写到:游坦之之所以能练成易筋经是因为他原来什么武功都不会。武功非常高强的鸠摩智为什么练不成易筋经?在少林寺藏经阁中的扫地僧说“鸠摩智练了少林派的七十二绝技之后,又去强练甚么《易筋经》”,又说他“次序颠倒,大难已在旦夕之间”。说道修炼少林诸门绝技,倘若心中不存慈悲之念,戾气所钟,奇祸难测。这般修炼上乘武功而走火入魔,最是厉害不过。学习“医学信息的结构化存贮方法”犹如修炼易筋经,不懂关系数据库理论的人反而更容易接受,而关系数据库高手、专家反而比较难接受。金庸的小说虽说是虚假的,但也有一定的哲理。小孩子之所以容易接受新理论、新观念,就是因为他们的大脑中没有旧观念的束缚,就像一张白纸,你想在上面画什么都可以。成年人则因为在长期的生活中已形成自己的世界观,所以对新的理论、观念就会产生抗拒之心,成年人接受新理论、新观念就慢,甚至完全不能接受。例如年轻人容易受西方的那种今天花明天的钱的超前消费观念,但上年纪的人却无论如何也接受不了超前消费的观念,无论钱多钱少,总要先存一些钱。医学信息的结构化存贮方法医学信息的结构化存贮方法中所用的表的结构是一种新型的数据结构,这种数据结构与XML中的数据有点相似。医学信息的结构化存贮方法中所用的表简称为“万能数据结构表”。“万能数据结构表”的数据结构与关系数据库中的表的数据结构有本质的区别。要用医学信息的结构化存贮方法而开发出一种概念全新的数据库系统是非常困难的,所需的投资非常大,因此,目前可采用关系数据库系统ORACAL、DB2、SQLSERVER、Access等来实现医学信息的结构化存贮。关系数据库以“横向”的N个字段存贮一个事物的信息:ID姓名性别年龄职业298张三男56医生“医学信息的结构化存贮方法”以“纵向”的N(或N+X)条记录存贮一个事物的信息:ID事物代号事物特征事物特征值超长特征值单位附件时间1201280事物分类人事管理系统1202280事物分类员工信息1203280姓名张三1204280性别男1205280年龄561206280职业医生“万能数据结构表”在SQLSERVER中的结构形式:列名数据类型Idbigint事物代号bigint事物特征nvarchar事物特征值nvarchar超长特征值ntext单位nvarchar附件image时间datatime“万能数据结构表”存贮数据的例子:ID事物代号事物特征事物特征值超长特征值单位附件时间28事物分类住院病历28事物分类患者基本情况28病案号19910819-2-21528身份证号XXXXXXXXXXXXX28姓名徐XX28工作单位石化总厂28职务机械工28地址上海市南京路28年龄4328入院日期1991-8-1928婚否已婚28病史采取日期1991-8-1928籍贯浙江省宁波市28病史记录日期1991-8-1928民族汉28病情陈述者患者本人29事物分类住院病历29事物分类现病历29事物分类症状29病案号19910819-2-21529身份证号XXXXXXXXXXXXX29症状寒战29症状腹泻29诱因洗澡时着凉29症状开始时间1991-8-1632病案号19910819-2-21532身份证号XXXXXXXXXXXXX32事物分类住院病历32事物分类现病历32事物分类症状详情32症状腹泻32开始时间1991-8-16晚间32次数3次32粪便情况水样便502病案号19910626-2-218502身份证号XXXXXXXXXXXX502事物分类住院病历502事物分类出院记录502事物分类症状详情502症状乳房肿块502肿块部位左乳502肿块大小5X4X4CM502肿块硬度质硬502肿块特点不光滑502肿块特点界限不清502肿块特点活动欠佳502肿块特点无触痛502肿块特点与皮肤粘连502肿块特点表面皮肤呈轻度“桔皮样”改变医学信息的结构化存贮方法的规定:数据结构必须统一,不能作任何改变。这是确保信息系统互联互通的基础。同一事物拥有一个唯一的事物代号。不同的事物不能拥有相同的事物代号。不同的事物代号代表不同的事物。数据的独立性、数据的完整性、数据的可识别性:医学信息的结构化存贮方法要求数据与数据库系统及相应的应用程序的耦合度为零。要实现数据与数据库系统及相应的应用程序的耦合度为零,就必须完全让数据自己表达出应有的含义。这是实现互联互通的最重要的基础。在关系数据库中实现医学信息的结构化存贮方法时,只要用“id、事物代号、事物特征、事物特征值、超长特征值、单位、附件、时间”8个字段的表就可以存贮各种各样的数据,对“事物代号、事物特征、事物特征值”字段建立索引以便查询;当关系数据库中的数据转换到“万能数据结构表”中时,医学信息的结构化存贮方法把关系数据库表中的一条记录当作一个事物,并为该事物分配一个唯一的事物代号,关系数据库表的字段名转换为医学信息的结构化存贮方法所用的表中的“事物特征”,相应字段中的数据则转换为“事物特征值”,超过“事物特征值”字段长度的数据则存放在“超长特征值”字段中,图片、附件等信息量比较大的信息、不适合转换为字符型数据的数据则存放在“附件”字段中。“万能数据结构表”中各字段的含义:“id”为每个记录的ID。“事物代号”为各事物的代号,每个事物拥有唯一的“事物代号”。关系数据库中的一个完整的数据是记录,“医学信息的结构化存贮方法”中一个完整的数据是“事物”,一个“事物”的信息由若干条拥有相同“事物代号”的记录组成。“事物特征”的含义为事物的特征。“事物特征值”的含义为事物的特征值。“超长特征值”的含义也是事物特征值,用来存放超过“事物特征值”字段的长度的字符型数据。“单位”字段代表事物特征值的单位(次、米、吨等)。“附件”字段:用来存放图象、附件等信息量比较大的、不适合转换为字符型数据的数据。“时间”字段:该字段为每一个事物的特征写入数据库时的时间,一般可由系统自动可生成。关系数据库是以“横向”的一个记录中的N个字段来存贮一个事物的信息,在建立信息系统时,一般情况下,关系数据库都要用多个结构不同的表才能建立信息系统。医学信息的结构化存贮方法则是以“纵向”的N个记录,或(N+X)个记录存贮一个事物的信息,医学信息的结构化存贮方法只要一张“万能数据结构表”或若干张结构完全一样的“万能数据结构表”就可以建立各种信息系统。概括而言,医学信息的结构化存贮方法是以纵向

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论