实现数据开放共享的方法_第1页
实现数据开放共享的方法_第2页
实现数据开放共享的方法_第3页
实现数据开放共享的方法_第4页
实现数据开放共享的方法_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1实现数据开放共享的方法实现数据开放共享的方法当前之所以存在严重的信息孤岛问题、数据难以开放共享,根本原因在于当前的信息系统设计的理论体系有问题。信息孤岛犹如爱滋病,一旦产生就不可医治,BI、EAI、EDI、ETL、ESB 只是减缓症状的方法,治标不治本。本文的方法是在系统的设计阶段实现数据的开放共享,从根本上避免信息孤岛问题的产生。火车是以标准的钢轨为基础避免了铁路交通孤岛而实现了互联互通,本文借鉴了此方法。2目目 录录第第 1 章章概要概要 .3第第 2 章章信息孤岛的根源在于关系数据库理论有问题信息孤岛的根源在于关系数据库理论有问题 .42.1当前的信息孤岛为什么是不治之症.42.2关系

2、数据库理论是以服务器为中心的孤岛型理论.52.3当前的信息系统软件开发模式的特点.62.4从技术上分析关系数据库理论所存在的问题.72.5关系数据库理论是单机时代的产物,不适应互联网时代.8第第 3 章章利用万能数据结构表实现数据开放共享利用万能数据结构表实现数据开放共享.103.1火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化.103.2数据结构的标准化:万能数据结构.11第第 4 章章两种完全不同的软件设计模式的对比两种完全不同的软件设计模式的对比.154.1万能数据结构表是一门全新的数据库理论.154.2数据的标准化、数据的完整性 .154.3独立数据库与关系数据库理论的

3、对比.19第第 5 章章独立数据库简介独立数据库简介.215.1独立数据库的技术特点:是一种数据优化、查询技术.225.2如何证明“万能数据结构表”是万能的 .245.3独立数据库的一项重要任务就是根除关系.283第第 1 章章 概要概要当前的数据之所以难以开放共享,根本原因在于当前的信息系统设计的理论体系有问题。实现数据开放共享、互联互通可以借鉴火车的设计思路。我国的火车之所以可以在全国各地互联互通,是因为我国各地的钢轨都是标准的,各种火车是以标准的钢轨为基础而设计。我国的钢轨与前苏联的钢轨是不相同的,我国的火车要经过前苏联国家时,就要换车轮,换一次车轮需要 80 分钟。当前的各种信息系统中

4、的数据全都是异构的,犹如钢轨的宽度各不相同,当前的系统之间互联互通是通过转换数据结构的方式而实现,犹如换车轮。BI、EAI、EDI、ETL、ESB 等都是通过“换车轮模式”而实现互联互通。铁路交通只是利用钢轨的标准化这种非常简单的方法就从根本上避免了铁路交通孤岛问题的产生。本文解决信息孤岛问题的方法也很简单,本文是通过对数据及数据结构的标准化而从根本上避免信息孤岛问题的产生,犹如火车通过钢轨的标准化而实现互联互通。本文中的方法与当前的信息系统设计的理论体系完全不同,是一种全新的信息系统设计模式。当前设计各种信息系统的特点:数据及数据结构完全由设计人员自己决定,因此各信息系统中的数据完全是异构的

5、,这犹如全国各地都是分别设计自己的火车,各地的火车钢轨都是不相同的。本文借鉴了铁路交通的设计思路:在设计各种信息系统时,必须按标准的数据及标准的数据结构为基础而设计,不允许设计人员随意地定义数据及数据结构。万能数据结构表就是标准的数据结构表。万能数据结构表可以存贮各种各样的结构化数据。如果各个信息系统中的数据及数据结构都是标准的,那么数据就可以象火车一样在各个信息系统之间互联互通。当前的实现数据开放共享、互联互通的方法可称作是“换车轮模式” 。本文实现数据开放共享的方法所采有的模式可称作是“标准化模式” 。 “标准化模式”是以“独立数据库”为基础而设计的。 “独立数据库”是一种与关系数据库理论

6、完全不同的全新的数据库理论。【作者:】4第第 2 章章 信息孤岛的根源在于关系数据库理论有问题信息孤岛的根源在于关系数据库理论有问题在信息化领域,关系数据库独占鳌头!当前的大部分信息系统都是以关系数据库为基础。本文之所以要介绍独立数据库,是因为以关系数据库理论为基础而设计的信息系统都不能有效地实现数据的开放共享、互联互通。在介绍独立数据之前,非常有必要研究清楚以关系数据库为基础的信息系统为什么都是孤岛型的系统。也可以为什么只有抛弃关系数据库理论才能从根本上解决信息孤岛问题。2.12.1 当前的信息孤岛为什么是不治之症当前的信息孤岛为什么是不治之症通过下面的分析、计算就会发现当前的信息孤岛是不治

7、之症。这是由当前的信息孤岛的实际情况及解决信息孤岛的方式所决定的。当前的实际情况:当前的各种信息系统都是孤岛型的,因为设计人员在开发各种信息系统时都没有考虑数据的互联互通问题,没有通用的数据接口。如果需要与某个系统实现数据的互联互通,则需要开发专用的“点对点式的数据接口” 。如果与 N 个系统实现数据的互联互通,那么至少要开发 N 个数据接口。用现有的技术为什么不能根除信息孤岛?从理论上而言,利用现有技术可以通过转换数据结构的方式而实现任意两个信息系统之间的特定数据的互联互通、开放共享,然而由于全球的各种信息系统的数量超过千万,全球所产生的数据超过数万亿条,而且信息系统及数据还在不断地增加,面

8、对如此海量的异构的、不标准的数据, “转换数据结构”的方法所花的成本非常高、不可承受。因此,当前的信息孤岛只能在局部进行缓解,而不能整体上得到根治。利用现有技术设计信息系统时,每增加一个信息系统,就增加了一个孤岛。两个系统之间的互联互通约需要 1 个人月的工程量;三个系统之间的互联互通约需要(3-1)+(3-2)=3 个人月的工程量;四个系统之间的互联互通约需要(4-1)+(4-2)+(4-3)=6 个人月的工程量;N 个信息系统之间的互联互通约需要(N-1)+(N-2)+(N-3)+3+2+1)个人月的工程量。由计算公式可看出,随着信息系统的数量的增多,系统之间的互联互通的工程量十分巨大,无

9、法承受。因此,当前的信息孤岛是不治之症。这与当前的事实是相符的,自5从关系数据库理论产生的 40 多年来,世界各地的信息孤岛问题都未能得到有效解决。用关系数据库理论开发信息系统,会产生无穷无尽的数据结构,也会产生无穷无尽的不标准、不规范的数据。对于用关系数据库理论所设计的信息系统而言,随着信息系统的数量的增加,信息孤岛问题也将会更加严重。也可以说关系数据库理论是信息孤岛的发源地,人们虽说想尽各种方法来解决信息孤岛让数据互联互通,然而信息孤岛问题不降反增。信息孤岛一旦产生,就不可根治。因为当前的信息系统中的数据的数据结构是不标准的、数据是不标准的,数据与数据库系统密不可分,数据与应用程序密不可分

10、,数据只有在原系统中才是有意义的,一旦脱离了原来的系统,就会变成无意义的数据。当前解决信息孤岛实现互联互通的方法(例如BI、EAI、EDI、ETL、ESB 等等)都是通过转换数据结构(换车轮模式) 、开发点对点式的数据接口而实现,然而这种方法只能治标,不能治本。利用现有技术无法开发出通用的数据接口。2.22.2 关系数据库理论是以服务器为中心的孤岛型理论关系数据库理论是以服务器为中心的孤岛型理论关系数据库理论建立在封闭的局域网的基础之上:“所有的数据都处于一个完全封闭的系统中” 。关系数据库理论中没有互联互通的内容,也没有数据接口的内容。关系数据库理论是一种以自我为中心的孤岛型理论:“我只处理

11、我的数据,不处理你的数据,你只处理你的数据,你也不能处理我的数据,你我之间没关系。 ”关系数据库理论的创始人根本就没有考虑互联互通的问题,关系数据库理论是一种仅适用于单机、局域网的数据库理论。互联互通的信息系统没有中心:“我要处理我的数据,还要处理你的数据和他的数据,你要处理你的数据,也要处理我的数据和他的数据,你我他之间的数据要互联互通。 ”关系数据库理论是“独立王国”的孤岛型理论,关系数据库设计人员是“独立王国”的国王,国王就是法律,数据类型、数据结构全由国王任意定义。互联互通需要的是没有国王的民主社会的民主型理论,数据库的设计人员不再是国王而是民主社会中的一员,他的一言一行(数据、数据结

12、构)都必须受到6民主社会的“法律、行为规范(通信协议) ”的制约。问题是当前的关系数据库理论中没有结构化数据互联互通的通信协议。关系数据库的问题:由设计人员任意定义数据和数据结构,各方的数据和数据结构各不相同。因此,数据的接收方无法直接把数据存贮到自己的数据库中。关系数据库中的数据是一种有结构的数据,然而对方又没有这样的结构,因此,数据发送到对方的数据库之后就是不可识别的数据。只要是用关系数据库理论所设计的信息系统,其数据必定不可能在各个数据库之间互联互通,必定是孤岛型系统。30 多年来关系数据库在结构化数据处理方面独占鳌头,为全球的信息化建设立下了汗马功劳,是信息化社会的大功臣!当前之所以会

13、出现严重的信息孤岛问题、互联互通问题、数据难挖掘问题,与关系数据库密不可分,关系数据库是信息孤岛问题的罪魁祸首!人们曾花费巨额资金,希望通过BI、EAI、ETL、EDI、ESB 等技术来解决信息孤岛,实现数据的互联互通,然而全球的大量事实表明,效果很不理想。2.32.3 当前的信息系统软件开发模式的特点当前的信息系统软件开发模式的特点当前的信息系统软件开发模式是:先设计出数据结构各不相同的系统,然后再通过转换数据结构而实现互联互通,犹如先设计出“结构各不相同的车轮”的火车,然后再换车轮互通,这种软件开发模式可称作是“换车轮模式” 、 “后ETL 模式” 。用本文中的方法设计软件时,其开发模式是

14、:各信息系统必须按照标准的、统一的“事物信息表”而设计信息系统,犹如按标准的钢轨而设计火车,这种软件开发模式可称作是“标准化模式” 、 “先 ETL 模式” ,按这种模式所开发出的信息系统实现数据的互联互通、开放共享交换非常容易,在技术上不存在信息孤岛问题。在小数据时代,各行各业的信息系统中的数据及数据结构基本上都是不标准、不规范的,各个信息系统中的数据完全由系统的设计人员任意定义,因此,各信息系统中的数据都是异构的、不标准的,结果导致了非常严重的信息孤岛问题。不同的信息系统要实现互联互通、共享交换,就必须通过转换数据结构的方式来实现。然而面对全球数千万个以上的信息系统,数万亿条以上的异构7的

15、、不标准的数据,要实现各个信息系统之间的互联互通、共享交换,用传统的转换数据结构的方法就非常困难,甚至可以说根本不可能在可承受的时间内实现。现有软件开发模式的根本错误在于“数据治理的先后次序”搞反了。当前的 BI、EAI、ETL、EDI 等技术都是在“疾病”产生了之后再“治疗疾病” 。在大数据时代,应该是在设计各种信息系统之前就对各行各业的数据进行“数据治理” ,并形成各行各业的国际数据标准、国家数据标准、行业数据标准,而不是等到数千万个软件系统产生了无比海量的不标准、不规范的数据之后再治理数据。2.42.4 从技术上分析关系数据库理论所存在的问题从技术上分析关系数据库理论所存在的问题下面的两

16、张表中的数据对关系数据库而言是合格的,然而这两张表中的数据是普通人难以看懂的:表 3:关系数据库中的表IDIDXMXMXBXBNLNLTZTZSGSG1张三男5672180表 4:关系数据库中的表IDIDXMXMXBXBZYFZYFXYFXYFQTFYQTFY2146张三男5672180上面两表中的数据的实际含义如下:表 5:表 2 的实际内容IDID姓名姓名性别性别所龄所龄体重体重身高身高1张三男5672180表 6:表 3 的实际内容IDID姓名姓名性别性别中药费中药费西药费西药费其它费其它费用用2146张三男5672180下表是用发明专利技术万能数据结构表“事物信息表”而设计的表,该表中

17、的数据无论是谁,只要懂汉语,就可以看懂表中内容:事物信息表存贮数据的例子ID事物代号事物属性 事物属性值超长属性值单位附件时间100280事物分类 体育管理系统2014.3.2101280事物分类 教练信息2014.3.2102280事物分类 教练基本情况2014.3.2103280身份证号XXXXXXXXXX 2014.3.28105280姓名张三2014.3.2106280性别男2014.3.2107280年龄562014.3.2108280体重72 KG 2014.3.2109280身高180CM2014.3.211001280事物分类 病历2014.5.311011280事物分类 住院

18、病历2014.5.311021280事物分类 医疗费用2014.5.311031280身份证号XXXXXXXXXX 2014.5.311041280住院号XXXXXXXXXX 2014.5.311051280姓名张三2014.5.311061280性别男2014.5.311071280中药费56元2014.5.311081280西药费72 元 2014.5.311091280其它费用180元2014.5.3关系数据库中的数据与数据结构密不可分。关系数据库中的每一个数据都是有数据结构的,一旦失去相应的数据结构,就成了无意义的数据。关系数据库中的数据与应用程序密不可分。目前的信息系统都是通过应用程

19、序来解读关系数据库中的数据,然而每个应用程序只能解读自己的系统中的数据而无法解读其它系统中的数据。关系数据库中的数据不具独立性、完整性,数据一旦脱离相应的数据库系统及相应的应用程序就变成了无意义的数据。2.52.5 关系数据库理论是单机时代的产物,不适应互联网时代关系数据库理论是单机时代的产物,不适应互联网时代信息孤岛问题是 IT 领域的一个非常严重的问题。人们在 20 年前就注意到了信息孤岛问题,并开始寻找解决信息孤岛问题的方法,然而 20 多年过去了,全世界无数的非常聪明的 IT 人士想尽了各种方法,例如BI、EAI、EDI、ETL、ESB,然而当前的众多事实表明,信息孤岛问题不但没有从根

20、本上加以解决,反而越来越严重。人们为什么无法根除信息孤岛问题呢?产生信息孤岛的根本原因在于关系数据库理论,因为关系数据理论单机时代的产物,创始人当时未考虑数据在各个信息系统之间的互联互通问题!关系数据库理论是在互联网产生之前的单机时代创立的。关系数据库理论于 1970 年 6 月由 IBM 公司的埃德加考特(Edgar Frank Codd)创立。ORACLE 诞生于 1979 年。互联网诞生于 1973 年至 1984 年9之间。1984 年,美国国防部将 TCP/IP 作为计算机网络的标准。关系数据库理论中没有数据交换共享的概念,也没有数据接口的概念。关系数据库所关心的只是如何处理自己的数

21、据(单机中的数据) ,而未考虑如何处理从其它数据库发过来的数据,也未考虑如何把数据发送到其它数据库。关系数据库的特点是:“你的数据库处理你的数据,我的数据库处理我的数据。我不处理你的数据,你也不处理我的数据,你我之间是没有关系的。 ”在单机时代、局域网时代,关系数据库在处理结构化数据方面发挥出了巨大的作用。然而,随着互联网时代的到来,人们不但希望信息系统处理自己的数据,还希望各个信息系统之间可以共享交换数据,希望数据可以互联互通。为了解决信息孤岛问题,人们发明了 BI、EAI、EDI、ETL、ESB 等等很多方法。随着 IT 技术的飞速发展,全世界的各行各业建立了大量的信息系统,然而 20多年

22、来全世界花费了巨大的人力、物力来解决信息孤岛问题,到如今,信息孤岛问题不但没有根除,反而比以前更严重,信息系统之间的互联互通、数据的开放共享还是非常困难!10第第 3 章章 利用万能数据结构表实现数据开放共享利用万能数据结构表实现数据开放共享本文解决信息孤岛实现数据开放共享的方法非常简单,犹如火车通过钢轨的标准化而实现了铁路交通的互联互通,万能数据结构表就是信息系统的标准的钢轨。3.13.1 火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化火车之所以能够在全国各地互联互通,是因为全国的钢轨都是标准的,我国的各种火车都是

23、以标准的钢轨为基础而设计的。机械零部件的互换性是机械中的一个非常重要特性。机械工程师在设计机械设备时都要尽量采用标准的零部件。火车的互联互通及机械零部件的互换性都是以“标准化”为基础。如果说全国各地的钢轨各不相同,那么无论采用什么样的换车轮的方法,都不可能从根本上解决铁路交通的孤岛问题。这个道理大家都能理解。奇怪的是在 IT 领域,人们到目前为止还是采用“换车轮的模式”来解决信息孤岛问题。IT 行业的软件工程师几乎没有标准的概念。软件设计人员在设计软件系统时几乎不考虑任何标准,各种信息系统中的数据完全由软件设计人员自己任意定义,其结果就是各种信息系统中的数据全是不标准、不规范的异构数据。铁路交

24、通以“钢轨的标准化”而从根本上避免了“铁路交通孤岛”问题的产生。如果各种信息系统的数据及数据结构也采用标准化的数据和数据结构,那么,也可以从根本上实现各种信息系统之间的互联互通!然而利用关系数据库技术,不可能使数据结构标准化、统一化。本文中的“事物信息表”可存贮各种各样的结构化数据,可以成为标准的数据结构表。关系数据库理论存在致命缺陷的一个重要原因在于“由设计人员自己随意定义数据结构” ,其结果就产生了大数据时代的“数据类型多”的大问题。为了从根本上解决“数据类型多”的问题,利用本文的方法在设计信息系统时,不充许数据库的设计人员随意地定义数据结构,为了使数据可以互联互通,存贮任何数据都必须采用

25、统一的、标准的、固定的数据结构表“万能数据结构表”来存贮。本文之所以自始至终强调“只用一张表或若干张结构完全一样的事物信息表存贮数据、数据的完整性” ,目的就是让数据可以在不同的信息系统之间11互联互通” 。3.23.2 数据结构的标准化:万能数据结构数据结构的标准化:万能数据结构下面的表 1 是“事物信息表” , “事物信息表”是万能数据结构表,可以只用一张表而存贮各种关系数据库中的任意结构的数据。表 1 只用一张表就存贮了“1、动物档案;2、销售订单表;3、销售订单明细表;4、患者基本情况;5、症状;6、员工身高体重;7、通信录;8、医疗费用”的数据。若用关系数据库理论中的方法来存贮这些数

26、据就需要 8 张结构各不相同的表。表 1:事物信息表只用一张即可存贮各种各样的结构化数据IDID事物事物代号代号事物特征事物特征事物特征值事物特征值超长特征值超长特征值单单位位附件附件 时时间间652367事物分类动物管理系统662367事物分类企鹅672367事物分类帝企鹅682367事物分类动物档案692367动物编号3702367名字汉武帝812367动物简介帝企鹅(学名:Aptenodytes forsteri):也称皇帝企鹅,是企鹅家族中个体最大的,一般身高在 90 厘米以上,最大可达到 120 厘米,体重可达 50千克。其形态特征是脖子底下有一片橙黄色羽毛,向下逐渐变淡,耳朵后部最

27、深。全身色泽协调。颈部为淡黄色,耳朵的羽毛鲜黄橘色,腹部乳白色,背部及鳍状肢则是黑色,鸟喙的下方是鲜桔色。712367购入日期2013/3/21722367身高1.2m732367体重20kg742367出生日期2011/4/2752367照片JPG762367笼舍编号98772367管理员张三782367父1792367母2802367性别雄122128事物分类销售订单表3128订单 ID102484128客户名称山泰企业5128销售负责人赵军6128订购日期1996/7/47128到货日期1996/8/18128发货日期1996/7/169128运货商联邦货运10128运货费32.38元1

28、1128货主名称余小姐12128货主地址光明北路 12 号149813事物分类产品销售系统159813事物分类销售订单明细表169813订单 ID10248179813产品名称猪肉189813单位14元199813数量12Kg209813折扣0%3728事物分类住院病历3828事物分类患者基本情况3928病案号199109-2-2154028身份证号XXXXXXXXXXXX4128姓名徐 XX4228工作单位石化总厂4328职务机械工4428地址上海市南京路4528年龄434628入院日期1991/8/194728婚否已婚4828病史采取日期1991/8/194928籍贯浙江省宁波市5028病

29、史记录日期1991/8/195128民族汉5228病情陈述者患者本人5429事物分类住院病历5529事物分类现病历5629事物分类症状135729病案号199108-2-2155829身份证号XXXXXXXXXXX5929姓名张三丰6029症状寒战6129症状腹泻6229诱因洗澡时着凉6329症状开始时间1991/8/1682280事物分类人事管理系统83280事物分类员工身高体重84280姓名张三85280性别男86280年龄56岁87280体重72KG88280身高180CM89280身份证号410305XXXXX919753事物分类通信录929753姓名张三939753手机1366086

30、XXXX949753单位广州软件公司959753QQ6667567XXX969753邮件6668QQ.COM979753地址广州大道 2 号989753照片JPG1001280事物分类住院病历1011280事物分类医疗费用1021280身份证号XXXXXXXXXX1031280住院号XXXXXXXXXX1041280姓名张三1051280性别男1061280中药费56元1071280西药费72元1081280其它费用180元1091280事物分类住院病历对于关系数据库领域的技术人员而言,随机地挑选 100 个信息系统,这100 个信息系统中的数据的结构肯定是各不相同的,肯定不可能做到使这 10

31、014个信息系统中的所有数据的数据结构都是相同的。然而万能数据结构表可以做到“只要一张表(如上面的表 1 所示)就可以存贮各种各样的结构化数据” ,利用万能数据结构表而设计的各种各样的信息系统的所有数据的数据结构都是相同的。因为万能数据结构表是一种“通用表” ,可以只用一张“事物信息表”即可存贮各种各样的结构化数据。15第第 4 章章 两种完全不同的软件设计模式的对比两种完全不同的软件设计模式的对比4.14.1 万能数据结构表是一门全新的数据库理论万能数据结构表是一门全新的数据库理论万能数据结构表不仅仅是一种表,其实是一门全新的数据库理论,可称作是独立数据库理论。之所以称作是独立数据库是为了与

32、关系数据库相区别。关系数据库中的数据是依靠与关系数据库的关系、与表结构的关系、与应用程序的关系、与其它表的关系才能表达出相应的含义。独立数据库中的数据则要求其中的数据必须独立地、完整地表达出相应的含义,与数据库、与应用程序、与其它没有任何关系。独立数据库与关系数据库理论的最大区别主要有两点:1、独立数据库全部采用万能数据结构表这一种数据结构表存贮数据,因此所有数据的数据结构都是相同的;2、独立数据库要求数据必须满足“数据的完整性” 。利用独立数据库所设计的信息系统的特点:实现数据的互联互通、共享开放非常容易,对多个信息系统中的数据挖掘非常容易,不存在信息孤岛问题,可高效地实现医学信息的结构化存

33、贮。独立数据库与现有技术的最大区别就是:现有技术都是先让信息孤岛产生,然后再通过转换数据结构(犹如换车轮)而实现互联互通。独立数据库所考虑的不是如何治理现有的信息孤岛问题,而是通过数据结构及数据的标准化(犹如标准的钢轨及车轮)而从根本上避免信息孤岛问题的产生。由于利用独立数据库所设计的各种信息系统实现互联互通非常容易,不存在信息孤岛问题,所以就不用考虑治理信息孤岛的问题。4.24.2 数据的标准化、数据的完整性数据的标准化、数据的完整性万能数据结构表犹如标准的钢轨,数据的标准化(数据的完整性)犹如使万能数据结构表犹如标准的钢轨,数据的标准化(数据的完整性)犹如使火车的车轮适应标准的钢轨。火车的

34、车轮适应标准的钢轨。公知常识中并没有“什么样的数据才是可以互联互通的结构化数据”的概16念,也没有相应的名词来表达这个概念,也没有准确的定义来说明什么样的数据才是可以互联互通的数据,也没有人能列举出哪个结构化数据是可以互联互通的数据。因为目前并不存在可以互联互通的结构化数据,当前的任何一个关系数据库中的任何一条数据都只是在自己的数据库系统中、在自己的信息系统中才是有意义的,当关系数据库中的某条数据发送到其它信息系统时,就成了无意义的数据,对方就不能把数据直接存贮到数据库中并且直接对数据进行识别处理,因为数据的接收方没有相应的数据结构。人们所希望的互联互通就是让结构化数据可以发送到各种信息系统中

35、,数据的接收方可以直接把数据存贮到数据库中,而且可以识别处理该数据,然而到目前为止,现有技术未能解决此问题。当前的各种关系数据库中的所有数据都不是可以互联互通的数据,因为关系数据库中的数据都是有数据结构的,关系数据库中的数据一旦脱离了原来的环境而发送到其它数据库时,就会因为对方的数据库中没有相应的数据结构而导致数据的接收方不能把数据存贮到数据库中。只有满足“数据的完整性”的数据才是可以互联互通的结构化数据。 “数据的完整性”是独立数据库所提出的新概念,与当前的“数据完整性”的含义是完全不同的。独立数据库中的“数据的完整性”所针对的问题:在关系数据库理论创立了 40 多年的今天,人们并未有效地解

36、决结构化数据互联互通的问题,甚至可以说关系数据库中的结构化数据都是孤岛型数据,因为关系数据库中的数据只能在特定的系统中才是有意义的,一旦脱离了原来的系统而发送到其它的系统之中时,就会变成无意义的数据。独立数据库创立“数据的完整性”的概念的目的就是使数据无论被发送到任何一个信息系统中都是有意义的,可以被数据的接收方识别、处理。需要说明的是:独立数据库中的“数据的完整性”的适用范围是“利用医学信息的结构化存贮方法而设计的各种信息系统” 。当前的关系数据库中的数据为什么一旦脱离了原来的系统就会变成无意义的数据?根本原因在于关系数据库中的数据都是有结构的,数据的结构都是由数据库的设计者随意地定义的,只

37、能自己识别,其它系统、其它人不能识别,17因为数据的接收方的数据库中不一定就有相应的数据结构。独立数据库中的“数据的完整性”的含义:医学信息的结构化存贮方法要求数据与数据库系统及相应的应用程序的耦合度为零。这是实现互联互通的最重要的基础。 “事物信息表”中的数据与数据库系统及相应的应用程序是相互独立的,即“事物信息表”中的任一事物的数据都具有比较好的完整性, “事物信息表”中的数据脱离相应的数据库系统及应用程序后还能保持原来的意义,数据的完整性是确保信息系统之间可以互联互通和信息共享的基础。独立数据库注重的是数据的完整性。数据的完整性是指数据可以不依靠其它注释、解释、翻译、加工处理而独立地、准

38、确地、完整地表达出某种完整的含义。医学信息的结构化存贮方法要求各个事物的数据要尽量独立地、准确地、完整地表达出某种含义。在“事物信息表”中,事物之间的关系不是靠各种表来表达,而是靠各事物原来所具有的自然特征和特征值而自然地建立关系,各事物之间的关系与数据库系统以及应用系统无关,或者说各事物之间的关系完全独立于数据库系统及应用系统而独立地、准确地、完整地具有某种含义,这就可以确保一个事物的信息在任何信息系统中都有相同的含义。百分之百合格的“事物信息表”中的数据与数据库系统、表结构、应用系统的耦合度为零。关系数据库是用各种关系来表达各种事物间的关系。正如关系数据库名中的“关系”的含义:关系数据库中

39、的数据与关系数据库系统、表结构以及相应的应用程序密不可分,一旦分开,关系数据库中的数据将会变成无意义的数据,然而,正是这种“关系”而导致关系数据库必然产生“信息孤岛” 。 “事物信息表”中的数据与数据库系统、表结构及应用程序无关,可以完全脱离数据库系统、表结构及应用程序而独立地存在,这是医学信息的结构化存贮方法非常突出的特点。正因为关系数据库中的数据与关系数据库系统、表结构及应用程序密不可分,所以当进行数据交换时,数据到了另一个环境中就变成了失真的数据,这也是关系数据难以实现互联互通、易产生信息孤岛的根本原因。 “事物信息表”中的数据与“数据库系统、表结构及应用程序”无“关系”,可以完全脱离数

40、据库系统及应用程序而独立存在,所以用医学信息的结构化存贮方法所建立的信息系统实现互联互通非常容易,因为它的数据无论发送到18什么地方,都能独立地、准确地、完整地表达出原有的含义。数据完整性的重要意义:可以很容易地实现信息系统之间的互联互通,可以有效地解决当前的信息孤岛问题。当前之所以存在严重的信息孤岛问题,根本原因就在于各个信息系统中的数据不具完整性,数据与数据库系统、表结构、应用系统的“关系”密不可分。关系数据库的数据不具完整性,这是因为关系数据库中的数据离不开表的结构,离开了表结构,数据就失真,而带表结构进行交换时,接收数据的关系数据库中往往没有结构完全相同的表结构而不认识所接收到的数据。

41、 “事物信息表”中的数据本身就是完整的、自带结构的。独立数据库提倡用自然语言,尽量避免用代码。为了实现数据的完整性,要尽量少用、甚至不用代码。因为代码会使数据变得难以理解,会使数据与应用程序的耦合度增高,使数据失去完整性。传统的数据库系统设计者爱使用代码,这样做的结果就使数据库系统中的数据与应用程序密不可分,需要由专用的应用程序才能正确解读数据的真实含义。这也是产生信息孤岛的一个重要原因。要成为互联互通的结构化数据必须满足两个条件:1、数据必须能够存贮到接收数据方的数据库中(然而要使数据存贮到数据接收方的数据库中的前提是对方的数据库中有相同的数据结构表,然而目前的信息系统都不可能做到这一点)

42、;2、数据必须能够让数据接收方的信息系统识别、处理(当前的各种信息系统都不能做到这一点) 。要使数据能够存贮到数据接收方的数据库中,就必须使数据的数据结构与数据的接收方的数据结构完全相同,否则就不可能把数据存贮到数据的接收方的数据库中。然而,当前的各种信息系统基本上都是利用关系数据库理论而建立的,各个信息系统的数据结构基本上都是完全不相同的,有相同的数据结构是非常偶然的。正因如此,各个信息系统中的数据基本上都不可能直接发送到其它的信息系统并存贮到相应的数据库中,这也就是当前的信息系统产生信息孤岛的根本原因。关系数据库只考虑如何处理自己的数据,从不考虑如何处理来自其它系统关系数据库只考虑如何处理

43、自己的数据,从不考虑如何处理来自其它系统的数据,也不考虑如何让其它系统处理。独立数据库的核心则是的数据,也不考虑如何让其它系统处理。独立数据库的核心则是“不但要识别不但要识别19处理自己的数据,也要考虑如何让大家都可以识别处理处理自己的数据,也要考虑如何让大家都可以识别处理” 。4.34.3 独立数据库与关系数据库理论的对比独立数据库与关系数据库理论的对比独立数据库是一门全新的数据库理论,完全不同于当前的关系数据库理论。关系数据库的最大问题就是只能处理自己的数据,不能有效地实现数据在各个信息系统之间的互联互通。利用关系数据库理论设计各种信息系统时肯定要采用多种结构各不相同的表来存贮各种数据。然

44、而利用独立数据库设计各种信息系统时,存贮任何结构化数据都全部采用标准的、统一的、固定不变的“事物信息表” ,这样做的目的是为了使数据可以在各信息系统之间互联互通。独立数据库所要解决的主要技术问题是:1、数据在各信息系统之间的互联互通。独立数据库解决技术问题的方案是:1、 “用一张或若干张结构完全相同的事物信息表存贮各种各样的数据” ;2、要求数据库中的数据必须满足“数据的完整性” 。独立数据库所产生的效果是:用独立数据库设计的各种信息系统时,这些信息系统全部采用“事物信息表”存贮数据,不存在异构数据问题,在技术上不存在信息孤岛问题,实现数据的互联互通、共享交换、数据挖掘非常容易。独立数据库与关

45、系数据库的对比对比的内容对比的内容关系数据库关系数据库医学信息的结构化存贮方法医学信息的结构化存贮方法1存贮数据时所用的表横向的表纵向的表2存贮不同的数据时所用表的结构多张结构不相同的表全部采用事物信息表这一种结构表3数据冗余考虑数据冗余,数据冗余小不考虑数据冗余问题,以适当的数据冗余而换取智能、使用方便,使数据满足“数据的完整性” 。4使用代码的情况大量使用代码极力反对使用代码5数据的关系与表结构、与信息系统、与其它表密切相关。极力反对“关系” ,提倡数据与数据之间、数据与数据库之间、数据与应用程序之间尽量独立、没关系。因为关系是产生信息孤岛的主要原因。206是否允许设计人员随意设计数据结构

46、完全由设计人员随意设计数据的结构不允许技术人员随意设计数据的结构,存贮任何数据都必须采用统一的、标准的事物信息表7数据的互联互通实现互联互通非常困难非常容易8在互联互通时是否需要转换数据的结构需要不需要,因为在用独立数据库所设计的信息系统的所有数据的结构都是相同的9是否要求数据满足“数据的完整性”未要求要求数据必须满足“数据的完整性”10软件开发模式后 ETL 模式先 ETL 模式、以标准化为基础的软件开发模式11关注的重点以用户的功能需求为中心以数据的互联互通中心21第第 5 章章 独立数据库简介独立数据库简介独立数据库以两项发明专利技术独立数据库以两项发明专利技术“医学信息的结构化存贮方法

47、医学信息的结构化存贮方法”及及“结构结构化大数据通信协议化大数据通信协议”为基础。独立数据库非常简单:只有一张万能数据结构表,为基础。独立数据库非常简单:只有一张万能数据结构表,关键在于数据优化技术。关键在于数据优化技术。关系数据库以“横向”的 N 个字段存贮一个事物的信息:IDID姓名姓名性别性别所龄所龄体重体重身高身高1张三男5672180“独立数据库”以“纵向”的 N(或 N+X)条记录存贮一个事物的信息:ID事物代号事物属性事物属性值超长属性值单位附件时间1201280事物分类人事管理系统1202280事物分类员工身高体重1203280姓名张三1204280性别男1205280年龄56

48、岁1206280体重72KG1207280身高180CM1208280身份证号410305XXXXX123132病案号199108-2-215123232身份证号XXXXXXXXXXXX123332事物分类住院病历123432事物分类现病历123532事物分类症状详情123632症状腹痛123732开始时间1991-8-16 用上表的形式的万能数据结构表所建立的数据库即可称作是“独立数据库” ,独立数据库系统中只有一张表,或若干张结构完全一样的表。独立数据库适用于处理各行各业的结构化大数据。由于开发全新的“独立数据库”需要的投资非常大,目前可在关系数据库中实现“独立数据库” ,只要在关系数据库

49、中建立一张,或若干张结构完全一样的“万能数据结构表”即可。22“独立数据库”所关心的重点是不数据处理,而是“数据”及“数据结构”的优化,因为采用最优的“数据”和“数据结构”之后,数据处理就会变得非常简单。用关系数据库之所以无法解决信息孤岛,难以实现数据共享及互联互通,关键在于关系数据库中的“数据”和“数据结构”有问题,关系数据库中的数据都是失真数据,关系数据库所用的“数据结构”是一种非常低效的“数据结构” 、非常不合格的“数据结构” 。5.15.1 独立数据库的技术特点:是一种数据优化、查询技术独立数据库的技术特点:是一种数据优化、查询技术“大数据的最关键技术是查询技术大数据的最关键技术是查询

50、技术”:谷歌实现的是非结构化大数据的查:谷歌实现的是非结构化大数据的查询,独立数据库所实现的是结构化大数据的查询。大数据的特点是大,正因为询,独立数据库所实现的是结构化大数据的查询。大数据的特点是大,正因为大,要想获得所需数据特别困难,因此,从大数据中查询到所需要的数据就是大,要想获得所需数据特别困难,因此,从大数据中查询到所需要的数据就是最关键的,然后才是对查询到的数据的分析、统计。因此,可以说最关键的,然后才是对查询到的数据的分析、统计。因此,可以说“大数据的大数据的最关键的技术就是查询技术最关键的技术就是查询技术” ,大数据的前期工作是为查询做准备,大数据的后,大数据的前期工作是为查询做

51、准备,大数据的后期工作是对查询到数据进行统计、分析,大数据的各种工作都是以查询为中心期工作是对查询到数据进行统计、分析,大数据的各种工作都是以查询为中心而开展。而开展。独立数据库是纯粹的“数据优化技术” 。独立数据库只用一张,或若干张结构完全一样的“万能数据结构表”即可存贮各行各业的各种结构化数据, “万能数据结构表”从根本上解决了“异构数据” 、大数据的“数据类型多样性”问题。用独立数据库所建立的信息系统不存在“异构数据”问题,也不存在信息孤岛问题,实现互联互通非常容易。独立数据库不是通过复杂的技术、程序来实现结构化大数据的高效处理,而是通过对“数据”及“数据结构”的优化而大幅度提高结构化数

52、据的处理性能、灵活性。利用独立数据库,只要用现有技术即可非常高效地处理各行各业的结构化大数据。独立数据库的数据优化技术类似于商业智能、ETL,然而商业智能、ETL 是治病,独立数据库是避免疾病产生。23“万能数据结构表”的数据结构与关系数据库中的表的数据结构有本质的区别。目前可采用关系数据库系统 ORACAL 、DB2、SQL SERVER、Access 等来实现“万能数据结构表” 。“万能数据结构表”在 SQL SERVER 中的结构形式:列名列名数据类型数据类型Idbigint事物代号bigint事物属性nvarchar事物属性值Nvarchar超长属性值Ntext单位Nvarchar附件

53、Image时间Datatime“万能数据结构表”中各字段的含义:1. “id”为每个记录的 ID。 2. “事物代号”为各事物的代号,每个事物拥有唯一的“事物代号” 。关系数据库中的一个完整的数据是记录, “医学信息的结构化存贮方法”中一个完整的数据是“事物” ,一个“事物”的信息由若干条拥有相同“事物代号”的记录组成。3. “事物属性”的含义为事物的特征。4. “事物属性值”的含义为事物的特征值。5. “超长属性值”的含义也是事物属性值,用来存放超过“事物属性值”字段的长度的字符型数据。6. “单位”字段代表事物属性值的单位(次、米、吨等) 。7. “附件”字段:用来存放图象、附件等信息量比

54、较大的、不适合转换为字符型数据的数据。 8. “时间”字段:该字段为每一个事物的特征写入数据库时的时间,一般可由系统自动可生成。 “万能数据结构表”的规定:241. 数据结构必须统一化、标准化,不能作任何改变。这是确保信息系统互联互通的基础。2. 同一张表中的同一事物拥有一个唯一的事物代号,不同的事物不能拥有相同的事物代号,不同的事物代号代表不同的事物。3. 数据的独立性、数据的完整性、数据的可识别性:医学信息的结构化存贮方法要求数据与数据库系统及相应的应用程序的耦合度为零。要实现数据与数据库系统及相应的应用程序的耦合度为零,就必须完全让数据自己表达出应有的含义。这是实现互联互通的最重要的基础

55、。在关系数据库中实现“万能数据结构表”时,只要用“id、事物代号、事物属性、事物属性值、超长属性值、单位、附件、时间”8 个字段的表就可以存贮各种各样的数据,对“事物代号、事物属性、事物属性值”字段建立索引以便查询。当关系数据库中的数据转换到“万能数据结构表”中时, “万能数据结构表”把关系数据库表中的一条记录当作一个事物,并为该事物分配一个唯一的事物代号,关系数据库表的字段名转换为“万能数据结构表”所用的表中的“事物属性” ,相应字段中的数据则转换为“事物属性值” ,超过“事物属性值”字段长度的数据则存放在“超长属性值”字段中,图片、附件等信息量比较大的信息、不适合转换为字符型数据的数据则存

56、放在“附件”字段中。一个事物的数据:在关系数据库中一个事物的信息用一条记录来表示,在“万能数据结构表”中“一个事物的数据”用多条记录来表示,拥有相同的“事物代号”的记录都是同“一个事物的数据” 。5.25.2 如何证明如何证明“万能数据结构表万能数据结构表”是万能的是万能的当前之所以存在着严重的信息孤岛,互联互通困难,数据挖掘困难,一个很重要的原因就是“数据类型多(Variety) ” 。结构化数据类型多的根本原因在于关系数据库,关系数据库是结构化数据类型多的发源地。25万能数据结构表巧妙地解决了“数据类型多(Variety) ”的问题。从而使各种各样的结构化数据都可以采用同一种数据结构来存贮

57、。解决了“数据类型多(Variety) ”的问题,信息孤岛问题、互联互通问题、数据挖掘难的问题也就随着得到有效解决。一张万能数据结构表可以存贮各种关系数据库中各种各样的表中的任何数据,下面用一个比较简单的方法来证明。下面的表是关系数据库中的表: 下面用一种简单的形式来证明如何把上面的各个表中的内容转换到万能数据结构表中。把上表逐一向上移,让上表变成如下形式:26 然后再将上表逆时针转 90 度,则成下表形式:27 仔细观察下表,就会发现下表的数据结构全是相同的! 都只有两列。 上面的方法可以非常简单地证明关系数据库中的各种数据都可以转换成相28同的数据结构。然后用发明专利技术“医学信息的结构化存贮方法”就可以把上面的数据全

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论