版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息孤岛的解决方案樊梦真内容提要:产生信息孤岛的根本原因在于当前的软件设计模式存在问题,人们是先设计出数据结构各不相同的信息系统,然后再通过转化数据结构而实现互联互通,犹如火车通过换车轮而实现互通。火车之所以可以互通是因为火车是以标准化的钢轨为基础而设计。本文的独立数据库技术借鉴“以标准的钢轨为基础而设计火车”的“标准化模式”,通过“数据结构的标准化”及“数据的标准化”方式而从根本上避免信息孤岛问题的产生。1.1 火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化火车之所以能够在全国各地互联互通,是因为全国的钢轨都是标准的,我国的各种火车都是以标准的钢轨为基础而设计的。机械零部件的
2、互换性是机械中的一个非常重要特性。机械工程师在设计机械设备时都要尽量采用标准的零部件。火车的互联互通及机械零部件的互换性都是以“标准化”为基础。然而,对IT行业的软件工程师而言,他们几乎没有标准的概念。软件设计人员在设计软件系统时几乎不考虑任何标准,各种信息系统中的数据完全由软件设计人员自己任意定义,其结果就是各种信息系统中的数据全是不标准、不规范的异构数据。如果全国各地的火车钢轨都是不标准的,那么火车要在全国各地行驶,就必须不断地“换车轮”,火车换一次车轮需要80分钟。当前的信息系统通过转换数据结构的方法实现互联互通就犹如火车“换车轮”。铁路交通以“钢轨的标准化”而从根本上避免了“铁路交通孤
3、岛”问题的产生。如果各种信息系统的数据及数据结构也采用标准化的数据和数据结构,那么,也可以从根本上实现各种信息系统之间的互联互通!然而利用关系数据库技术,不可能使数据结构标准化、统一化。独立数据库(源于发明专利技术“医学信息的结构化存贮方法”)中的“事物信息表”可存贮各种各样的结构化数据,可以成为标准的数据结构表。1.2 以“数据结构的标准化”+“数据的标准化”而避免信息孤岛产生从关系数据库的角度而言,产生信息孤岛的根本原因有两个,一是各个信息系统中的数据结构多种多样、各不相同,二是各个信息系统中的数据不标准、不规范,因此,当一个信息系统中的数据发送到另一个信息系统时,数据的接收方不能存贮、识
4、别处理接收到的数据。当前解决信息孤岛、实现数据的共享交换的方法是:“转换数据结构,把数据转换为数据的接收方可以存贮、识别处理的形式”,例如BI、EAI、EDI、ETL、ESB等都是通用转换数据结构模式,犹如火车通过换车轮而实现互通。 独立数据库是一种与关系数据库理论完全不同的新型数据库理论。对于关系数据库而言,数据库中的数据的结构完全由设计人员自己决定,设计人员可以随意地定义数据的结构。然而利用独立数据库设计各种信息系统时,不允许设计人员随意定义数据的结构,存贮所有数据时都必须全部采用统一的、标准的、固定的数据结构,即必须全部采用“事物信息表”来存贮数据,这样做的目的是为了让数据可以象火车那样
5、在全国各地的标准的钢轨上互联互通。下面的表1是独立数据库的“事物信息表”,“事物信息表”是通用表,可以只用一张表而存贮各种关系数据库中的任意结构的数据。表1只用一张表就存贮了“1、动物档案;2、销售订单表;3、销售订单明细表;4、患者基本情况;5、症状;6、员工身高体重;7、通信录;8、医疗费用”的数据。若用关系数据库理论中的方法来存贮这些数据就需要8张结构各不相同的表。表1:事物信息表只用一张即可存贮各种各样的结构化数据ID事物代号事物特征事物特征值超长特征值单位附件时间652367事物分类动物管理系统662367事物分类企鹅672367事物分类帝企鹅682367事物分类动物档案692367
6、动物编号3702367名字汉武帝812367动物简介帝企鹅(学名:Aptenodytes forsteri):也称皇帝企鹅,是企鹅家族中个体最大的,一般身高在90厘米以上,最大可达到120厘米,体重可达50千克。其形态特征是脖子底下有一片橙黄色羽毛,向下逐渐变淡,耳朵后部最深。全身色泽协调。颈部为淡黄色,耳朵的羽毛鲜黄橘色,腹部乳白色,背部及鳍状肢则是黑色,鸟喙的下方是鲜桔色。帝企鹅在南极严寒的冬季冰上繁殖后代,雌企鹅每次产1枚蛋,雄企鹅孵蛋。雄帝企鹅双腿和腹部下方之间有一块布满血管的紫色皮肤的育儿袋,能让蛋在环境温度低达零下40摄氏度的低温中保持在舒适的36摄氏度。群居性动物。每当恶劣的气候
7、来临,它们会挤在一起防风御寒。可以潜入水底150至500米,最深的潜水记录甚至可达565米。主要以甲壳类动物为食,偶尔也捕食小鱼和乌贼。唯一一种在南极洲的冬季进行繁殖的企鹅。在南极以及周围岛屿都有分布。712367购入日期2013/3/21722367身高1.2m732367体重20kg742367出生日期2011/4/2752367照片JPG762367笼舍编号98772367管理员张三782367父1792367母2802367性别雄2128事物分类销售订单表3128订单ID102484128客户名称山泰企业5128销售负责人赵军6128订购日期1996/7/47128到货日期1996/8
8、/18128发货日期1996/7/169128运货商联邦货运10128运货费32.38元11128货主名称余小姐12128货主地址光明北路12号149813事物分类产品销售系统159813事物分类销售订单明细表169813订单ID10248179813产品名称猪肉189813单位14元199813数量12Kg209813折扣0%3728事物分类住院病历3828事物分类患者基本情况3928病案号199109-2-2154028身份证号XXXXXXXXXXXX4128姓名徐XX4228工作单位石化总厂4328职务机械工4428地址上海市南京路4528年龄434628入院日期1991/8/19472
9、8婚否已婚4828病史采取日期1991/8/194928籍贯浙江省宁波市5028病史记录日期1991/8/195128民族汉5228病情陈述者患者本人5429事物分类住院病历5529事物分类现病历5629事物分类症状5729病案号199108-2-2155829身份证号XXXXXXXXXXX5929姓名张三丰6029症状寒战6129症状腹泻6229诱因洗澡时着凉6329症状开始时间1991/8/1682280事物分类人事管理系统83280事物分类员工身高体重84280姓名张三85280性别男86280年龄56岁87280体重72KG88280身高180CM89280身份证号410305XXXX
10、X919753事物分类通信录929753姓名张三939753手机1366086XXXX949753单位广州软件公司959753QQ6667567XXX969753邮件979753地址广州大道2号989753照片JPG1001280事物分类住院病历1011280事物分类医疗费用1021280身份证号XXXXXXXXXX1031280住院号XXXXXXXXXX1041280姓名张三1051280性别男1061280中药费56元1071280西药费72元1081280其它费用180元1091280事物分类住院病历当前的信息孤岛问题之所以非常严重,就是因为利用关系数据库理论在设计各种信息系统时,各信息
11、系统的数据结构(犹如钢轨)各不相同。要使数据在各个信息系统之间互联互通,就必须转换数据的结构(犹如火车在不同的钢轨之间行驶时需要换车轮一样)。当前的各种信息系统之间的数据的互联互通全部都是采用这种“换车轮(转换数据结构)”的方式来实现。随着信息系统的数量的增多,数据量的增加,信息孤岛问题已成为大数据时代的一个非常严重的问题。因为信息系统越多、数据量越大,在实现互联互通时“换车轮”的次数也随着增加。独立数据库所考虑的最重要的一个问题就是如何让数据在各个信息系统之间互联互通,这就需要做到不但要自己可以存贮、识别处理自己的数据,还要使其它信息系统也可以存贮、识别处理接收到的数据。关系数据库中的二维表
12、非常符合人们的日常使用报表的习惯。然而这种结构形式的数据在互联互通时就会遇到严重的问题:由于数据的接收方的数据库中没有相应的表结构而无法直接把数据存贮到数据的接收方的数据库中。独立数据库之所以采用“事物信息表”存贮数据,其根本目的就是让“事物信息表”成为标准的数据结构(犹如标准的钢轨),有了标准的数据结构,各种各样的结构化数据就可以很容易地存贮到数据接收方的数据库中,只要数据的接收方建立一张事物信息表即可。由于利用本发明所设计的各种各样的信息系统的数据的结构都是统一的、标准的、固定的,全部都采用“事物信息表”(犹如标准的钢轨)存贮数据,因此使数据在这样的信息系统之间的互联互通非常容易。对于利用
13、本发明所设计的信息系统而言,(在技术上)不存在信息孤岛问题,因为数据可以象火车那样在标准的钢轨(事物信息表)上高速运行而不必“换车轮”。有人会认为采用独立数据库设计信息系统会出现性能问题,以及多占用存贮空间的问题。所有的事物都是有一利必有一弊,利用事物需要权衡利弊。当前的信息孤岛为社会带来了巨大的损失,仅我国就拥有数百万个以上的各种各样的信息系统,数万亿条结构各不相同的数据,若用当前的转换数据结构这种“换车轮”的方式实现数据的互联互通、共享交换,代价非常高,不可承受。计算机的速度及存贮容量以摩尔定律的速度飞速发展,计算速度及存贮容量已不是问题,独立数据库的确多占用了一倍左右的存贮空间,但其代价
14、非常低。利用本发明也会使表的记录数增加10倍左右,专业人士认为会产生大表问题,针对此问题的解决方案很简单,只要把大表分成若干个小表即可。独立数据库的突出优势是面对数百万以上的信息系统、数万亿条以上的数据的大数据环境,若这些信息系统中的数据的结构都是相同的,数据都满足数据的完整性,那么,实现数据的互联互通、共享交换以及数据挖掘非常容易,两相权衡,利远大于弊!1.3 当前的软件设计模式存在的问题产生信息孤岛的根源在于当前的软件设计模式有问题,当前的各种信息系统全部采用“换车轮模式”而实现互联互通。如果全国各地的火车的钢轨都是不标准的,那么火车要在全国行驶就必须不断地更换车轮,更换一次车轮需要80分
15、钟的时间。我国的火车全部是以标准的钢轨为基础而设计各种各样的火车,从而很容易地实现了铁路交通的互联互通。当前的BI、EAI、ETL、EDI、ESB等等都是采用“换车轮模式”而实现互联互通,事实表明这些方法的效果不能令人满意。独立数据库采用全新的软件设计模式“标准化模式”,“数据结构的标准化”及“数据的标准化”,在软件的设计阶段就从根本上避免了信息孤岛问题的产生。1.4 当前的信息孤岛为什么是不治之症人们从20年前就已注意到了信息孤岛问题。为了解决信息孤岛问题人们发明了BI、EAI、ETL、EDI、ESB等等,然而事实表明,这些解决信息孤岛的方法都不能令人满意。通过下面的分析、计算就会发现当前的
16、信息孤岛是不治之症,因为设计人员在开发各种信息系统时都没有考虑数据的互联互通问题,没有通用的数据接口。如果需要与某个系统实现数据的互联互通,则需要开发专用的“点对点式的数据接口”。如果与N个系统实现数据的互联互通,那么至少要开发N个数据接口。从理论上而言,利用现有技术可以通过转换数据结构的方式而实现任意两个信息系统之间的特定数据的互联互通、开放共享,然而由于全球的各种信息系统的数量超过千万,全球所产生的数据超过数万亿条,而且信息系统及数据还在不断地增加,面对如此海量的异构的、不标准的数据,“转换数据结构”的方法所花的成本非常高、不可承受。因此,当前的信息孤岛只能在局部进行缓解,而不能整体上得到
17、根治。利用现有技术设计信息系统时,每增加一个信息系统,就增加了一个孤岛。两个系统之间的互联互通约需要1个人月的工程量;三个系统之间的互联互通约需要(3-1)+(3-2)=3个人月的工程量;四个系统之间的互联互通约需要(4-1)+(4-2)+(4-3)=6个人月的工程量;N个信息系统之间的互联互通约需要(N-1)+(N-2)+(N-3)+3+2+1)个人月的工程量。由计算公式可看出,随着信息系统的数量的增多,系统之间的互联互通的工程量十分巨大,无法承受。因此,当前的信息孤岛是不治之症。这与当前的事实是相符的,自从关系数据库理论产生的40多年来,世界各地的信息孤岛问题都未能得到有效解决。用关系数据
18、库理论开发信息系统,会产生无穷无尽的数据结构,也会产生无穷无尽的不标准、不规范的数据。仅我国就会有数千万个以上的信息系统,数万亿条以上的数据。对于用关系数据库理论所设计的信息系统而言,随着信息系统的数量的增加,信息孤岛问题也将会更加严重。也可以说关系数据库理论是信息孤岛的发源地,人们虽说想尽各种方法来解决信息孤岛让数据互联互通,然而信息孤岛问题不降反增。信息孤岛一旦产生,就不可根治。因为当前的信息系统中的数据的数据结构是不标准的、数据是不标准的,数据与数据库系统密不可分,数据与应用程序密不可分,数据只有在原系统中才是有意义的,一旦脱离了原来的系统,就会变成无意义的数据。当前解决信息孤岛实现互联
19、互通的方法(例如BI、EAI、EDI、ETL、ESB等等)都是通过转换数据结构(换车轮模式)、开发点对点式的数据接口而实现,然而这种方法只能治标,不能治本。利用现有技术无法开发出通用的数据接口。1.5 信息孤岛的根源在于关系数据库理论是单机时代的产物,没有互联互通的内容产生信息孤岛的根本原因在于关系数据库理论,因为关系数据理论单机时代的产物,创始人当时未考虑数据在各个信息系统之间的互联互通问题!关系数据库理论是在互联网产生之前的单机时代创立的。关系数据库理论于1970年6月由IBM公司的埃德加考特(Edgar Frank Codd)创立。ORACLE诞生于1979年。互联网诞生于1973年至1984年之间。1984年,美国国防部将TCP/IP作为计算机网络的标准。关系数据库理论中没有数据交换共享的概念,也没有数据接口的概念。关系数据库所关心的只是如何处理自己的数据(单机中的数据),而未考虑如何处理从其它数据库发过来的数据,也未考虑如何把数据发送到其它数据库。关系数据库的特点是:“你的数据库处理你的数据,我的数据库处理我的数据。我不处理你的数据,你
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 塑胶跑道产品供应链分析
- 二手奢侈品交易电商行业市场调研分析报告
- 药柜市场发展前景分析及供需格局研究预测报告
- 舌头清洁刷项目运营指导方案
- 皮制书皮项目营销计划书
- 农业作物收获技术行业经营分析报告
- 葡萄柚树修剪器市场发展前景分析及供需格局研究预测报告
- 彩色皱纹纸产品供应链分析
- 冷藏仓储行业市场调研分析报告
- 医用呼吸装置产品供应链分析
- 2023-2024学年天津市经开区国际学校八年级(上)期末物理试卷
- DB23T 3842-2024 一般化工企业安全生产标准化评定规范
- 期中模拟押题卷(1-3单元)(试题)-2024-2025学年苏教版数学六年级上册
- 环氧树脂项目可行性研究报告项目报告
- 2024-2025学年人教版数学三年级上册 第三单元 测量 单元测试卷(含答案)
- 2024新信息科技三年级第四单元:创作数字作品大单元整体教学设计
- 第一单元达标练习(单元练习)-2024-2025学年语文一年级上册(统编版)
- 2024年水电暖安装合同模板
- 三年级语文《那次玩得真高兴:记一次游戏的感受》说课课件
- 2023-2024学年广东省深圳市龙岗区沪教牛津版(深圳用)六年级上册期中英语试卷(无答案)
- 2024年统编版新教材语文小学一年级上册第五单元检测题及答案
评论
0/150
提交评论