非结构化数据来袭_第1页
非结构化数据来袭_第2页
非结构化数据来袭_第3页
非结构化数据来袭_第4页
非结构化数据来袭_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、非结构化数据来袭有人说,人类仅仅开发使用了自己大脑容量的 10%,要能够利用其他的 90%,人类的洞悉力和成就将会无比惊人;这种说法的精确性可能有待争辩确定,但与之类似,的确属实的情形是企业始终在分析应用的是只占数据总量 20%的那些跑在 ERP等系统里的结构化数据;假如再能结合利用其余80%的非结构化数据,那成效就可想而知了;基础技术在不断进展,而电子商务、移动应用、社交网络等日益活跃,这导致大量的像影像资料、办公文档、扫描文件、 Web 页面、电子邮件、微博、即时通信以及音视频等非结构化数据迎面而来,企业目不暇接;结构化 vs 非结构化相对于储备在关系型数据库里,用二维规律表来表现的结构化

2、数据而言,那些不便利用数据库二维规律表来表现的数据就是所谓的非结构化数据,包括报表、账单、影像、办公文档、 扫描文件、 Web 页面、 电子邮件以及多媒体音频和视频信息等;据统计,企业中20%的数据是结构化的,80%就是非结构化或半结构化的; 当今世界结构化数据增长率大致是 32%,而非结构化数据增长就是63%,至 2022 年,非结构化数据占有比例将达到互联网整个数据量的 75%以上;而非结构化 数据中 50%75%的数据都来源于人与人的互动,都是以人为 中心产生的;我们都很熟识结构化数据,典型的就是事务数据、定量 的数据; 企业收集、 储备、查询、利用它们来制定商业战略、预判趋势、运行报表

3、、进行分析、优化运营;企业在结构化 数据的利用方面已经做得很好,通过它能供应重要的业务洞 察力,更有效率和有效益地服务于客户,遵循监管法规,为 决策制定者供应所需的即时的、连续的关键信息以优化业务;但今日,很多企业已经意识到,结构化数据仅仅是企业 所拥有数据的一小部分;与业务信息系统中大量用于交易记 录、流程把握和统计分析的结构化数据相比,非结构化数据 具有某种特定和连续的价值,这种价值在共享、检索、分析 等使用过程中得以产生和放大,并最终对企业业务和战略产 生影响;比如在医疗行业,逐步普及的电子病历的建设中,既存 在结构化的电子病历数据,也存在非结构化的电子病历数据,而非结构化的电子病历数据

4、的重要性并不比结构化数据低;由于描述病人病情的自然语言要比患者基本信息等结构化 数据更丰富形象,而临床产生的大量影像文件对医生的诊断也具有很强的帮忙作用;对此感受颇深的是中国人民解放军 总医院( 301 医院)的信息中心主任史鸿飞;史鸿飞在接受记者采访时表示,由于医院自身的特点,像心电图、 波形图、 CT片等诊断依据信息都让医院自开展数 字化以来不得不面对大量非结构化数据的治理;不止医院,保险公司也不例外;华泰人寿 CIO杨李在接 受记者采访时就介绍,华泰人寿的非结构化数据来源于以下 几个方面:第一是由于全部业务的原始凭证都被要求存档,所以像保险申请书、审查过程资料和保单等纸质原始资料都会被扫

5、描存成电子文档, 比如保单就都是以PDF格式储存的;其次是保险公司呼叫中心的服务录音依据保监会的要求需 要永久储存,由此产生了大量的音频文件;第三是一些会议 等的视频资料;她说,随着业务进展,保险公司对风险管控要求越来越 高,传统的纸质介质不足以应对这种要求;保险公司需要借 助电子化手段,实现更快的查询调阅,这导致越来越多种类 型和数量的非结构化数据显现;价值几何没有人会看轻非结构化数据的价值;史鸿飞告知记者,非结构化数据治理对于医院来说意义重大:第一,它可以促进数据的交换,无论是在医院内部仍 是在不同医院之间;试想,假如大量的病例、拍的片子都可 以被有效储备成非结构化数据,以电子方式储备、传

6、递、交换,那这对于医院流程治理、便利患者就医等是多么有价值;其次,非结构化数据在临床诊断方面,可以做更全面的 显现,更高效地帮忙医生诊断;医生在临床就诊时,不仅可 以调出患者基本信息和以往诊断书,仍可以直接调病人所拍 的像胸透、肠镜等检查的影像资料,再加上现场望闻问切病 人的病情,医生把握了更加全面、直观的病情资料,就可以 提高诊断成效和效率;另外,在医院科研方面, 非结构化数据治理也颇具价值;试想,假如某位医生要想钻研肺癌的争辩治疗,那么过去他 只有抱着厚厚的书和笔记本学习,而要争辩个案时,需要去 病案室在一堆封存已久的片子中查找想找的那张,其难度和 效率可想而知;现在有了电子版的影像资料,

7、医生就可以根 据病人的索引找到其电子病历来争辩;更遥远的设想是,如 果将来能对同一患者的不同片子或者是同一病种不同患者 的片子都可以通过数字技术做比对分析,那就更有价值了;而治理好非结构化数据对保险公司同样也意义重大;杨 李以理赔为例向记者进行了介绍,她说,一个理赔案子会涉 及理赔对象、理赔数据等,像个人基本资料等理赔人属性和 赔付金额、日期等理赔数据都可以做成关系型数据存入数据库,但仍会有些资料,比如理赔对象住院时医院的单据、其 他说明资料等非结构化数据就会以文件形式储备起来;当理 赔员做赔案的时候,他会把理赔对象的信息等关系型数据和 原始单据、资料等都调出来,综合考察,衡量定夺;这实际 上

8、就是结合结构化和非结构化数据把客户、案子资料全面展 示给理赔员,支撑其业务操作,提高业务效率的实例;由于 之前没有这些电子版的非结构化数据,对理赔的判定,理赔 员只能从客户申请数据得到一些信息,需要凭体会判定,否 就假如要求看其他原始资料,那就需要走十天半月甚至更长 的纸质流程,业务办理时间会很长,效率很低;如何治理杨李介绍,华泰人寿目前对于非结构化数据的治理仍比 较简洁,就是以文件的形式储备起来,按索引查询;但由于 权限治理的要求,比如某个岗位的人只能看部分文档甚至是 部分文档的一部分,公司治理要求越来越细,让华泰人寿开 始考虑是不是需要上一套专业的内容治理系统;另外,非结 构化数据的量、种

9、类越来越多,要做到快速的查询调阅需要 占用系统大量的 I/O 资源,这也从另一个方面增强了对内容 治理系统的需求;史鸿飞也介绍,现在301 医院对于非结构化数据接受的也是文档服务的治理模式,就是为影像、波形图等建立不同的服务器储备起来,用唯独的 ID 号为这些资料建立索引,以备查询、显现;但对于更深化的治理应用,史鸿飞坦言,仍 并没有有效推动;他说,的确国外有先进的医院在探究用不 同的模型(如 CDA)来统一各种非结构化数据进行治理,但 国内的各家医院仍都得依据自己的情形来做预备;虽然对于非结构化数据的价值颂扬有加,但史鸿飞认为 现阶段对于医院来说最主要的仍是流程的问题,是做好基础的 HIS系

10、统及其应用;他说,现在301 医院有五大方面的信息化应用,一是 HIS系统,实现医院的高效运行治理;二是 医疗业务,更有效地采集、储备、显现、共享病历信息,推 进电子病历,但这也是医院流程的一部分;三是实现医院的 精细化治理,利用信息手段进行科学治理、降低医院成本,从而降低患者看病成本,据悉301 新近也在引入ERP,期望借助先进的企业治理工具,实现精细化治理;四是提升患者 服务,提高主动医疗;五是区域医疗,协同互联;杰出观点 像心电图、 波形图、 CT片等诊断依据信息让医院自开展 数字化以来,始终都得面对大量非结构化数据的治理;非结 构化数据在资料传递交换、临床全面显现和医学科研等方面 有着

11、重要价值; 现在,301 医院是接受文档服务的治理模式,建立不同的服务器储备各种非结构化数据,建立索引,以供 查询显现,对其更深化的分析应用仍无法开放;目前最主要的仍是搭建、应用好HIS系统,解决好流程的问题; 301 医院 CIO史鸿飞 像申请书、保单等业务原始凭证都要被扫描存成电子文 档,呼叫中心的服务录音文件和一些视频资料,让保险公司 拥有越来越多的非结构化数据;以理赔为例,结合结构化和 非结构化数据可以把资料全面显现给理赔员,支撑其业务操 作,提高业务效率;华泰人寿目前对于非结构化数据的治理 仍比较简洁,就是以文件的形式储备起来,按索引查询,但 权限治理等方面的要求就让华泰人寿开头考虑上马一套专 业的内容治理系统;华泰人寿 CIO 杨李 eBay 的非结构化数据主要来自使用者行为分析数据和 网站点击率的分析,这比过去更复杂、多变;以追踪点击率 来说,近年来大部分的网页都是动

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论