(计算机科学与技术专业论文)保险业决策支持系统的设计与实现.pdf_第1页
(计算机科学与技术专业论文)保险业决策支持系统的设计与实现.pdf_第2页
(计算机科学与技术专业论文)保险业决策支持系统的设计与实现.pdf_第3页
(计算机科学与技术专业论文)保险业决策支持系统的设计与实现.pdf_第4页
(计算机科学与技术专业论文)保险业决策支持系统的设计与实现.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机科学与技术专业论文)保险业决策支持系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着网络通讯技术和数据仓库( d a mw a r e h o u s e ,d w ) 技术的发展,决策支 持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 在保险、银行等金融领域的应用取得了飞 速发展,但是与发达国家相比我国还存在很大差距。因此,研究我国大型企业在 这方面的应用技术具有很大意义。 数据抽取转换装载( e x t r a c t i o n - t r a n s f o r m a t i o n l o a d i n g ,e t l ) 是决策支持系 统的核心组成部分,其目标是将各分公司业务系统的日常数据,通过抽取、转换、 传输和入库等环节,集中于总公司的数据服务器。本文将构建一套统一部署、集 中管理的数据管理子系统,通过一个星型拓扑结构,使中心管理人员能方便地可 视化管理远程节点,通过对分公司业务系统中异构数据的采集和加工,构建一个 全局的数据仓库。 决策推理同样是d s s 的核心组成,其中验证型决策推理一联机分析处理 ( o n l i n ea n a l y s i sp r o c e s s i n g ,o l a p ) 技术具有归纳的作用,它将数据仓库数据 作为分析对象,通过多种复杂操作,为分析人员的决策提供有力的支持。 在系统的研究和实现过程中,主要取得以下成果: ( 1 ) 分析了数据库与数据仓库的异同、数据仓库的起源、数据仓库技术及其 设计方法,研究了基于数据仓库的d s s 的特点和当前主要的决策推理方 法,分析了保险业对d s s 的需求; ( 2 ) 重点进行了数据管理子系统的功能划分和设计,采用组件技术完成了任 务定义、任务调度、脚本处理、通讯接口、文件上传、数据文件解析以 及数据入库的实现; ( 3 ) 研究了保险业分析主题的需求,分析了如何应用c o g n o s 系列工具进行 o l a p 和前端展示开发,并对数据挖掘技术进行了初步的学习; ( 4 1 将研究和实现的系统应用于国内某大型保险集团,得到了用户的好评并 取得了较好的经济收效。实际应用验证了,自行构建的基于组件技术的 数据管理子系统实现了远程数据的采集,方便了客户对数据采集的监控, 满足了客户业务扩展的需求;基于o l a p 技术的分析模块满足了客户进 行决策分析。 关键词:决策支持系统,数据仓库,数据抽取转换加载,分布式数据库,组件 塑i ! 三些查兰至耋堡篁三垒! 墨:! 竺 a b s t r a c t w i t ht h ed e v e l o p m e n to ft h en e t w o r kc o m m u n i c a t i o nt e c h n o l o g ya n dd w ( d a t a w a r e h o u s e ) t e c h n o l o g y , t h ed s s ( d e c i s i o ns u p p o r ts y s t e m ) a p p l i c a t i o nh a sb e e n w i d e l yu s e da n dp r o m o t e di nt h ef i e l d so fi n s u r a n c e ,b a n ka n do t h e re c o n o m i ca r e a s , e s p e c i a l l y 盎t h ed e v e l o p e dc o u n t r i e s ,w h i l eo u rc o u n t r ys t i l ll a c kb e h i n dal o t s o ,t h e r e s e a r c ho ft h ed s sa p p l i c a t i o ni no u rc o u n t r y sl a r g es c a l ee n t e r p r i s e sh a sg r e a t s i g n i f i c a n c e e t l ( e x t r a c t i o n - t r a n s f o r m a t i o n - l o a d i n g ) i st h ek e r n e lo ft h ed s s ;i t sa i m e da t t h eb r a n c hc o m p a n i e s d a i l yi n f o r m a t i o nf r o mt h eo p e r a t i o n a ls y s t e mb e e nt r a n s f o r m e d , e x t r a c t e d t r a n s m i t t e da n ds t o r e di n t ot h ed b ( d a t a - b a s e ) s e r v e ro ft h eh e a do m c e t h i sa r t i c l ew i l lb u i l dai n f o r m a t i o nd a t am a n a g es u b s y s t e mw h i c hi su n d e ru n i f i e d m a n a g e m e n t b a s e do nas t a rt o p o l o g i c a ls t r u c t u r e ,t h eo p e r a t o r si nt h em a n a g e m e n t c e n t e rc a nv i s u a l l ym a n a g ea n dc o n t r o lt h er e m o t en o d e sv e r yc o n v e n i e n t l y , a f t e r i n f o r m a t i o nc o l l e c t i o na n dp r o c e s s i n go ft h eb r a n c ho f f i c e s d a t at ob u i l da c o m p r e h e n s i v ed w d e c i s i o na n a l o gi sa l s ot h ek e m e lo ft h ed s s ,t h ed e c i s i o na n a l o g o l a p ( o n l i n ea n a l y s i sp r o c e s s i n g ) t e c h n o l o g yh a st h ei n d u c t i v ef u n c t i o n ,i tt a k e st h ed a t a o fd wa st h ea n a l y z i n go b j e c t ,w i t hc o m p l i c a t e do p e r a t i o n ;p r o v i d es t r o n gs u p p o r tt o t h ed e c i s i o n m a k i n go f t h ea n a l y z e n d u r i n gt h er e s e a r c ha n dd e v e l o p m e n to ft h i ss y s t e m ,t h ea u t h o ra c h i e v e sa s f o l l o w s : ( 1 ) d i s c u s s e da b o u tt h ed i f f e r e n c e sb e t w e e nd ba n dd w ,s t u d i e dt h eo r i g i n ,t h e t e c h n i q u e sa n dt h ed e s i g nm e t h o d so f t h ed w a n da n a l y z e dt h ef e a t u r e so f d s sw h i c hb a s e do nd w jt h en e e d so fd s sf u ri n s u r a n c e ,d i s c u s s e dt h e m a i nd e c i s i o n - m a k i n ga n dr e a s o n i n ga p p r o a c hi nn o w a d a y s ( 2 ) d e s i g n e da n dd i v i d e dt h ed a t am a n a g es u b s y s t e m ,a n di m p l e m e n t e db y c o m p o n e n tt e c h n i c a l i m p l e m e n t e dt a s kd e f i n e ,t a s ks c h e d u l e r , s c r i p tt r a n s a c t , c o m m u n i c a t i o ni n t e r f a c e ,f i l el o a d ,f i l ed i s p o s e ,d a t al o a da n ds oo n ( 3 ) d i s c u s s e dt h en e e d so fi n s u r a n c ea n a l y s i sa n dh o wt o u s ec o g n o sk i tt o p r o c e s so l a pa n dt h ed e v e l o p m e n to ff r o n t e n d ,a n ds t u d i e dt h ed m ( d a t a m i n i n g ) t e c h n i q u e s 1 f 西北工业大学硕士学位论文 a b s ”a c c ( 4 ) i m p l e m e n t e dt h ed e v e l o p e ds y s t e mt os o m eg i a n ti n s u r a n c ec o r p o r a t i o n si n c h i n a ,a n dg o tg o o df e e d b a c k 1 1 1 ep r a c t i c a lp r o o f e dt h a tt h es e l f - c o n s t r u c t e d , c o m p o n e n tb a s e dd a t am a n a g es u b s y s t e ma c h i e v e dt h en e e d s o fr e m o t ed a t a g a t h e r i n g ,a n dm a d ei te a s i e rf o rc u s t o m e rt om o n i t o rt h i sd a t ag a t h e r i n g ,a n d m e e t st h ec u s t o m e r sn e e d sf o rb u s i n e s se x t e n s i o n ;0 l a pb a s e dt e c h n i c a l a n a l y t i cm o d u l e ss m i s f i e st h ec u s t o m e r sd e c i s i o n m a k i n ga n a l y s i s k e y w o r d s :d s s ,d a t aw a r e h o u s e ,e t l ,d i s t r i b u t e dd a t a b a s e ,c o m p o n e n t i l l - 西北工业大学 学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间论文l 作 的知识产权单位属于西北: 业大学。学校有权保留并向国家有关部门或机构送交论文的复 r l l 什羊电子版。本人允许论文被查阅千借阅。学校可以将本学位论文的全部或部分内容编 入有天数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律注明作者单位为西北工业 专、等。 保密论文待解密后适用本声明。 学位论文作者签名:到雠指导教师签名趁 斓年。l rs l e l幺月岔日 西北工业大学 学位论文原创性声明 秉承学校严谨的学风和优良的科学道德,本人郑重声明:所呈交的学位论文,是本 人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容雨i 致谢的地方外,本论文不包含任何其他个人或集体已经公开发表或撰写过的研究成果,不 包含本人或他人已中请学位或其它用途使用过的成果。对本文的研究做出重要贡献的个人 和集体,均已在文中以明确方式标明。 本人学位论文与资料若有不实,愿意承担一切相关的法律责任。 学位论文作者签名:委幽掌 坷年咿。_ 日 西北工业大学硕上学位论文第一章引言 1 1 研究背景 第一章引言 2 0 世纪6 0 年代开始,在计算机领域中由于事务处理应用的出现引起了数据 库技术的飞速发展,从而形成了所谓的“数据库时代”。随着数据库应用的发展, 企业积累了越来越多的数据,但最初的信息利用仅限于简单的检索和增删改等操 作;而人们希望计算机能够更多地参与数据分析与决策的制定领域【0 1 i 。基于这种 思想,2 0 世纪8 0 年代初期出现了基于数据库的决策支持系统,并在8 0 年代中期 得到广泛应用,但经过若干年的应用这种结构暴露出它的不足。 一般大型企业中,不同的部门、不同的分公司机构经常会出现多个数据平台, 为了实现多平台数据的共享,早期每架构一个d s s 往往都要从多个数据平台提取 数据,久而久之形成一个蜘蛛网结构,这给企业数据管理和维护都造成极端的混 乱,同时d s s 也遇到了数据碎片和数据不一致等问题,加之事务处理系统同分析 处理系统的差异性导致了数据仓库技术的出现。 数据仓库是因d s s 而出现的,同时它也和决策推理组成d s s 系统的核心, 给d s s 的发展带来生机。数据仓库从各分公司业务系统、财务系统及各类外部数 据收集原始数据,经过清洗、规整后为d s s 提供统一标准数据;数据分析模块利 用各种决策推理技术进行多维数据模型和分析报表的设计,为分析人员提供决策 支持。 目前国外d s s 在保险、银行、证券等金融领域的应用已取得很大发展,而我 国保险业各个系统还仅仅停留在单纯的业务信息处理。随着外国保险公司进入中 国,国内保险行业将面l 临巨大的市场压力。如何满足保险行业日益增长的各种查 询、统计、报表以及分析的需求,如何有效利用这些数据来实现经营目标、预测 保险业的发展趋势,如何收集和利用所能收集到的各类信息来分析保险市场的现 状和未来,如何制定出切实可行的发展战略和市场策略,从而规避风险、提高业 务质量,d s s 的应用为此提供了理想的技术手段,可将分散的数掘集成在一个数 据仓库系统中,再利用统计分析技术,来帮助决策层提高对企业经营情况和保险 市场的了解,为大众提供优质的专业化服务,为各级领导提供决策支持,柬提高 竞争力和增加利润。 从以上可以看出保险业对d s s 的迫切需求,同时保险业务系统日趋完善,积 累了海量数据,已完全具备了建立d s s 的基本要求。当然,在国内保险业d s s 1 西北工业大学硕十学位论文第一章引言 的应用与研究仍处于初级阶段,要解决的问题很多,其中远程异构数据的采集和 数据分析是首要难题,本文提出的解决方案有望实现这一目标,具有较强的研究 价值和现实意义,希望通过研究能为国内d s s 的应用和发展起到一定的借鉴和帮 助作用。 1 2 研究内容 本文就构建保险业d s s 进行了分析,对数据仓库和d s s 架构展开讨论,并 设计了保险业d s s 具体的体系结构,其中作者主要参与了数据管理子系统和数据 分析模块的研究与开发工作。 数据管理子系统主要解决的问题是分布式远程数据库数据的自动抽取和监 控,由采集代理、采集监控和入库3 部分组成。其中采集代理设置在各分公司, 它按时启动预先定义的采集任务进行数据采集,并生成数据文件,通过f t p 传输 从客户端发送到总部服务器;采集监控是一个集中式的监控平台,通过监控平台 的界面能及时反映各分公司采集代理的工作和最终数据入库的情况,并具有定义 和下发采集任务、下发脚本等功能:入库部分读取并解析采集代理上传的数据文 件进行对应的入库操作。基于此,数据管理子系统需完成:数据抽取、任务定制、 任务调度、数据处理、采集监控、指令下发等功能。 数据分析模块主要解决多维立方体及分析报表的设计和自动生成问题,从而 为分析人员提供很好的决策支持。其中作者也对组件开发技术和数据挖掘技术进 行了初步的学习。 目前这套系统已提交客户使用,反映良好,而且还在不断发展完善中。 1 3 论文组成 本课题就在保险业这一特殊领域构建决策支持系统进行分析研究,并提出可 行性方案,构建分析型应用。本文的研究工作据此展开,共分为六章: 第一章介绍了整个论文的研究背景、研究意义、方向。 第二章在介绍数据库的基础上,给出了数据仓库的定义,研究分析了数据仓 库的体系结构、层次化和功能化服务模型等。研究了数据仓库技术的 主要内容,及其与数据库系统的差异。 第三章介绍了d s s ,研究了构建基于数据仓库的d s s 的必要性,及其在保 险业应用的重要性,给出了保险业d s s 的设计。 西北工蛆大学硕学位论文第一牵引言 第四章在分析实际需求的基础上,研究并设计实现了d s s 系统中数据管理 子系统各部分的功能。 第五章采用o l a p 工具实现了d s s 数据分析模块的功能。 第六章对当前d s s 在实际中应用进行分析,给出了应用效果。并提出改进 方面的展望。 西北工业大学硕七学位论文 第二章数据仓库 第二章数据仓库 数据库系统是信息系统从以加工数据的程序为中心转向围绕共享数据库为中 心的新阶段。数据仓库是在数据库基础上发展起来的,它源于数据库,但又不同 于数据库,它整合了企业的数据平台,为d s s 进行分析与决策提供数据支撑。 2 1 数据库 2 1 1 数据库概念 数据库是长期存储在计算机内的、有组织的、可共享的数据集合 0 2 1 。这种数 据集合具有如下特点:尽可能不重复,以最优方式为某个特定组织的多种应用服 务,其数据结构独立于使用它的应用程序,对数据的增删改和检索由统一软件进 行管理。从发展的历史看,数据库系统的出现是信息系统从以加工数据的程序为 中心转向围绕共享数据库为中心的新阶段【0 3 1 。 2 1 2 数据库特点 数据库具有以下主要特点【0 3 j : ( 1 ) 数据共享:数据共享包含所有用户可同时存取数据库中数据,也包括用 户可以用不同方式通过接口使用数据库,并提供数据共享。 ( 2 ) 减少数据的冗余度:同文件系统相比,由于数据库实现了数据共享,从 而避免了不同用户各自建立应用文件,减少了大量重复数据,减少了数 据冗余,维护了数据的一致性。 ( 3 ) 数据独立性:数据的独立性包括数据库中数据库的逻辑结构和应用程序 相互独立,也包括数据物理结构的变化不影响数据的逻辑结构。 ( 4 ) 数据的集中控制:文件管理方式中,数据处于一种分散的状态,不同的 用户或同一用户在不同处理中其文件之间毫无关系。利用数据库可对数 据进行集中管理。 ( 5 ) 数据一致性和可维护性,以确保数据的安全性和可靠性。主要包括: 安全性控制:以防止数据丢失、错误更新和越权使用; 完整性控制:保证数据的正确性、有效性和相容性: 西北丁业大学硕- t 1 学位论文第二苹数据仓库 并发控制:使在同一时问周期内,允许对数据实现多路存取,又能防 止用户之间的不正常交互作用; 故障的发现和恢复:由数据库管理系统提供一套方法,可及时发现故 障和修复故障,从而防止数据被破坏。 2 2 数据仓库的提出 2 2 1 基于数据库的d s s 随着数据库应用的发展,数据积累日益丰富,使得数据成为社会的信息财富, 它为社会发展与进步提供了有力的支持。然而最初的信息利用仅限于简单的检索, 这种应用通常被称为事务处理。而进一步的应用则是将大量数据经分析、演绎与 归纳推理从而形成新的数据与规则,即所谓的分析应用。数据的分析应用为人类 对信息资源的利用开辟了一条新的思路,基于这种思想,在数据库之上建立一种 用于分析的模型,从而构成一种用于数据分析、预测和决策的系统,即为决策支 持系统【0 4 1 ,其结构如图2 1 。 图2 1 基于数据库的d s s 图2 1 是早期的d s s ,在这种系统中的分析模型多以数学模型为主,如统计 分析等。 2 2 2 数据仓库的提出 传统的d s s 一般直接建立在数据库这种事务处理环境上,而人们也一直力图 使数据库能够胜任从事务处理到分析处理的各种处理任务。虽然数据库在事务处 理方面的应用取得了巨大的成功,但它对分析处理的支持却一真并不能令人满意, 尤其是当以业务处理为主的联机事务处理应用( o n l i n et r a n s a c t i o np r o c e s s i n g , o l t p ) 与以分析处理为主的d s s 应用共存于同一个数据库系统时,两种类型的 西北丁业大学硕j 一学位论文第- - 苹数据仓厍 处理发生了明显的冲突。基于d b 的d s s 在使用若干年后逐渐暴露出它的许多不 足【0 5 1 : ( 1 ) 历史数据问题:数据是d s s 进行分析的基础,不仅需要当前数据,更需 要历史数据,许多分析方法必须以大量的历史数据为依托,没有对历史 数据的详细分析,就很难把握企业的发展趋势;但数据库中则主要存放 着当前数据,而一些历史数据可能被束之高阁。 ( 2 ) 数据处理问题:d s s 在决策阶段可能需要连续运行几个小时,所需的是 相对稳定、不变的数据源,因此不能随意的增删改数据;而数据库主要 应用于事务处理,其特点是数据的存取操作频率高,每次处理时间很短。 ( 3 ) 数据集成问题:d s s 需要大量、广泛、高集成的数据,全面且正确的数 据是有效分析和决策的首要前提,相关数据收集得越完整,得到的结果 就越可靠;一般大型企业中,因为不同的部门、不同的分公司机构经常 会出现多个数据平台,为了实现多平台数据的共享,早期每架构一个d s s 往往都要从多个数据平台提前数据,久而久之形成一个蜘蛛网结构,如 图2 2 。这给企业数据管理和维护都造成很大困难,同时也使得各个数据 平台性能低下。 图2 2 典型早期蜘蛛网d s s 结构图 ( 4 ) 数据综合问题:在事务处理系统中积累了大量的细节数据,而d s s 并不 对这些细节数据进行分析。在分析前,d s s 往往需要对细节数据进行一 些加工,如:求和、求平均值、求最大值及求最小值等;而事务处理系 西北工业大学硕上学位l 文第二辛数据仓库 统并不具备这种能力。 ( 5 ) 数据动态刷新:d s s 所需集成数据必须以一定的周期进行刷新,才能为 决策者提供最新的数据信息;而数据库系统并不具备此能力。 要提高分析和决策的效率和有效性,分析型数据必须与操型数据分离开来, 按照d s s 处理的需要进行重新的数据组织,数据仓库正是为此而产生的数据存储 和组织技术啡i 。 2 2 3 数据库对数据仓库的借鉴及区别 数据仓库是数据库系统发展到一定阶段的一种必然产物,从某种意义上讲, 数据仓库可以称为大的数据库,因为数据仓库数据也是存储在数据库中的,只是 按照不同的技术和主题来组织数据。建立数据仓库不是要取代原有的数据库,建 立数据仓库的目的是为了将企业多年来积累的数据按照统一、一致的企业级视图 组织、存储。当然,数据仓库和数据库在构建上也存在着差异。 图2 3 数据仓库结构 图2 4 数据库结构 从图2 3 和图2 4 可以看出:数据库是面向操作型数据,数据仓库是面向分析 型数据,其区别如表2 1 【o ”。 数据库面向事务处理,使用者是企业一般的业务人员,进行企业日常的数据 处理和维护;数据仓库是面向决策的,为d s s 提供统一的数据,使用者是企业高 层决策人员,它也是关系数据库,但其存储的是经加工过的数据,其数据源可以 是业务系统、文件系统和外部数据。 数掘库注重的是企业的当前敛据,而数据仓库关心的是历史性数据。 数掘库只是一个现成的产品,而数掘仓库是一个综合的企业级解决方案。 西北工业大学硕士学位论文第二章数据仓库 表2 1 操作型数据与分析型数据区别 操作型数据分析型数据 细节的综合的 即时数据历史数据 可更新的不可更新 对性能要求高 性能要求一般 事务驱动分析驱动 面向应用面向分析 一次操作数据量小一次操作数据量大 支持日常操作支持管理需求 2 3 数据仓库概念 “数据仓库之父”美国著名信息工程学家w h i n m o n 博士在建立数据仓 库一书中提出了“数据仓库”的概念:数据仓库是在企业管理和决策中面向对 象的、集成的、与时间相关的、不可修改的数据集合【0 8 】。与其它数据库应用不同 的是,数据仓库更像一种过程,它将分散在各个分公司、各种不同数据库、不同 数据表中的数据进行抽取处理,并按照不同的应用集成在一起。 按照wh 1 n m o n 的说法,数据仓库是一个面向主题的、集成的、时变的、 非易失的数据集合【吲。 ( 1 ) 主题性:所谓面向主题,是指数据仓库中数据是按主题进行组织的,为 按主题进行决策的过程提供信息。面向主题是数据仓库有别于数据库的 一个重要特性,是构建数据仓库的核心与灵魂。保险业数据仓库围绕一 些主题,如顾客、保险单、保险费和赔付等。 ( 2 ) 集成性:所谓集成的,是指数据仓库中的数据不是从各个业务数据库系 统中简单抽取出来的,而是经过系统加工、汇总和整理,保证数据仓库 内的信息是关于整个企业的、一致的全局信息。 ( 3 ) 非易失性:数据仓库的数据主要供企业决策分析之用,所涉及的主要数 据操作是在数据查询的基础上进行统计、汇总及分析。因此,数据仓库 内的数据并不只是关于企业当时或某一时刻的信息,而是记录了企业从 过去某一时刻到目前的各个阶段的信息,通过对这些信息的分析,可以 对企业的发展历程和未束趋势做出定量分析和预测。为了保证结果的客 西北工业大学硕土学位论文 第二章数据仓库 观性、科学性,原始数据是不容修改的。 ( 4 ) 时变的:数据仓库中的数据不可修改是针对在进行分析、决策期问而言 的,并不是说,所有的数据仓库数据都是永远不变的。由于决策分析往 往与时间有关,而随着时间推移,分析和决策数据会产生变化,因此, 数据仓库中的数据也会随着时间而改变,但这种变化是以一定的时间段 为单位进行阶段式改变的。 2 4 保险业d w 体系结构 各大数据仓库公司,都提供了自己的数据仓库解决方案,从架构上讲,并不 完全相同。例如o r a c l e 的数据仓库解决方案,除了共性以外,更加体现了一个 大集中的概念。企业也可以根据自身需要,定制合适的系统架构,这些构架虽然 有所区别,但拥有的模块和功能都是相同的。数据仓库的功能模块主要包括:数 据源、e t l 模块、分段存储区、数据仓库数据库、数据集市、元数据管理、数据 仓库监测等。典型的企业数据仓库系统是一个多层的构架,通常包含数据源、e t l 、 数据仓库数据库和数据集市,其结构如图2 5 。 2 4 1 数据源 图2 5 数据仓库体系结构图 数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括企业内部 和外部信息。内部信息包括存放于企业操作型数据库中( 通常存放在r d b m s 中) 的各种业务数掘和办公自动化( o f f i c e a n y w h e r e ,o a ) 系统包含的各类文档数据: 外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数掘 西北丁业大学硕十学位论文第二章数据仓库 等。一般数据源可以分布于网络的各个结点,可以存在于不同的关系数据库中, 如:i n f o r m i x 、s y b a s e 、o r a c l e 等:也可以是数据文件,如:w o r d 、e x c e l 等。 保险集团数据源为全国所有分公司、三总部( 集团、产险、寿险总公司) 的 业务、财务数据和其他需要采集、集中的数据。经过数据调研,各分公司的同一 类系统的数据结构不完全相同,分公司可能对系统数据结构进行了部分的修改; 更有一些特殊情况,对于同一类数据,如船舶险,不同的分公司可能使用不同的 系统;整个公司、各分公司、各系统问没有统一的数据标准。对于源数据质量的 分析,我们需从数据准确性、数据合法性、数据完整性、数据一致性、数据整合 性、数据完备性这几个方面加以评估i l l 】: ( 1 ) 数据准确性:比如目前系统中邮政编码的录入很多都是随便录入; ( 2 ) 数据合法性:符合预先定义的业务规则,如止保日期应该晚于起保日期; ( 3 ) 数据完整性:相关表的关联问题,比如,保单主表和保单明细表,保单 明细表中有的保单号在保单主表中不存在,或者在团险保单和个险保单 主表中都存在; ( 4 ) 数据一致性:同一系统中统一的数据规则,比如上海分公司的数据,有 的记录中为上海分公司,有的为上海,没有统一规则; ( 5 ) 数据整合性:不同系统问的数据冗余,缺乏一致性。比如产险各系统中 的客户代码不统一的问题; ( 6 ) 数据完备性:在原有的系统开发模式下,关注的重点往往在一个用户或 一个部门的数据需求上,忽略了与用户操作环境关系不大的数据元素。 比如管理上的需求和操作层的需求不一致,调研不充分会导致数据的不 完整。通常在开始一个数据仓库项目建设时,往往忽略“在短时问框架 内提供低成本、清洁、集成的历史数据”这个问题,而一些数据仓库失 败的原因恰恰就是无法“在短时间框架内提供低成本、清洁、集成的历 史数据”。因此,无论数据展示机制多么先进,如果不首先进行数据清理, 结果将是在新平台上用新工具再次显示垃圾数据,令用户失望。 数据源是数据仓库的数据基础,保证数据完整、有效是必要前提。由于各分 公司的应用数据存在一些不规范和垃圾数据,因此需要经过大量数据分析、整理、 归纳等工作,根据具体情况,系统必须提供一些数据过滤功能,数据转化标准等。 2 4 2e t l 数掘抽取、转换、装载是数据源与数据仓库问的数据接口层,是整个数据仓 西北工业大学硕上学位论文 第二章数据仓库 库系统的核心,约占整个项目的6 0 8 0 i 作量【”】。e t l 负责完成数据从数据 源向目标数据仓库转化的过程,目的是将分散于网络多结点的不同平台、不同结 构、不同语法语义的不同操作型数据构建成一个统一平台、统一结构、统一语法 语义的数据统一体加载到数据仓库数据库中。保险业d we t l 流程图如图2 6 。 圜 图2 6 e t l 流程图 e t l 分为数据抽取、数据转换和数据加载3 个阶段。数据抽取和数据转换阶 段产生l o a d f i l e 文件,数据加载阶段读取l o a d f i l e 文件加载到数据仓库数据库。 2 4 3 数据仓库数据库 数据仓库数据库包含了d w 中的明细数据和汇总数据,其中,数据均具备一 致的、有组织的、不变的格式。其架构有:星型,包括一个事实表和多个维表; 雪花型,增加了二级维表。较复杂的数据仓库包含多个事实表和维表,并且,数 据仓库中的数据通过统一的接口提供给外部应用,使得各数据集市通过统一的维 表、事实表来获取数据,防止出现不同数据集市取得不一致数据情况的出现。 2 4 4 数据集市 数据仓库中的维表和事实表存放着整个集团的业务、财务及其他数据,而对 西北丁业大学硕十学位论文第二覃数据仓厍 于某个数据集市而言,往往是按照部门或者业务需求而设计的,每个数据集市完 成不同的分析和查询需要,有时只是需要一些初步汇总,或是高度汇总的信息, 而并不需要完整的数据仓库中的信息。在数据仓库架构中,数据集市的设立及建 立多少个数据集市则根据实际情况而定。 2 5 保险业d w 关键技术 2 5 1 确定主题 数据仓库是面向主题的,如:将保险标的( 指保险合同载明的投保对象) 作 为主题可以分析被保对象的各种性质;将保险单( 保险人与被保险人订立保险合 同的正式书面证明) 作为主题可以分析不同地区、不同险种的销售情况;将理赔 ( 指保险事故发生后,保险人对被保险人所提出的索赔案件的处理) 作为主题可 以分析不同险种的赔付情况;将保险金额( 又称保额) 作为主题可以分析不同人 群所能承受的缴费能力。 2 5 2 粒度选择 数据仓库中数据分为四个级别:早期细节级、当前细节级、轻度综合级、高 度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要作进一步 的综合,从而进入轻度综合级或高度综合级,老化的数据将进入早期细节级,由 此可见,数据仓库中存在着不同的综合级别,一般称之为“粒度”畔j 。 高细节( 如:投保人每笔保费缴纳的详细记录) 一低粒度级,低细节( 如: 投保人累计至今汇总的缴费记录) 一高粒度级。高粒度级只需要很少的字节存放 数据,且只需要较少的索引项。显然,用高粒度级表示数据将比用低粒度级表示 数据的效率要高得多;但数据所能回答查询的能力却随之降低。 鉴于以上两个粒度级各自的利弊、保险业数据量又很大,考虑到存储成本、 效率和能够回答查询的能力,我们采用双重粒度级。当然,精确的粒度级别是经 过反复的循环工作,并最终得到用户认可时才能做出确定。 2 5 3 维度建模 粒度一旦确定,事实和维度就要按照此粒度确定。事实代表一个业务度量值, 西北 - 业大学硕 学位论文第二章数据仓库 也是业务指标度量值。事实表是维度模型的基本表,其中存放了大量的业务相关 的度量值。维度表是进入事实表的入口。 维度模型主要包括星型模型、雪花模型。每个维度模型都由具有复合键的事 实表和一系列维度表组成。每个维度表有一个主键,它精确的对应着事实表中键 的某个组成部分,而事实表中为由多个外键构成的复合主键。事实表中除复合主 键外,往往还包含一个或多个数字型的事实。不同的事实表和维表按照数据仓库 总线结构存储,使得各数据集市通过统一的维表和事实表来获取数据。 啼幛l 如图2 7 ,赔付事件星型结构,共有七个维度,分别为:时间维、机构维( 若 干级机构) 、险种维、销售渠道维、客户维、保单类型维( 系统单、手工单) 、赔 付原因维:每个维表由单一字段作为主键,保单事件事实表,通过外键与这些维 度表关联。事实表中有赔付支出和赔付件数两个度量值。 2 5 4 数据更新策略 初次加载数据后,我们需为数据仓库的后续数据抽取提供可行的更新策略。 理论上有完全刷新、镜像增量、事件增量和镜像比较等4 种方式,针对不同的情 况,我们采用不同的更新方案: ( 1 ) 对于表中有时间戳字段的,可以直接得到增量记录。 ( 2 ) 对于表中没有时间戳字段的,如果此表能够与有时问戳的主表进行关联, 则可以通过关联主表,取得新增记录。 ( 3 ) 对于表中没有时间戳字段,但相对表中数据量不大的表,可以考虑完全 1 1 西北工业大学硕十学位论文 第二章数据仓库 刷新方式。 ( 4 ) 对于表中没有时间戳字段,无法通过其它表的关联得到新增数据,并且 数据量大的表,将间隔时间的备份表与当前源数据表对比,获取增量。 随着时间推移,数据不断增加,对比的时间将会越来越长。由于是所有 字段的比较,性能比较低。 在增量数据抽取过程中,集团三总部与各个分公司老的应用系统在不断的完 善、改造和升级,新的应用系统在不断的增加和修正,数据抽取系统的设计一方 面必须最小程度的依赖于相应的应用系统,另一方面必须具备很强的灵活性。 2 6 小结 本章在介绍数据库系统的基础上,给出了数据仓库的定义。论述了数据仓库 主要的体系结构与技术特点,及其与数据库系统的差异。说明了面向事务处理的 数据库系统是无法支持d s s 的,道出了数据仓库系统产生的原因。最后说明了建 立数据仓库的目的就是为了进行决策分析,从而为企业的科学决策提供依据。 西北工业大学硕士学位论支第三蕈基于数据仓库的保险业d s s 第三章基于数据仓库的保险业d s s 决策支持系统是由数据仓库和决策推理两部分组成。数据仓库为其提供统一 的数据源,决策推理收集所有有关数据和信息,经过加工整理,来为企业决策管 理层提供信息,为决策者的决策提供依据。 3 1 基于数据仓库的d s s 早在上个世纪6 0 年代末和7 0 年代初d s s 就已经开始形成,在8 0 年代初时 达到顶峰;不过,在此之后就跌入了低谷。其根本的原因是早期的d s s 基于数据 库而构建,每开发一个d s s 应用都要从每个数据库进行数据抽取,由此引起蜘蛛 网结构问题,随着d s s 应用的增多使得数据库系统很难维护。数据仓库正是由于 以上原因而产生的,它的出现解决了数据完整性问题,为d s s 提供可靠的、一致 的数据平台,解决了早期d s s 的蜘蛛网结构问题,使得整个d s s 重新焕发活力【坦i 。 决策支持系统,以d w 为基础、以决策推理技术为手段。其中d w 侧重于数 据的组织、获取、存储,决策推理技术侧重于数据分析。基于d w 的d s s 主要由 d w 和决策推理组成,而数据展示采用b s 模式,其体系结构如图3 1 。 w e b 浏览器l 堑坦壁丞i l 决策推理l 归纳型it 演绎型f 南南南 3 1 1 决策推理 图3 1 基于数据仓库的b s 模式d s s 体系结构图 推理由已知事实通过一定逻辑手段获得未知事实,与决策有关的推理有:演 西北工业大学硕士学位论文第三章基于数据仓库的伢险业d s s 绎推理和归纳推理,见图3 2 和3 3 。演绎推理决策由演绎中的一般性规则与数据 仓库中的数据联合作为前提,通过演绎推理最终得到个体事实;归纳推理决策由 d w 中的数据作为大量个体事实输入,经过归纳推理最终得到一般性规则【嘲。 图3 2 演绎型决策过程图3 3 归纳型决策过程 由于d s s 构建在d w 基础之上,有着海量级的数据,因此适合于归纳型推理 决策;而演绎型推理决策以一般规则为基础构建而成,因此不适合于在d s s 中使 用。目前d s s 中归纳推理有:验证型归纳o l a p ,探索型归纳d m ;而o l a p 在 目前的d s s 系统中被广泛应用。 3 1 2o l a p 技术 o l a p 属于基本的归纳推理方法,是面向主题的多维数据分析技术,它能够 从一种自然的、合乎人思维的角度灵活地观察和访问多维数据,使分析决策人员 或管理人员能够从多角度对从海量原始数据中转化出来的、能够真正为用户所理 解的、真实反映企业维度特性的信息进行快速、一致、交互地存取,从而获得对 数据更深入的了解1 1 3 】。 ( 1 ) 多维数据模型 多维数据模型是由于0 l a p 需要从多种观察角度观察数据而形成的多维结 构。多维结构由多个维组成,反映了人们的观察角度,维中可以有多个层称为维 层次,如时间维有年、月、日3 个层次,层次反映了维的粒度。当多维结构的每 一个维确定一个值时,可获得多维结构中的一个确定度量值,这种组成方式可表 示成:( 维1 ,维2 ,维3 ,维n ,度量值) 。如图3 4 ,展示了一个保费收入 三维结构,亦称为数据立方体。 在该立方体中有3 个维:险种、日期和机构,跟据3 个维的一组取值可以在 多维立方体中获得确定的度量值,如:( 短期意外险,2 0 0 1 0 3 ,西安分公司,2 6 3 0 0 0 1 6 西北工业人学硕i 学位论文第三章基于数据仓库的佴险业d s s 元) 即表示在2 0 0 1 0 3 西安分公司售出短期意外险的保费收入为2 6 3 0 0 0 元。 图3 4 保费收入立方体 日期 ( 2 ) 分析操作 在o l a p 多维结构上可以做多种操作,各种分析操作以剖析数据为目的,使 分析人员能够从多角度观察多维结构中的数据,从而深入了解包含在数据中的规 则性信息。其主要操作有: 旋转( p i v o t ) :( x ,y ) 一( y ,x ) 即将表格的横、纵坐标交换,通过旋 转可以得到不同视角的数据。 切片和切块( s l i c ea n dd i c e ) :根据维的限定做投影、选择等操作从 而获取数据。 上卷和下钻( r o l lu pa n dd r i l ld o w n ) :下钻可取得更详细的数据记录, 上卷可得到更高的汇总信息。它一般能回答为什么的问题,逐层钻取 使我们能快速而准确的定位到问题所在。 钴透( d r i l lt h r o u g h ) :不同主题之间跨越访问信息。 对分析过程来说,o l a p 系统提供丰富多样、功能强大的计算工具,同时方 法又简单明了,从而可以及时完成系统的改变,访问到即时信息。例如:决策者 看到某些险种在过去几个月里业绩一直下滑,那么可以通过下钻和切片操作得到 更细的汇总对比信息,在这个过程中决策者将发现问题所在,从而做出对业绩不 好的险种是“去”、“留”还是“调整”的决策,使得企业向好的方向发展。 ( 3 ) 特点 适合于规则建立、趋势预测、例外发现等各种归纳型分析; 提供人机交互环境,通过操作可进行多种分析,用户可以简单、快 速地定制出自己需要的报表; 西北丁业大学硕士学位论文第三章基于数据仓库的保险业d s s 基于多维立方体操作,交互速度快; 输出内容主要是围绕决策主题产生的各种分析、综合与统计结果; 输出形式上有文字报告、图形图表、多媒体等多种展现效果,展示给 决策者清晰的历史走势图。 3 1 3 数据挖掘 d m 属于是探索型归纳推理,它以数据仓库中的数据为对象,以d m 算法为 手段,最终以获得模式或规则为结果。d m 与o l a p 有着很大区别,后者通常是 用户对所关心的业务指标按照已知的角度进行分析:而前者则是在业务问题和目 标明确,但考察角度不清楚时,对数据进行探索,揭示隐藏其中的规律性,进而 将其模型化【”1 。 图3 5 数据挖掘常用算法 d m 常用算法如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论