数据挖掘与BI借数据一双慧眼.doc_第1页
数据挖掘与BI借数据一双慧眼.doc_第2页
数据挖掘与BI借数据一双慧眼.doc_第3页
数据挖掘与BI借数据一双慧眼.doc_第4页
数据挖掘与BI借数据一双慧眼.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘与BI 借数据一双慧眼2月19日上午10点至11点,我刊“数据挖掘与商业智能在线研讨会”于赛迪网网上会议中心如期举行。北京协和医院信息中心数据挖掘项目负责人闫世方、三九宜工生化股份有限公司信息中心主任刘灵芝、山东烟草专卖局信息中心技术负责人王海宁,人民大学统计与数据挖掘中心匡宏波博士,Sybase中国、NCR、石竹软件等公司的有关人,以及赛迪网网友,登录网上会议中心进行了研讨。探讨话题有:数据挖掘、商业智能的概念由来,如何开展数据挖掘等,以下为此次研讨内容的专题报道。 用户背景链接 北京协和医院开展数据挖掘工作的目的是为临床化医疗管理,以及医院业务管理等提供支撑,并辅助领导决策。目前开始做数据挖掘方面的研究工作。 三九宜工生化股份有限公司在实施ERP后,总感觉ERP的作用未能充分发挥,在以下几个方面存在不足:1、库存物料储备量多少、安全库存值大小;2、物料采购的批量值;3、产品的计划成本与实际成本的差异分析;4、销售客户对象类型分析。因此他们打算开展数据挖掘项目。 山东烟草专卖局现在有开展数据挖掘项目的计划,但还没有开始做。他们打算从简单的分析做起,随着数据量增加,逐步完善挖掘功能。目前主要是想通过对销售数据和客户信息的分析,为企业决策提供参考数据。 专家观点 “数据挖掘”的确是热起来了。在Google上采用完整模式搜索“数据挖掘”,得到了27,700 余项查询结果;若是搜索“Datamining”,居然得到了122,000 余项。与此同时,一些关联词汇也冒出来了,“数据仓库”,“商务智能(BI)”就是其中两个,大有后来居上之势。 真是“乱花渐欲迷人眼”。那么,应该如何完整地理解“数据挖掘”?“数据挖掘”的理论基础是什么?企业应该如何开展“数据挖掘”项目? 统一概念之乱 图1表示的就是:现实中人类的社会和经济活动,总可以用数据(数字或者符号)来描述和记录;经过对这些数据的分析,就会产生信息(知识);用这些信息(知识)来指导实践,就可以做出相应的决策;这些决策又引发了新一轮的社会和经济活动。循环往复,生息不止。 数据仓库(DW)、商务智能(BI)和知识发现(KDD)又分别是什么呢?如图2所示。 为什么图2中的部分线要画成虚线呢?有两个含义。第一是因为上述概念诞生初始,在DM的价值链上还是有所侧重的,数据仓库重在“建仓”,数据挖掘和知识发现重在“加工”,商务智能重在“应用”。虚线表示曾经拥有。第二,如果不这样画,理论界、应用厂商会不答应,因为不管原来是做数据库的(IBM,Sybase,NCR,Oracle,Microsoft,etc),还是做统计分析软件的(SAS,Statistica,SPSS,etc),甚至是做报表工具的(BO,Brio,Cognos,etc),都拼命在延伸自己的价值链。 所以,干脆叫数据管理(也就是DM)好了,一统天下。 至于ERP,CRM等,说白了,还是个DM,只不过限制在了具体的社会经济活动上罢了。 六种挖掘武器 数据仓库的建设和数据挖掘建模是DM价值链上的两大技术要点。数据挖掘从狭义的角度讲,只管从数据到知识这一段。俗话说:“没有金刚钻,不揽瓷器活”。作为一个数据挖掘人员的起码要求,就是充分掌握各种挖掘工具的性能、局限、应用条件等。 一般说来,数据挖掘有如下六件武器:描述统计、关联和相关、分类和聚类、预测、优化、结构方程模型。简要说明如下: (1)描述统计(Descriptive statistics) 描述统计是数据挖掘的入门兵器,直观、简单,高手常常用来摘叶飞花。描述统计包括平均数、中位数、众数、分位数、百分比、求和等。描述统计经常和统计图(如直方图,条形图,线图,散点图,茎叶图等)配合使用。目前应用最为广泛的OLAP,究其本质就是针对不同的数据群在做描述统计。 描述统计的应用十分广泛:比如当月公司利润总额,比较不同区域的销售量等等。 (2)关联和相关(Association and Correlation) 关联规则从本质上讲是条件概率:A发生时,B同时也出现的概率是多大?只要B离50较远,就是有意义的。 关联规则的一个典型的现代应用是“啤酒加尿布”。在应用关联规则时还需要多考虑的一个问题是:这条规则遵循者的数量怎样?通俗的说就是,如果超市的尿布只有一个人买(假设),但是这人每次买尿布时,一定会买啤酒。尽管这条规则很可信(100),但是意义却不大。 在应用关联规则时,要注意两点:关联不一定是因果,关联是有方向的。 相关也是考虑两个事物之间的关系,典型的度量方法有Pearson相关系数和Kendall相关系数。 (3)分类和聚类 分类和聚类是最常用的技术。 一般说来,分类的方法有三种:回归、决策树、神经网络。 聚类和分类的最大区别就是,分类是有监督的,聚类是无监督的。什么叫监督呢?就是标准,或者说有目标变量。聚类是没有目标的。“物以类聚,人以群分”。聚类是不知道每一类有什么特征的,聚后再总结,再发现共同点。 (4)预测 预测的常用方法是时间序列,回归也可以用来预测。 时间序列常用的方法有:ARMA,指数平滑和趋势外推等。时间序列的最大特点就是充分挖掘事物本身随时间的规律。因为,任何事物,比如企业销售额,在没有特别的外在因素影响下,总是有规可循的。 (5)优化 优化本是运筹学中的一个概念,主要解决的一个问题是在各种约束条件下,如何合理配置资源,使目标要素最大(小)化。 (6)结构方程模型 不同于以上应用,结构方程模型重点在于如何揭示事物内部的结构和相互作用的原理。比如,如何度量客户满意度?客户满意度与客户期望,产品,价格,服务,投诉处理和客户忠诚是什么关系?是怎么作用的?只有搞清楚了这些关系,才可能不断提高客户满意度和客户忠诚度。结构方程模型就起到这种作用。 数据如何完整呈现? 从应用的角度来说,DM不单是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整的过程(Process)。 业界有许多指导项目实践的方法论,大同小异,以CRISP-DM为例。 CRISP-DM分成如下六个阶段:商业理解(Business Understanding),数据理解(Data Understanding),数据准备(Data Preparation),建模(Modeling),评估(Evaluation)和发布(Deployment)。 打个比方,譬如炒菜待客,商业理解就是了解顾客的口味;数据理解则是熟悉每一样原料可以炒什么菜;数据准备则是根据顾客的口味和厨师的经验,配菜,择菜和洗菜;而建模就全靠大厨炒菜的水平;到了评估阶段就是顾客品尝;如果满意则到了最后的阶段,作为招牌菜发布推广。DM的过程就是客户空腹而来,满意而归的完整的服务过程。 一个成功的DM项目,不仅可以面向操作层面,加强自动化;还可以面向决策层,优化决策。对我国的企业来说,DM的兴起和成功应用是一个很好的发展机会。我们有幸看到,北京协和医院、三九宜工生化股份有限公司、山东烟草专卖局等一些先知先觉的单位,开始在DM方面进行摸索和尝试。厂家代表观点 实施计划细部署 跨入2004年,很多企业已经把企业的数据有效地整合到统一的数据模型之中,而且已经有了相当多的历史数据积累。用户的应用需求也开始从初期的OLAP(联机处理)和报表分析向更深层次转变,包括CRM、数据挖掘等。相信今年是数据挖掘项目会得到大力发展的一年。 根据NCR数据挖掘方法论,NCR将数据挖掘项目的实施划分为五个阶段,包括定义业务问题范围、选取和抽样、探索型数据分析、建模和实施。 1定义业务问题范围:在这个初始阶段,需明确阐述项目目标和客户业务需求,目的是明确数据挖掘问题。任务包括:明确业务目标;定义响应变量;项目计划必要的调整。 2选取和抽样:在这个阶段,建模小组要搜寻并检查客户数据,作为以后分析挖掘时所用变量的简略一览表。同时从数据总体中抽样生成训练集、验证集和测试集。任务包括:数据来源、数据映射、准备数据评估、数据的必要聚合、数据抽样。 3探索型数据分析(数据探索):在这个阶段中,建模小组核查目前的数据源,并且努力去发现在每个待选的自变量和目标变量之间是否有任何关系。通常,数值分析是全面理解数据的第一步,跟着进行的统计分析是为了得到有关数据分布的更好知识。在数据挖掘过程中这是一个关键的阶段。 任务包括:数据质量检查;数据的必要整理;通过图形化呈现工具和其他的统计方法理解数据;分析待选自变量和目标变量之间的关系;数据转换以辅助数据的分析;数据派生为建立模型做准备;整理和呈现数据探索的发现。 4建模:在这个阶段,建模小组建立并确认挖掘模型。建模小组通常尝试不同的建模技术或结合不同数据集,并衡量模型性能的不同,选出最好的。来自最终用户的业务领域知识在这个阶段是非常关键的,因为他们可以评价和确认模型的结果、理解发现并付诸实际行动。 任务包括:为模型的训练和验证准备数据集;在模型的建立中使用适当的建模技术;针对不同的建模技术测试模型性能;必要地精炼挖掘模型;和主题专家一起检验挖掘模型;记录挖掘模型和结果。 5实施:在这个阶段,需要用模型的结果来帮助做出业务决定、战略设计和战术实施。收集实施结果反馈,为模型的退化进行侦测,更进一步改善模型性能。在利用模型的结果时,复杂的展示层界面通常是不必要的。数据挖掘过程的自动化是CRM(客户关系管理)的解决方案中不可或缺的一部分,因此是与典型的数据挖掘分开实施的项目。 任务包括:客户模型评分和存储模型结果,性能跟踪和进一步整合其它业务系统;数据挖掘过程的自动化是单独的项目;模型结果的现场测试是单独的项目。 数据挖掘项目的项目计划会涵盖以上的各个阶段,但完成整个项目所需的时间则要根据多个关键因素而定,如挖掘专题的复杂程度、客户对挖掘结果性能评定的期望、可用的数据完备性及数据质量、项目人力资源是否充足以及人员能力等等。如表1是为期二个月(40个工作日)的数据挖掘项目计划,可以作为其他挖掘项目制定计划的参考基准。 从表1的项目计划可以看出,数据挖掘项目需要参与的成员或角色有:数据挖掘专家、PDM(产品数据管理)建模人员、ETL开发人员和应用开发人员。同时需要熟悉业务的人员以及熟悉数据仓库PDM的人员予以支持。( NCR(中国)有限公司数据仓库事业部技术经理 张磊博士) 智能源于积累 国内商业智能市场正处于刚刚起步的阶段,继去年电信行业全国性数据仓库建设之后,今年会有更多的企业、集成商参与到这个市场。信息系统相对比较完善的企业会较早涉足这一领域,从而推动商业智能推广的应用。 但当前用户对如何建设商业智能还缺乏足够的经验。如北京协和医院、三九宜工生化股份有限公司和山东烟草专卖局的信息部门主管,各自都提出了一些建设商业智能系统的问题。这些问题很有代表性,也是许多开始探索商业智能应用的企业所面临的困惑。 总结起来,以上困惑可以归纳为三个问题:1.商业智能能够给企业带来什么效益,或者说商业智能系统能够做什么? 2.适合企业的商业智能建设步骤和技术架构是什么? 3.数据挖掘如何开展? 针对以上困惑,一般把商业智能系统建设划分为三个阶段:理解尝试阶段、集中建设阶段、成熟应用阶段。 理解尝试阶段 目前大多数人对商业智能系统还没有深入地理解。大家纷纷从各自的角度出发,给商业智能下定义,猜想商业智能是一种什么样的应用。有人认为,商业智能不就是做报表的吗? 实际上,传统业务系统是面向点的,能给出详细的功能定义。而商业智能系统是面向面的,用专业术语讲叫主题,因此,很难准确地描述商业智能到底能实现哪些功能,或只能实现哪些主题。商业智能的确可以产生报表,但不是事先定义的固定报表,而是经过分析之后的结果展现,其分析的过程必须要有人参与,系统只是一个工具,智能是由人来完成的。 基于此,我建议,目前的商业智能系统最好先以1-2个主题为主展开,如即席查询,目的是让操作人员理解系统使用方式,积累业务经验。数据挖掘在目前也可以开展,但也要以1-2个为主,不要贪多,目的不是用这1-2个主题来解决业务问题,而是充分理解商业智能和数据挖掘的使用方式和内涵。国内很多企业一开始上商业智能系统,就上OLAP,就研究能有多少个数据挖掘可以开展。我认为这是一个误区,没有一定的经验积累,定义OLAP的维度和指标是不可能的,而且前期的变动也太大。数据挖掘的基础是数据理解,通过即席查询对数据充分理解后,才谈得上各种算法的应用。 在这一阶段中,商业智能系统的架构可能多次调整。但通过这一阶段的摸索,我们应该对商业智能的作用、意义以及企业的使用方式,都有了一个相对深入的了解。而建立的1-2个主题也可以起到一定的辅助决策作用了。随后,就可以进入集中建设阶段。 集中建设阶段 经过前一阶段的经验积累,企业有了一个稳定的使用方式和系统架构,这个阶段的主要问题就是企业级数据的整合,以及交叉主题的开展。在这一阶段里,企业可以根据经验,把日常经常使用的分析做成Cube。全企业展开数据仓库系统的建设。数据挖掘可以随着数据仓库的展开和数据积累的增加,而大范围展开。最终使商业智能系统成为企业日常行为中不可或缺的一部分,使即席查询成为业务员的日常习惯。 成熟应用阶段 经过了集中建设阶段,商业智能应用在企业已经全面铺开。但是,许多问题单单靠成熟的工具,已经无法满足企业的进一步需求,需要新的挖掘方式。这时就进入了商业智能领域整体水平需要提升的阶段。此时,各行业的专家将归纳出许多商业规律,技术专家研究出许多新的数学模型,以满足更高层次的商业智能需求。而商业智能也将变成一个成熟的产业,一个新的更高层次的商业智能系统将出现,从而进入下一轮的更替。 以上观点是针对整个商业智能产业而言的。作为一个企业个体而言,成功的关键无外乎两个方面,就是业务人员充分参与和循序渐进。商业智能系统最终要通过人,才能为商业所用,没有终端操作人员的倾心配合,系统只能是一个死系统。而循序渐进地建设系统,才能保证业务人员的水平和系统的建设水平同步提高,避免少走弯路和投资浪费。一句话:智能在于积累,不可好高骛远。( Sybase(中国)有限公司BI部技术顾问 陈建) 对症下药 商业智能(BI)经过几年的发展,已开始进入快速发展期。国内电信业已经有一些成功案例,其他行业也开始陆续规划、实施数据仓库系统,所以有理由看好今年的BI市场。 针对北京协和医院、三九宜工生化股份有限公司和山东烟草专卖局这三家用户的现实需求,我们建议,他们应该首先评估现有系统建设和运行状况,随后在一个明确的总体规划基础上,再考虑建设数据仓库项目。数据挖掘不一定非要以数据仓库为基础,但基于数据仓库的挖掘会给它带来许多方便。用户只有在OLTP系统的一定基础上建立数据仓库系统才可获得比较好的收益。 数据挖掘的任务是发现业务数据中的新规则,为决策分析提供支持。而决策分析通常可分为三个层次:操作级、战术级和战略级。前两项对应OLTP、操作性数据存储(ODS)系统,后者对应数据仓库。在系统建设前,企业首先要明确希望解决的是哪个层次的需求。 如山东烟草专卖局的数据挖掘需求主要是操作级和战术级的,所以适宜考虑建立ODS系统,以满足企业的决策需求。三九宜工生化股份有限公司的数据挖掘需求,或许可以在ERP系统中部分解决。建议三九宜工生化公司先对需求进行深入分析,明确需求所需的数据基础后,再考察是否有必要建立ODS或数据仓库。要想开展数据挖掘,建议先定义应用目标,研究数据挖掘项目的必要性和可行性。 另外,分析型应用需要操作型环境的支撑。如北京协和医院进行的数据挖掘结果,是为医疗管理提供有益的分析和参考。但要真正发挥挖掘分析的作用,还需要根据分析结果,按照医院的实际情况,制定相关的管理策略;并通过医疗管理系统付诸实施。因此,实施数据挖掘项目不但需要明确的目标和实施计划,还要有相应的管理系统支撑。 由于这三家用户所处行业不同,具体应用环境也不同,所以很难给出笼统的实施计划和方案。但至少有三点是需要共同注意的:一.要有一定的数据基础,数据质量至关重要,用错误的数据来决策,只会带来更大的错误。二.要明确系统目标,如前所述,三种层次的分析,产生不同形式的结果,针对长期战略分析出的结果对战术操作没有直接意义,反之亦然。切莫期望一个层次的分析结果能覆盖解决所有分析需求。三.让领导层了解商业智能系统能解决什么问题。商业智能项目是一个渐进、迭代的过程,应该让各级管理人员了解项目的阶段性目标。 针对以上三位用户,石竹软件公司可以针对性地提供BI支撑工具,如数据整合工具DataStage、多维分析OLAP软件Essbase、数据挖掘工具Angoss KnowledgeSTUDIO、元数据管理MetaCenter、报表分析展示平台Crystal Decision等企业级产品。我们提供的BI整体解决方案已在移动、电信、联通、保险、证券、银行、制造业、零售业的数据仓库、数据整合、查询报表项目中成功应用。今年我们将继续主推多维分析OLAP、ETL、报表产品的基础上,试图推动用户的元数据管理、数据挖掘、操作性数据存储(ODS)的应用。(石竹计算机软件有限公司首席BI顾问 潘定 / 技术经理 单明祺) 网上研讨内容精彩摘录 关于数据 刘灵芝:有哪些具体措施可以提高数据质量,以真正挖掘出有价值的信息? 张磊:数据质量是数据仓库和数据挖掘项目中常常会遇到的问题,也是决定数据挖掘项目成败的重要因素。要保证数据质量,需要有良好的数据模型设计,在数据加载和清洗过程中进行数据检查,同时随着挖掘模型的建立过程不断和客户交互、修整。 目前已经有不少处理措施,如数据清理(噪音数据、遗漏数据和不一致性数据)、数据集成等等。在具体项目实施中,更困难的是对数据在业务逻辑上的准确性进行检查,这需要对业务的深刻理解并建立良好的数据模型。 感觉国内用户对于数据挖掘的理解还不够充分。在我们国外的案例中,一般会在建立数据仓库并稳定较长的时间后,才会逐步实施挖掘专题。 闫世方: 关于基本数据不足的问题,我认为在某一行业建立“基本数据集”是很重要的,现在医疗行业正在建立基本数据集。 关于数据库 闫世方: 北京协和医院使用信息系统已经有78年的时间,积累了大量的基础数据,为了提高医院信息化的程度,对这些数据的挖掘是一项很有意义的工作。我们正在和一家美国的开发医疗行业数据库的厂家进行合作,准备首先在面向对象数据库基础上,对门诊病人一年数据进行测试性的挖掘。 王海宁: 闫工,目前考察和测试效果如何? 闫世方:目前医院的数据库是MS SQL2000,但是我们已经感觉到关系型数据库已经不能适应医院信息化的高要求。 王海宁: 对于闫工提到的关系型数据库问题,匡博士以及张磊、陈建、单明祺先生如何看待? 匡宏波博士:就我的认识而言,企业要做DM(数据挖掘)和BI(商业智能),第一是要有主题,即你希望做什么,希望DM给你带来什么?第二,需要构造一条DM(数据管理)的价值链。这就是从业务理解,到数据采集和管理,到建模,到呈现,到应用的完整的基础设施和解决方案。 陈建: 关于闫工提到的关系型数据库问题,建立数据仓库系统能够解决问题。 匡宏波博士: 关于数据库的问题,应该说目前最成熟的还是关系型。我们去年和中医研究院合作对SARS中西医疗效比较研究的数据库也是采用关系型数据库。对于闫工的问题,OLAP即可以解决。 单明祺: 我觉得在分析型环境中,关系型数据库也是需要的。 linkfar(网友):闫工提出的面向对象数据库,是否超前了?只要足够描述数据和管理数据,这就是目前数据库的基本要求。 张磊: 面向对象数据库还处于新兴和发展阶段,它具备关系型数据库缺乏的不少优点。只是在绝大多数实际项目中,依然是关系型数据库一统天下,成熟稳定、充分的性能保证和丰富的成功案例对一个项目的成功实施很有帮助。 闫世方: 实现真正意义上的“电子病历”是HIS正在研究的问题,我们认为,一个好的电子病历的实现,使用关系型数据库有它先天的不足。 单明祺:电子病历的问题中涉及大量时间的问题,用时态数据库的方法,大家觉得如何? 张磊:关于涉及时间问题的分析,可以采用多种模型和方法,比如序列分析、关联分析、以及一些预测模型如决策树、神经网络等等。 单明祺:是的,但从更广的意义来看,似乎时态数据库的概念更通用。 关于实施计划 闫世方:对于医院信息的数据挖掘,我们还没有真正开始,请问我们如何制定一个有效的实施

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论