数据挖掘在商务智能决策与CRM中的应用_第1页
数据挖掘在商务智能决策与CRM中的应用_第2页
数据挖掘在商务智能决策与CRM中的应用_第3页
数据挖掘在商务智能决策与CRM中的应用_第4页
数据挖掘在商务智能决策与CRM中的应用_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘在商务智能决策与 CRM中的应用 北京科技大学 杨炳儒 教授 数据挖掘(知识发现)新进展 数据挖掘在商务智能决策中的应用 数据挖掘在 CRM中的应用 第一部分数据挖掘(知识发现)新进展 五、研究动态与趋向 一、数据挖掘 (知识发现 )概念内涵与外延的发展 二、挖掘知识类型的扩展 三、挖掘技术方法的扩展 四、应用的扩展 一、数据挖掘 (知识发现 )概念内涵与外延的发展 结构化数据挖掘 DM(KDD) 多媒体数据构成的大型异质异构数据库,称为复杂数据类型挖掘 CDM 动态 (在线 )-分布式 -并行系统 Web: 1、以文本为主的页面内容挖掘 2、以客户访问信息为主 3、以 Web结构为主 多媒体:音频、视频、图像、图形、时序、空间等 基于知识库的知识发现KDK 知识发现的新定义: 在现实世界中,针对客观存在的具有海量性、不确定性、不完全性的量的、质的、复杂形态的知识源,挖掘其中潜在的、先前未知的、用户感兴趣的、最终可被用户理解的模式的非平凡提取过程。 二、挖掘知识类型的扩展 扩展 扩展 关联规则、分类、聚类、相似模式、 混沌模式、时序模式、预测等 文本、客户访问路径、音频、视频 生物信息挖掘、游戏信息挖掘、 XML文档、多语言文本挖掘、 图表数据库、分子结构数据库等 三、挖掘技术方法的扩展 扩展 统计学(数理统计)、证据理论、 机器学习、神经网络、粗糙集、 近似推理、小波、分形、概念格、 概念树提升、决策树等 Hilbert空间、信息融合与 神经网络结合、距离测度函数、 数据立方体、隐马尔可夫模型、信息熵、 主观 Bayes方法、信息扩散等 四、应用的扩展 金融、医疗保健、市场业、零售业、 制造业、工程与科学、经纪业和安全交易、 证券交易、瑕疵分析、政府和防卫、电信、 司法、企业经营管理等等 应用领域扩展 Internet、农业、气象、远程教育、 天文学、生物信息、地理信息等等 Marksman、 Think Machine、 DataMind、 Intelligent Miner、 KnowledgeSEEKER、等等 实例和软件的扩展 MSMiner、 KDD*、 KDK*、 KD(D&K)等等 五、研究动态与趋向 目前国际上 KDD的研究主要是以知识发现的任务描述 、 知识评价与知识表示为主线 , 有效的知识发现算法为中心 。 这是在相当长的一段时间内保持的主流 与基调。 国外研究动态 2003年 8月 27日在华盛顿召开了第九届知识发现与数据挖掘国际会议,参与讨论的专家一致认为: 数据挖掘正面临着巨大的机遇和挑战。 其中 U. Fayyad认为 从科学发展的长远来看 ,最大的绊脚石是基础理论的缺乏以及所面临的问题和挑战的清晰明白的阐述。 他认为对于我们要做什么,几乎没有理论甚至工程实践来指导:在今天它仍然是” 不为人知的艺术”。 我们需要理论来指导我们要做什么以及要如何作。这些理论能够促使工程解决方法的出现,这样我们也可以将我们的 “手艺”更有效的教给其他人。而这种形势与从业者以及对应用感兴趣的人们的巨大的热情同时存在,这些人来自不同的领域,但是没有科学根基以及持续的学术发展,本领域不可能得到发展与巩固。 R.Uthurusamy认为 WEB的使用和生产厂家的大肆宣传等都会在短期内影响本领域的发展,它们会使得我们将更多的精力投向数据库营销、 CRM和OLAP等方面,而不是致力于使 KDD从根本上或科学上有大的进步。 KDD的基础研究界必须消除这些干扰而去努力解决 KDD的真正的根本的问题。 国内研究动态 我们编制了了软件对中国期刊网上 1994年至今的论文进行了分类与统计。 1、历年发表文章数分类汇总图示如下 (含所有的类别共 11707篇 ) 0500100015002000250030001994年 1995年 1996年 1997年 1998年 1999年 2000年 2001年 2002年 2003年 2004年 2、按照数据挖掘、决策支持系统、专家系统方面的文章统计图示如下: (评价 ) 02004006008001994年 1995年 1996年 1997年 1998年 1999年 2000年 2001年 2002年 2003年 2004年发展的基本特征 ( 1)原有理论方法的深化与拓展 如: 1)网络数据挖掘;流数据 ;混合数据。 2)基于神经网络的的时序数据、相似序列、快速挖掘算法的研究等 。 3)粗糙集与支持向量机模型与方法的扩展。 4)凸分析与数据包络分析方法的运用。 5)增强(强化)学习模型与方法的运用。 ( 2)复杂类型(系统)数据挖掘成为热点 如: 1) 生物信息挖掘。 Knowledge Discovery for Promoter Structure Analysis Study of Motif Correlation in Proteins by Data Mining (用数据挖掘技术进行蛋白质中启动子的结构分析) 2)半结构化、非结构化等复杂类型数据挖掘。 A Method for Mining Data of Sequential Images- Rebuilding of Gray (Position) time Function on Arbitrary Direction Lines (基于图表数据库知识发现系统的概念等级聚类 ) 3)分布式数据挖掘系统。 4)动态、在线数据挖掘系统。 5)流数据、混合数据与不完备数据挖掘系统。 ( 3)新技术与方法的引入(其它学科领域的渗透) 如:人工免疫系统方法;协同验算方法 ;模拟退火算法;保角变换方法;黎曼几何方法等。 ( 4)理论融合交叉性研究 如:基于 RoughSet的证据推理算法;模糊关系数据模型与粗集结合算法等。认知心理学、认知物理学、认知生物学等。 ( 5)基础理论研究 内在机理研究;自主知识发现框架; DM=数据集 +似然关系 +挖掘算法等。 第二部分 数据挖掘在商务智能决策中的应用 一、基于信息挖掘的新型智能决策支持系统 二、商务部国际商务中心项目简介 三、软件系统实现整体说明 一、基于信息挖掘的新型智能决策支持系统 自从美国麻省理工学院的 Michael S.S.Morton和 Peter G.W.Keen于 20世纪 70年代首次提出决策支持系统( DSS)以来,其发展迅速,不断取得显著的成果,并成为许多行业经营管理中一个不可缺少的现代化决策支持工具。现在正逐步形成新一代的 DSS:群决策支持系统( GDSS),分布式决策支持系统( DDSS),战略决策支持系统等,尤其是智能决策支持系统( IDSS)的出现,将人工智能的知识推理等技术引入 DSS,使 DSS的发展进入了一个新的阶段。近年来,又相继出现了基于数据仓库与基于 WEB的智能决策支持系统,大大推进了 IDSS的发展。 但是,传统的决策支持系统尚存在着推理技术单调,自学习能力较差,形成知识库中的知识不足够丰富这一新的 “ 瓶颈 ”现象。近年来 Internet迅速发展,网上信息极大丰富而知识却相对缺乏,并且这些信息和以往决策支持系统所处理的信息不同,是非结构化的,这就使其处理方式也必然有所不同。所以新一代决策支持系统的发展方向是高度智能化,以多种知识表示、自组织协同工作、自动知识获取和自适应能力较强等为特征。 为此,我们提出了基于信息挖掘的智能决策支持系统 IDSSIM,这里的信息挖掘区别于通常的数据挖掘,是从结构化数据或复杂类型数据(文本、日志、音频、视频、图像等)中提取新颖、潜在有用知识的非平凡抽取过程。所形成的 IDSSIM结构模型可广泛应用于各行各业在管理信息系统的基础上所提升的辅助决策支持系统中。 IDSSIM的总体结构模型如下图所示: 在线帮助子系统 决策者 用户接口 问题解释子系统 自检子系统 (指令与测试指标传输) 模型定位子系统 分级诊断子系统 综合知识库 (问答集, K D D * 知识,推理知识) W E B 知识库 基于推理机制的 知识发现子系统 基于双库协同机制 的知识发现子系统 基于 W E B 挖掘 的知识发现子系统 知识库 数据库 方法库 模型库 文本库 日志库 多库管理子系统 知识获取子系统 专家知识 书本知识 I n t e r n e t I D S S I M 总体结构模型 其理论基础是我们提出的基于双库协同机制的知识发现系统KDD*和 WEB数据挖掘过程,它以多个知识源的知识融合、多抽象级与不同知识层次的结构,以及使数据库、知识库、方法库、模型库、文本库、日志库六库协同运作为特征,形成了极其丰富的动态知识库系统与相应的集成推理机制,为解决决策系统构造中的核心技术提供了一条有效的途径,也从根本上提高了决策支持系统的实用化程度。 系统的核心是 “ 源于信息的知识发现 KDBI”( Knowledge Discovery Based on Information),它在模块实现上主要包含三个部分:基于双库协同机制的知识发现子系统( KDD*)、基于推理机制的知识发现子系统( KDRM)和基于WEB挖掘的知识发现子系统( KDWM)。可粗略地表示为:KDBI KDD*+KDRM+KDWM。 首先,六库(数据库、知识库、方法库、模型库、文本库、日志库)在多库管理子系统的管理下协同运作。知识获取子系统可以从领域专家那里获取知识,也可以获取书本中的知识,并将这些知识存储在知识库中。基于信息挖掘的新型智能决策支持系统。 其次,知识库中的知识可以直接纳入综合知识库,也可以被基于双库协同机制的知识发现( KDD*)子系统利用,在以属性为基础的知识库建库原则下,通过搜索知识库中知识结点的不关联态,产生 “ 创见意向 ” ,发现短缺知识。 再次,基于推理机制的知识发现子系统( KDRM) ,包括用一种或多种知识表示方法描述的已知问题及其解法的描述集合的知识库和需要求解的问题集;通过 Fuzzy推理、演绎推理、广义综合归纳推理和基于案例的推理等,构造规则集和发现新知识。来自 WEB的信息首先被存储在文本库和日志库中,并由基于 WEB的知识发现子系统挖掘关于访问信息、文本和结构方面的知识,并将挖掘结果存入 WEB知识库。 二、 商务部国际商务中心项目简介 在与国家商务部国际商务中心的合作中,构造了基于我们专利技术的“面向加工贸易基于竞争情报的智能决策支持系统” 。针对外贸加工中国内采购与供应链系统进行深入分析,通过数据挖掘、 WEB挖掘、案例推理与 OLAP等技术,挖掘出一些平时很难靠直观或凭借经验发现的规则,发现了若干新的知识。对领导战略决策与企业经营决策管理有一定的参考价值。 利用商务部国际商务中心长期积累的对外加工贸易的数据,充分运用我们的创新性信息处理技术和数据挖掘技术,开展研发工作。目前已通过验收,并将对国家的对外贸易和商务活动产生较大影响。概括起来有如下几点: 1)为对外贸易企业“请进来,走出去”提供决策支持 ; 2)为领导关注的热点问题,提供决策支持; 3)为外商投资提供咨询指导; 4)为国家和地方招商引资提供科学的建议。 项目主页应用窗口 三、软件系统实现整体说明 1、 OLAP 问题域 运行环境与开发工具 OLAP问题域 1、经营企业信息分析 2、国产料件分析 3、进口料件分析 4、加工行业分析 5、外商分析 6、进出口币种分析 7、工缴费分析 8、口岸与海关分析 9、出口成品分析 OLAP运行环境与工具 服务器端: 硬件:性能较好的服务器、网络链接 软件: ORACLE数据库服务器及数据、 BRIO INTELLIGENCE SERVER、 BRIO CLIENT DESIGNER 客户端: 硬件:普通 PC、网卡、 INTERNET 网络链接 软件: BRIO CLIENT EXPLORER、通用浏览器 2. KDD* 问题域 计算模式与开发工具 总体设计流程图 KDD*问题域说明 预 想: 就采购价值链方面内容,展开数据挖掘,重点 对国内采购现状,抽取相关关联规则,提供领 导决策信息。 方法特征: 智能系统内在的使用了人工智能方法与软 计算方法,知识发现方法 寻求新颖的知识 类型,因而所发现的知识与数据状况密切 相关。在未作实际挖掘前难以确定其明确 主题。 将提交结果: 就目前挖掘情况看,领导决策方面与企业经 营决策方面的内容都可能发现较有价值得知 识。因而,须在实际研发过程中,逐步筛选、 调试、聚焦。 KDD*计算模式与开发工具 计算模式:客户机 /服务器模式 运行环境与开发工具 客户端: windows平台, DELPH, ODBC 服务器端:商务部现有环境和 ORACLE数据库 系统 KDD*总体设计流程图 数据清洗主题管理知识库管理构建知识库属性离散化用户自定义挖掘 启发式数据挖掘中断评价对数据进行离散化形成挖掘数据库,为挖掘做准备形成基础知识库为下面的 启发式数据挖掘做准备知识库管理知识的展示总体设计流程图 数据清理:主要完成数据源的选取 、 数据清洗 、去噪声以及填补空缺数据等等 , 也就是要为挖掘准为数据 , 确切的说就是为数据离散做准备 。 主题管理:主要是针对挖掘的目标不同而设立不同的主题 , 这部分主要实现主题的定义 、 修改 、 删除以及主题的选择等功能 , 在主题的定义中要完成与该主题相关的数据 , 也就是要在这里确定挖掘的方向 。 属性值离散化:建立主题以后根据所选择的数据确定语言变量以及所对应的语言变量值 , 同时对所选定的数据根据语言变量和语言变量值进行离散形成挖掘数据库 , 为下面的挖掘工作做准备 。 知识库管理:分为基础知识库管理和衍生知识库管理两个部分 , 其中基础知识库包括基础知识的录入 、 修改 、 删除等基本的维护工作;衍生知识库包括挖掘出的知识的输入 , 只是的展示等工作 , 这部分涉及到挖掘及知识的展示 。 数据挖掘:根据数据产生规则 , 分为两个部分用户子定义挖掘和系统自动挖掘 ( 启发式协调器 ) 。 用户子定义挖掘是根据用户感兴趣的内容进行聚焦挖掘 , 启发式挖掘是根据基础知识库 , 针对短缺知识进行挖掘 。 知识评价:对挖掘出的规则进行评价决定是否存入到衍生知识库中 , 首先是通过中断协调器进行评价然后再经过领域专家进行评价来决定是否存入衍生知识库 。 附:与此相应的,我们还研发了用于智能决策的“分布式数据资源集成系统”,给出了统一数据访问接口、快速全文检索、文本分类、文本数字化、个性化信息推送和信息发布等一揽子整体解决方案。 第三部分 数据挖掘在 CRM中的应用 一、数据挖掘对 CRM的影响 二、在 CRM中数据挖掘常用技术 三、解决实际商业问题 四、建立解决方案的关键 一、数据挖掘对 CRM的影响 21世纪的商业竞争不仅取决于对市场的反应速度,还取决于对本行业新知识的获取、积累和有效利用的能力。实际上效率不再是商场上取胜的唯一关键。在这个新的启用 web的电子商务经济时代,灵活性和敏感性也是在竞争中取胜的重要因素。能够提供客户资源及相关数据分析的客户关系管理系统( Customer Relationship Management, CRM)就成为焦点。作为专门管理企业前台的客户关系管理为企业提供了一个收集、分析和利用各种客户信息的系统,帮助企业充分利用其客户管理资源,也为企业在电子商务时代从容自如地面对客户提供了科学手段和方法。 客户关系管理 (CRM)指的是企业与其客户的交流方式,它实施于企业的市场营销、销售、服务与技术支持等与客户有关的领域。 它 是一种管理理念,又是一种旨在改善企业与客户之间关系的新型管理机制 , 也是一种管理软件和技术,它将最佳的商业实践与数据挖掘、数据仓库、一对一营销、销售自动化以及其它信息技术紧密结合在一起,为企业的销售、客户服务和决策支持等领域提供了一个业务自动化的解决方案,使企业有了一个基于电子商务的面对客户的前沿,从而顺利实现由传统企业模式到以电子商务为基础的现代企业模式的转化。 CRM的特征 一对一营销 高度集成的交流渠道 统一共享的信息资源 商业智能化的数据分析和处理 对基于 Web的功能的支持 CRM体系结构图如下所示: 业务规则和元数据管理 工作流管理 联系历史 交易历史 客户和帐务数据仓库 外部数据 ETL工具 ( 抽取转换装载工具 ) 行销数据集市 活动管理 分析数据集市 报表数据集市 活动管理 数据挖掘分析 数据源 行销数据存储 决策支持应用 特别查询和报表 直接邮寄(广告) 联系管理 呼叫中心 销售力量 客服中心 Internet 电子邮件 其他 信息渠道 CRM体系结构图 在这个体系结构图中,有很多用于产生和使用信息的客户接触点和发送渠道。经过集成和分析信息,可以完整、正确地得出客户的大概情况 -他们的喜好、需求、抱怨、和使他们成为公司产品和服务网的终身会员的特性。最后数据仓库环境下所有的部件都将被部署到适当的位置,并提供多种用于集成和分析的重要功能。 从较高的层次看, CRM系统的体系结构很像一 栋房子: 客户接触点是根基 数据仓库是地基 客户利益性是隅石 数据挖掘是蓝图 Web应用是顶石 这些技术结合在一起便构成了完整的 CRM系统。 二、在 CRM中数据挖掘常用技术 比较典型的数据挖掘方法 关联分析 序列模式分析 分类分析 聚类分析 决策树 神经元网络 规则归纳 三、解决实际商业问题 客户盈利分析 新客户的获取 交叉营销 客户的保持 客户的细分 客户盈利分析 客户盈利能力分析是数据挖掘的基础,也是数据挖掘是否用于正确方向的一个指标。 一般情况下,在顾客身上的花费越多,他们保持更高的忠诚度和购买更多产品的可能性越大。保持客户的忠诚度将对客户盈利能力产生极深的影响。 数据挖掘技术可以用来预测在不同市场活动情况下的客户盈利能力;可以预测未来的盈利能力;预测客户盈利能力的变化。 新客户的获取 在大多数商业领域中,业务发展的主要指标里包括新客户的获取能力。新客户的获取包括发现那些对你的产品不了解的客户,也包括以前接受你的竞争对手服务的顾客。数据挖掘技术可以帮助我们对潜在客户群进行分析,并增加市场推广活动产生的反馈率。 交叉营销 交叉营销是指你向现有的客户提供新的产品和服务的营销过程。公司与其客户之间的商业关系是一种持续的不断发展的关系,在这种关系建立起来以后,可以有很多种方法来不断改善这种关系。双方的目标是达到双赢的结果,客户获益是由于他们得到了更好更贴切的服务质量,商家则因为增加销售量获利。 客户的保持 随着行业的竞争越来越激烈和获得一个新客户的开支愈来愈大,保持原有客户的工作愈来愈有价值。使用数据挖掘技术可以用来预测哪些客户具有高风险转移的可能性。例如使用分类回归树 (CART)来生成各种预测模型,可以对客户流失原因有深入的了解。 客户的细分 细分是指将一个大的消费群体划分成一个个细分群的动作,同属于一个细分群的消费者彼此相似,而隶属于不同细分群的消费者被视为不同。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论