




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘在商务智能决策与CRM中的应用北京科技大学杨炳儒教授数据挖掘在商务智能决策与CRM中的应用北京科技大学1数据挖掘(知识发现)新进展数据挖掘在商务智能决策中的应用数据挖掘在CRM中的应用数据挖掘(知识发现)新进展2第一部分数据挖掘(知识发现)新进展五、研究动态与趋向一、数据挖掘(知识发现)概念内涵与外延的发展二、挖掘知识类型的扩展三、挖掘技术方法的扩展四、应用的扩展第一部分数据挖掘(知识发现)新进展五、研究动态与趋向一、数据3一、数据挖掘(知识发现)概念内涵与外延的发展结构化数据挖掘DM(KDD)多媒体数据构成的大型异质异构数据库,称为复杂数据类型挖掘CDM[动态(在线)-分布式-并行系统]Web:1、以文本为主的页面内容挖掘2、以客户访问信息为主3、以Web结构为主多媒体:音频、视频、图像、图形、时序、空间等基于知识库的知识发现KDK一、数据挖掘(知识发现)概念内涵与外延的发展结构化数据挖掘多4知识发现的新定义:
在现实世界中,针对客观存在的具有海量性、不确定性、不完全性的量的、质的、复杂形态的知识源,挖掘其中潜在的、先前未知的、用户感兴趣的、最终可被用户理解的模式的非平凡提取过程。知识发现的新定义:在现实世界中,针对客5二、挖掘知识类型的扩展扩展扩展关联规则、分类、聚类、相似模式、混沌模式、时序模式、预测等文本、客户访问路径、音频、视频……生物信息挖掘、游戏信息挖掘、XML文档、多语言文本挖掘、图表数据库、分子结构数据库等二、挖掘知识类型的扩展扩展扩展关联规则、分类、聚类、相似模式6三、挖掘技术方法的扩展扩展统计学(数理统计)、证据理论、机器学习、神经网络、粗糙集、近似推理、小波、分形、概念格、概念树提升、决策树等Hilbert空间、信息融合与神经网络结合、距离测度函数、数据立方体、隐马尔可夫模型、信息熵、主观Bayes方法、信息扩散等三、挖掘技术方法的扩展扩展统计学(数理统计)、证据理论、Hi7四、应用的扩展金融、医疗保健、市场业、零售业、制造业、工程与科学、经纪业和安全交易、证券交易、瑕疵分析、政府和防卫、电信、司法、企业经营管理等等应用领域扩展Internet、农业、气象、远程教育、天文学、生物信息、地理信息等等四、应用的扩展金融、医疗保健、市场业、零售业、应用领域扩展I8Marksman、ThinkMachine、DataMind、IntelligentMiner、KnowledgeSEEKER、等等实例和软件的扩展MSMiner、KDD*、KDK*、KD(D&K)等等Marksman、ThinkMachine、实例和软件的扩9五、研究动态与趋向
目前国际上KDD的研究主要是以知识发现的任务描述、知识评价与知识表示为主线,有效的知识发现算法为中心。这是在相当长的一段时间内保持的主流与基调。
五、研究动态与趋向目前国际上KDD的研究主要是10国外研究动态2003年8月27日在华盛顿召开了第九届知识发现与数据挖掘国际会议,参与讨论的专家一致认为:数据挖掘正面临着巨大的机遇和挑战。国外研究动态2003年8月27日在华盛顿召开了第九届知识发现11其中U.Fayyad认为从科学发展的长远来看,最大的绊脚石是基础理论的缺乏以及所面临的问题和挑战的清晰明白的阐述。他认为对于我们要做什么,几乎没有理论甚至工程实践来指导:在今天它仍然是”不为人知的艺术”。我们需要理论来指导我们要做什么以及要如何作。这些理论能够促使工程解决方法的出现,这样我们也可以将我们的“手艺”更有效的教给其他人。而这种形势与从业者以及对应用感兴趣的人们的巨大的热情同时存在,这些人来自不同的领域,但是没有科学根基以及持续的学术发展,本领域不可能得到发展与巩固。其中U.Fayyad认为从科学发展的长远来看,最大的绊脚石12R.Uthurusamy认为WEB的使用和生产厂家的大肆宣传等都会在短期内影响本领域的发展,它们会使得我们将更多的精力投向数据库营销、CRM和OLAP等方面,而不是致力于使KDD从根本上或科学上有大的进步。KDD的基础研究界必须消除这些干扰而去努力解决KDD的真正的根本的问题。R.Uthurusamy认为WEB的使用和生产厂家的大肆宣传13国内研究动态我们编制了了软件对中国期刊网上1994年至今的论文进行了分类与统计。1、历年发表文章数分类汇总图示如下(含所有的类别共11707篇)国内研究动态我们编制了了软件对中国期刊网上1994年至今的论142、按照数据挖掘、决策支持系统、专家系统方面的文章统计图示如下:(评价)2、按照数据挖掘、决策支持系统、专家系统方面的文章统计图示如15发展的基本特征(1)原有理论方法的深化与拓展
如:1)网络数据挖掘;流数据;混合数据。2)基于神经网络的的时序数据、相似序列、快速挖掘算法的研究等。
3)粗糙集与支持向量机模型与方法的扩展。4)凸分析与数据包络分析方法的运用。5)增强(强化)学习模型与方法的运用。发展的基本特征(1)原有理论方法的深化与拓展16(2)复杂类型(系统)数据挖掘成为热点
如:1)生物信息挖掘。
KnowledgeDiscoveryforPromoterStructureAnalysisStudyofMotifCorrelationinProteinsbyDataMining(用数据挖掘技术进行蛋白质中启动子的结构分析)
2)半结构化、非结构化等复杂类型数据挖掘。
AMethodforMiningDataofSequentialImages----RebuildingofGray(Position)timeFunctiononArbitraryDirectionLines(基于图表数据库知识发现系统的概念等级聚类)3)分布式数据挖掘系统。4)动态、在线数据挖掘系统。5)流数据、混合数据与不完备数据挖掘系统。(2)复杂类型(系统)数据挖掘成为热点17(3)新技术与方法的引入(其它学科领域的渗透)如:人工免疫系统方法;协同验算方法;模拟退火算法;保角变换方法;黎曼几何方法等。(4)理论融合交叉性研究如:基于RoughSet的证据推理算法;模糊关系数据模型与粗集结合算法等。认知心理学、认知物理学、认知生物学等。(5)基础理论研究内在机理研究;自主知识发现框架;DM=数据集+似然关系+挖掘算法等。(3)新技术与方法的引入(其它学科领域的渗透)18第二部分数据挖掘在商务智能决策中的应用一、基于信息挖掘的新型智能决策支持系统二、商务部国际商务中心项目简介三、软件系统实现整体说明第二部分数据挖掘在商务智能决策中的应用一、基于信息挖掘的19一、基于信息挖掘的新型智能决策支持系统自从美国麻省理工学院的MichaelS.S.Morton和PeterG.W.Keen于20世纪70年代首次提出决策支持系统(DSS)以来,其发展迅速,不断取得显著的成果,并成为许多行业经营管理中一个不可缺少的现代化决策支持工具。现在正逐步形成新一代的DSS:群决策支持系统(GDSS),分布式决策支持系统(DDSS),战略决策支持系统等,尤其是智能决策支持系统(IDSS)的出现,将人工智能的知识推理等技术引入DSS,使DSS的发展进入了一个新的阶段。近年来,又相继出现了基于数据仓库与基于WEB的智能决策支持系统,大大推进了IDSS的发展。
一、基于信息挖掘的新型智能决策支持系统自从美国麻省理工学院的20但是,传统的决策支持系统尚存在着推理技术单调,自学习能力较差,形成知识库中的知识不足够丰富这一新的“瓶颈”现象。近年来Internet迅速发展,网上信息极大丰富而知识却相对缺乏,并且这些信息和以往决策支持系统所处理的信息不同,是非结构化的,这就使其处理方式也必然有所不同。所以新一代决策支持系统的发展方向是高度智能化,以多种知识表示、自组织协同工作、自动知识获取和自适应能力较强等为特征。但是,传统的决策支持系统尚存在着推理技术单调,自学习能力较差21为此,我们提出了基于信息挖掘的智能决策支持系统IDSSIM,这里的信息挖掘区别于通常的数据挖掘,是从结构化数据或复杂类型数据(文本、日志、音频、视频、图像等)中提取新颖、潜在有用知识的非平凡抽取过程。所形成的IDSSIM结构模型可广泛应用于各行各业在管理信息系统的基础上所提升的辅助决策支持系统中。IDSSIM的总体结构模型如下图所示:为此,我们提出了基于信息挖掘的智能决策支持系统IDSSIM,22数据挖掘在商务智能决策与CRM中的应用23其理论基础是我们提出的基于双库协同机制的知识发现系统KDD*和WEB数据挖掘过程,它以多个知识源的知识融合、多抽象级与不同知识层次的结构,以及使数据库、知识库、方法库、模型库、文本库、日志库六库协同运作为特征,形成了极其丰富的动态知识库系统与相应的集成推理机制,为解决决策系统构造中的核心技术提供了一条有效的途径,也从根本上提高了决策支持系统的实用化程度。其理论基础是我们提出的基于双库协同机制的知识发现系统KDD*24系统的核心是“源于信息的知识发现KDBI”(KnowledgeDiscoveryBasedonInformation),它在模块实现上主要包含三个部分:基于双库协同机制的知识发现子系统(KDD*)、基于推理机制的知识发现子系统(KDRM)和基于WEB挖掘的知识发现子系统(KDWM)。可粗略地表示为:KDBI=KDD*+KDRM+KDWM。系统的核心是“源于信息的知识发现KDBI”(Knowledg25首先,六库(数据库、知识库、方法库、模型库、文本库、日志库)在多库管理子系统的管理下协同运作。知识获取子系统可以从领域专家那里获取知识,也可以获取书本中的知识,并将这些知识存储在知识库中。基于信息挖掘的新型智能决策支持系统。首先,六库(数据库、知识库、方法库、模型库、文本库、日志库)26其次,知识库中的知识可以直接纳入综合知识库,也可以被基于双库协同机制的知识发现(KDD*)子系统利用,在以属性为基础的知识库建库原则下,通过搜索知识库中知识结点的不关联态,产生“创见意向”,发现短缺知识。其次,知识库中的知识可以直接纳入综合知识库,也可以被基于双库27再次,基于推理机制的知识发现子系统(KDRM),包括用一种或多种知识表示方法描述的已知问题及其解法的描述集合的知识库和需要求解的问题集;通过Fuzzy推理、演绎推理、广义综合归纳推理和基于案例的推理等,构造规则集和发现新知识。来自WEB的信息首先被存储在文本库和日志库中,并由基于WEB的知识发现子系统挖掘关于访问信息、文本和结构方面的知识,并将挖掘结果存入WEB知识库。再次,基于推理机制的知识发现子系统(KDRM),包括用一种或28二、商务部国际商务中心项目简介在与国家商务部国际商务中心的合作中,构造了基于我们专利技术的“面向加工贸易基于竞争情报的智能决策支持系统”。针对外贸加工中国内采购与供应链系统进行深入分析,通过数据挖掘、WEB挖掘、案例推理与OLAP等技术,挖掘出一些平时很难靠直观或凭借经验发现的规则,发现了若干新的知识。对领导战略决策与企业经营决策管理有一定的参考价值。二、商务部国际商务中心项目简介在与国家商务部国际商务中心的合29利用商务部国际商务中心长期积累的对外加工贸易的数据,充分运用我们的创新性信息处理技术和数据挖掘技术,开展研发工作。目前已通过验收,并将对国家的对外贸易和商务活动产生较大影响。概括起来有如下几点:1)为对外贸易企业“请进来,走出去”提供决策支持;2)为领导关注的热点问题,提供决策支持;3)为外商投资提供咨询指导;4)为国家和地方招商引资提供科学的建议。利用商务部国际商务中心长期积累的对外加工贸易的数据,30项目主页应用窗口项目主页应用窗口31三、软件系统实现整体说明1、OLAP问题域运行环境与开发工具三、软件系统实现整体说明1、OLAP32OLAP问题域1、经营企业信息分析2、国产料件分析3、进口料件分析4、加工行业分析5、外商分析6、进出口币种分析7、工缴费分析8、口岸与海关分析9、出口成品分析OLAP问题域1、经营企业信息分析33OLAP运行环境与工具服务器端: 硬件:性能较好的服务器、网络链接 软件:ORACLE数据库服务器及数据、BRIOINTELLIGENCESERVER、BRIOCLIENTDESIGNER客户端:硬件:普通PC、网卡、INTERNET网络链接软件:BRIOCLIENTEXPLORER、通用浏览器OLAP运行环境与工具服务器端:342.KDD*问题域计算模式与开发工具总体设计流程图2.KDD*问题域35KDD*问题域说明预想:就采购价值链方面内容,展开数据挖掘,重点对国内采购现状,抽取相关关联规则,提供领导决策信息。方法特征:智能系统内在的使用了人工智能方法与软计算方法,知识发现方法寻求新颖的知识类型,因而所发现的知识与数据状况密切相关。在未作实际挖掘前难以确定其明确主题。将提交结果:就目前挖掘情况看,领导决策方面与企业经营决策方面的内容都可能发现较有价值得知识。因而,须在实际研发过程中,逐步筛选、调试、聚焦。KDD*问题域说明预想:就采购价值链方面内容36KDD*计算模式与开发工具计算模式:客户机/服务器模式运行环境与开发工具客户端:windows平台,DELPH,ODBC服务器端:商务部现有环境和ORACLE数据库系统
KDD*计算模式与开发工具计算模式:客户机/服务器模式37KDD*总体设计流程图KDD*总体设计流程图38数据清理:主要完成数据源的选取、数据清洗、去噪声以及填补空缺数据等等,也就是要为挖掘准为数据,确切的说就是为数据离散做准备。主题管理:主要是针对挖掘的目标不同而设立不同的主题,这部分主要实现主题的定义、修改、删除以及主题的选择等功能,在主题的定义中要完成与该主题相关的数据,也就是要在这里确定挖掘的方向。数据清理:主要完成数据源的选取、数据清洗、去噪声以及填补空缺39属性值离散化:建立主题以后根据所选择的数据确定语言变量以及所对应的语言变量值,同时对所选定的数据根据语言变量和语言变量值进行离散形成挖掘数据库,为下面的挖掘工作做准备。知识库管理:分为基础知识库管理和衍生知识库管理两个部分,其中基础知识库包括基础知识的录入、修改、删除等基本的维护工作;衍生知识库包括挖掘出的知识的输入,只是的展示等工作,这部分涉及到挖掘及知识的展示。
数据挖掘在商务智能决策与CRM中的应用40数据挖掘:根据数据产生规则,分为两个部分用户子定义挖掘和系统自动挖掘(启发式协调器)。用户子定义挖掘是根据用户感兴趣的内容进行聚焦挖掘,启发式挖掘是根据基础知识库,针对短缺知识进行挖掘。知识评价:对挖掘出的规则进行评价决定是否存入到衍生知识库中,首先是通过中断协调器进行评价然后再经过领域专家进行评价来决定是否存入衍生知识库。数据挖掘:根据数据产生规则,分为两个部分用户子定义挖掘和系统41附:与此相应的,我们还研发了用于智能决策的“分布式数据资源集成系统”,给出了统一数据访问接口、快速全文检索、文本分类、文本数字化、个性化信息推送和信息发布等一揽子整体解决方案。附:与此相应的,我们还研发了用于智能决策的“分布式数据资源集42第三部分数据挖掘在CRM中的应用一、数据挖掘对CRM的影响二、在CRM中数据挖掘常用技术三、解决实际商业问题四、建立解决方案的关键第三部分数据挖掘在CRM中的应用一、数据挖掘对CRM的影43一、数据挖掘对CRM的影响21世纪的商业竞争不仅取决于对市场的反应速度,还取决于对本行业新知识的获取、积累和有效利用的能力。实际上效率不再是商场上取胜的唯一关键。在这个新的启用web的电子商务经济时代,灵活性和敏感性也是在竞争中取胜的重要因素。能够提供客户资源及相关数据分析的客户关系管理系统(CustomerRelationshipManagement,CRM)就成为焦点。作为专门管理企业前台的客户关系管理为企业提供了一个收集、分析和利用各种客户信息的系统,帮助企业充分利用其客户管理资源,也为企业在电子商务时代从容自如地面对客户提供了科学手段和方法。一、数据挖掘对CRM的影响21世纪的商业竞争44客户关系管理(CRM)指的是企业与其客户的交流方式,它实施于企业的市场营销、销售、服务与技术支持等与客户有关的领域。它是一种管理理念,又是一种旨在改善企业与客户之间关系的新型管理机制,也是一种管理软件和技术,它将最佳的商业实践与数据挖掘、数据仓库、一对一营销、销售自动化以及其它信息技术紧密结合在一起,为企业的销售、客户服务和决策支持等领域提供了一个业务自动化的解决方案,使企业有了一个基于电子商务的面对客户的前沿,从而顺利实现由传统企业模式到以电子商务为基础的现代企业模式的转化。客户关系管理(CRM)指的是企业与其客户的交流方45CRM的特征
①一对一营销②高度集成的交流渠道③统一共享的信息资源④商业智能化的数据分析和处理⑤对基于Web的功能的支持CRM体系结构图如下所示:CRM的特征46业务规则和元数据管理工作流管理联系历史交易历史客户和帐务数据仓库外部数据ETL工具(抽取转换装载工具)行销数据集市活动管理分析数据集市报表数据集市活动管理数据挖掘/分析数据源行销数据存储决策支持应用特别查询和报表直接邮寄(广告)联系管理呼叫中心销售力量客服中心Internet电子邮件其他信息渠道CRM体系结构图业务规则和元数据管理工作流管理联系历史交易历史客户和帐务数据47在这个体系结构图中,有很多用于产生和使用信息的客户接触点和发送渠道。经过集成和分析信息,可以完整、正确地得出客户的大概情况----他们的喜好、需求、抱怨、和使他们成为公司产品和服务网的终身会员的特性。最后数据仓库环境下所有的部件都将被部署到适当的位置,并提供多种用于集成和分析的重要功能。在这个体系结构图中,有很多用于产生和使用信息的48从较高的层次看,CRM系统的体系结构很像一栋房子:客户接触点是根基数据仓库是地基客户利益性是隅石数据挖掘是蓝图Web应用是顶石这些技术结合在一起便构成了完整的CRM系统。从较高的层次看,CRM系统的体系结构很像一栋49二、在CRM中数据挖掘常用技术比较典型的数据挖掘方法
①关联分析
②序列模式分析③分类分析④聚类分析⑤决策树⑥神经元网络⑦规则归纳二、在CRM中数据挖掘常用技术比较典型的数据挖掘方法50三、解决实际商业问题客户盈利分析新客户的获取交叉营销客户的保持客户的细分三、解决实际商业问题客户盈利分析51客户盈利分析客户盈利能力分析是数据挖掘的基础,也是数据挖掘是否用于正确方向的一个指标。一般情况下,在顾客身上的花费越多,他们保持更高的忠诚度和购买更多产品的可能性越大。保持客户的忠诚度将对客户盈利能力产生极深的影响。数据挖掘技术可以用来预测在不同市场活动情况下的客户盈利能力;可以预测未来的盈利能力;预测客户盈利能力的变化。客户盈利分析客户盈利能力分析是数据挖掘的基础,也是数据挖掘是52新客户的获取在大多数商业领域中,业务发展的主要指标里包括新客户的获取能力。新客户的获取包括发现那些对你的产品不了解的客户,也包括以前接受你的竞争对手服务的顾客。数据挖掘技术可以帮助我们对潜在客户群进行分析,并增加市场推广活动产生的反馈率。新客户的获取在大多数商业领域中,业务发展的主要指标里包括新客53交叉营销交叉营销是指你向现有的客户提供新的产品和服务的营销过程。公司与其客户之间的商业关系是一种持续的不断发展的关系,在这种关系建立起来以后,可以有很多种方法来不断改善这种关系。双方的目标是达到双赢的结果,客户获益是由于他们得到了更好更贴切的服务质量,商家则因为增加销售量获利。交叉营销交叉营销是指你向现有的客户提供新的产品和服务的营销过54客户的保持随着行业的竞争越来越激烈和获得一个新客户的开支愈来愈大,保持原有客户的工作愈来愈有价值。使用数据挖掘技术可以用来预测哪些客户具有高风险转移的可能性。例如使用分类回归树(CART)来生成各种预测模型,可以对客户流失原因有深入的了解。客户的保持随着行业的竞争越来越激烈和获得一个新客户的开支愈来55客户的细分细分是指将一个大的消费群体划分成一个个细分群的动作,同属于一个细分群的消费者彼此相似,而隶属于不同细分群的消费者被视为不同。细分的目的可以让管理者从一个比较高的层次上“鸟瞰”整个数据库中的数据,从而可以用不同的方法对待处于不同细分群众的客户,提供相对个性化的服务。可以用数据挖掘中的决策树或者聚类的方法来实现细分。客户的细分细分是指将一个大的消费群体划分成一个个细分群的动作56四、建立解决方案的关键建立商业案例判断是否用数据挖掘技术在CRM中应用数据挖掘系统步骤优化CRM四、建立解决方案的关键建立商业案例57建立商业案例针对数据挖掘创建商业案例的第一步就是找到可以采用数据挖掘技术的地方。在创建商业案例的过程中,最重要的是商业价值的定义,或者说如何来评判数据挖掘的价值,评估指标包括收益的增长、利润、成本降低、投资回报率(ROI)、竞争优势等。建立商业案例针对数据挖掘创建商业案例的第一步就是找到可以采用58在开始任何数据挖掘项目之前,必须要回答一个重要问题,即是否真的需要用这种方法,要对此做出决定,重要的是理解所需的数据挖掘技术的复杂度级别。例如:是否只需要一些标准的打印好的报表,还是需要交互式的ROL分析或OLAP来看看数据是什么样的?是否需要用真正的数据挖掘技术来建立预测模型、搜索数据库已获得有用的模式?选择一种数据挖掘技术和某种实际产品的关键在于产品能否带来商业价值。如果某种技术不能被转化为利润、增加收入、降低成本,或提高投资收回率,商业上就不会有人花时间用它。判断是否用数据挖掘技术在开始任何数据挖掘项目之前,必须要回答一个重要问题,即是否真59①定义问题②定义用户③定义数据④数据清洗、⑤控制项目的范围⑥试验⑦质量保证⑧教育培训⑨发布⑩维护在CRM中启动数据挖掘应用的步骤①定义问题在CRM中启动数据挖掘应用的步骤60优化CRM优化CRM过程:
对CRM进行优化比对其他业务问题优化更加困难,但是随着数据库、数据挖掘和CRM系统自身的发展,现在已经可以经常对CRM进行优化,以增加客户收益率。优化过程有三个重要步骤:
①评价:检查发生的结果②预测:根据已经发生的事情来设想其他的③行动:进行尝试优化CRM优化CRM过程:61小结小结62谢谢!谢谢!63数据挖掘在商务智能决策与CRM中的应用北京科技大学杨炳儒教授数据挖掘在商务智能决策与CRM中的应用北京科技大学64数据挖掘(知识发现)新进展数据挖掘在商务智能决策中的应用数据挖掘在CRM中的应用数据挖掘(知识发现)新进展65第一部分数据挖掘(知识发现)新进展五、研究动态与趋向一、数据挖掘(知识发现)概念内涵与外延的发展二、挖掘知识类型的扩展三、挖掘技术方法的扩展四、应用的扩展第一部分数据挖掘(知识发现)新进展五、研究动态与趋向一、数据66一、数据挖掘(知识发现)概念内涵与外延的发展结构化数据挖掘DM(KDD)多媒体数据构成的大型异质异构数据库,称为复杂数据类型挖掘CDM[动态(在线)-分布式-并行系统]Web:1、以文本为主的页面内容挖掘2、以客户访问信息为主3、以Web结构为主多媒体:音频、视频、图像、图形、时序、空间等基于知识库的知识发现KDK一、数据挖掘(知识发现)概念内涵与外延的发展结构化数据挖掘多67知识发现的新定义:
在现实世界中,针对客观存在的具有海量性、不确定性、不完全性的量的、质的、复杂形态的知识源,挖掘其中潜在的、先前未知的、用户感兴趣的、最终可被用户理解的模式的非平凡提取过程。知识发现的新定义:在现实世界中,针对客68二、挖掘知识类型的扩展扩展扩展关联规则、分类、聚类、相似模式、混沌模式、时序模式、预测等文本、客户访问路径、音频、视频……生物信息挖掘、游戏信息挖掘、XML文档、多语言文本挖掘、图表数据库、分子结构数据库等二、挖掘知识类型的扩展扩展扩展关联规则、分类、聚类、相似模式69三、挖掘技术方法的扩展扩展统计学(数理统计)、证据理论、机器学习、神经网络、粗糙集、近似推理、小波、分形、概念格、概念树提升、决策树等Hilbert空间、信息融合与神经网络结合、距离测度函数、数据立方体、隐马尔可夫模型、信息熵、主观Bayes方法、信息扩散等三、挖掘技术方法的扩展扩展统计学(数理统计)、证据理论、Hi70四、应用的扩展金融、医疗保健、市场业、零售业、制造业、工程与科学、经纪业和安全交易、证券交易、瑕疵分析、政府和防卫、电信、司法、企业经营管理等等应用领域扩展Internet、农业、气象、远程教育、天文学、生物信息、地理信息等等四、应用的扩展金融、医疗保健、市场业、零售业、应用领域扩展I71Marksman、ThinkMachine、DataMind、IntelligentMiner、KnowledgeSEEKER、等等实例和软件的扩展MSMiner、KDD*、KDK*、KD(D&K)等等Marksman、ThinkMachine、实例和软件的扩72五、研究动态与趋向
目前国际上KDD的研究主要是以知识发现的任务描述、知识评价与知识表示为主线,有效的知识发现算法为中心。这是在相当长的一段时间内保持的主流与基调。
五、研究动态与趋向目前国际上KDD的研究主要是73国外研究动态2003年8月27日在华盛顿召开了第九届知识发现与数据挖掘国际会议,参与讨论的专家一致认为:数据挖掘正面临着巨大的机遇和挑战。国外研究动态2003年8月27日在华盛顿召开了第九届知识发现74其中U.Fayyad认为从科学发展的长远来看,最大的绊脚石是基础理论的缺乏以及所面临的问题和挑战的清晰明白的阐述。他认为对于我们要做什么,几乎没有理论甚至工程实践来指导:在今天它仍然是”不为人知的艺术”。我们需要理论来指导我们要做什么以及要如何作。这些理论能够促使工程解决方法的出现,这样我们也可以将我们的“手艺”更有效的教给其他人。而这种形势与从业者以及对应用感兴趣的人们的巨大的热情同时存在,这些人来自不同的领域,但是没有科学根基以及持续的学术发展,本领域不可能得到发展与巩固。其中U.Fayyad认为从科学发展的长远来看,最大的绊脚石75R.Uthurusamy认为WEB的使用和生产厂家的大肆宣传等都会在短期内影响本领域的发展,它们会使得我们将更多的精力投向数据库营销、CRM和OLAP等方面,而不是致力于使KDD从根本上或科学上有大的进步。KDD的基础研究界必须消除这些干扰而去努力解决KDD的真正的根本的问题。R.Uthurusamy认为WEB的使用和生产厂家的大肆宣传76国内研究动态我们编制了了软件对中国期刊网上1994年至今的论文进行了分类与统计。1、历年发表文章数分类汇总图示如下(含所有的类别共11707篇)国内研究动态我们编制了了软件对中国期刊网上1994年至今的论772、按照数据挖掘、决策支持系统、专家系统方面的文章统计图示如下:(评价)2、按照数据挖掘、决策支持系统、专家系统方面的文章统计图示如78发展的基本特征(1)原有理论方法的深化与拓展
如:1)网络数据挖掘;流数据;混合数据。2)基于神经网络的的时序数据、相似序列、快速挖掘算法的研究等。
3)粗糙集与支持向量机模型与方法的扩展。4)凸分析与数据包络分析方法的运用。5)增强(强化)学习模型与方法的运用。发展的基本特征(1)原有理论方法的深化与拓展79(2)复杂类型(系统)数据挖掘成为热点
如:1)生物信息挖掘。
KnowledgeDiscoveryforPromoterStructureAnalysisStudyofMotifCorrelationinProteinsbyDataMining(用数据挖掘技术进行蛋白质中启动子的结构分析)
2)半结构化、非结构化等复杂类型数据挖掘。
AMethodforMiningDataofSequentialImages----RebuildingofGray(Position)timeFunctiononArbitraryDirectionLines(基于图表数据库知识发现系统的概念等级聚类)3)分布式数据挖掘系统。4)动态、在线数据挖掘系统。5)流数据、混合数据与不完备数据挖掘系统。(2)复杂类型(系统)数据挖掘成为热点80(3)新技术与方法的引入(其它学科领域的渗透)如:人工免疫系统方法;协同验算方法;模拟退火算法;保角变换方法;黎曼几何方法等。(4)理论融合交叉性研究如:基于RoughSet的证据推理算法;模糊关系数据模型与粗集结合算法等。认知心理学、认知物理学、认知生物学等。(5)基础理论研究内在机理研究;自主知识发现框架;DM=数据集+似然关系+挖掘算法等。(3)新技术与方法的引入(其它学科领域的渗透)81第二部分数据挖掘在商务智能决策中的应用一、基于信息挖掘的新型智能决策支持系统二、商务部国际商务中心项目简介三、软件系统实现整体说明第二部分数据挖掘在商务智能决策中的应用一、基于信息挖掘的82一、基于信息挖掘的新型智能决策支持系统自从美国麻省理工学院的MichaelS.S.Morton和PeterG.W.Keen于20世纪70年代首次提出决策支持系统(DSS)以来,其发展迅速,不断取得显著的成果,并成为许多行业经营管理中一个不可缺少的现代化决策支持工具。现在正逐步形成新一代的DSS:群决策支持系统(GDSS),分布式决策支持系统(DDSS),战略决策支持系统等,尤其是智能决策支持系统(IDSS)的出现,将人工智能的知识推理等技术引入DSS,使DSS的发展进入了一个新的阶段。近年来,又相继出现了基于数据仓库与基于WEB的智能决策支持系统,大大推进了IDSS的发展。
一、基于信息挖掘的新型智能决策支持系统自从美国麻省理工学院的83但是,传统的决策支持系统尚存在着推理技术单调,自学习能力较差,形成知识库中的知识不足够丰富这一新的“瓶颈”现象。近年来Internet迅速发展,网上信息极大丰富而知识却相对缺乏,并且这些信息和以往决策支持系统所处理的信息不同,是非结构化的,这就使其处理方式也必然有所不同。所以新一代决策支持系统的发展方向是高度智能化,以多种知识表示、自组织协同工作、自动知识获取和自适应能力较强等为特征。但是,传统的决策支持系统尚存在着推理技术单调,自学习能力较差84为此,我们提出了基于信息挖掘的智能决策支持系统IDSSIM,这里的信息挖掘区别于通常的数据挖掘,是从结构化数据或复杂类型数据(文本、日志、音频、视频、图像等)中提取新颖、潜在有用知识的非平凡抽取过程。所形成的IDSSIM结构模型可广泛应用于各行各业在管理信息系统的基础上所提升的辅助决策支持系统中。IDSSIM的总体结构模型如下图所示:为此,我们提出了基于信息挖掘的智能决策支持系统IDSSIM,85数据挖掘在商务智能决策与CRM中的应用86其理论基础是我们提出的基于双库协同机制的知识发现系统KDD*和WEB数据挖掘过程,它以多个知识源的知识融合、多抽象级与不同知识层次的结构,以及使数据库、知识库、方法库、模型库、文本库、日志库六库协同运作为特征,形成了极其丰富的动态知识库系统与相应的集成推理机制,为解决决策系统构造中的核心技术提供了一条有效的途径,也从根本上提高了决策支持系统的实用化程度。其理论基础是我们提出的基于双库协同机制的知识发现系统KDD*87系统的核心是“源于信息的知识发现KDBI”(KnowledgeDiscoveryBasedonInformation),它在模块实现上主要包含三个部分:基于双库协同机制的知识发现子系统(KDD*)、基于推理机制的知识发现子系统(KDRM)和基于WEB挖掘的知识发现子系统(KDWM)。可粗略地表示为:KDBI=KDD*+KDRM+KDWM。系统的核心是“源于信息的知识发现KDBI”(Knowledg88首先,六库(数据库、知识库、方法库、模型库、文本库、日志库)在多库管理子系统的管理下协同运作。知识获取子系统可以从领域专家那里获取知识,也可以获取书本中的知识,并将这些知识存储在知识库中。基于信息挖掘的新型智能决策支持系统。首先,六库(数据库、知识库、方法库、模型库、文本库、日志库)89其次,知识库中的知识可以直接纳入综合知识库,也可以被基于双库协同机制的知识发现(KDD*)子系统利用,在以属性为基础的知识库建库原则下,通过搜索知识库中知识结点的不关联态,产生“创见意向”,发现短缺知识。其次,知识库中的知识可以直接纳入综合知识库,也可以被基于双库90再次,基于推理机制的知识发现子系统(KDRM),包括用一种或多种知识表示方法描述的已知问题及其解法的描述集合的知识库和需要求解的问题集;通过Fuzzy推理、演绎推理、广义综合归纳推理和基于案例的推理等,构造规则集和发现新知识。来自WEB的信息首先被存储在文本库和日志库中,并由基于WEB的知识发现子系统挖掘关于访问信息、文本和结构方面的知识,并将挖掘结果存入WEB知识库。再次,基于推理机制的知识发现子系统(KDRM),包括用一种或91二、商务部国际商务中心项目简介在与国家商务部国际商务中心的合作中,构造了基于我们专利技术的“面向加工贸易基于竞争情报的智能决策支持系统”。针对外贸加工中国内采购与供应链系统进行深入分析,通过数据挖掘、WEB挖掘、案例推理与OLAP等技术,挖掘出一些平时很难靠直观或凭借经验发现的规则,发现了若干新的知识。对领导战略决策与企业经营决策管理有一定的参考价值。二、商务部国际商务中心项目简介在与国家商务部国际商务中心的合92利用商务部国际商务中心长期积累的对外加工贸易的数据,充分运用我们的创新性信息处理技术和数据挖掘技术,开展研发工作。目前已通过验收,并将对国家的对外贸易和商务活动产生较大影响。概括起来有如下几点:1)为对外贸易企业“请进来,走出去”提供决策支持;2)为领导关注的热点问题,提供决策支持;3)为外商投资提供咨询指导;4)为国家和地方招商引资提供科学的建议。利用商务部国际商务中心长期积累的对外加工贸易的数据,93项目主页应用窗口项目主页应用窗口94三、软件系统实现整体说明1、OLAP问题域运行环境与开发工具三、软件系统实现整体说明1、OLAP95OLAP问题域1、经营企业信息分析2、国产料件分析3、进口料件分析4、加工行业分析5、外商分析6、进出口币种分析7、工缴费分析8、口岸与海关分析9、出口成品分析OLAP问题域1、经营企业信息分析96OLAP运行环境与工具服务器端: 硬件:性能较好的服务器、网络链接 软件:ORACLE数据库服务器及数据、BRIOINTELLIGENCESERVER、BRIOCLIENTDESIGNER客户端:硬件:普通PC、网卡、INTERNET网络链接软件:BRIOCLIENTEXPLORER、通用浏览器OLAP运行环境与工具服务器端:972.KDD*问题域计算模式与开发工具总体设计流程图2.KDD*问题域98KDD*问题域说明预想:就采购价值链方面内容,展开数据挖掘,重点对国内采购现状,抽取相关关联规则,提供领导决策信息。方法特征:智能系统内在的使用了人工智能方法与软计算方法,知识发现方法寻求新颖的知识类型,因而所发现的知识与数据状况密切相关。在未作实际挖掘前难以确定其明确主题。将提交结果:就目前挖掘情况看,领导决策方面与企业经营决策方面的内容都可能发现较有价值得知识。因而,须在实际研发过程中,逐步筛选、调试、聚焦。KDD*问题域说明预想:就采购价值链方面内容99KDD*计算模式与开发工具计算模式:客户机/服务器模式运行环境与开发工具客户端:windows平台,DELPH,ODBC服务器端:商务部现有环境和ORACLE数据库系统
KDD*计算模式与开发工具计算模式:客户机/服务器模式100KDD*总体设计流程图KDD*总体设计流程图101数据清理:主要完成数据源的选取、数据清洗、去噪声以及填补空缺数据等等,也就是要为挖掘准为数据,确切的说就是为数据离散做准备。主题管理:主要是针对挖掘的目标不同而设立不同的主题,这部分主要实现主题的定义、修改、删除以及主题的选择等功能,在主题的定义中要完成与该主题相关的数据,也就是要在这里确定挖掘的方向。数据清理:主要完成数据源的选取、数据清洗、去噪声以及填补空缺102属性值离散化:建立主题以后根据所选择的数据确定语言变量以及所对应的语言变量值,同时对所选定的数据根据语言变量和语言变量值进行离散形成挖掘数据库,为下面的挖掘工作做准备。知识库管理:分为基础知识库管理和衍生知识库管理两个部分,其中基础知识库包括基础知识的录入、修改、删除等基本的维护工作;衍生知识库包括挖掘出的知识的输入,只是的展示等工作,这部分涉及到挖掘及知识的展示。
数据挖掘在商务智能决策与CRM中的应用103数据挖掘:根据数据产生规则,分为两个部分用户子定义挖掘和系统自动挖掘(启发式协调器)。用户子定义挖掘是根据用户感兴趣的内容进行聚焦挖掘,启发式挖掘是根据基础知识库,针对短缺知识进行挖掘。知识评价:对挖掘出的规则进行评价决定是否存入到衍生知识库中,首先是通过中断协调器进行评价然后再经过领域专家进行评价来决定是否存入衍生知识库。数据挖掘:根据数据产生规则,分为两个部分用户子定义挖掘和系统104附:与此相应的,我们还研发了用于智能决策的“分布式数据资源集成系统”,给出了统一数据访问接口、快速全文检索、文本分类、文本数字化、个性化信息推送和信息发布等一揽子整体解决方案。附:与此相应的,我们还研发了用于智能决策的“分布式数据资源集105第三部分数据挖掘在CRM中的应用一、数据挖掘对CRM的影响二、在CRM中数据挖掘常用技术三、解决实际商业问题四、建立解决方案的关键第三部分数据挖掘在CRM中的应用一、数据挖掘对CRM的影106一、数据挖掘对CRM的影响21世纪的商业竞争不仅取决于对市场的反应速度,还取决于对本行业新知识的获取、积累和有效利用的能力。实际上效率不再是商场上取胜的唯一关键。在这个新的启用web的电子商务经济时代,灵活性和敏感性也是在竞争中取胜的重要因素。能够提供客户资源及相关数据分析的客户关系管理系统(CustomerRelationshipManagement,CRM)就成为焦点。作为专门管理企业前台的客户关系管理为企业提供了一个收集、分析和利用各种客户信息的系统,帮助企业充分利用其客户管理资源,也为企业在电子商务时代从容自如地面对客户提供了科学手段和方法。一、数据挖掘对CRM的影响21世纪的商业竞争107客户关系管理(CRM)指的是企业与其客户的交流方式,它实施于企业的市场营销、销售、服务与技术支持等与客户有关的领域。它是一种管理理念,又是一种旨在改善企业与客户之间关系的新型管理机制,也是一种管理软件和技术,它将最佳的商业实践与数据挖掘、数据仓库、一对一营销、销售自动化以及其它信息技术紧密结合在一起,为企业的销售、客户服务和决策支持等领域提供了一个业务自动化的解决方案,使企业有了一个基于电子商务的面对客户的前沿,从而顺利实现由传统企业模式到以电子商务为基础的现代企业模式的转化。客户关系管理(CRM)指的是企业与其客户的交流方108CRM的特征
①一对一营销②高度集成的交流渠道③统一共享的信息资源④商业智能化的数据分析和处理⑤对基于Web的功能的支持CRM体系结构图如下所示:CRM的特征109业务规则和元数据管理工作流管理联系历史交易历史客户和帐务数据仓库外部数据ETL工具(抽取转换装载工具)行销数据集市活动管理分析数据集市报表数据集市活动管理数据挖掘/分析数据源行销数据存储决策支持应用特别查询和报表直接邮寄(广告)联系管理呼叫中心销售力量客服中心Internet电子邮件其他信息渠道CRM体系结构图业务规则和元数据管理工作流管理联系历史交易历史客户和帐务数据110在这个体系结构图中,有很多用于产生和使用信息的客户接触点和发送渠道。经过集成和分析信息,可以完整、正确地得出客户的大概情况----他们的喜好、需求、抱怨、和使他们成为公司产品和服务网的终身会员的特性。最后数据仓库环境下所有的部件都将被部署到适当的位置,并提供多种用于集成和分析的重要功能。在这个体系结构图中,有很多用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度商标权转让款代付服务协议
- 上市公司资金管理存款居间
- 实验动物房装修合同解除
- 无缝物流操作指南文件汇编
- 电子商务平台客户服务提升预案
- 塔式起重机安装专项施工方案内容
- 有机蔬菜种植要求
- 风力发电燃气配送服务协议
- 医疗行业智能化康复中心与护理方案
- 四川生物质颗粒燃料厂家
- 2025届小米全球校园招聘启动(即将笔试)笔试参考题库附带答案详解
- 中小学生校服安全
- 2023年宁夏回族自治区中考地理真题(原卷版)
- 2025年安全员C证考试题库及答案-
- 2025年全球及中国电子雷管芯片模组行业头部企业市场占有率及排名调研报告
- 小肠扭转病人护理查房
- 第二十届中央纪律检查委员会第四次全体会议公报学习解读
- 2025年国家财政部部属单位招聘47人历年高频重点提升(共500题)附带答案详解
- 幼儿园歌唱活动基本流程
- 机场航站楼高空保洁服务方案
- 医用气体安全培训
评论
0/150
提交评论