物流信息系统第5-6讲决策支持与商业智能_第1页
物流信息系统第5-6讲决策支持与商业智能_第2页
物流信息系统第5-6讲决策支持与商业智能_第3页
物流信息系统第5-6讲决策支持与商业智能_第4页
物流信息系统第5-6讲决策支持与商业智能_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、物流信息系统第5-6讲 决策支持与商业智能July 22本讲的主要内容决策与决策支持系统DSS的结构与工作原理多维数据模型数据仓库OLAP、EIS与数据可视化数据挖掘商业智能决策决策决策就是评价和选择,是一个提出问题,分析问题和解决问题的过程管理就是决策西蒙经济学、管理学等学科所研究的课题,实际上都是“人的决策过程和问题求解过程”。要想真正理解组织内的决策过程,就必须深刻了解人的思维过程。 “从某种意义上来说,一切决策都是折中的问题。最终选择的方案,只不过是在当时的情况下可以选择的最佳行动方案而已,不可能尽善尽美地实现各种目标”决策的过程决策模型决策模型用以描述决策者如何做决策的工具决策模型的

2、作用是将原始信息经定性分析和定量处理,转化成直接与决策有关的信息,决策者掌握了这些信息之后,就明确了决策问题的状态和决策目标,以便采取满意的决策辅助决策决策问题的分类(1)三种决策问题根据问题的结构程度,分成结构化问题、半结构化问题和非结构化问题结构化程度:对某一问题在不同环境下的发展规律与结果,能否用明确的语言(数学的或逻辑学的、形式的或非形式的,定量的或推理的)给予清晰的说明或描述结构化问题是指常规的、重复的问题,对于这些问题有着标准的解决方法。非结构化的问题是指模糊的、复杂的问题,没有一刀切的、标准的答案。决策问题的分类(2)结构化决策采用专门的方法处理确定的信息,所以总能得到准确的答案

3、,没有必要靠“感觉”或“直觉。这是一类可编程的决策。也就是说如果你输人确定的信急并用精确的方法处理这些输人信息,就能得到准确的结果。 如,产品成本核算,固定资产折旧,零件订货在一个结构化的问题里,情报、设计和选择都是结构性的,获得最佳答案的过程是清楚的。IT/IS可获得满意的解决决策问题的分类(2)非结构化决策可能存在若干正确的解决方案,但没有一种精确的方法计算出最优方案,也没有一组规则或标准能保证得到最佳的解决方案。 只能凭直觉和经验作出判断,IT/IS本身并不能解决,其作用是提供信息给决策者。如杂志封面选取半结构问题介于上述二者之间决策问题的分类(2)半结构决策介于上述二者之间对于半结构化

4、的问题,其部分阶段是结构性的需要将标准化解决程序与个人判断相结合。 IT/IS与人相结合来解决。各层次决策的比较三类决策问题的解决手段Decision FrequencyHighLowDecision StructureHighLowRoutine, programmable decisionNon-routine decisionDecision AutomationDecision Support SystemsSpecial studies决策支持系统1970s, Scott Morton “管理决策系统”一种“交互式的计算机系统,可以帮助决策者使用其数据及模型来解决非结构化的问题”。

5、1980s,DSS的主要特征数据和模型是 DSS 的主要资源;DSS 是用来支持用户作决策,而不是代替用户作决策DSS 主要用来解决半结构化及非结构化问题DSS 的目的在于提高决策的有效性而不是提高决策的效率。 Turban 管理支持系统MIS与DSS的比较本讲的主要内容决策与决策支持系统DSS的结构与工作原理多维数据模型数据仓库OLAP、EIS与数据可视化数据挖掘商业智能DSS的结构(1)DSS的结构(2)数据库子系统DSS中的数据通常是预先从相关的数据库中抽取出来的,而不是MIS中庞大的数据。DSS的DB中的数据来源组织内部现有的IS,如MIS、TPS来自组织外部,为分析和决策服务DSS并

6、不直接存取修改现有的IS的数据,因为MIS、TPS的数据不满足DSS的要求安全性和速度的考虑数据库子系统的作用为决策模型提供数据DSS的结构(3)模型库子系统模型从层次的角度来说,模型库中的模型主要划分为四种类型:战略的、战术的、操作的和分析的。 有四种模型分析功能在 DSS 中是最常用:因果分析( what -if analysis ) ,目标追寻,风险分析和仿真。 模型库许多模型、模型构建模块 、编程语言DSS的结构(4)模型库管理系统(MBMS)模型库管理系统是为生成模型和管理模型提供一个用户友好环境的计算机软件系统。用户可以通过MBMS灵活地访问、更新、生成和运行模型。MBMS使模型的

7、适用范围拓宽,从而使决策者能方便地使用模型;同时它还要为决策者提供将现实问题抽象成模型的工具。所以可以说模型管理系统是联系决策问题、数据与模型的桥梁。DSS的结构(5)模型库管理系统的主要功能模型构建帮助用户迅速、方便地构建模型。构建的模型可以是全新的,也可以是在某个模型基础上修改加工的模型库维护对模型的登记、分类、删除、拷贝,对模型目录的修改、建立、删除等模型操作模型与模型的连接生成新模型对模型执行情况进行跟踪 模型与数据的连接模型结果分析DSS的结构(6)会话子系统会话子系统是 DSS 人机接口界面提供用户表达和描述决策问题的窗口提供用户干预和影响问题求解过程DSS 的决策过程是人机交互的

8、启发式过程,问题的解决过程往往要分解成若干阶段。一个阶段得到阶段结果及某些启示,然后进入下一阶段的人机会话,如此反复。DSS 由不了解系统内部的人使用,因此会话子系统的好坏标志着 DSS 的实用水平会话形式以菜单、窗口、选择表等图形方式为主,也可以用自然语言的形式三种结构的DSS 三库结构数据库模型库对 话子 系 统数 据 库管理系 统模 型 库管理 系 统用户数据库模型库对 话子 系 统数 据 库管理系 统模 型 库管理 系 统用户方法库知识库方 法 库管理系 统知 识 库管理系 统数据库模型库对话子系统方法库管理系统模型库管理系统用户数据库管理系统方法库四库结构两库结构DSS案例:Carg

9、oProf收益管理系统(1)1254xxx乘客订位代理人乘客订位系统乘客预测数据航班调度服务器可运输货物容量预测货物订舱代理人要求要求接受/拒绝货运定舱系统货物尺寸费率数据可用容量/最低价格CargoProf收益管理系统3DSS案例:CargoProf收益管理系统(2)模型与模型库管理系统模型1:乘客数量预测模型模型2:乘客行李预测模型-可运输货物容量预测主模型模型3:收益管理决策模型背包问题:有限容量,收益最大化模型库管理系统:确定模型的调用关系数据库子系统乘客数量分布规律 乘客历史数据乘客行李的分布规律乘客行李历史数据利润目标数据会话子系统问题111422仿真:决策支持的利器假如你是银行的

10、经理各类业务分别配置多少人力?这一决策考虑哪些因素?服务水平、成本、可操作性怎么定量地解决?Demo何谓仿真(1)一个计算机化的模型,模仿(再现)真实系统的运行过程仿真是静态的还是动态的?仿真时钟仿真能得到什么?用什么来刻画运行过程?聚焦于关心的管理问题:服务水平、成本队长、等待时间、员工的数量、忙闲系统的状态变量运行过程 = 状态变量随时间的变化过程 何谓仿真(2)怎么模仿?模仿的其实是系统中实体的行为(动作)顾客的到来、离去;员工的服务行为对系统的状态有什么影响?行为改变状态理解仿真时间在推进,实体在行动,状态在改变行为、状态、时间是仿真的三要素仿真是如何支持决策的模仿了系统的运行过程之后

11、?评估了解系统的运行过程,评估系统在目前状态下的性能What-if 分析得到不同配置 (if) 下,系统的性能(What)通过比较,得到优选方案实验的思想!为什么要仿真直接在实际系统之上做实验,成本太高、太过危险,或会造成太大干扰社会经济系统,经济政策、股票市场工程,火箭、危险品系统相当复杂,数学模型无法提供分析或数值解如果模型足够简单,采用数学工具求解理解、分析或预测一些复杂系统的行为股票泡沫、崩跌DSS案例:公交线路车辆调度(1)问题描述一条公交线路总共配置多少辆车?不同的时间段,发车间隔多长时间?管理目标顾客满意度顾客在站台等待时间不能太长,如多数不超过5分钟车内不能太拥挤,如人数不能超

12、过额定人数的120%成本固定成本(买车,基本工资),可变成本(燃料,奖金)DSS案例:公交线路车辆调度(2)模型库与模型管理子系统问题抽象:服务台移动的单级多服务台排队系统特殊性,服务台移动解决这类问题可以采用的模型的类型数学模型:运筹学中的排队模型仿真模型(离散事件系统仿真),枚举,仿真设计模型库(仿真)主模型:公汽运行仿真模型子模型1:乘客到来(到车站)模拟模型子模型2:乘客上车模拟模型子模型3:乘客下车模拟模型模型管理子系统选择那种类型的模型能有效解决问题?数学、仿真枚举、仿真设计模型调用关系仿真:决策支持的利器系统仿真在计算机上模拟真实系统的运行过程,从而对系统的性能进行评价(已知结构

13、、评价性能)或对系统的结构进行设计(逆向问题、设计问题)仿真方法设计系统结构的两种方案枚举法,假定配置方案,运行模型,进行比较。 缺点是组合数太多,逐一仿真的工作量极大 仿真设计,一次运行模型,得到配置结果。配置在运行过程中不断变化,得到满意解模型停止运行。可能需要结合遗传算法等优化算法DSS案例:公交线路车辆调度(3)数据抽取子系统与数据库子系统需要那些数据?车辆运行时间的概率分布、顾客上车的概率分布、顾客下车的概率分布、顾客在站台等待时间的概率分布现有那些数据?车辆运行数据:车载系统,车辆管理MIS可提供车辆在各个区间运行时间的数据顾客上车的数据:车上的刷卡投币系统可以提供不同时间段乘客的

14、数据顾客下车的数据:车辆上有设备,自动获取顾客下车数据从内外部OLTP中抽取DSS需要的数据从现有的系统中,统计分析得到前三项概率分布这些数据足够么?不够的话怎么解决?DSS案例:公交线路车辆调度(4)数据抽取子系统与数据库子系统(续)这些数据足够么?不够的话怎么解决?难以获得顾客在站台等待时间的概率分布解决方案外部数据,调查调整管理目标如何决策(工作原理)数据库子系统得到模型的初始参数运行模型库子系统的模型,得到结果通过会话子系统与人交流,不断调整,得到方案调整目标、调整参数(数据库子系统)、调整模型(运行后随着数据更新,不断修正方案;考虑季节性因素,推出特殊方案DSS案例:公交线路车辆调度

15、(5)问题的拓展公交线路规划。开辟哪些线路?每条线路发车计划是什么?铁路、地铁、航空等类似的问题超市、银行等服务台设置、医院病床设置,标准排队系统问题,比公交简单思考这种模型导向的DSS的核心是什么?能否得到DSS需要的数据DSS与一般的管理科学模型的区别之一抽象现实问题,选择合适的模型存在什么弊端专用系统、相对独立模型合理性、可信度?某些现实问题建模困难案例:现实世界中人是如何做决策的出租司机给我上的MBA课要用科学的方法,统计学来做生意 从现实数据中,总结分析得到客户行为的规律总结出来的规律用于支持决策两类DSSModel-driven DSS ,模型导向决策支持系统Primarily s

16、tand-alone Uses model to perform “what-if” and other kinds of analysisData-driven DSS,数据导向决策支持系统Allows users to extract and analyze useful information from large databases数据仓库、OLAP、数据挖掘数据导向决策支持系统的结构GDSS群决策支持系统 人机交互的计算机系统 解决半结构化问题支持群体(团队/多人)一起工作硬件:通信软件:由个人意见形成群体决策结果: Electronic questionnaires, brains

17、torming tools, voting tools, etc本讲的主要内容决策与决策支持系统DSS的结构与工作原理多维数据模型数据仓库OLAP、EIS与数据可视化数据挖掘商业智能问题选择、连接、汇总、计算销售单(销售单号,销售时间,门店号)销售明细(销售单号,产品编号,销售量)产品(产品编号,产品名称,产品类别,单价)门店(门店号,门店名,地址)背景OLTP进出仓登录与记账增加一条新的生产线,更改产品单价更改顾客信用销售订单录入产品数据库存数据销售数据数据库:面向业务的数据组织事务处理OLAP产品数据顾客数据供应商数据数据仓库:面向主题的数据组织每种物料保持多少安全库存最佳?上个月有多少产

18、品的销售额超过10000元?决策支持多维模型空调4季度华中地区销售收入100万元时间维产品维门店维100销售收入A型1.5匹变频空调4季度街道口店销售收入10万元多维模型的概念(1)多维数据模型用多维结构来组织数据和表示数据之间的关系立方里面是销售数据,即数据测量值,称之为度量坐标轴是维,维提供了测量值的上下文关系。其目的就是为了分析(决策)多维图形表示是逻辑模型,物理上有多种实现方法此维非彼维RDB中的维:一行数据表示一个实体(纵轴),一列数据表示实体的一个属性(横轴)多维DB中的维表示看问题(数据)的角度多维模型的一个切面(二维),其含义也与RDB不同多维模型的概念(2)维度观察数据的特定

19、角度:时间、地理、产品维的层次 某个特定角度(维)在细节程度上有不同的描述时间维:日期、月份、季度、年是数据单位中保存数据的细化或综合程度的级别。维的成员维的一个取值称为该维的一个成员。不同维层次上的取值的组合:某年某月某日度量不同维在某一取值下的交叉点,有数据有单位事实维和度量的组合,可用多维数组来表示。 星型模型(1)Employee_DimEmployeeKeyEmployeeID.EmployeeKeyTime_DimTimeKey年月季度日期TimeKeyProduct_DimProductKeyProductID产品描述产品目录目录描述ProductKeyCustomer_DimC

20、ustomerKeyCustomerID.CustomerKeyShipper_DimShipperKeyShipperID.ShipperKeySales_FactTimeKeyEmployeeKeyProductKeyCustomerKeyShipperKey单位(元)金额.TimeKeyCustomerKeyShipperKeyProductKeyEmployeeKeyMultipart KeyMeasuresDimensional Keys事实表维表星型模型(2)GeographicProductTimeUnits$DimensionTablesGeographicProductTim

21、eFact TableMeasuresFactsDimension星型模型实例星型模型(1) Facts Month_nrStore_nrSKU_nrSales_revenue. Product SKU_nrSKU_descCategoryLine Time Month_nrMonth_descQuarterYear Geography Store_nr Store_nameCityStateRegion本讲的主要内容决策与决策支持系统DSS的结构与工作原理多维数据模型数据仓库OLAP、EIS与数据可视化数据挖掘商业智能数据仓库的定义 一个面向主题的、集成的、非易失的且随时间变化的数据集合,用

22、来支持管理人员做出决策。 数据仓库之父WHInmon是什么?数据的集合与数据库有什么区别?有什么特点?目的是什么?数据仓库的特征(1) 面向主题(Subject Oriented)的数据集合数据仓库中的数据如何组织?面向主题的,指的是它将依据一定的主题, 汇总各个OLTP系统的数据。 主题是什么关心的管理问题,关心的领域顾客、供应商、产品、销售 主题要从多个角度去描述主题的确定是管理上的问题,而不仅仅是技术上的问题主题的确定最好要知道客户需求,否则可能是白忙活怎么组织多维数据模型SalesFinancialInventoryOperational SystemsData WarehouseCu

23、stomerGeographyProductOrganized by processesor tasksOrganized by subjectA subject oriented approach to corporate memorySource: 数据仓库的特征(2)集成(Integrated)的数据集合 数据仓库中的数据从哪里来?多个异种数据源构成的,可能包括关系数据库、面向对象数据库、文本数据库、Web数据库、一般文件等有什么问题?格式不统一、数据不一致要求对各个系统数据表示进行转换, 用统一编码表示,比如, A系统用001表示退货, 而B系统用999表示退货,在数据仓库中必须统一成

24、一个编码。数据的抽取/转换/加载(ETL)数据仓库的特征(3)非易失的(Nonvolatile)的数据集合指的是数据被装载入以后,系统用户只读数据,不得修改数据。时变(Time Variant)的数据集合数据仓库中包含时间元素,它所提供的信息总是与时间相关联的。数掘仓库中存储的是一个时间段的数据,而不仅仅是某一个时刻的数据。数据仓库完整地记录了各个历史时期的数据,而OLTP系统不会保留全部的历史记录。数据比较DB 操作型数据(OLTP) DW分析型数据( OLAP)原始数据 导出数据细节数据 细节+综合性或提炼性数据当前数据 历史数据可更新 不可更新,但周期性刷新一次处理的数据量小 一次处理的

25、数据量大面向应用,事务驱动 面向分析,分析驱动面向操作人员,支持日常操作 面向决策人员, 支持管理需要 理解数据仓库数据仓库和数据库的区别?数据库和数据仓库当然都是装数据的地方,关键的区别是装的什么样的数据。数据库装的原始数据,没经过任何加工;而数据仓库是为了满足分析需要,对源数据进行了转换过程,具体是怎样一个处理过程,可以从Bill Inmon的仓库定义四个特性进行理解。数据仓库在物理上也是数据库,只不过是多维的为什么要建立数据仓库DB vs. DWH数据仓库的组成部分与流程 1 源数据 2 数据准备区(Staging Area) 3 数据仓库(存储) 4 决策支持Application D

26、atabasesPackaged application/ERP DataDesktop DataExternal DataWeb-based DataAdapted from SunExpert Magazine, October 1998._INCOME ANNUAL REPORT_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 报表/查询EISOLAP数据挖掘抽取转换清洗数据仓库数据集市元数据加 载数据准备部分(1) 源数据部分 内部数据、外部数据多来源,数据库(面向业务、ER)数据准备部分 把不同数据源得到的数据修改、转换成适合数据分析的格式存储面向主题、多维、一

27、致抽取、转换和装载,简称为ETL流程 数据抽取(data extraction)数据抽取是数据仓库按分析主题从业务数据库抽取相关数据的过程。 抽取全部数据么?数据准备部分(2) 数据清洗(data cleaning)将错误的、不一致的数据予以更正或删除。得到准确的数据!数据转换(data transformation)将不同格式的数据转换成统一的数据格式不同的数据库产品,数据类型可能不同。eg.时间格式。得到统一格式的数据。数据加载(data load)指把清洗后的数据装入数据仓库的过程。数据加载策略包括数据加载周期和数据追加策略。数据存储部分 (1)3部分:数据仓库、数据集市、元数据数据仓库

28、的数据组织结构 粒度:分析过程由粗到细OLAP钻取、时间数据存储部分 (2)数据集市( data mart )面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集称为数据集市数据仓库面向整个企业,而数据集市则面向企业中的某个部门目的是减少数据处理量,提高处理效率两种数据集市:独立的、非独立的非独立的 (复制的)数据集市数据仓库某部分主题的复制品。目的:提高效率、易访问数据源于数据仓库,要首先建立数据仓库。数据存储部分 (3)独立的数据集市出发点:成本、时间直接从操作型环境获取数据每个数据集市都负责某个特定领域的信息集合难点:各集市的数据一致性问题,需要集成元数据的规则Q

29、:多个独立的数据集市能代替数据仓库么?Ralph Kimball:数据仓库只不过是一些数据集市的集合而已 Inmon:你可以在大海中捕到很多的小鱼并堆积起来,但它们仍然不是鲸 数据存储部分 (4)数据集市具有如下一些优点 其成本和企业数据仓库相比较低(通常在10万-100万美元左右)。实施的时间短,通常少于90天。数据集市可以在局部进行控制而不需要在企业范围集中控制,用户就有了更多的权力。数据集市比数据仓库包含更少的信息,因此比企业级数据仓库更容易被浏览。数据集市允许业务单元建立自己的决策支持系统而不需要依靠公司的信息系统部门。独立的数据集市可以用于验证开发全面的企业数据仓库所需资源,这能够快

30、速实现收益,投资回报更快。数据存储部分 (5)元数据元数据部分是数据仓库数据本身信息的数据。 从哪里来?操作型元数据。建立数据仓库中的数据与操作型数据源的原始数据间的联系。怎么来?抽取和转换元数据。包含了源数据系统的数据抽取信息,即抽取频率、抽取方法和数据抽取的商业规则。 怎么用?最终用户元数据。是数据仓库的导航图,它使最终用户可以从数据仓库中找到自己需要的信息。 本讲的主要内容决策与决策支持系统DSS的结构与工作原理多维数据模型数据仓库OLAP、EIS与数据可视化数据挖掘商业智能OLAPOLAP:联机分析处理由关系数据库之父E.F.Codd于1993年提出的。OLAP理事会的定义:OLAP是

31、一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。这些信息是从原始数据直接转换过来的,它们以用户容易理解的方式反映企业的真实状况。理解OL:OLAP vs. OLTP,复杂查询、快理解分析:OLA P的一个主要特点是多维数据分析OLAP的数据源从哪里来?是什么样的数据?OLAP的12条准则Codd提出OLAP的12条准则来描述OLAP系统准则1 OLAP模型必须提供多维概念视图准则2 透明性准则准则3 存取能力推测准则4 稳定的报表能力准则5 客户/服务器体系结构准则6 维的等同性准则准则7 动态的稀疏矩阵处理准则准则8 多用户支持能力准则准则9 非

32、受限的跨维操作准则10 直观的数据操纵准则11 灵活的报表生成准则12 不受限的维与聚集层次Q4时间Q1Q2Q3ProductGrapesApplesMelonsCherriesPearsLocationAtlantaDenverDetroitSales Introduction to CubesProductGrapesApplesMelonsCherriesPears产品空调冰箱洗衣机彩电小家电地区华北华中华南SalesOLAP的基本多维分析操作(1) 切片(slice)多维数据是由多个维度组成的,如果在某一维度上选定一个值,则多维数据就从n维下降至n -1维,称多维数据的子集(维l,维2

33、,维i-1,维i+1,维n,度量变量)是多维数据在维i上切片。 切片操作在给定的数据多维模型的一个维度上进行选择,导致一个子方(Cube)。比如:可以对时间维度按时间=2002年1月进行切片,得到一个含产品和门店两个纬度的片状图。OLAP的基本多维分析操作(2) 切块(dice)选定多维数组(维1,维2,维n,度量变量)中的若干维度(图形显示最多只能做到3维)的取值范围,从而形成多维数据的子集(维1,维2,a1维i b1,a2 维j b2,a3维k Y 的规则,其中 X 和 Y 分别代表属性集合(称为项集),并且 X和Y的交集为空。规则的支持度表示 X 和 Y 同时出现的概率,用来描述该规则是

34、否具有代表性,即:支持度=P(X, Y)。置信度表示在出现 X 的前提下出现 Y 的概率,描述规则成立的可信度。即:置信度= P(Y|X) = P(X, Y)/P(X)age(X,“20-29”) income(X, “20K-30K”) = buys(X,”MP3”)support=2%,confidence=60%数据挖掘分类(4)关联分析(association analysis)t1: (,面包,牛奶,)t2: (,面包,.)t3: (,面包,牛奶,)t4: ()“面包=牛奶”的支持度=P(面包,牛奶)= 1 / 2 置信度= P(面包,牛奶)/ P(面包)=2/3。 数据挖掘分类(5

35、)序列模式分析(sequence)序列模式分析和关联分析相似,但侧重点在于分析数据间的前后(因果)序列关系。它能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列ABC出现的频度较高”之类的知识顾客购房之后,2周内有65%的可能性购买一台新冰箱,一个月内有45%的可能购买一台新烤箱。在所有购买了激光打印机的人中,半年后80%的人再购买新硒鼓,20%的人用旧硒鼓装碳粉;在所有购买了彩色电视机的人中,有60%的人再购买DCD产品数据挖掘分类(6)序列模式分析(sequence)数据挖掘分类(7)分类分析两阶段:首先给定已有的数据和类别,通过分类算法得到描述和区

36、分数据类或概念的分类模型。然后,将此分类模型应用到要进行测试的数据上,把未来或者未知的数据划分到若干已经类别之中。 银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。方法:分类规则(IF-THEN)、决策树(decision trees)、数学公式(mathematical formula)和神经网络等。 应用:Call Center数据挖掘分类(8)聚类分析(clustering)按照“物以类聚”的原则把一个数据集合按照某个标准分成几个簇的过程。其结果使得在每个簇内部的数据按照该标准具有很高的相似性,而簇与簇之间的数据的相似性很低。

37、 应用:顾客定位,然后根据顾客群特点推出相应的产品。如,找出可能会接受某银行卡的群体,数据挖掘分类(9)分类和聚类的区别分类是指将数据归于一系列已知类别之中的某个类的分类过程; 分类是有指导的类别划分,在若干先验标准的指导下进行,效果好坏取决于标准选取的好坏。 聚类是无监督学习,根据客体属性对一系列未分类的客体进行类别的识别, 把一组个体按照相似性归成若干类。数据挖掘分类(10)异常检测(anomaly detection,偏差分析)从数据分析中发现异常情况信用卡欺诈检测演化分析对随时间变化的数据对象的变化规律和趋势进行建模描述。 利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的

38、种类,特征等 典型方法就是回归分析。数据挖掘解决的应用数据挖掘技术从一开始就是面向应用的尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域应用广泛。数据挖掘所能解决的典型商业问题包括数据库营销(Database Marketing)客户群体划分(Customer Segmentation & Classification)背景分析(Pro)交叉销售(Cross-selling)等市场分析行为以及客户流失性分析(Churn Analysis)客户信用记分(Credit Scoring)欺诈发现(Fraud Detection)典型案例哪些商品放在一起比较好卖?库存预测 预测在未来一周

39、内一本书是否将脱销股票分析 通过相关分析,可以找出一支股票的走势与另一只股票走势的潜在规律 “如果微软的股票下跌4%,那么IBM的股票将在两周内下跌5%”体育竞技:NBA教练如何布阵以提升获胜机会? 出了一个新成品,哪些老客户最可能购买?电子商务网站公共页面该放哪些内容最可能产生购买行为? 登录网站的当前用户现在最可能购买什么东西?典型案例(1):哪些商品放在一起比较好卖?这是沃尔玛的经典案例:一般看来,啤酒和尿布是顾客群完全不同的商品。但是沃尔玛一年内数据挖掘的结果显示在居民区中尿布卖得好的店面啤酒也卖得很好原因其实很简单,一般太太让先生下楼买尿布的时候,先生们一般都会犒劳自己两听啤酒。因此

40、啤酒和尿布一起购买的机会是最多的。这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。另外,大家都知道在沃尔玛牙膏的旁边通常配备牙刷,在货价上这样放置,牙膏和牙刷才能都卖的很好。关联分析典型案例(2):库存预测过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大,很多零售商(从主要财务主管到库存管理员)都开始致力于找到一些更准确的方法来预测其连锁商店应保有的库存。预测分析是一种解决方案。它能够准确预测哪些商店位置应该保持哪些产品使用 Microsoft(R) SQL Server(TM) 2005 中的 Analysis Se

41、rvices 以及 SQL Server 数据仓库,采用数据挖掘技术可以为产品存储决策提供准确及时的信息。SQL Server 2005 Analysis Services 获得的数据挖掘模型可以预测在未来一周内一本书是否将脱销,准确性为 98.52%。平均来说,预测该书是否将在未来两周内脱销的准确性为 86.45%。详情见 典型案例(3):股票预设预测一支股票的走势几乎是不可能,但是通过相关分析,可以找出一支股票的走势与另一只股票走势的潜在规律,比如数据挖掘曾经得到过这个结论:“如果微软的股票下跌4%,那么IBM的股票将在两周内下跌5%”。 典型案例(4):NBA教练如何布阵以提升获胜机会?

42、大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。 教练们可以完全没有统计学的培训,但他们可以利用数据挖掘制定策略。例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫和伯兰.绍在前两场中被评为-17分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔.阿姆斯创组合时,魔术队得分为正14分。在下一场中,魔术队增加了阿姆斯创的上场时间。此着果然见效:阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获

43、胜。魔术队在第四场让阿姆斯创进入先发阵容,再一次打败了热队。在第五场比赛中,这个靠数据挖掘支持的阵容没能拖住热队,但Advanced Scout毕竟帮助了魔术队赢得了打满5场,直到最后才决出胜负的机会。 典型案例(5):出了一个新产品,哪些老客户最可能购买?加拿大蒙特利尔银行采用 IBM DB2 Intelligent Miner Scoring,基于银行账户余额、客户已拥有的银行产品以及所处地点和信贷风险等标准来评价记录档案。这些评价可用于确定客户购买某一具体产品的可能性。我们对客户的财务行为习惯及其对银行收益率的影响有了更深入的了解。现在,当进行更具针对性的营销活动时,银行能够区别对待不同的客户群,以提升产品和服务质量,同时还能制订适当的价格和设计各种奖励方案,甚至确定利息费用。“蒙特利尔银行的数据挖掘工具为管理人员提供了大量信息,从而帮助他们对于从营销到产品设计的任何事情进行决策。典型案例(7):登录网站的当前用户现在最可能购买什么东西空调制造厂商开利(Carrier)公司-声称,仅仅通过利用邮政编码数据,其升级版 B2C 网站的每位访问者所产生的平均收益在一个月内从 1.47 美元提高到了 37.42 美元。当客户登录网站时,系统将指示他们提供邮政编码。这些邮政编码信息将被发送到数据挖掘WebMiner 服务器。然后,WebMiner

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论