版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
决策支持系统与数据挖掘第1页,共133页,2023年,2月20日,星期一第3次上机:设计表单(FORM)1第3次上机内容和要求:内容:表单设计要求:1、预习VF教材(绿皮书)的第7章表单设计2、用表单向导为三张数据表设计表单,如P157页图7-153、用表单向导设计多表表单,并存放在表单设计器上修改(利用属性表、控件等工具),要求做两个多表表单4、做一个“欢迎使用教学管理信息系统”的表单。如P170页图7-27。第2页,共133页,2023年,2月20日,星期一第8章决策支持系统与商务智能(1)
决策支持系统与数据挖掘第3页,共133页,2023年,2月20日,星期一第8章(1)决策支持和数据仓库◆内容提要:
▼决策支持系统(DSS)
▼
联机分析处理(OLAP)
▼数据仓库和数据挖掘⊙数据仓库在商业中的应用★主要术语和概念★主要参考资料第4页,共133页,2023年,2月20日,星期一数据仓库Datawarehouse已讲内容与新内容的关系营销系统生产系统财务系统人力管理决策支持系统DSS数据仓库Datawarehouse人工智能AI商务智能BI计算机数据库网络7种策略TCSOAKWSMISDSSESS4种战略MRPMRPIIERPSCMCRMEC数据挖掘Datamining第5页,共133页,2023年,2月20日,星期一本章内容提要:相互关系数据仓库OLAP决策支持系统数据挖掘技术人工智能商务智能第6页,共133页,2023年,2月20日,星期一决策支持系统、商务智能与数据仓库◆定义:决策支持系统(decisionsupportsystemDSS)为交互式计算机系统,运用数据、模型分析、专家知识及其他资源通过友善的人机接口互动,协助个人或团体决策者提升半结构化决策的绩效和满足。在IBM中,又称为商务智能(businessintelligenceBI)。◆定义:数据仓库(datawarehouseDW)是一种数据库概念的延伸与推广,以适应决策支持需要的一种数据的集合。第7页,共133页,2023年,2月20日,星期一数据挖掘与联机分析处理◆定义:数据挖掘(dataminingDM)是一种探索性的分析方法。(根据已经有的数据,挖掘其中的规律)◆定义:联机分析处理(on-lineanalyticalprocessesOLAP):是一种验证性分析方法。(先定方法,后由数据验证)第8页,共133页,2023年,2月20日,星期一决策支持系统DSS决策支持系统(deciseionsupportsystem)第9页,共133页,2023年,2月20日,星期一DSS和MIS的不同1、MIS主要为中层管理提供信息服务2、主要是通过查询或报表进行联机事务处理(OLTP)3、问题:结构化问题4、使用:5、主要技术:关系数据库的关系运算1、DSS支持高层的决策2、主要是通过对话系统进行联机分析处理(OLAP)3、问题:半结构化问题4、使用
历史性数据库5、主要技术:数据挖掘:依赖性分析、聚类分析、神经网络、遗传算法、粗糙集理论
数据库数据仓库第10页,共133页,2023年,2月20日,星期一决策支持系统(DSS)的半结构化问题●决策支持系统(DSS)定义:为交互式计算机系统,运用数据、模型分析、专家知识及其他资源通过友善的人机接口互动,协助个人或团体决策者提升半结构化决策的绩效和满意决策。
◆给我销售量最好的产品名单◆告诉我出现问题的地区◆告诉我为什么(向下钻取)◆让我看看其它数据(横向钻取)◆显示最大的利润◆当一个地区的销售低于目标时,提醒我半结构化问题:股票管理、贸易市场开发经费预算资本获利分析等
问题第11页,共133页,2023年,2月20日,星期一决策支持系统(DSS)的基本模式●DSS的基本模式:真实系统决策环境操作响应管理者协作人员与人的行为有关的信息处理数据MIS信息外部数据问题对话系统数据库系统模型库方法库知识库DSS第12页,共133页,2023年,2月20日,星期一决策支持系统(DSS)的基本构件
基本构件人—机对话系统:核心是人—机界面提问方式:“如果….则…..”能够给用户必要的提示和帮助数据库:MIS的DB支持日常事务处理DSS的数据仓库可以用联机分析处理(OLAP)支持决策。方法库:包括通用算法和标准函数:排序算法、分类算法、最小生成树算法最短路径算法、线形规划、整数规划、动态规划、各种统计算法、各种组合算法等知识库:包括知识的获取,知识的解释、知识的表示、知识推理、知识库的管理和维护。DSS的知识库使用的技术和专家系统与人工智能技术一致。模型库:可以提供推理比较选择、分析整个问题的模型,DSS是以模型驱动的,可根据具体问题生成决策模型,输出用于制定或估计决策.第13页,共133页,2023年,2月20日,星期一数据库、数据仓库、知识库、方法库数据库:指长期储存在计算机内的、有组织的、可共享的数据集合
数据仓库:不同于数据库。数据库系统是一种通用的平台,用来管理企业的数据;而数据仓库是一种概念,在此概念下进行的构造过程,我们叫它数据仓库处理。所以,数据仓库不是花钱可以购买的现成产品,它是一个建立的过程。知识库(KnowledgeBase)是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种知识表示方式在计算机存储器中、组织、管理和使用的互相联系的知识片存储集合。方法库基本数学方法统计方法优化方法预测方法计划方法金融方法计划评审时间序列矩阵运算线性规划判别分析因子分析关联分析初等函数算法插值算法拟合算法平滑算法外推算法回归分析第14页,共133页,2023年,2月20日,星期一数据库与数据仓库第15页,共133页,2023年,2月20日,星期一数据仓库建立过程ETL
(ExtractTransformationLoad)数据加载:包括数据的抽取、清洗(DataCleaning)、转换和加载第16页,共133页,2023年,2月20日,星期一方法库第17页,共133页,2023年,2月20日,星期一方法库方法库中的方法模块方法库基本数学方法统计方法优化方法预测方法计划方法金融方法计划评审矩阵计算时间序列线性规划判别分析因子分析二元相关分析方差分析回归分析外推法平滑法拟合法插值法初等函数法第18页,共133页,2023年,2月20日,星期一方法库的输出报表图形第19页,共133页,2023年,2月20日,星期一知识库第20页,共133页,2023年,2月20日,星期一第21页,共133页,2023年,2月20日,星期一工程造价与管理知识库第22页,共133页,2023年,2月20日,星期一项目管理知识库
第23页,共133页,2023年,2月20日,星期一DSSImageLibraryBrowser第24页,共133页,2023年,2月20日,星期一影响DSS的因素(四个)&
案例第25页,共133页,2023年,2月20日,星期一DSS的主要关键要素和决策流程DSS的主要关键要素(4个)即影响DSS结果的因素:1、环境(如环境的压力、主管的支持、权力和政治结构等)2、任务:决策的工作项目3、使用者:使用者的认知方式、动机、期望、使用方式4、DSS系统:系统设计的质量、推动和导人策略等问题认知情报搜集方案设计选择方案推动结果决策的流程:西蒙的决策过程第26页,共133页,2023年,2月20日,星期一DSSLiftoffInFlight第27页,共133页,2023年,2月20日,星期一CLIME-DSS-2.第28页,共133页,2023年,2月20日,星期一Leicester(英国累斯特),DSS(STScI/AURUA)
第29页,共133页,2023年,2月20日,星期一
商务DSS系统
第30页,共133页,2023年,2月20日,星期一决策支持系统(DSS)的发展趋势决策支持系统发展趋势第31页,共133页,2023年,2月20日,星期一决策支持系统(DSS)的发展趋势1、智能决策支持系统(IDSS):人—机接口(对话机)自然语言处理系统问题处理系统模型库管理系统数据库管理系统方法库管理系统知识库管理系统推理机模型库数据库方法库知识库用户第32页,共133页,2023年,2月20日,星期一企业智能决策支持系统架构图第33页,共133页,2023年,2月20日,星期一IDSS智能决策支持系统第34页,共133页,2023年,2月20日,星期一决策支持系统(DSS)的发展趋势2、群体决策支持系统(GDSS)决策室大屏幕大屏幕大屏幕远程电信会议远程决策决策局网第35页,共133页,2023年,2月20日,星期一群体决策支持GDSS的类型及相互关系群组决策支持系统(GDSS)就是由DSS演化来的。包括:计算机辅助协同工作(CSCW)群组决策支持系统(GDSS)电子会议系统(EMS)它们之间的关系如图:
GDSS专家Delphi法线上投票多目标决策
EMS电子会议线上讨论
CSCW共同编辑协同设计第36页,共133页,2023年,2月20日,星期一GDSS群体决策支持系统第37页,共133页,2023年,2月20日,星期一theGDSStools,wordprocessing第38页,共133页,2023年,2月20日,星期一联机分析处理OLAP联机分析处理(on-lineanalyticalprocesses)第39页,共133页,2023年,2月20日,星期一●OLAP技术是与数据仓库技术相伴发展起来的,1993年,“关系数据库”之父E。F。Codd首次提出了OLAP的概念,专门支持复杂的分析操作。●OLAP的主要特征是能够提供数据的多维概念视图。多维信息被抽象为立方体,它包括维和度量值,维是我们说的观察角度,度量值是我们关心的指标值。可以使用户从多角度、多侧面、多层次直观地考察数据仓库中数据,深入理解数据中的信息和内含。第40页,共133页,2023年,2月20日,星期一基本概念联锁商店的销售金额(主题)的维1、按时间角度分析、统计其销售金额(季度)2、按不同商品角度分析统计的销售金额。(产品)3、按联锁商店不同地域分析统计的销售金额(地域)观察角度称为“维”,观察深度称为“层”。一个维中可以允许有若干层。NO1NO2NO3ALL一二三四all(季)
TVPCVCDALL产品商店第41页,共133页,2023年,2月20日,星期一什么是联机分析处理(OLAP)●什么是联机分析处理(OLAP)
OLAP是一种验证性分析软件,它具有归纳的作用。它将数据仓库中的数据作为分析对象,通过多种复杂操作,可以对高层管理人员提供有力的决策支持。它可以满足分析人员的要求,进行快速灵活地大数据量复杂的操作处理。并且以一种直观、易懂的形式将结果展示给决策人员。第42页,共133页,2023年,2月20日,星期一OLAP与OLTP的比较比较项目OLAP(联机分析处理)OLTP(联机事务处理)应用基础数据仓库DBMS用户决策者(高层管理)一般操作者(低、中)目的为决策提供支持为日常工作服务数据特征导出数据原始数据数据细节综合数据细节程度低细节程度高时间特征历史数据,一个时段当前数据数据量需求一次处理需大量数据一次处理需少量数据第43页,共133页,2023年,2月20日,星期一CreateOLAP
第44页,共133页,2023年,2月20日,星期一NETOLAPcontrol界面第45页,共133页,2023年,2月20日,星期一简单联机分析轴侧图结果第46页,共133页,2023年,2月20日,星期一OLAP的分析结果第47页,共133页,2023年,2月20日,星期一AnalyzerOLAP
第48页,共133页,2023年,2月20日,星期一OLAPExample1第49页,共133页,2023年,2月20日,星期一OLAPMarket分析第50页,共133页,2023年,2月20日,星期一什么是联机分析处理(OLAP)2、OLAP试测环境构建的4个过程:OLAP主题OLAP概念模型----星形、雪花、星座模型OLAP逻辑模型-----多维数据模型OLAP物理模型------ROLAP/MOLAP第51页,共133页,2023年,2月20日,星期一OLAP联机分析概念模型OLAP概念模型:
星型、雪花型、星座型第52页,共133页,2023年,2月20日,星期一基本概念联锁商店的销售金额(主题)的维度1、按时间角度分析、统计其销售金额(季度)2、按不同商品角度分析统计的销售金额。(产品)3、按联锁商店不同地域分析统计的销售金额(地域)观察深度称为“层”。一个维中可以允许有若干层。NO1NO2NO3ALL一二三四all(季)
TVPCVCDALL产品商店第53页,共133页,2023年,2月20日,星期一OLAPvs第54页,共133页,2023年,2月20日,星期一联机分析处理的基本数据模型●OLAP的基本概念模型:1、星型模型(starschema)星型模型的主体是事实表(如:销售表)其主要事实称为量或度量(如:销售金额),另一种表称为维表,用以建立多维结构中的维值,一般有一个事实表和n个维表。在维表中给出取值条件,在事实表中获得值的结果。商店标识符产品标识符日期标识符单价金额日期标识符日月季年产品标识符产品名类名大类名现存货物日期表(维表)销售表(事实表)商店表(维表)商店标识符商店名市名省名国名洲名产品表(维表)实例第55页,共133页,2023年,2月20日,星期一联机分析处理的基本数据模型2、雪花模式很多情况维呈现层次状,即具有一定深度。就成为雪花模式。商店标识符商店名市标识符产品标识符类标识符产品名现存货物商店标识符产品标识符日期标识符单价牺牲金额日期标识符月标识符月年标识符季标识符年标识符季月标识符季标识符月类标识符大类标识符类名国标识符国名洲标识符省标识符省名国标识符市标识符市名省标识符大类标识符大类名洲标识符洲名销售表(事实表)产品表类表洲表大类表商店表市表省表国表年表日期表月表季表第56页,共133页,2023年,2月20日,星期一联机分析处理的基本数据模型3、星座模式通过共享维,将多个星型模式连接在一起,构成星座模式。产品标识符产品名类名大类名现存货物日期标识符日月季年商店标识符产品标识符日期标识符单价牺牲金额商店标识符商店名市名省名国名洲名产品标识符日期标识符供应商标识单价数量金额供应商标识符供应商名市名省名国名洲名事实表第57页,共133页,2023年,2月20日,星期一案例银行交易分析第58页,共133页,2023年,2月20日,星期一机构表联机分析处理的实例:银行交易分析●OLAP的操作实例(如:银行交易分析)1、雪花模型:帐号ID统计日期机构代号发生金额发生笔数帐号ID帐户类名称科目名称帐户名称日期ID月ID日月ID年ID月年ID年省行代号ID省行名时间表帐户表帐户交易事实表交易分析雪花模型OLAP的逻辑模型是四维数据模型,它的多维数组形式为(时间,帐号,机构,发生金额与笔数)如(2004年1月15日,4321567,工行汉口分理处,360万元,567笔)第59页,共133页,2023年,2月20日,星期一联机分析处理的实例:银行交易分析2、银行交易量分析:年季月发生额2003q1119779862903。302003q1210791201658。282003q1318749783281。052003q2419138629532。602003q2517192112346。632003q2620601215354。17年季月发生笔数2003q1181,7622003q1253,9652003q1385,3682003q2479,3962003q2568,3342003q26124,123发生金额发生笔数第60页,共133页,2023年,2月20日,星期一案例分析结果●发现2月份交易额萎缩,1月和4月进出资金量较大,但交易笔数相对比较小。这表明客户进行大笔资金调度,进一步对帐户做切片操作,最终可以将进行大笔资金调度的客户锁定。第61页,共133页,2023年,2月20日,星期一逻辑模型(多维数据模型)第62页,共133页,2023年,2月20日,星期一联机分析处理的基本概念●基本概念:1、对象(Object)
关注和聚焦的分析客体称为对象。如:联锁商店的销售金额。2、维(dimension)对对象的观察角度称为“维”。如在联锁商店的销售金额可以有三维:时间维:按时间角度分析、统计其销售金额。商品维:按不同商品角度分析统计的销售金额。地域维:按联锁商店不同地域分析统计的销售金额。3、层(layer)
观察深度称为“层”。一个维中可以允许有若干层。如:在联锁商店的
时间维可以有日、旬、月、季、年等层
商品维可以有商品类(如家电类)商品大类(如电气产品大类)等
地域维可以有市、省、国、洲等第63页,共133页,2023年,2月20日,星期一联机分析处理的多维数据模型(逻辑模型)OLAP的多维结构多维结构由多个维组成,当每个维确定一个取值时,即可获得一个多维结构中的变量。这个变量称为数据单元,或单元。(cell)这种表示方式称为多维数组。也称为数据立方体。(如:产品维成员:vcd;日期维成员:2003年3月19日;商店维成员:NO。1)
商店NO1NO2NO3ALL一二三四all(季)
TVPCVCDALL产品多维结构的操作:1、切片2、切块3、旋转4、钻探(下钻如地域时间和上探(反方向))第64页,共133页,2023年,2月20日,星期一数据仓库的操作(下钻、上卷)第65页,共133页,2023年,2月20日,星期一WiththeOracleOLAPdatamodel第66页,共133页,2023年,2月20日,星期一RelationshipsbetweencommonOLAP
第67页,共133页,2023年,2月20日,星期一OracleOLAP
第68页,共133页,2023年,2月20日,星期一SAPOLAP
第69页,共133页,2023年,2月20日,星期一MSSQLServer2005的功能:分析服务第70页,共133页,2023年,2月20日,星期一数据仓库DW与数据挖掘DM数据仓库与数据挖掘(datawarehousedatamining)第71页,共133页,2023年,2月20日,星期一数据仓库数据仓库第72页,共133页,2023年,2月20日,星期一引论◆数据仓库(datawarehouse)在1988年Devlin和Murphy发表了首篇数据仓库的论文,在1993年,由WilliamH.Inmon所写的《BuildingtheDataWarehouse》首次系统地阐述了数据仓库的思想和理论。◆知识发现(KnowledgeDiscoveryinDatabase
KDD)在1989年8月第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现技术。◆数据挖掘(DataMiningDM)在1995年,在美国计算机年会(ACM)上,首次提出数据挖掘的概念。数据挖掘是KDD过程中最为关键的步骤,在实际使用中两个术语的应用往往不加区别。第73页,共133页,2023年,2月20日,星期一数据仓库●定义:数据仓库是一个面向主题的,集成的,随时间变化的非易失性数据的集合,用于支持管理层的决策过程。●数据仓库的特性:
1、面向主题性(创建和使用都围绕主题:产品、客户等)
2、数据集成性(从业务处理系统获取,如:OLTP、EC
等,要经过数据预处理:挑选、清理、综合)
3、数据的时变性(数据不能长期不变)
4、数据的非易失性(数据不能更改)
5、数据的集合性(多维数据库方式进行存储的多维模式)
6、支持决策作用(根本的目的是对决策的支持,以便提高管理决策的质量和效果)第74页,共133页,2023年,2月20日,星期一清洗操作,最后加载到数据仓库中数据准备第75页,共133页,2023年,2月20日,星期一数据仓库与数据集市第76页,共133页,2023年,2月20日,星期一决策分析与多维分析、数据挖掘等的关系数据库数据仓库决策分析数据挖掘关系数据模型多维数据模型关系型分析多维分析第77页,共133页,2023年,2月20日,星期一以数据仓库为基础的电子商务架构第78页,共133页,2023年,2月20日,星期一数据仓库典型产品简介公司产品管理数据抽取建模OLAP数据挖掘数据展示接口OracleOraclev9。i√√强√良好√强MSSQLServer√√√强√强√SASSAS√√√强特色√√BusinessObjectBusinessObject√√√√√√√BrioBrio√√√√√√√CrystalDecisionsCrystal√√青大海威HIGHWAY√√√强√强√参考:徐洁磐《数据仓库与决策支持系统》科学出版社P—192~224第79页,共133页,2023年,2月20日,星期一数据仓库市场保持了良好的增长第80页,共133页,2023年,2月20日,星期一数据挖掘、知识发现数据挖掘、知识发现第81页,共133页,2023年,2月20日,星期一什么是数据挖掘(DM)●什么是数据挖掘(datamining)从数据仓库中利用知识发现技术(如:依赖性分析、聚类分析、基于神经网络的数据挖掘技术、基于遗传算法的数据挖掘技术、基于粗糙集的数据挖掘技术等)寻求商业模式。●数据挖掘的目标:
1、找到更好的顾客
2、增加市场分额和获取更高利润
3、了解顾客的全面关系,制定定价策略和产品包装方式。
4、分辨顾客的生命期信息
5、分析购卖行为和促销反映,增加促销效益。
第82页,共133页,2023年,2月20日,星期一什么是数据知识发现(KDD)●数据知识发现(knowledgediscoverydatabaseKDD)
1996年
fayyad的定义:知识发现是从数据集中识别有效模式的非平凡过程,该模式是新颖的,有潜在应用价值的和最终可以理解的。
数据挖掘是知识发现的关键过程。商务智能中的KDD过程:数据目标数据预处理后数据转化后数据商务智能模式数据选择预处理数据转化数据挖掘解释/评价第83页,共133页,2023年,2月20日,星期一数据挖掘的14种算法关联规则分类分析聚类分析APRIoRI算法回归分析差异分析划分法层次法基于密度方法基于网格方法决策树算法粗集算法人工神经网络贝叶斯方法遗传算法第84页,共133页,2023年,2月20日,星期一数据挖掘的主要技术(算法)内容数据挖掘主要技术1、描述(归纳)2、分类预测3、聚类分析4、关联分析5、依赖性分析6、粗糙集7、模糊技术MSSQLServer2005的数据挖掘算法:1、贝叶斯算法2、决策树算法3、时序算法4、聚类算法5、序列聚类算法6、关联规则算法7、神经网络算法8、文本挖掘技术第85页,共133页,2023年,2月20日,星期一数据挖掘第86页,共133页,2023年,2月20日,星期一数据挖掘的方法数据挖掘的方法第87页,共133页,2023年,2月20日,星期一四类重要的数据挖掘方法聚类分析关联分析异常检测预测建模第88页,共133页,2023年,2月20日,星期一数据挖掘技术(DM)1、分类和预测:
分类在机器学习中称为模式识别,分类技术包括统计方法(logistic回归、线形判别、二次判别、费歇尔判别)k—近邻分类、决策树分类、基于关联规则的分类、贝叶斯分类、神经元网络分类、支持向量机分类
预测是对业务信息所代表的对象的显著性区别,对对象的区别对待,进而达到控制成本或者提高效率。第89页,共133页,2023年,2月20日,星期一数据挖掘技术:预测方法1、预测方法第90页,共133页,2023年,2月20日,星期一聚类分析2、聚类分析是多元分析的一种,也是非监督模式的一个重要分支。它把一个没有类别标记的样本集,按某种准则划分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。传统的聚类分析是一种硬划分,它把每个待划分的对象严格地划分到某类中,具有非此即彼的性质。而实际上大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性。具有亦此亦彼的性质,因此适合进行软划分。分类算法将数据按含义划分成组,用户可以用此算法生成侧面,例如:感兴趣的顾客侧面。一些常见的聚类算法包括:模式识别、侧面生成、线形聚族和概念聚族。
第91页,共133页,2023年,2月20日,星期一数据挖掘技术(DM)聚类分析:是将一个数据集合按照某个标准分成几个簇。分类聚类收入债务贷款不贷款收入债务123分类第92页,共133页,2023年,2月20日,星期一蛋白质的聚类分析第93页,共133页,2023年,2月20日,星期一SPSS数据挖掘方法-聚类分析
第94页,共133页,2023年,2月20日,星期一关联规则4、关联规则挖掘:
对不同类型之间的相互关系分析其潜在的逻辑规律,为业务运作提供决策支持。是在给定的事务数据库中找出最小支持度和最小置信度的规则如:x→y第95页,共133页,2023年,2月20日,星期一数据挖掘软件SPSS(贝叶斯网络)第96页,共133页,2023年,2月20日,星期一数据挖掘技术:逻辑斯蒂回归第97页,共133页,2023年,2月20日,星期一数据挖掘技术(DM)3、依赖性分析:1、基本概念:
◆规则:一般形式为“IF条件成立,THEN结论”。通过关联规则,可以发现这三种规则:有用的、价值不高的、费解的。
◆
价值不高的规则往往是对一些商业领域内众所周知的规则的重现。如:今天是情人节,那么鲜花的价格肯定会暴涨。
◆
费解的规则往往是数据中一些偶然的东西。如:有一天某个超市发现购买消暑商品的顾客增加,但是只有这一天特别突出,前后消量趋于平常。
◆
有用的规则多是那些“潜在的,别人没有发现的也没有广泛运用在商业中的规则”如:尿布与啤酒之间的依赖性第98页,共133页,2023年,2月20日,星期一依赖性分析原理依赖性分析原理:
依赖性分析算法在数据仓库的条目或对象之间抽取依赖性.利用依赖性分析算法可以从某一对象的信息来推断另一数据对象的信息.
一组依赖性可以表示为依赖图.人们利用依赖性分析是为了解变动,并了解变动发生的可能原因.如:
销后服务对产品销售的影响.第99页,共133页,2023年,2月20日,星期一依赖性分析◆支持度:如果88%的顾客购买了商品A,就说商品A的支持度为0。88即suport=0。88◆最小支持度:
如果某种规则发生的概率低于指定的最小支持度(minsupport),则我们可以不考虑这种规则。
P(A→B)>minsupport
最小支持度用来去除可能性很小的规则,
也就是费解的规则第100页,共133页,2023年,2月20日,星期一数据挖掘技术(DM)◆最小置信度:
P(AB)
>minconfidence
P(A)
如果某个规则成立的概率很小,则这个规则没有什么用途。因为这两件事物的联系很小。事实上只有高于最小支持度并且高于最小可信度的规则才被保留。
收入成本其他服务存货服务产品顾客依赖性分析图第101页,共133页,2023年,2月20日,星期一依赖性分析案例“尿布与啤酒的依赖”
◆可信度:
confidence=P(条件和结论)
P(条件)例如在超市中,A,B,C商品的购买率如右表所示,我们定义如下规则:
IFBTHENA,则它的可信度是:
P(AandBandC)
P(BandC)
=5%/15%=0。33
元组(商品)购买概率A45%B42.5%C40%A和B25%A和C20%B和C15%A和B和C5%第102页,共133页,2023年,2月20日,星期一依赖性分析案例“尿布与啤酒的依赖”序号顾客商品名称时间1tom啤酒尿布香烟2000/1/12john啤酒可乐尿布2000/1/23kate啤酒罐头卫生巾2000/1/34benny啤酒尿布卫生巾2000/1/4产品1产品2置信度啤酒尿布0.75啤酒卫生巾0.5尿布啤酒0.75卫生巾啤酒0.5支持度=同时购买啤酒和尿布的销售次数总销售次数置信度:大于40%置信度的情况大于60%支持度的情况产品1产品2置信度支持度啤酒尿布0.750.75尿布啤酒0.751卫生巾啤酒0.51第103页,共133页,2023年,2月20日,星期一香港大型商业中心对交通的依赖性分析
第104页,共133页,2023年,2月20日,星期一城市对房地产业的依赖性比较第105页,共133页,2023年,2月20日,星期一依赖性分析软件第106页,共133页,2023年,2月20日,星期一粗糙集(roughset)技术4、粗糙集(roughset)理论是一种研究不精确、不确定性的数学工具,由波兰数学家Z。Pawlak在1982年首先提出,
1991年他的《粗糙集合》专著出版。在粗糙集理论中,知识这个概念被视为一种分类能力,通过分类将差异不大的个体划分为一类,它们之间构成一种不可分辨关系,又被称为不可分辨划分。它正是将这种划分后的每一类作为研究对象,研究其某一概念的肯定支持,或肯定不支持,或可能支持(也可能不支持)的程度,并用粗糙隶属函数加以定量描述。
第107页,共133页,2023年,2月20日,星期一粗糙集(roughset)技术●应用粗糙集合进行数据挖掘:数据挖掘研究的实施对象多为关系数据库,关系表可被看作是粗糙集理论中的决策表(也称为信息表)这给粗糙集方法的应用带来极大的方便。现实世界中的规则有确定性的,也有不确定性的,从数据库中发现不确定的知识,为粗糙集方法的用武之地。运用粗糙集方法得到的知识发现算法可以极大地提高效率。所以在知识获取、机器学习、规则生成、决策分析、智能控制等领域获得了广泛应用。在科研、金融、天文、医疗等领域庞大数据的发掘中,可以发现隐含在数据中的许多有价值的知识。第108页,共133页,2023年,2月20日,星期一基于粗糙集理论的知识获取系统第109页,共133页,2023年,2月20日,星期一模糊技术5、模糊技术:
扎德提出的模糊集合论为模糊信息的描述和处理提供了数学基础。模糊集合是传统集合的扩展。模糊集合的隶属函数的值域为[0,1],当模糊集合的隶属函数的值域为[1,1]时,该模糊集合就退化为传统的集合。
在对数据源进行挖掘分析时,可为指定的属性引人模糊概念,使用模糊集的方法用隶属度对属性值进行转换,使数据源中的属性值便于人们的理解和计算机分析处理。为每个属性引人一个模糊概念
第110页,共133页,2023年,2月20日,星期一模糊技术6、模糊技术:如:收视率为“高”或“低”等,并确定相应的隶属函数,然后进一步扫描数据源,对每个事件的各属性的取值用相应的隶属度代替。原来属性之间的关联就变成模糊意义上的关联。所形成的关联规则,即为模糊关联规则。
模糊关联规则的模糊性不仅体现在模糊概念的模糊性,而且体现在隶属函数确定的模糊性,因为隶属函数的确定也有一定的模糊性,而不同的隶属函数所得到的属性值也会不同,从而可能导致挖掘结论不同。模糊集还用于分类,对于数据挖掘系统进行分类,模糊逻辑是有用的。它提供了在高度抽象层处理的便利。第111页,共133页,2023年,2月20日,星期一模糊查询技术在公交管理中的应用第112页,共133页,2023年,2月20日,星期一数据挖掘在解决方法上的分类
分析问题
示例
SQLServer2005算法分类:为案例分布预定义的级别(如:好与差)●信用风险分析●客户流失分析●客户挽留●决策树●贝叶斯算法●神经网络分割:开发一种按相似案例分组的分类方法●客户资料分析●邮件推销活动●聚类分析●顺序聚类关联:相关性高级计算●购物篮分析●高级资料研究●决策树●相关规则时间序列预测:预测未来●预测销售●预测股票价格●时间序列预测:根据相似案例(如:现有客户)的值预测新方案的值●提供保险率●预测客户收入●预测温度●全部偏差分析:发现案例或群体与其他案例和群体的差别●信用卡欺骗检测●网络入侵分析●全部第113页,共133页,2023年,2月20日,星期一数据挖掘功能和应用领域应用领域挖掘功能的例子挖掘过程挖掘技术欺诈检测信用卡欺诈内部查帐商店失窃确定标准状况变化数据可视化基于记忆的推理风险评估信用卡升级抵押贷款客户保持客户信贷分类链接的检测和分析决策树基于记忆的推理市场分析市场篮子分析目标销售客户个性行销预测性的建模数据库分割类检测决策树链接分析遗传算法第114页,共133页,2023年,2月20日,星期一数据挖掘的实例第115页,共133页,2023年,2月20日,星期一数据挖掘:SQLServer2005第116页,共133页,2023年,2月20日,星期一SQLserver2005数据挖掘研究第117页,共133页,2023年,2月20日,星期一使用Access2007开始数据挖掘
第118页,共133页,2023年,2月20日,星期一数据挖掘在人力资源方面的应用第119页,共133页,2023年,2月20日,星期一DM(数据挖掘)上海数据库开发第120页,共133页,2023年,2月20日,星期一生物医学文献数据挖掘软件第121页,共133页,2023年,2月20日,星期一SQLServer分析服务中的数据挖掘
第122页,共133页,2023年,2月20日,星期一数据挖掘工具的比较工具名称IBMDB2DBMinner2.0SASDarwinMineSetMasa3.0产品提供IBM公司DBMinerTechnologySASInstituteThinkingMachineSGI公司和美国Standford创我科技可提供的竞争能力强大并行计算能力多任务挖掘工具,通过DMQL进行数理统计分析软件数据挖掘核心竞争力数据库和技术领先多种关系数据库多种数据获取、筛选、转换价格咨询和购卖硬件费用昂贵比较便宜昂贵,多采用租赁软件免费,数据展示和准备费用高比较便宜比较便宜运行平台多平台多平台多平台多平台Oracle数据库多平台Windows平台第123页,共133页,2023年,2月20日,星期一数据挖掘工具的比较工具名称IBMDB2DBMinner2.0SASDarwinMineSetMasa3.0用户界面使用复杂的数据可视化技术可视化界面可视化界面,操作复杂可视化界面,比强的用户界面可视化显示,操作简单有经验用户可自由优化参数建模技术与算法有广泛的数据挖掘技术和算法集,统计功能差算法简单,主要与SQLServer的OLAP集成提供所以的数据挖掘方法,包括统计分析、时序分析仅有聚类,没有关联和序列规则算法构造表达式由已有的数据项生成新的数据项多种可行的数据挖掘算法,可以嵌人其它软件代码模型发布具有大量数据挖掘和程序接口开放式体系结构用特有的SQL语言后台用特别程序发布包采用C、C++、Java手工编码输出程序支持国际字符,可以直接发表到Web发布简单,有模板第124页,共133页,2023年,2月20日,星期一小结决策支持系统与数据挖掘小结第125页,共133页,2023年,2月20日,星期一本章小结数据仓库OLAP决策支持系统数据挖掘技术人工智能商务智能第126页,共133页,2023年,2月20日,星期一本章小结数据挖掘技术1、描述(归纳)2、分类预测3、聚类分析4、关联分析5、依赖性分析6、粗糙集7、模糊技术MSSQLServer2005的数据挖掘算法:1、贝叶斯算法2、决策树算法3、时序算法4、聚类算法5、序列聚类算法6、关联规则算法7、神经网络算法8、文本挖掘技术第127页,共133页,2023年,2月20
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度绿色金融借款合同示范文本4篇
- 2025年度门面房租赁合同(含装修限制条款)4篇
- 二零二五年度高品质木枋原料供应合同4篇
- 2025年度企业财务合规审计聘用合同
- 二零二五年度喷砂机销售及零配件供应合同4篇
- 2025版彩钢房仓储服务合同范本3篇
- 二零二五年度苗木种植与生态城市建设合同4篇
- 二零二四年度智能校园物业管理与服务合同下载3篇
- 2025年度园林绿化养护劳务承包合同样本2篇
- 二零二五年度创业投资借款合作协议合同-@-1
- 化学-河南省TOP二十名校2025届高三调研考试(三)试题和答案
- 智慧农贸批发市场平台规划建设方案
- 林下野鸡养殖建设项目可行性研究报告
- 2023年水利部黄河水利委员会招聘考试真题
- Python编程基础(项目式微课版)教案22
- 01J925-1压型钢板、夹芯板屋面及墙体建筑构造
- 欠电费合同范本
- 2024年新高考地区数学选择题填空压轴题汇编十八含解析
- 大型商场招商招租方案(2篇)
- 2022年袋鼠数学竞赛真题一二年级组含答案
- 三氟乙酰氯(CAS:354-32-5)理化性质及危险特性表
评论
0/150
提交评论