商务智能基本概念课件_第1页
商务智能基本概念课件_第2页
商务智能基本概念课件_第3页
商务智能基本概念课件_第4页
商务智能基本概念课件_第5页
已阅读5页,还剩155页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘杨春博士讲师Email:171165@

Tel据仓库与数据挖掘杨春博士讲师平时成绩(30-40%)考勤、课堂回答问题、讨论:期末成绩(60-70%)考核方式:闭卷考试,16或17周。

平时成绩(30-40%)数据仓库与数据挖掘技术(第2版)作者:陈京民

出版社:电子工业出版社

出版日期:2007年11月

ISBN:9787121053054

数据仓库与数据挖掘技术(第2版)参考书参考书第一章商务智能基本概念

第一章商务智能基本概念1.1商务智能的基本概念1.1商务智能的基本概念信息:有用的数据SenderReceiver处理数据信息知识一个人的垃圾(数据)是另一个人的财富(信息)Dataendowedwithrelevanceandpurpose信息是经过某种加工处理后的数据,是反映客观事物规律的一些数据。数据是信息的载体,信息是对数据的解释。

信息:有用的数据SenderReceiver处理数据信息知识第一章商务智能基本概念课件IBM商务智能产品IBM商务智能产品第一章商务智能基本概念课件第一章商务智能基本概念课件第一章商务智能基本概念课件第一章商务智能基本概念课件第一章商务智能基本概念课件SAP

BusinessObjects智能平台SAPBusinessObjects智能平台企业数据仓库ETL(抽取、转换、加载)即席查询、预定义报表、自定义报表、OLAP、数据挖掘、专题分析模型元数据管理Web服务器客户端客户端客户端客户端客户端大客户分析数据集市财务分析数据集市客户分析数据集市...模型库业务数据库业务数据库业务数据库业务数据库业务数据库业务发展分析客户分析大客户分析用户发展分析收益情况分析服务质量分析营销管理分析财务分析渠道分析反欺诈专题分析客户流失专题分析...企业数据仓库ETL(抽取、转换、加载)即席查询、预定义报表、商务智能供应商商务智能供应商

商务智能(BI,BusinessIntelligence)的定义

IBM:利用已有的数据资源作出更好的商业决策,它包括数据访问、数据和业务分析,以及发现新的商业的机会。这说明商务智能的实质是从数据中有效地提取信息,从信息中发现知识,为商务决策和战略发展。

Microsoft认为商务智能是任何尝试获取、分析企业数据以更清楚地了解市场和客户、改进企业流程、更有效地参与竞争的努力,以便在正确的时间向正确的决策者提供正确的信息。商务智能使企业能够做出比以前更好的决策。此外,IDC,Business,Objectes,Teradata,MicroStrategy公司也都有对商务智能不同的解释。

商务智能(BI,BusinessIntellige总而言之,商务智能是由数据仓库、联机分析处理和数据挖掘三种信息技术应用于商务活动后所形成的一组信息技术的应用技术。

总而言之,商务智能是由数据仓库、联机分析处理和数据挖掘三种信业务数据分析的类型Increasing#ofusersOLAPStatisticalAnalysisStandardQueryReportingDMIncreasingComplexity数据分析技术的发展可分成报表查询、在线分析处理(OLAP)和数据挖掘3个阶段。

业务数据分析的类型IncreasingOLAPStatist数据仓库是基础,它提供了商务智能所需要的各种信息;联机分析处理是商务智能应用之利器,管理决策者使用联机分析工具对反映企业商务活动的数据仓库进行智能分析,可以提高企业的市场竞争力;数据挖掘是商务智能的形成之源,利用数据挖掘可以从数据仓库中寻找企业的商务智能模式,从数据仓库的海量数据中归纳出商务知识。实例数据仓库是基础,它提供了商务智能所需要的各种信息;联机分析处销售分析仪表盘销售分析仪表盘客户流失分析客户流失分析目标顾客群目标顾客群信息流畅通了还需要?ERP企业资源规划系统SCM供应链管理商务智能BI(businessintelligence)B2B、B2CCRMInternet等基础设施数据信息流畅通了还需要?ERPSCM商务智能新一代决策支持系统交易处理系统DSS软件系统模式OLAP工具资料挖掘工具外部资料使用者使用者界面DSS资料库数据导向型决策支持系统:事务处理系统等搜集的大量数据,隐藏对决策有用的模式和规则,可以用统计方法、OLAP和数据挖掘等分析得到,以辅助决策分析用。新一代决策支持系统交易处外部资料使用者使用者界面DSS数据导1.1.2商务智能的发展与应用商务智能的发展与应用:电子数据处理系统-〉管理信息系统-〉决策支持系统商务智能的作用:理解、改善、衡量、创造商务智能的作用域:战略管理、营销管理、市场管理、客户关系管理和风险管理

1.1.2商务智能的发展与应用商务智能的发展与应用:电子商务分析:商务风险分析、数据库营销分析、智能型客户关系管理、供应链管理OLAP、数据挖掘数据仓库图1.1商务智能体系结构1.1.3商务智能的体系结构商务分析:商务风险分析、数据库营销分析、智能型客户关系管理、BusinessIntelligenceArchitectureOperationalandExternalDataWarehousemodelingandConstructionTools(ETL)BusinessIntelligenceApplicationsDecisionSupportToolsQueryandReporting

OLAPInformationMiningAccessenablersApplicationInterfacesMiddlewareServicesDepartmentalwarehouses(datamarts)AdministrationGlobalWarehouseOtherInformationStoresOperationalandExternalDataDataManagementMetadataManagementBusinessIntelligenceArchitec第一章商务智能基本概念课件1.2数据仓库的发展与展望管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势,而传统的数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量历史信息,为满足管理人员的决策分析需要,在数据库的基础上就产生了适应决策分析的数据环境-数据仓库(DW,DataWarehouse)1.2数据仓库的发展与展望管理人员常常希望能够通过对组织1.2.1从数据库到数据仓库

传统数据库在联机事物处理中取得了较大的成功,但在基于事物处理的数据库帮助决策分析时却产生了很大的困难。主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称主要体现在如下几个方面:1.2.1从数据库到数据仓库传统数据库在联机事物处理中(1)决策处理的系统响应问题:传统数据库数据存取频率高、操作时间快,有较高的响应时间。而在决策分析处理中,有些决策处理请求问题则可能需要系统长达数小时的运行,耗费大量的系统资源,而使事务联机系统无法忍受。(2)决策数据需求的问题:决策分析需要全面、正确的集成数据,这些数据不仅包括企业内部各部门的数据而且包括企业外部的、甚至竞争对手的相关数据。在决策数据的集成中还需要解决数据混乱的问题(0和1,M&F)。决策分析需要从数据库中抽取数据,查找有用的数据。(1)决策处理的系统响应问题:传统数据库数据存取频率高、操作数据的集成还涉及外部数据与非结构化数据的应用问题。决策数据一般涉及到长期的大量历史数据。在决策分析过程中,往往需要经过汇总、概括的数据。(3)决策数据操作的问题:在对数据的操作方式上,事务处理系统往往不能满足决策人员的需要(访问权限、用户身份、报表表现形式)。同时,由于系统响应、决策数据需求和决策数据操作等影响,使企业无法使用现有的事务处理系统去解决决策分析的需要。(4)数据仓库与传统数据库的比较数据的集成还涉及外部数据与非结构化数据的应用问题。决策数据一表1-1数据仓库与数据库的对比

对比内容

数据库

数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序,重复处理面向主题域,分析应用数据特性动态变化,按字段更新静态、不能直接更新,只能定时添加、刷新数据结构高度结构化、复杂,适合操作计算简单、适合分析使用频率高中到低数据访问量每个事物只访问少量记录有的事物可能需要访问大量记录对响应时间的要求以秒为单位时间长表1-1数据仓库与数据库的对比对比内容数据库数据仓库的定义:数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用以支持企业或组织的决策分析处理。

1.2.2数据仓库的基本特性数据仓库的定义:数据仓库就是一个面向主题的、集成的、不可更新数据仓库的基本特征(1)数据仓库的数据是面向主题的:数据仓库中所有的数据都是围绕着某一主题组织展开的。例如企业中的客户、产品、供应商等都可以作为主题看待。(2)数据仓库的数据是集成的:根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,最终集成到数据仓库中。(业务处理系统:在线事务处理系统OLTP、企业资源计划ERP、企业业务流程重组BPR、电子商务EC)数据仓库的基本特征(3)数据仓库是随时间变化的:数据应该随着时间的推移而变化;数据的追加和删除都是时变的;同时,概括数据也是时变的。(4)数据的非易失性:数据仓库中的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相当长的时间,而且数据主要是用于查询、分析。(3)数据仓库是随时间变化的:数据应该随着时间的推移而变化;(5)数据的集合性:数据仓库必须按照主题,以某种数据集合的形式存储起来。(6)支持决策作用:高层的企业决策者、中层的管理者和基层的业务处理者等不同层次的管理人员均利用数据仓库进行决策分析,提高管理决策质量。第一章商务智能基本概念课件1.2.3数据仓库的发展1.基于关系对象数据库的数据仓库:将多媒体数据、复杂的数据类型和其他各种类型的数据引入数据仓库。2.网络的影响:数据仓库越来越依赖于网络进行数据的传输、数据的请求处理。3.操作型动态数据仓库:重在战术性决策支持,为执行工资的战略员工提供支持。(EMS-ESB(企业服务总线)追踪包裹)4.Web应用中的多智能体技术:利用合作伙伴的数据仓库或Internet系统中的多为数据集进行决策分析活动。1.2.3数据仓库的发展1.基于关系对象数据库的数据仓库1.3数据仓库的体系结构数据仓库体系结构建立在其概念基础之上,并根据商务智能的不同应用情况可以选择虚拟数据仓库结构、数据集市结构、单一数据仓库结构和分布式数据仓库结构。1.3数据仓库的体系结构图1.2数据仓库的概念结构

业务系统外部数据源数据准备区数据集市/知识挖掘库数据仓库数据库数据集市/知识挖掘库应用工具应用工具用户用户管理工具数据源1.3.1数据仓库的概念结构图1.2数据仓库的概念结构业务系统外部数数

从数据仓库的概念结构看,应该包含数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。第一章商务智能基本概念课件业务系统数据库数据仓库查询管理服务器用户图1.3虚拟数据仓库结构问题:这种数据库由于主要依靠原系统的运行,使原系统的运行效率大幅度下降;系统在操作过程中可能会涉及许多原系统,这些系统中的同一数据缺乏相同字段结构、编码和关键字,而且不同系统中数据的更新不一致,必然会产生在不同时间对同一查询结果的不同结果。

业务系统数据库数据仓库查询用户图1.3虚拟数据仓库结构问业务系统数据库数据仓库查询管理服务器用户1图1.4数据集市结构问题:数据集市的结构往往只能对某一主题进行操作,如果用户希望对两个以上主题操作,就要求用户对这两个主题的数据结构都了解,否则无法实现多主题的操作;在多主题数据仓库结构中往往产生大量的数据冗余。

主题1主题2用户2业务系统数据库数据仓库查询用户1图1.4数据集市结构问题业务系统数据库数据仓库查询管理服务器用户1图1.5单一数据仓库结构问题:这种体系结构需要构建一个统一的企业体系结构,而且数据存储过程中需要高昂的存储费用和维护费用。从数据仓库的应用情况看,许多企业大多采用单一的数据仓库,因为数据仓库中集成了企业的所有数据,使企业能够使用企业总体视图对企业总体决策提供帮助。

主题1主题2用户2数据仓库业务系统数据库数据仓库查询用户1图1.5单一数据仓库结构局部数据仓库局部数据仓库全局数据仓库局部数据仓库局部数据仓库站点A站点C总部站点B站点D图1.6分布式数据仓库结构问题:随着服务器的增加,最后可能会使网络中的数据传输不堪重负。此外,全局数据仓库与局部数据仓库中的数据冗余是分布式数据仓库的又一缺陷。局部数局部数全局数局部数局部数站点A站点C总部站点B站点D图1.4数据仓库的参照结构基本功能层:数据抽取,数据筛选、清洗,清洗后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新等操作进行管理。数据仓库环境支持层包含数据传输和数据仓库基础两部分。数据仓库的基本功能层数据仓库的管理层数据仓库的环境支持层图1.7数据仓库总体框架结构1.4数据仓库的参照结构基本功能层:数据抽取,数据筛选1.4.1数据仓库基本功能层1.数据仓库的数据源数据源数据准备区数据仓库数据集市/知识挖掘库数据仓库的数据存取与使用图1.8数据仓库功能结构业务数据历史数据办公数据Web数据外部数据数据源元数据图1.9数据源功能结构1.4.1数据仓库基本功能层1.数据仓库的数据源数据源业务数据:从组织目前正在运行的业务处理系统那里收集到,并保存在业务处理系统数据库中的数据。往往由关系型数据库、非关系型数据库或文件系统所构成。历史数据:长期的信息处理过程中所积累下来的数据,一般进行了脱机处理,以磁带或者其他脱机存储设施保存,对业务系统的当前运行不起作用。办公数据:组织内部的办公系统数据,这些数据分电子数据和非电子数据。电子数据方式保存的数据,主要指电子表格、数据库或业务数据:从组织目前正在运行的业务处理系统那里收集到,并保存文字处理文档等形式保存的数据。非电子数据主要是指那些文件、通知、会议纪要等文件。(OCR,文字识别软件)Web数据:企业通过Internet所获取的数据,可以通过企业的电子商务系统获取,也可以通过网络调查获取。外部数据:不为企业所操作、所拥有、所控制的数据。这些数据可以以电子形式或者非电子形式保存。数据源数据:属于元数据管理范围,在数据仓库中的所有数据都需要通过元数据管理层来进行管理、控制。文字处理文档等形式保存的数据。非电子数据主要是指那些文件、通2.数据准备区数据的标准化处理元数据抽取与创建数据的过滤与匹配数据的净化处理标明数据的时间戳确认数据质量图1.10数据准备区功能结构图2.数据准备区数据的标准化处理元数据抽取与创建数据的过滤与匹3.数据仓库功能结构数据集成与分解数据仓库的建模元数据浏览与导航数据概括与聚集数据的概括数据预算与推导数据的聚集元数据的创建数据翻译与格式化数据的调整与确认数据转换与映射建立结构化查询创建词汇表图1.11数据仓库的功能结构数据重整数据仓库创建元数据管理3.数据仓库功能结构数据集成与分解数据仓库的建模元数据浏览与4.数据集市/知识挖掘库过滤与匹配建立模型元数据浏览与导航集成与分割概括概括与聚集聚集元数据的抽取与创建预测与推导调整与确认标明时间维的数据源建立结构化查询创建词汇表图1.12数据集市的结构求精与重整数据集市/知识挖掘库创建元数据管理4.数据集市/知识挖掘库过滤与匹配建立模型元数据浏览与导航集数据集市/知识挖掘库的功能结构与数据仓库的结构极为相似,只是数据集市设立的目的在于为某一部门或某一领域的用户提供服务,而设立数据仓库的目的则在于为企业全体用户提供服务。因此,可将数据集市/知识挖掘库看成是数据仓库的一个逻辑上或物理上的子集,数据集市/知识挖掘库也包含了用户所需要查询的详细数据和概括性数据。从数据集市/知识挖掘库所包含的主题与数据量看,都比数据仓库少。数据集市/知识挖掘库的功能结构与数据仓库的结构极为相似,只是5.数据仓库的数据存取与使用数据仓库直接存取报表处理工具元数据管理与报表数据集市存取分析与决策支持工具数据集市重整业务建模与分析处理工具元数据的抽取与创建转换为多维结构数据挖掘工具创建局部存储图形工具图1.13数据仓库存取与使用结构数据仓库存取与检索数据仓库分析与报告元数据管理5.数据仓库的数据存取与使用数据仓库直接存取报表处理工具元数1.4.2.数据仓库的管理层1.数据仓库的数据管理层图1.14数据仓库的数据管理层数据抽取与新数据需求与查询管理数据加载、存储、刷新和更新系统安全性与用户授权管理数据归档、恢复及净化处理图1.14数据仓库的数据管理层1.4.2.数据仓库的管理层1.数据仓库的数据管理层图1.12.数据仓库的元数据管理层图1.15数据仓库的元数据管理层数据仓库、数据集市/知识挖掘库和词汇表管理元数据抽取、创建、存储和更新管理预定义的查询、报表和索引管理刷新与复制管理登录、归档、恢复与净化管理图1.15数据仓库的元数据管理层2.数据仓库的元数据管理层图1.15数据仓库的元数据管理1.4.3.数据仓库的环境支持层1.数据仓库的数据传输层图1.16数据仓库的数据传输曾数据传输和传送网络客户-服务器代理和中间件数据复制系统数据传输的安全和保障系统图1.16数据仓库的数据传输层1.4.3.数据仓库的环境支持层1.数据仓库的数据传输层图12.数据仓库的基础层系统管理工作流程管理存储系统处理系统图1.17数据仓库的基础层2.数据仓库的基础层系统管理工作流程管理存储系统处理系统图11.5数据挖掘技术概述1.5.1数据挖掘的发展1.超大规模数据库的出现2.先进的计算机技术3.经营管理的实际需要4.对数据挖掘的精深计算能力1.5数据挖掘技术概述1.5.1数据挖掘的发展1.超大规模数决策需要信息与知识情报阶段:确定问题设计阶段:找出解决方案选择阶段:选出解决方案实施阶段:实施方案返回情报阶段返回设计阶段返回选择阶段决策过程的四个阶段决策的过程发现那些需要引起注意的征兆并加以解释,如

销售滑坡、生产成本猛涨、老顾客对新产品的需求、新竞争对手带来的威胁等。最优方案由多种因素决定,如成本、实施的难易程度、对员工的要求、方案实施的时间顺序等。执行选中的方案,检测实施的结果,并作出必要的调整。决策需要信息与知识情报阶段:确定问题设计阶段:找出解决方案选

高效消费者响应(ECR)

及时、准确和无纸的信息流通

流畅,不间断的产品流通,满足消费者的需求

供应商零售商商店

消费者

ERP/CM企业资源计划管理品类管理

SCM供应链管理CRM客户关系管理POS销售时点系统

商业企业信息系统高效消费者响应(ECR)及时、准确和无纸的数据爆炸,知识贫乏

苦恼:淹没在数据中,不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济POS人口统计生命周期数据爆炸,知识贫乏苦恼:淹没在数据中,不能制定合适的决策1.5.2数据挖掘的定义各行业电子商务网站算法层商业逻辑层行业应用层商业应用商业模型挖掘算法CRM产品推荐客户细分客户流失客户利润客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析…WEB挖掘网站结构优化网页推荐商品推荐。。。基因挖掘基因表达路径分析基因表达相似性分析基因表达共发生分析。。。银行电信零售保险制药生物信息科学研究。。。相关行业1.5.2数据挖掘的定义各行业电子商务网站算商行商业应用商业数据挖掘数据库技术统计分析机器学习模式识别算法其它。。。可视化技术数据挖掘数据库技术统计分析机器学习模式识别算法其它。。。可视11December2022DataMining:ConceptsandTechniques67数据挖掘与商务智能IncreasingpotentialtosupportbusinessdecisionsEndUserBusinessAnalyst

DataAnalystDBADecision

MakingDataPresentationVisualizationTechniquesDataMiningInformationDiscoveryDataExplorationStatisticalSummary,Querying,andReportingDataPreprocessing/Integration,DataWarehousesDataSourcesPaper,Files,Webdocuments,Scientificexperiments,DatabaseSystems08December2022DataMining:C

从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。

从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术、主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识,即从一个数据库中自动发现相关商业模式。因此数据挖掘可以描述成:按企业既定目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的商业规律,并进一步模式化的处理方法。从技术角度看,数据挖掘是从大量的、不完全的、有噪表1-2数据挖掘工具与传统数据分析工具的比较传统数据分析工具(DSS/EIS)数据挖掘工具工具特点回顾型的,验证型的预测型的、发现型的分析重点已经发生了什么预测未来的情况、解释发生的原因分析目的从过去的事实中列出了管理人员感兴趣的事实锁定未来的可能客户,以减少未来的销售成本数据集大小数据维、维中属性值、维中数据均是少量的数据维、维中属性值、维中数据均是庞大的启动方式企业管理人员、系统分析员、管理顾问启动与控制数据与系统启动,少量的人员指导技术状况成熟统计分析工具已成熟,其他工具正在发展中表1-2数据挖掘工具与传统数据分析工具的比较传统数据分析1.6数据挖掘技术与工具1.6.1常用数据挖掘技术传统分析类:常用的数据挖掘模型主要有线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、时间序列数据、最近邻算法和聚类分析等技术。知识发现类:包含人工神经网络、决策树、遗传算法、粗糙集(RoughSet,RS)和关联规则等。最新发展的数据挖掘技术:包含文本数据挖掘、Web数据挖掘、可视化系统、空间数据挖掘和分布式数据挖掘技术等。1.6数据挖掘技术与工具1.6.1常用数据挖掘技术传统分析类1.6.2常用数据挖掘工具按使用方式分类的数据挖掘工具:决策方案生成工具、商业分析工具和研究分析工具。按照数据挖掘技术分类的数据挖掘工具:基于规则和决策树的工具,基于模糊逻辑的工具和综合性数据挖掘工具等。按应用范围分类的数据挖掘工具:专用型数据挖掘工具(SKICAT空间数据挖掘,TASA网络通信故障)和通用型数据挖掘工具(IM、SPSS和RedBrisk等)。1.6.2常用数据挖掘工具按使用方式分类的数据挖掘工具:决策1.6.3数据挖掘工具的评价标准模式种类的数量解决复杂问题的能力操作能力数据获取能力数据结果的输出噪声数据的处理及挖掘工具的鲁棒性1.6.3数据挖掘工具的评价标准模式种类的数量1.6.4常用数据挖掘工具的选择工具的实用性工具的技术型1.6.4常用数据挖掘工具的选择工具的实用性1.7数据挖掘的应用1.7.1数据挖掘与数据仓库

传统数据库在联机事物处理中取得了较大的成功,但在基于事物处理的数据库帮助决策分析时却产生了很大的困难。主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。1.7数据挖掘的应用1.7.1数据挖掘与数据仓库1.7.2数据挖掘与数据仓库业务对象知识应用方案源数据集成数据目标数据预处理数据商业模式业务分析人员数据管理人员数据分析人员业务分析人员确定挖掘对象准备数据建立模型数据挖掘结果分析知识应用1.7.2数据挖掘与数据仓库业务对象知识应用方案源数据集成数商务智能流程1

Identifybusinessissue2Formulatebusinessquestion3WhatinformationdoIneed4WheredoIfindtheinformation5Retrieveinformation6

Analyse

Information7

Report

answers8

Take

actions商务智能流程1

Identifybusinessissu1.7.3数据挖掘的用户数据分析人员或称其为企业管理顾问。要求这些人精通业务,能够解释业务对象,并能够根据具体业务对象要求确定用于数据定义和挖掘的算法。数据分析人员。要求这些人员精通数据挖掘分析技术,并较熟练地掌握统计学,有能力把业务需求转化为数据挖掘的各步进行操作,并能为每步操作合适的技术。数据管理人员。这些人员需要精通数据管理技术,能够从数据库或数据仓库中收集数据挖掘所需要的数据。1.7.3数据挖掘的用户数据分析人员或称其为企业管理顾问。要78知识发现过程(KDD)数据清洗数据集成数据库数据仓库知识任务(主题)相关数据数据选择数据挖掘评估与表示78知识发现过程(KDD)数据清洗数据集成数据库数据仓库知识11December2022经典数据挖掘系统的结构数据清洗、集成和选择数据库或数据仓库服务器数据挖掘引擎模式评估用户界面知识库数据库数据仓库World-WideWeb其它信息存储库08December2022经典数据挖掘系统的结构数据清商务智能动态

实时标准化嵌入式商务智能移动商务智能大众化趋势供应商的动向易用性商务智能动态实时数据仓库与数据挖掘杨春博士讲师Email:171165@

Tel据仓库与数据挖掘杨春博士讲师平时成绩(30-40%)考勤、课堂回答问题、讨论:期末成绩(60-70%)考核方式:闭卷考试,16或17周。

平时成绩(30-40%)数据仓库与数据挖掘技术(第2版)作者:陈京民

出版社:电子工业出版社

出版日期:2007年11月

ISBN:9787121053054

数据仓库与数据挖掘技术(第2版)参考书参考书第一章商务智能基本概念

第一章商务智能基本概念1.1商务智能的基本概念1.1商务智能的基本概念信息:有用的数据SenderReceiver处理数据信息知识一个人的垃圾(数据)是另一个人的财富(信息)Dataendowedwithrelevanceandpurpose信息是经过某种加工处理后的数据,是反映客观事物规律的一些数据。数据是信息的载体,信息是对数据的解释。

信息:有用的数据SenderReceiver处理数据信息知识第一章商务智能基本概念课件IBM商务智能产品IBM商务智能产品第一章商务智能基本概念课件第一章商务智能基本概念课件第一章商务智能基本概念课件第一章商务智能基本概念课件第一章商务智能基本概念课件SAP

BusinessObjects智能平台SAPBusinessObjects智能平台企业数据仓库ETL(抽取、转换、加载)即席查询、预定义报表、自定义报表、OLAP、数据挖掘、专题分析模型元数据管理Web服务器客户端客户端客户端客户端客户端大客户分析数据集市财务分析数据集市客户分析数据集市...模型库业务数据库业务数据库业务数据库业务数据库业务数据库业务发展分析客户分析大客户分析用户发展分析收益情况分析服务质量分析营销管理分析财务分析渠道分析反欺诈专题分析客户流失专题分析...企业数据仓库ETL(抽取、转换、加载)即席查询、预定义报表、商务智能供应商商务智能供应商

商务智能(BI,BusinessIntelligence)的定义

IBM:利用已有的数据资源作出更好的商业决策,它包括数据访问、数据和业务分析,以及发现新的商业的机会。这说明商务智能的实质是从数据中有效地提取信息,从信息中发现知识,为商务决策和战略发展。

Microsoft认为商务智能是任何尝试获取、分析企业数据以更清楚地了解市场和客户、改进企业流程、更有效地参与竞争的努力,以便在正确的时间向正确的决策者提供正确的信息。商务智能使企业能够做出比以前更好的决策。此外,IDC,Business,Objectes,Teradata,MicroStrategy公司也都有对商务智能不同的解释。

商务智能(BI,BusinessIntellige总而言之,商务智能是由数据仓库、联机分析处理和数据挖掘三种信息技术应用于商务活动后所形成的一组信息技术的应用技术。

总而言之,商务智能是由数据仓库、联机分析处理和数据挖掘三种信业务数据分析的类型Increasing#ofusersOLAPStatisticalAnalysisStandardQueryReportingDMIncreasingComplexity数据分析技术的发展可分成报表查询、在线分析处理(OLAP)和数据挖掘3个阶段。

业务数据分析的类型IncreasingOLAPStatist数据仓库是基础,它提供了商务智能所需要的各种信息;联机分析处理是商务智能应用之利器,管理决策者使用联机分析工具对反映企业商务活动的数据仓库进行智能分析,可以提高企业的市场竞争力;数据挖掘是商务智能的形成之源,利用数据挖掘可以从数据仓库中寻找企业的商务智能模式,从数据仓库的海量数据中归纳出商务知识。实例数据仓库是基础,它提供了商务智能所需要的各种信息;联机分析处销售分析仪表盘销售分析仪表盘客户流失分析客户流失分析目标顾客群目标顾客群信息流畅通了还需要?ERP企业资源规划系统SCM供应链管理商务智能BI(businessintelligence)B2B、B2CCRMInternet等基础设施数据信息流畅通了还需要?ERPSCM商务智能新一代决策支持系统交易处理系统DSS软件系统模式OLAP工具资料挖掘工具外部资料使用者使用者界面DSS资料库数据导向型决策支持系统:事务处理系统等搜集的大量数据,隐藏对决策有用的模式和规则,可以用统计方法、OLAP和数据挖掘等分析得到,以辅助决策分析用。新一代决策支持系统交易处外部资料使用者使用者界面DSS数据导1.1.2商务智能的发展与应用商务智能的发展与应用:电子数据处理系统-〉管理信息系统-〉决策支持系统商务智能的作用:理解、改善、衡量、创造商务智能的作用域:战略管理、营销管理、市场管理、客户关系管理和风险管理

1.1.2商务智能的发展与应用商务智能的发展与应用:电子商务分析:商务风险分析、数据库营销分析、智能型客户关系管理、供应链管理OLAP、数据挖掘数据仓库图1.1商务智能体系结构1.1.3商务智能的体系结构商务分析:商务风险分析、数据库营销分析、智能型客户关系管理、BusinessIntelligenceArchitectureOperationalandExternalDataWarehousemodelingandConstructionTools(ETL)BusinessIntelligenceApplicationsDecisionSupportToolsQueryandReporting

OLAPInformationMiningAccessenablersApplicationInterfacesMiddlewareServicesDepartmentalwarehouses(datamarts)AdministrationGlobalWarehouseOtherInformationStoresOperationalandExternalDataDataManagementMetadataManagementBusinessIntelligenceArchitec第一章商务智能基本概念课件1.2数据仓库的发展与展望管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势,而传统的数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量历史信息,为满足管理人员的决策分析需要,在数据库的基础上就产生了适应决策分析的数据环境-数据仓库(DW,DataWarehouse)1.2数据仓库的发展与展望管理人员常常希望能够通过对组织1.2.1从数据库到数据仓库

传统数据库在联机事物处理中取得了较大的成功,但在基于事物处理的数据库帮助决策分析时却产生了很大的困难。主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称主要体现在如下几个方面:1.2.1从数据库到数据仓库传统数据库在联机事物处理中(1)决策处理的系统响应问题:传统数据库数据存取频率高、操作时间快,有较高的响应时间。而在决策分析处理中,有些决策处理请求问题则可能需要系统长达数小时的运行,耗费大量的系统资源,而使事务联机系统无法忍受。(2)决策数据需求的问题:决策分析需要全面、正确的集成数据,这些数据不仅包括企业内部各部门的数据而且包括企业外部的、甚至竞争对手的相关数据。在决策数据的集成中还需要解决数据混乱的问题(0和1,M&F)。决策分析需要从数据库中抽取数据,查找有用的数据。(1)决策处理的系统响应问题:传统数据库数据存取频率高、操作数据的集成还涉及外部数据与非结构化数据的应用问题。决策数据一般涉及到长期的大量历史数据。在决策分析过程中,往往需要经过汇总、概括的数据。(3)决策数据操作的问题:在对数据的操作方式上,事务处理系统往往不能满足决策人员的需要(访问权限、用户身份、报表表现形式)。同时,由于系统响应、决策数据需求和决策数据操作等影响,使企业无法使用现有的事务处理系统去解决决策分析的需要。(4)数据仓库与传统数据库的比较数据的集成还涉及外部数据与非结构化数据的应用问题。决策数据一表1-1数据仓库与数据库的对比

对比内容

数据库

数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序,重复处理面向主题域,分析应用数据特性动态变化,按字段更新静态、不能直接更新,只能定时添加、刷新数据结构高度结构化、复杂,适合操作计算简单、适合分析使用频率高中到低数据访问量每个事物只访问少量记录有的事物可能需要访问大量记录对响应时间的要求以秒为单位时间长表1-1数据仓库与数据库的对比对比内容数据库数据仓库的定义:数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用以支持企业或组织的决策分析处理。

1.2.2数据仓库的基本特性数据仓库的定义:数据仓库就是一个面向主题的、集成的、不可更新数据仓库的基本特征(1)数据仓库的数据是面向主题的:数据仓库中所有的数据都是围绕着某一主题组织展开的。例如企业中的客户、产品、供应商等都可以作为主题看待。(2)数据仓库的数据是集成的:根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,最终集成到数据仓库中。(业务处理系统:在线事务处理系统OLTP、企业资源计划ERP、企业业务流程重组BPR、电子商务EC)数据仓库的基本特征(3)数据仓库是随时间变化的:数据应该随着时间的推移而变化;数据的追加和删除都是时变的;同时,概括数据也是时变的。(4)数据的非易失性:数据仓库中的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相当长的时间,而且数据主要是用于查询、分析。(3)数据仓库是随时间变化的:数据应该随着时间的推移而变化;(5)数据的集合性:数据仓库必须按照主题,以某种数据集合的形式存储起来。(6)支持决策作用:高层的企业决策者、中层的管理者和基层的业务处理者等不同层次的管理人员均利用数据仓库进行决策分析,提高管理决策质量。第一章商务智能基本概念课件1.2.3数据仓库的发展1.基于关系对象数据库的数据仓库:将多媒体数据、复杂的数据类型和其他各种类型的数据引入数据仓库。2.网络的影响:数据仓库越来越依赖于网络进行数据的传输、数据的请求处理。3.操作型动态数据仓库:重在战术性决策支持,为执行工资的战略员工提供支持。(EMS-ESB(企业服务总线)追踪包裹)4.Web应用中的多智能体技术:利用合作伙伴的数据仓库或Internet系统中的多为数据集进行决策分析活动。1.2.3数据仓库的发展1.基于关系对象数据库的数据仓库1.3数据仓库的体系结构数据仓库体系结构建立在其概念基础之上,并根据商务智能的不同应用情况可以选择虚拟数据仓库结构、数据集市结构、单一数据仓库结构和分布式数据仓库结构。1.3数据仓库的体系结构图1.2数据仓库的概念结构

业务系统外部数据源数据准备区数据集市/知识挖掘库数据仓库数据库数据集市/知识挖掘库应用工具应用工具用户用户管理工具数据源1.3.1数据仓库的概念结构图1.2数据仓库的概念结构业务系统外部数数

从数据仓库的概念结构看,应该包含数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。第一章商务智能基本概念课件业务系统数据库数据仓库查询管理服务器用户图1.3虚拟数据仓库结构问题:这种数据库由于主要依靠原系统的运行,使原系统的运行效率大幅度下降;系统在操作过程中可能会涉及许多原系统,这些系统中的同一数据缺乏相同字段结构、编码和关键字,而且不同系统中数据的更新不一致,必然会产生在不同时间对同一查询结果的不同结果。

业务系统数据库数据仓库查询用户图1.3虚拟数据仓库结构问业务系统数据库数据仓库查询管理服务器用户1图1.4数据集市结构问题:数据集市的结构往往只能对某一主题进行操作,如果用户希望对两个以上主题操作,就要求用户对这两个主题的数据结构都了解,否则无法实现多主题的操作;在多主题数据仓库结构中往往产生大量的数据冗余。

主题1主题2用户2业务系统数据库数据仓库查询用户1图1.4数据集市结构问题业务系统数据库数据仓库查询管理服务器用户1图1.5单一数据仓库结构问题:这种体系结构需要构建一个统一的企业体系结构,而且数据存储过程中需要高昂的存储费用和维护费用。从数据仓库的应用情况看,许多企业大多采用单一的数据仓库,因为数据仓库中集成了企业的所有数据,使企业能够使用企业总体视图对企业总体决策提供帮助。

主题1主题2用户2数据仓库业务系统数据库数据仓库查询用户1图1.5单一数据仓库结构局部数据仓库局部数据仓库全局数据仓库局部数据仓库局部数据仓库站点A站点C总部站点B站点D图1.6分布式数据仓库结构问题:随着服务器的增加,最后可能会使网络中的数据传输不堪重负。此外,全局数据仓库与局部数据仓库中的数据冗余是分布式数据仓库的又一缺陷。局部数局部数全局数局部数局部数站点A站点C总部站点B站点D图1.4数据仓库的参照结构基本功能层:数据抽取,数据筛选、清洗,清洗后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新等操作进行管理。数据仓库环境支持层包含数据传输和数据仓库基础两部分。数据仓库的基本功能层数据仓库的管理层数据仓库的环境支持层图1.7数据仓库总体框架结构1.4数据仓库的参照结构基本功能层:数据抽取,数据筛选1.4.1数据仓库基本功能层1.数据仓库的数据源数据源数据准备区数据仓库数据集市/知识挖掘库数据仓库的数据存取与使用图1.8数据仓库功能结构业务数据历史数据办公数据Web数据外部数据数据源元数据图1.9数据源功能结构1.4.1数据仓库基本功能层1.数据仓库的数据源数据源业务数据:从组织目前正在运行的业务处理系统那里收集到,并保存在业务处理系统数据库中的数据。往往由关系型数据库、非关系型数据库或文件系统所构成。历史数据:长期的信息处理过程中所积累下来的数据,一般进行了脱机处理,以磁带或者其他脱机存储设施保存,对业务系统的当前运行不起作用。办公数据:组织内部的办公系统数据,这些数据分电子数据和非电子数据。电子数据方式保存的数据,主要指电子表格、数据库或业务数据:从组织目前正在运行的业务处理系统那里收集到,并保存文字处理文档等形式保存的数据。非电子数据主要是指那些文件、通知、会议纪要等文件。(OCR,文字识别软件)Web数据:企业通过Internet所获取的数据,可以通过企业的电子商务系统获取,也可以通过网络调查获取。外部数据:不为企业所操作、所拥有、所控制的数据。这些数据可以以电子形式或者非电子形式保存。数据源数据:属于元数据管理范围,在数据仓库中的所有数据都需要通过元数据管理层来进行管理、控制。文字处理文档等形式保存的数据。非电子数据主要是指那些文件、通2.数据准备区数据的标准化处理元数据抽取与创建数据的过滤与匹配数据的净化处理标明数据的时间戳确认数据质量图1.10数据准备区功能结构图2.数据准备区数据的标准化处理元数据抽取与创建数据的过滤与匹3.数据仓库功能结构数据集成与分解数据仓库的建模元数据浏览与导航数据概括与聚集数据的概括数据预算与推导数据的聚集元数据的创建数据翻译与格式化数据的调整与确认数据转换与映射建立结构化查询创建词汇表图1.11数据仓库的功能结构数据重整数据仓库创建元数据管理3.数据仓库功能结构数据集成与分解数据仓库的建模元数据浏览与4.数据集市/知识挖掘库过滤与匹配建立模型元数据浏览与导航集成与分割概括概括与聚集聚集元数据的抽取与创建预测与推导调整与确认标明时间维的数据源建立结构化查询创建词汇表图1.12数据集市的结构求精与重整数据集市/知识挖掘库创建元数据管理4.数据集市/知识挖掘库过滤与匹配建立模型元数据浏览与导航集数据集市/知识挖掘库的功能结构与数据仓库的结构极为相似,只是数据集市设立的目的在于为某一部门或某一领域的用户提供服务,而设立数据仓库的目的则在于为企业全体用户提供服务。因此,可将数据集市/知识挖掘库看成是数据仓库的一个逻辑上或物理上的子集,数据集市/知识挖掘库也包含了用户所需要查询的详细数据和概括性数据。从数据集市/知识挖掘库所包含的主题与数据量看,都比数据仓库少。数据集市/知识挖掘库的功能结构与数据仓库的结构极为相似,只是5.数据仓库的数据存取与使用数据仓库直接存取报表处理工具元数据管理与报表数据集市存取分析与决策支持工具数据集市重整业务建模与分析处理工具元数据的抽取与创建转换为多维结构数据挖掘工具创建局部存储图形工具图1.13数据仓库存取与使用结构数据仓库存取与检索数据仓库分析与报告元数据管理5.数据仓库的数据存取与使用数据仓库直接存取报表处理工具元数1.4.2.数据仓库的管理层1.数据仓库的数据管理层图1.14数据仓库的数据管理层数据抽取与新数据需求与查询管理数据加载、存储、刷新和更新系统安全性与用户授权管理数据归档、恢复及净化处理图1.14数据仓库的数据管理层1.4.2.数据仓库的管理层1.数据仓库的数据管理层图1.12.数据仓库的元数据管理层图1.15数据仓库的元数据管理层数据仓库、数据集市/知识挖掘库和词汇表管理元数据抽取、创建、存储和更新管理预定义的查询、报表和索引管理刷新与复制管理登录、归档、恢复与净化管理图1.15数据仓库的元数据管理层2.数据仓库的元数据管理层图1.15数据仓库的元数据管理1.4.3.数据仓库的环境支持层1.数据仓库的数据传输层图1.16数据仓库的数据传输曾数据传输和传送网络客户-服务器代理和中间件数据复制系统数据传输的安全和保障系统图1.16数据仓库的数据传输层1.4.3.数据仓库的环境支持层1.数据仓库的数据传输层图12.数据仓库的基础层系统管理工作流程管理存储系统处理系统图1.17数据仓库的基础层2.数据仓库的基础层系统管理工作流程管理存储系统处理系统图11.5数据挖掘技术概述1.5.1数据挖掘的发展1.超大规模数据库的出现2.先进的计算机技术3.经营管理的实际需要4.对数据挖掘的精深计算能力1.5数据挖掘技术概述1.5.1数据挖掘的发展1.超大规模数决策需要信息与知识情报阶段:确定问题设计阶段:找出解决方案选择阶段:选出解决方案实施阶段:实施方案返回情报阶段返回设计阶段返回选择阶段决策过程的四个阶段决策的过程发现那些需要引起注意的征兆并加以解释,如

销售滑坡、生产成本猛涨、老顾客对新产品的需求、新竞争对手带来的威胁等。最优方案由多种因素决定,如成本、实施的难易程度、对员工的要求、方案实施的时间顺序等。执行选中的方案,检测实施的结果,并作出必要的调整。决策需要信息与知识情报阶段:确定问题设计阶段:找出解决方案选

高效消费者响应(ECR)

及时、准确和无纸的信息流通

流畅,不间断的产品流通,满足消费者的需求

供应商零售商商店

消费者

ERP/CM企业资源计划管理品类管理

SCM供应链管理CRM客户关系管理POS销售时点系统

商业企业信息系统高效消费者响应(ECR)及时、准确和无纸的数据爆炸,知识贫乏

苦恼:淹没在数据中,不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济POS人口统计生命周期数据爆炸,知识贫乏苦恼:淹没在数据中,不能制定合适的决策1.5.2数据挖掘的定义各行业电子商务网站算法层商业逻辑层行业应用层商业应用商业模型挖掘算法CRM产品推荐客户细分客户流失客户利润客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析…WEB挖掘网站结构优化网页推荐商品推荐。。。基因挖掘基因表达路径分析基因表达相似性分析基因表达共发生分析。。。银行电信零售保险制药生物信息科学研究。。。相关行业1.5.2数据挖掘的定义各行业电子商务网站算商行商业应用商业数据挖掘数据库技术统计分析机器学习模式识别算法其它。。。可视化技术数据挖掘数据库技术统计分析机器学习模式识别算法其它。。。可视11December2022DataMining:ConceptsandTechniques147数据挖掘与商务智能IncreasingpotentialtosupportbusinessdecisionsEndUserBusinessAnalyst

DataAnalystDBADecision

MakingDataPresentationVisualizationTechniquesDataMiningInformationDiscoveryDataExplorationStatisticalSumma

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论