商务智能方法概论_第1页
商务智能方法概论_第2页
商务智能方法概论_第3页
商务智能方法概论_第4页
商务智能方法概论_第5页
已阅读5页,还剩216页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务智能原理与方法

—参考文档—2023年1月13日机密目录引言商务智能过程数据仓库商务智能应用构建商务智能环境关联规则分类分析聚类分析概念描述目录引言商务智能简介商务智能与信息社会商务智能与企业管理商务智能与数据挖掘商务智能与新技术融合小结及练习商务智能的概念通常认为是于1996年由加特纳集团(GartnerGroup)提出的。商务智能是一门新兴的边缘学科汇集了来自数据库、管理信息系统、统计学、人工智能中的机器学习与模式识别等多学科的成果,具有很强的生命力。公司定义IBM利用已有的数据资源作出更好的商业决策,它包括数据访问、数据和业务分析,以及发现新的商业的机会。这说明商务智能的实质是从数据中有效地提取信息,从信息中发现知识,为商务决策和战略发展。GartnerGroup商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。微软是任何尝试获取、分析企业数据以更清楚地了解市场和客户、改进企业流程、更有效地参与竞争的努力,以便在正确的时间向正确的决策者提供正确的信息。Oracle商务智能就是在核实的时间提供核实的数据访问以制定正确的决策课本商务智能是一个从大规模(海量)数据中发现潜在的、新颖的、有用的知识的过程,旨在支持组织的业务运作和管理决策。企业对信息资源开发与利用要求的提升,促使了商务智能的发展。1、数据应当得到有效的管理和组织,才能通过系统化得应用,服务于组织的管理和决策信息资源的开发与利用包含两个层面的含义2、对信息资源的利用存着一个由浅入深,由单一到综合的过程事务处理(OLTP)分析处理(OLAP)知识发现(KDD)On-LineTransactionProcessing联机事务处理系统On-LineAnalyticalProcessing联机分析处理系统KnowledgeDiscoveryinDatabases对数据进行深入的,智能化的分析,寻找潜在的未来知识别名:数据挖掘、知识抽取、信息发现、数据考古,最常用的术语是“知识发现”和“数据挖掘”。相对来讲,数据挖掘主要流行于统计界,数据分析、数据库和管理信息系统界;而知识发现则主要流行于人工智能和机器学习界。KDD

实现数据的电子化采集、交换和处理。用户群:通常层级较低数据:当前的功能:日常处理OLTP要求对数据进行多维度的综合整理用户群:决策层数据:历史的功能:分析决策OLAP超市前端+后台运营OLAP和KDD又有很多不同的地方数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。传统的查询和报表工具是告诉你数据库中都有什么(whathappened),OLAP则更进一步告诉你下一步会怎么样(Whatnext)、和如果我采取这样的措施又会怎么样(Whatif)。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。OLAP分析过程在本质上是一个演绎推理的过程。OLAPKDD但是如果分析的变量达到几十或上百个,那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。商务智能概念中通常有四个要素:大规模数据,数据驱动,潜在新颖性和知识有用性大规模数据:商务智能是从海量的数据中发现知识,因此数据挖掘的效率是重要的考量。数据驱动:由于数据规模的缘故,传统的建模假设都难人工穷举数据变量和属性组合。潜在新颖性:商务智能通过数据挖掘所获得的知识是非显见的,而且是新颖的。知识有用性:通过商务智能得到的知识是用于业务运作和管理决策的。也就是说,所发现的知识的有用性通常与应用环境有关。目录引言商务智能简介商务智能与信息社会商务智能与企业管理商务智能与数据挖掘商务智能与新技术融合小结及练习处在信息社会的一个重要标志性特征就是信息融合,这主要体现在两点:技术透明性和技术渗透性技术透明性技术渗透性信息融合两个要点需要和人联系,第一首先想到的是电话,而不是信件我们并不需要了解3G,4G的网络技术由信信息息技技术术进进步步和和广广泛泛应应用用驱驱动动的的技技术术融融合合不不断断深深化化,,从从两两个个方方面面对对于于人人们们的的社社会会生生活活和和经经济济活活动动产产生生影影响响一方方面面,,企企业业中中许许多多传传统统的的业业务务决决策策问问题题逐逐渐渐变变成成信信息息决决策策问问题题另一一方方面面,,信信息息产产品品及及其其应应用用随随着着技技术术创创新新呈呈现现出出越越来来越越丰丰富富的的形形态态和和特特征征商务务智智能能是是信信息息社社会会的的产产物物---信息息社社会会的的技技术术融融合合使使技技术术透透明明性性和和渗渗透透性性非非常常高高,,因因而而为为商商务务智智能能的的发发展展提提供供了了沃沃土土。。商商务务智智能能比比传传统统的的业业务务报报告告在在内内容容以以及及时时效效性性上上都都有有长长足足的的进进步步传统业务报告数据充分而知识匮乏1传统报告不能满足用户需求天气预报:每天只告诉你历史数据对你来说有用么?2传统分析工具的整合能力有限用户被限定在数据对象中,而不能进一步分析和整合3信息技术及应用的推广大容量数据存储,互联网,并行处理,云技术4商务智能发展起来的四种推手商务务智智能能是是信信息息社社会会繁繁荣荣的的推推动动力力—从传传统统的的商商业业领领域域逐逐步步拓拓展展到到政政务务领领域域、、教教育育领领域域、、医医疗疗领领域域等等其其他他各各领领域域商业领域

政务领域教育领域医疗领域其他各领域引言言商务务智智能能简简介介商务务智智能能与与信信息息社社会会商务务智智能能与与企企业业管管理理商务务智智能能与与数数据据挖挖掘掘商务务智智能能与与新新技技术术融融合合小结结及及练练习习目录录商务务智智能能可可以以在在企企业业的的各各个个层层面面发发挥挥作作用用Title销售管理领域营销领域客户关系管理财务分析人力资源管理供应链管理商务务智智能能对对企企业业的的战战略略决决策策也也同同样样具具有有非非常常重重要要的的影影响响,,这这种种影影响响体体现现在在3个方方面面::公公司司战战略略、、业业务务战战略略和和职职能能战战略略。。业务战略公司战略职能战略商务智能可以进行企业外部因素分析:外部环境分析、行业状况分析、竞争对手分析等商务智能可以根据公司各战略业务单元的经营业绩和经营定位来选择合格的投资组合战略商务智能可以在分析企业内部因素(劳动力,成本,技术,竞争等)的基础上为职能战略提供科学的决策依据实例例::商商务务智智能能在在服服装装行行业业的的应应用用亚洲洲60%欧洲洲40%常规规款式式的的时时装装和和童童装装量小且且流流行行性性强强的的服服装装高效效供供应应链链快速速反反应应供供应应链链IT驱动动设计计实时时销销售售数数据据顾客喜好流行趋势传至采采购购部部➠➠采采购购确确定定生生产产数数量量➠➠供供应应商商安安排排生生产产➠➠送送至至德德国国汉汉堡堡物物流流中中心心分分类类➠➠快快速速配配送送到到全全球球门门店店归纳纳而而言言,,商商务务智智能能对对于于企企业业至至少少有有四四个个方方面面的的作作用用理解解业业务务改善善关关系系可以对各项业务进行准确的评估,帮助理解业务的驱动因素,识别对业务产生影响的关键因素,积极推动业务发展,培养良好发展态势提供有关业务状况的有用信息,提高企业知名度,改善全信息链的效率衡量量绩绩效效创造造商商业业机机会会从企业各个应用该系统中提取各种基础绩效指标与关键绩效指标,对员工的工作绩效进行追踪、衡量和评价。以商务智能为基础的企业绩效管理成为欧美企业最热门的管理和信息技术课题之一掌握各种商务数据和信息的企业可以出手这些信息而获利。(咨询)商务务智智能能又又是是如如何何协协助助企企业业进进行行管管理理的的呢呢??通通常常我我们们认认为为有有4种方方式式::基基于于目目标标的的管管理理,,基基于于异异常常的的管管理理,,基基于于事事实实的的管管理理和和基基于于智智能能协协同同的的管管理理基于于智智能能协协同同的的管管理理::实实现现企企业业内内部部与与外外部部资资源源的的协协同同基于于异异常常的的管管理理::检检测测实实际际指指标标与与计计划划目目标标之之间间的的偏偏差差基于于目目标标的的管管理理::能能计计算算跨跨组组织织的的绩绩效效目目标标241基于于事事实实的的管管理理::将将企企业业目目标标与与事事实实结结合合3需要要说说明明的的是是,,商商务务智智能能不不只只是是一一套套软软件件和和工工具具,,同同时时也也是是建建立立在在灵灵活活性性、、响响应应速速度度和和软软/硬件件基基础础上上的的一一套套业业务务运运作作的的方方法法,,这这也也是是现现代代商商务务智智能能的的核核心心理理念念。。商务务智智能能的的商商业业价价值值主主要要有有三三个个方方面面的的体体现现::省省钱钱,,提提高高效效率率和和提提高高竞竞争争力力省钱钱提高高竞竞争争力力省时时,,省省力力((提提高高效效率率)商务务智智能能可可以以给给企企业业带带来来三三个个方方面面的的好好处处需要要说说明明的的是是,,商商务务智智能能作作为为对对信信息息的的提提炼炼和和知知识识的的积积累累,,是是企企业业的的一一项项重重要要的的隐隐形形资资产产,,不不能能简简单单的的用用传传统统的的指指标标来来衡衡量量。。((其其实实,,对对于于很很多多企企业业来来说说,,这这就就是是资资产产!!比比如如投投行行,,比比如如券券商商等等等等))引言言商务务智智能能简简介介商务务智智能能与与信信息息社社会会商务务智智能能与与企企业业管管理理商务务智智能能与与数数据据挖挖掘掘商务务智智能能与与新新技技术术融融合合小结结及及练练习习目录录数据据挖挖掘掘是是商商务务智智能能的的核核心心技技术术,,从从认认知知层层次次来来看看,,数数据据挖挖掘掘的的基基本本目目标标是是预预测测((Prediction)和和描描述述((description)从认认知知层层面面看看数数据据挖挖掘掘的的基基本本目目标标预测:利用数据中已知的变量和字段来确定一些感兴趣的未知或未来的值描述:集中于寻找一些人类能够理解的模式来对数据进行刻画通常常我我们们可可以以根根据据知知识识类类型型将将数数据据挖挖掘掘划划分分为为6类时序数据分析其他模式识别和统计分析方法概念描述分类和预测关联规则聚类数据挖掘六种分类1234561归纳或简约,通过将数据进行一般化、汇总或将可能矛盾的数据特征进行说明,来寻求对一个数据自己的简约的描述2将一组个体按照某种标准进行汇总,形成新的类,目的是同一类的距离尽可能的小,不同类的距离尽可能的大3发现数据之间的关联性、相关性和因果性。比如:港口物流繁荣与腹地经济增长关系4一方面包括根据按类进行划分的属性值将数据进行分类,瓦举出关于每一类数据的描述或模型;另一方面包括根据已有的信息和模式来预测未来的或位置的属性值5统计方法的直接应用,包括:趋势和偏差分析,用户定义的模式匹配分析及周期数据分析6回归分析,相关分析数据据挖挖掘掘系系统统的的体体系系结结构构如如下下图图所所示示数据据文文件件数据据库库数据据仓仓库库数据据挖挖掘掘引引擎擎模式式评评价价模模块块可视视化化工工具具用户知识识库过滤滤清理理整合合知识识库库(KnowledgeBase)是知知识识工工程程中中结结构构化化,,易易操操作作,,易易利利用用,,全全面面有有组组织织的的知知识识集集群群,,是是针针对对某某一一(或某某些些)领域域问问题题求求解解的的需需要要,,采采用用某某种种(或若若干干)知识识表表示示方方式式在在计计算算机机存存储储器器中中存存储储、、组组织织、、管管理理和和使使用用的的互互相相联联系系的的知知识识片片集集合合通过过应应用用兴兴趣趣度度标标准准来来精精炼炼、、聚聚集集发发现现的的模模式式,,它它还还会会评评价价存存储储在在知知识识库库中中的的阈阈值值。。次次模模块块有有时时被被集集成成到到数数据据挖挖掘掘模模块块中中。。数据据挖挖掘掘系系统统与与用用户户的的通通信信接接口口。。用用户户通通过过它它来来制制定定数数据据挖挖掘掘计计划划、、提提供供挖挖掘掘所所需需要要的的信信息息、、浏浏览览数数据据挖挖掘掘的的结结构构、、评评价价挖挖掘掘的的模模式式。。包括括一一系系列列功功能能模模块块,,每每种种模模块块还还包包含含多多种种算算法法。。数据据挖挖掘掘时时数数据据驱驱动动的的,,它它并并不不始始于于一一个个有有待待证证明明的的具具体体逻逻辑辑模模式式,,而而始始于于复复杂杂的的海海量量数数据据,,利利用用强强大大的的分分析析工工具具和和特特定定的的知知识识提提取取方方法法,,从从数数据据出出发发,,对对各各种种模模式式进进行行匹匹配配,,经经过过筛筛选选,,获获得得潜潜在在的的、、新新颖颖的的、、有有用用的的知知识识模型驱动数据驱动业务务处处理理信息息查查询询报表表生生成成分析析处处理理多维维分分析析数据据仓仓库库知识识发发现现数据据挖挖掘掘智能能决决策策模型型与与数数据据的的作作用用数据据挖挖掘掘与与传传统统的的数数据据分分析析的的本本质质区区别别在在于于数数据据挖挖掘掘时时在在没没有有明明确确假假设设的的前前提提下下去去挖挖掘掘信信息息、、发发现现知知识识。。数数据据挖挖掘掘所所得得到到的的知知识识具具有有先先前前未未知知、、潜潜在在有有效效和和可可使使用用的的特特征征。。引言商务智能能简介商务智能能与信息息社会商务智能能与企业业管理商务智能能与数据据挖掘商务智能能与新技技术融合合小结及练练习目录录新兴技术术与新兴兴应用的的不断涌涌现,创创造了一一个动态态变化的的商务环环境,在在这样的的形势下下,商务务智能领领域的创创新业不不断加速速,并越越来越与与企业系系统、电电子商务务系统、、知识管管理系统统、web2.0等各种类类型的技技术及应应用融合合在一起起(1)与新技术术融合((2)与新技术术融合(3)与新技术术融合(4)与新技术术融合(5)引言商务智能能简介商务智能能与信息息社会商务智能能与企业业管理商务智能能与数据据挖掘商务智能能与新技技术融合合小结及练练习目录录小结在经济管理活动中,数据代表着对现实实际及业务活动的事实性记录;信息可以被理解为一数据的形式存在的,对现实世界语义的反应;知识代表着被组织起来用于解决问题的信息;智能则意味着利用知识来获取效益的能力1商务智能随着internet的高速发展和企业信息化的不断深化而产生的,是信息社会高度发展的产物,同时,商务智能的出现和发展也极大地推动了信息经济的发展和信息社会的进步。2商务智能应用已经对商务环境及现代企业的经营、管理活动产生了深刻的影响。其与新技术的融合,日益显示出强大生命力和巨大商业价值。4商务智能是从大量数据中提取出未知的、潜在有用的、新颖的知识的过程,旨在支持组织的业务运作和管理决策。数据挖掘时商务智能的技术核心。常见的商务智能及数据挖掘的方法有概念描述、聚类、关联规则、分类和预测、时序数据分析及其他一些模式识别和统计分析方法。3目录录引言商务智能能过程数据仓库库商务智能能应用构建商务务智能环环境关联规则则分类分析析聚类分析析概念描述述商务智能能过程是是一个多多步骤的的处理过过程,一一般可分分为六个个步骤::问题定定义、数数据选择择、数据据预处理理、数据据转化、、数据挖挖掘和知知识解释释/评估数据转化后的的数据预处理后后的数据据模式知识目标数据据123451数据选择2数据预处理3数据转化4数据挖掘5知识解释/评价一开始是是在基本本业务数数据层面面进行数数据处理理,用于于对日常常运作的的信息处处理和汇汇总。进进一步,,在业务务数据库库的基础础上,通通过数据据抽取、、汇总和和转换形形成数据据仓库,,并进一一步进行行分析。。在数据据仓库的的基础上上,可以以采用数数据挖掘掘技术进进行知识识发现。。商务智能能过程数据库与与事物处处理数据仓库库与在线线分析处处理知识发现现与可持持续竞争争优势小结及练练习目录录数据管理理经历了了三个阶阶段:自自由管理理,文件件管理和和数据库库管理自由管理理文件管理理数据库管管理自由管理理和文件件管理方方式在数数据存储储结构上上的标准准化程度度很低,,不足以以支撑数数据的综综合性管管理和应应用,而而数据库库是以一一定的组组织方式式存储在在一起的的相关数数据的集集合。数据库是“按照照数据结结构来组组织、存存储和管管理数据据的仓库库”,数据据库概念念的两个个主要目目标是减减少数据据冗余((数据共共享性))和获得得数据独独立性。。获得数据独立性:数据独立性指两个方面,即数据与数据间的独立性及数据与处理间的独立性。前者指对于某些数据的更新,不影响与其不相关的其他数据,后者是指对某些数据的更新,不影响处理该数据的应用程序。减少数据冗余:数据冗余指数据重复,即同样的数据存储在多个文件中,冗余数据意味着相同事实的重复,如果对这些相同的事实进行多处修改时发生错误,使它们的值不等时,很难判断哪个值是正确的。数据库概念主要目标数据库管管理系统统(DBMS)是一种种操纵和和管理数数据库的的软件,,用于建建立、使使用和维维护数据据库。它它对数据据库进行行统一的的管理和和控制,,以保证证数据库库的安全全性和完完整性。。用户通通过DBMS访问数据据,管理理员通过过DBMS修改数据据程序程序程序模式维护护查查询数数据维维护事物管理器器“查询”处理器存储管理器数据元数数据DBMSDBMS以特定的的结构化化方式来来管理和和保存数数据DDL编译器DML编译器嵌入型DML预编译器查询运行行核心程程序授权和完完整性管管理器事物管理器器文件管理理器缓冲区管理器器使用数据据库环境境来管理理数据,,具有很很多方面面的优势势123456集中管理理数据降降低系统统复杂性性剔除包含含复杂数数据的孤孤立文件件减少数数据的冗冗余和不不一致通过集中控控制来管管理数据据的混乱乱将数据逻逻辑视图图和物理理视图分分开,降降低程序序和数据据间的依依赖性允许对信信息进行行定制查查询,增增强了适适应性提升了信息息存取和和利用的的可能性性OLTP(OnlineTransactionProcessing)在线事事物处理理,也称为为面向交交易的处处理系统统,其基基本特征征是顾客客的原始始数据可可以立即即传送到到计算中中心进行行处理,,并在很很短的时时间内给给出处理理结果OLTP应用领域记录来自销售点终端或通过网站输入的订单(在线订票)当库存量降到指定级别时,订购更多的货物在制造厂中将零部件组装为成品时对零部件进行跟踪。记录雇员数据OLTP特征支持大量量并发用用户定期期添加和和修改数数据反映随时时变化的的单位状状态面对的是是事物操操作人员员和底层层管理人人员处理的数数据高度度结构化化,涉及及的事务务比较简简单,访访问路径径已知商务智能能过程数据库与与事物处处理数据仓库库与在线线分析处处理知识发现现与可持持续竞争争优势小结及练练习目录录OLTP解决业务务自动化化和信息息查询的的基本需需求,但但在资源源开发和和利用的的分析处处理层面面上则无无能为力力,这样样就要求求建立一一个面向向分析的的,集成成保存大大量历史史数据的的新型数数据管理理机制-----数据仓库(DW)信息处理的任务包括信息获取信息传递(信息获取反过程)信息创造(涉及到对信息进行加工)信息存储信息通信事物处理和分析析处理都是信信息创造的过过程,事物处处理时统计报报表和数据查查询,分析处处理则是对信信息的分析,,涉及到信息息的切分,多多维化,前推推和回溯,以以及回答what-if问题。常见的的分析处理应应用如多维视视图,预测,,敏感性分析析和成本控制制等,由于这这类应用随着着网络的发展展而更为强大大,因此称之之为在线分析析处理(OLAP)OLAP与OLTP之间的关系客户数据库产品数据库数据仓库路由器数量改改变改变产品价格格添加供应商改变还款期限限数据数据是否有替代品品可用库存是否可控控投资是否达到到年度预算数据仓库是把把一个组织中中的历史数据据收集到一个个中央仓库中中以便于处理理,是当今信信息管理中的的主流趋势之之一,是OLAP应用的环境和和基础。相比比传统的数据据库,数据仓仓库具有四个个重要特征数据仓库根据主题域来组织和提供数据,使用标准化的面向业务的数据并不可行,根据主题的数据必须是多种多样的,并且是基于决策者的角度来组织和提供数据的。面向主题面向事物处理的操作型数据库,为了提高应用程序访问数据的效率是面向事物处理任务,但造成系统之间相互独立。而数据仓库中的数据是对原有分散的数据库进行数据抽取、清理的基础上经过系统加工、汇总和整理后实现数据的集成,消除了源数据中的不一致性。集成的操作性数据库中的数据是实时更新的,而数据仓库中的数据主要是做决策分析用的,所涉及的数据通常是用作查询的,很少涉及修改和删除,一般都是加载和刷新。相对稳定的操作性数据库主要关心当前某一时间段内的数据。数据仓库中的数据通常包含历史信息,数据仓库的作用就是应用大量的历史数据,通过分析,判断并找到某些模式或预测趋势,来作为当前决策的支持源。反应历史变化将OLAP应用构建于数数据仓库,而而不是数据库库上主要是基基于三个技术术原因计算机处理速速度的大幅度度提升、存储储及处理成本本的大幅度降降低,是保障障数据仓库能能够有效运行行的物理基础础。决策分析理论论的完善和应应用,使数据据仓库中的分分析技术能够够有效实现,,这样分析人人员能够得到到自己想要的的信息。生成多角度,,多层次和不不同粒度的分分析结构,人人们无法判预预测或控制决决策数据的存存取路径。原因二原因三原因一在当下的竞争争环境下,企企业为了分析析,定位,拓拓展新的市场场,必须对目目标进行多维维分析,OLAP是多维数据分分析工具的集集合。例子:以鲁东东商业银行在在2000年至2005年之间的贷款款数据进行的的多维分析案例9张表间的关系系及各表包含含的字段表为分析需求求分析主题鲁东商业银行贷款金额分析分析的数值(事实)贷款总额、正常贷款额以及不良贷款额。分析的角度(维度)信贷机构、时间、贷款类别、贷款期限和经营状况。分析粒度(维度级别)信贷机构:市行、支行和管辖机构。时间:年、季度和月。贷款类别:贷款的类别。贷款期限:贷款期限、贷款期限明细。经营状况:经营状况。案例构造事实表的的视图:分析数据库中中的数据表间间关系案例构建数据仓库库和多维数据据集连接数据源创建数据仓库建立多维数据集选择事实数据据表建立“信贷机机构”维度建立“借款日日期”维度建立“贷款类类别”维度建立“贷款期期限”维度建立“经营状状况”维度完成多维数据据集的建立案例使用多维数据据集浏览器查查看数据案例替换网格中的的维度:“借借款日期”替替换“贷款类类别”案例添加“贷款期期限”维度案例下钻“借款日日期”维度。。下钻是上卷的逆操作,它它是沿着维的的层次向下,,查看更详细细的数据案例上卷“借款日日期”维度。上卷是沿着维的层层次向上聚集集汇总数据案例切片:筛选经经营状况为““亏损”的企企业。当显示维和上下下文维的参与与度之和等于于2时,称之为切片(一个维维度固定,根根据其他维度度变化来看分分析)案例切块:筛选““经营状况””为“亏损””的企业、““贷款期限””为“短期贷贷款”。当当显示维和上上下文维的参参与度之和大大于2时称之为切块案例通过实例可知知,OLAP主要实现如下下几种功能通常包含交互式查询和对数据的分析2提供分析的建模功能3生成概括数据和聚集,层次,以及在每一维交叉点上对聚集和概括级别的审计4支持功能模型以进行预测、趋势分析和统计分析5检索并显示二维或三维表格、图表或图形化的数据6快速响应查询7OLAP主要实现功能能给出数据仓库中数据的多维逻辑视图1具有多维数据存储引擎,按阵列存储数据,这些阵列是商业维的逻辑表示8商务智能过程程数据库与事物物处理数据仓库与在在线分析处理理知识发现与可可持续竞争优优势小结及练习目录随着企业发展展,其对信息息系统统计决决策支持的要要求越来越高高,需要更多多的知识来有有效支持决策策,以获得竞竞争优势,这这对数据分析析和利用提出出更高的要求求.有些时候数据据挖掘任务一一无所获,有有时候能发现现金砖。下图图为知识发现现VSOLAP数据挖掘工具数据仓库80%南区老年客户是忠实客户期限超过3个月的10000以上的应收账款84%可能会形成坏账65%购买名牌产品的30岁以下女性通常有80%可能购买每月新品知识发现OLAP上个月有多少产品销售额超过10000?库存降低10%后管理成本是多少?达到盈亏平衡的最低折扣是多少?1231客户关系管理理部门2财务部门3销售部门案例分析:背背景:360搜索会通过安全卫士和浏览器将用户平时浏浏览网页的信信息反馈给360的搜索爬虫服服务器,然后后再由爬虫对对相关信息进进行抓取,这这就可能会造造成许多网站内部系统等暴露在在搜索结果里里,引发敏感感数据的泄露露在360浏览器的隐私私策略中,注注明了360安全浏览器会会在您的计算算机上记录有有关浏览历史史记录的实用用信息。这些些信息包括::浏览历史史记录、您访访问过的大部部分网页的的的屏幕截图、、Cookie或网络存储数数据、访问网网站时留下的的临时文件、、地址栏下拉拉列表、最近近关闭的标签签列表、关闭闭窗口时的未未关闭标签列列表、使用内内置安全下载载器的下载记记录、浏览器器插件中保存存的内容等。。数据挖掘增强强企业竞争优势虚假案例商务智能过程程数据库与事物物处理数据仓库与在在线分析处理理知识发现与可可持续竞争优优势小结及练习目录小结企业中的数据资源的开发和利用一般分为事物处理、分析处理和知识发现三个层次。事物处理能回答“发生了什么”的问题,分析处理回答“为何会发生”的问题,而知识发现回答的是“将会发生什么”的问题1商务智能是一个多步骤的处理过程,一般分为:定义问题,数据选择,数据预处理,数据转化,数据挖掘,知识评估,一般来说,商务智能是事务处理,分析处理,知识发现三个阶段的整合。2通过商务智能过程帮助企业决策者及时地了解自己的客户、了解竞争对手、了解自己的现状、了解发展的机会,一再激烈的竞争环境中获得并保持竞争优势。4事务处理的特点在于事务处理量大,但事务处理内容比较简单且重复率高。分析处理则可以利用多种处理手段,对数据仓库所提供的数据进行面向管理决策的统计、展示和预测。数据挖掘在信息资源高度综合集成的基础上,利用新型的海量数据分析方法,发现潜在的,新颖的,有助于管理决策的规律和知识。3目录引言商务智能过程程数据仓库商务智能应用用构建商务智能能环境关联规则分类分析聚类分析概念描述数据仓库数据处理技术演演进数据仓库过程与与体系结构数据集成、提取取与转换数据仓库开发、、管理与安全全小结及练习目录数据分析与处处理技术的发发展历经了数数据收集与数数据库创建、、数据管理((包括数据存存储和数据检检索、数据库库事务处理))、数据分析析和理解(包包括数据仓库库和数据挖掘掘)三个不同同的发展阶段段60’70’80’90’00’数据收集和数据据创建原始的文件处理理利用文件系统统,生成各种种报告数据库管理系系统网络和关系型型数据库系统统数据建模工具索引和数据组织织技术用户界面查询优化OLTP数据仓库和数数据挖掘数据仓库和OLAP技术数据仓库和知识识发现新一代的信息息系统数据库技术发发展的轨迹随着数据库技技术的不断发发展及数据库库管理系统的的广泛应用,,数据库的数数据量和规模模也急剧增长长,单纯的数数据查询和基基本分析已经经远远不能满满足企业管理理人员及决策策者的需求,,数据仓库和和数据挖掘的的出现,为此此注入新的活活力报表统计查询模式规则关系传统数据分析发现数据√为了服务决策策和科研工作作人工智能大型数据库机器学习数据挖掘应用应用数据挖掘实际际上是信息处处理基础逐渐渐发展和演进进到一定程度度而涌现出的的新技术和方方法。数据挖挖掘的核心智智能决策技术术历经数十年年的发展,其其中包括数理理统计、人工工智能和机器器学习等随着神经网络络技术的形成成和发展,人人们的注意力力逐渐转向知知识工程。知知识工程不同同于机器学习习,它直接为为计算机输入入已被代码化化的规则,计计算机通过使使用这些规则则来解决问题题。专家系统统就是使用这这种规则的成成果人们试图通过过某些方法来来实现自动决决策支持,当当时机器学习习是关注的焦焦点。机器学学习就是通过过已经解决的的问题来做范范例,用机器器来学习范例例并进行推理理,总结规则则,这些规则则具有通用性性。海量数据搜索索,多处理器器计算机基础础技术发展成成熟及智能化化的决策支持持技术的发展展,推动着数数据挖掘方法法发展成为成成熟、稳定且且易于理解和和操作的技术术。电子数据处理理初期-机器学习知识工程高级智能一些大的数据据分析公司和和数据库厂商商都推出了自自己的数据挖挖掘工具,以以IBM,Oracle,SAS,SPSS公司为例EnterpriseMinerIntelligentMinerClementineDarwin数据挖掘技术术除了在市场场分析、政府府管理、健康康医疗、科学学研究推动之之外,还有四四个主要的技技术原因也激激发了数据挖挖掘的开发、、应用和研究究的兴趣I超大规模数据据库的出现,,如商业数据据仓库和计算算机自动收集集的数据记录录II先进的计算机机技术,如更更快和更大的的计算能力和和并行体系结结构III对巨大亮数据据的快速访问问IV对数据应用精精神统计方法法计算的能力力四个技术原因因数据仓库数据处理技术演演进数据仓库过程与与体系结构数据集成、提取取与转换数据仓库开发、、管理与安全全小结及练习目录数据仓库是计计算机和数据据应用发展到到一定阶段的的必然产物是是,其目的是是建立一个体体系化的数据据存储环境,,将分析决策策所需要的大大量数据从传传统的操作环环境中分离出出来,使分散散、不一致的的操作数据转转换成集成、、统一的信息息数据仓库中存在两种主要数据原始数据由原始数据导导出的,适合合分析的导出出型数据这种转化过于简简单,远远不不能满足各种种分析的需求求,随着数据据载入量增大大,数据仓库库的规模逐渐渐变得庞大。。分析工作不不能指望单一一的数据仓库库,有必要建建立分层的数数据仓库体系系数据仓库体系化化环境操作型环境数据仓库局部仓库个人仓库基层管理全局级部门级个人级数据从操作型型环境经过综综合整理进入入全局级数据据库;企业中中的有关部门门再从全局数数据仓库中组组织适合自己己特定需求的的数据,建立立各自的局部部仓库;个人人从全局数据据库中或局部部仓库中提取取所需数据,,即个人仓库库。数据的全全局级数据仓仓库中的集成成性、一致性性,为部门级级和个人级的的数据提取工工作赢得了效效率。知网OLAP数据仓库通常常采用三层体体系机构:操操作环境层(包含整个企业内内有关业务的的OLTP系统和一些外外部数据源),数据仓库层层(把操作环境层的的相关数据进进行提取、清清洗和转换所所形成的数据据层次)和业务操作层层(包含各种数据据分析工具)数据集市外部数据源数据仓库多维数据模型元数据查询/报告数据挖掘业务操作层数据仓库层操作环境层数据仓库的实实现过程主要要包含四个部部分:数据仓仓库的设计与与建模、数据据集成、数据据存储和管理理、数据分析析和展现数据集成数据仓库中的数据来自于不同的系统,这些系统的硬软件环境各不相同,造成数据结构各异,提取这些系统中的数据,进行净化、整理、综合及概括,转化为统一的格式加载到数据仓库中。数据存储及管理数据仓库的存取可以选用多维数据库,也可以选用关系型数据库及其他的特殊存储方式。要保存数据的安全性、完整性及一致性,同时还有有复杂的分析查询和高效能。数据分析和展现OLAP是一项分析处理技术,它从企业的数据集合中收集信息,并运用数学运算和数据处理技术,灵活、交互式地提供统计、趋势分析和预测报告。通过OLAP工具对数据仓库中的数据进行多维分析,汇总,形成图表或报表的形式。数据仓库的设计与建模设计是迭代方式进行的。数据模型是采用迭代方式建立数据仓库的关键。数据模型其可以分为为高层建模、、中间层建模模和底层建模模三个层次。。高层建模中中的实体和企企业的主要主主题域相关,,然后将高层层模型中表示示出的每个主主要主题域或或实体扩展为为一个中间层层模型,最后后基于中间层层模型创建物物理数据模型型高层建模:ER模型*,实体体关系层底层建模:物理理模型中间层建模::数据项集*实体联系模型,是概念数据模型型的高层描述述所使用的数数据模型或模模式图,它为为表述这种实实体联系模式式图形式的数数据模型提供供了图形符号号随着数据仓仓库的发展展,动态数数据仓库备备受关注,,动态数据据仓库基于于传统数据据仓库架构构和技术原原理,它是是对传统数数据仓库的的补充和扩扩展,不禁禁包含复杂杂的战略性性的决策支支持,还包包括战术性性的决策支支持和事件件的自动检检测与处理理为了寻求决策的的有效性和和连续性,,企业会趋向于采取取自动决策代替人人来决策。。是目前数据仓仓库技术发发展的第五个阶段。第四阶段就就是动态数数据仓库。数据仓库发发展的第三三阶段就是是提供数据据采集工具具,以便利利用历史资资料创建预测模型.决策者关心心的重点从单纯的“发发生了什么么”转向到“为为什么会发发生”,这个阶段段数据仓库库所做的工工作主要是是分析五四三二一利用批处理理技术,把不同来源的信息息集成到单一的仓库中,,形成报表数据仓库技技术自诞生生至今,经经历了五个个发展阶段段战略性决策策战术性决策策动态数据仓仓库的几个个要点问题题传统的数据据仓库技术术重点用于于支持企业业决策者的的战略智能能,它对实实时性的要要求相对低低一些,而而动态数据据仓库技术术则重点用用于支持企企业一线员员工的运营营智能分析析,它对数数据的实时时性要求更更高。动态数据仓仓库有两大大特点一是动态访访问。它是是指一线用用户可以动动态,或者者说实时地地访问他所所需要的信信息。二是动态数数据加载。。传统数据据仓库的数数据加载与与动态数据据仓库的数数据加载所所需的技术术设施几乎乎相同。不不同的是传传统的数据据加载不是是实时和连续的。数据仓库数据处理技术术演进数据仓库过程程与体系结结构数据集成、提提取与转换换数据仓库开发发、管理与与安全小结及练习习目录商务智能所所依赖的信信息系统通通常是一个个由传统系系统、不兼兼容数据源源、数据库库与应用共共同构成的的复杂数据据集合,这这就需要一一个解决方方案来化解解企业的数数据一致性性与集成性性问题,而而这个方案案就是ETL,即数据提提取、转化化、装载的的过程ETL作为BI/DW的核心和灵魂魂,能够按按照统一的的规则集成成并提高数数据的价值值,是负责责完成数据据从数据源源向目标数数据仓库转转化的过程程,是实施施数据仓库库的重要步步骤。如果果说数据仓仓库的模型型设计是一一座大厦的的设计蓝图图,数据是是砖瓦的话话,那么ETL就是建设大大厦的过程程。在整个个项目中最最难部分是是用户需求求分析和模模型设计,,而ETL规则设计和和实施则是是工作量最最大的,约约占整个项项目的60%~80%,这是国内内外从众多多实践中得得到的普遍遍共识。通过金蝶决策支持持平台架构构图,可以大大体了解ETL在整个决策策过程中的的位置ETL的实施,首首先要确定定实施范围围,再选择择实施工具具,最后确确定实施方方案确定实施范范围选择实施工工具确定实施方方案通过对目标标表信息的的收集,确确定ETL的范围考虑资金运行的平台台、对源目标的支持程度度、可编程程的灵活性、管管理和调度功能能、对异常常情况的处理等抽取分析、、变化数据据的捕获、、目标表的的刷新策略略、数据的的转换及数数据验证数据提取用用于获取商商务智能系系统所需要要的数据,,它们通常常是源数据据的子集,,是在对数数据仓库的的主题和数数据本身内内容理解的的基础上,,选择主题题所涉及的的相关数据据TransformationExtractionLoading数据选择过过程将搜索索所有与业业务对象相相关的内容容和外部数数据信息,,并从中选选择出适用用于数据挖挖掘的数据据。数据仓仓库中的数数据源主要要是在线事事物处理数数据,数据据源中的数数据存在大大量的数据据更新,因因此存在如如何将数据据源中的数数据变化反反映到数据据仓库的问问题,这涉涉及到两个个方面将变化的数数据源反映映到数据仓仓库中,所所涉及到的的两方面数据更新方方式数据传输方方式数据更新主主要的考虑虑因素有增增量更新还还是批量更更新、实时时更新还是是周期更新新TransformationExtractionLoading数据更新方式批量更新初次数据提取时将采用批量更新增量更新当数据源中的数据发生改变时,采用增量更新,避免较大的网络负载和处理开销实时更新数据源中的数据发生变化时,随之改变数据仓库中的数据周期更新按固定的周期将数据源中的数据更新反映到数据仓库中,开销更小,数据都是历史数据,但弊端是数据丢失,如果数据在一个周期内,数据有变化,通常只能反映出最后一次的更新数据,这个问题基本通过数据源的日志来解决数据传输模模式即数据据仓库中的的数据是采采用拉的方方式还是推推的方式由ETL程序通过DRDA或ODBC等数据库协协议直接访访问源数据据库获取所所需数据进进行处理在源系统上上根据定义义的数据格格式将每日日增量数据据生成数据据文件,再再通过FTP或文件拷贝贝的方式传传送给ETL程序处理(DRDA)是IBM的跨IBM平台的数据据库信息访访问标准,,遵循SQL标准开放数据库库互连(ODBC)是MICROSOFT提出的数据据库访问接接口标准TransformationExtractionLoading随意的选取一一个数据,,在后续的的分析中可可能导致意意想不到的的结果,因因此数据提提取必须谨谨慎,通常常需要考虑虑四个方面面的因素1234提取策略::小数据完完全提取,,大数据采采用时间戳戳增量提取取数据选选取取注注意意事事项项提取取周周期期::根根据据源源数数据据的的不不同同性性质质和和实实际际分分析析需需求求而而有有所所不不同同提取取日日期期::在在相相关关业业务务系系统统空空闲闲的的时时段段进进行行提取取的的目目标标数数据据::①数数据据库库比比较较::时时间间和和资资源源代代价价昂昂贵贵②应应用用程程序序日日志志::简简化化了了ETL过程程工工作作,,增加了了原系系统统端应应用用程程序序小小组组的的负负担担③数数据据库库日日志志::由由DBMS负责责④时时间间戳戳::全全表表扫扫描描,,影影响响性性能能⑤位位图图索索引引::将将提提取取数数据据资资源源降降到到最最低低TransformationExtractionLoading数据据转转换换的的任任务务主主要要是是进进行行不不一一致致的的数数据据转转换换、、数数据据粒粒度度的的转转换换和和一一些些商商务务规规则则的的计计算,,是是真真正正将将源源数数据据变变为为目目标标数数据据的的关关键键环环节节((1)TransformationExtractionLoading数据不不一一致致包包括括同同一一数数据据源源内内部部的的不不一一致致和和多多个个数数据据源源之之间间的的数数据据不不一一致致等等类类别别,,例例如如在在一一个个应应用用系系统统中中,,BJ表示示北北京京,,SH表示示上上海海,,GZ表示示广广州州。。而而在在另另一一个个应应用用系系统统中中,,对对应应的的代代码码分分别别为为1、2和3。此此外外,,不不同同业业务务系系统统的的数数量量单单位位、、编编码码或或值值域域需需要要统统一一,,例例如如某某供供应应商商在在结结算算系系统统的的编编码码是是990001,而而在在CRM中编编码码是是YY0001,这这时时就就需需要要抽抽取取后后统统一一转转换换编编码码。。不一一致致的的转转换换数据据转转换换的的任任务务主主要要是是进进行行不不一一致致的的数数据据转转换换、、数数据据粒粒度度的的转转换换和和一一些些商商务务规规则则的的计计算,,是是真真正正将将源源数数据据变变为为目目标标数数据据的的关关键键环环节节((2)TransformationExtractionLoading业务系系统统一一般般存存储储细细粒粒度度的的事事务务型型数数据据,,而而数数据据仓仓库库中中的的数数据据是是用用于于查查询询、、分分析析的的,,因因此此需需要要多多种种不不同同粒粒度度的的数数据据。。这这些些不不同同粒粒度的的数数据据可可以以通通过过对对细细粒粒度度的的事事务务型型数数据据聚聚集集或或分分组组产产生生。。数据据粒粒度度的的转转换换例如如职职业业可可能能有有几几十十种种不不同同的的值值,,如如软软件件工工程程师师、、电电子子工工程程师师、、硬硬件件工工程程师师、、顾顾问问等等,,我我们们可可以以用用一一个个““工工程程师师’’’’来来对对其其进进行行归归纳纳,,以以减减少少模模型型的的复复杂杂度度。。比如如希希望望通通过过每每个个客客户户的的详详细细通通话话记记录录对对客客户户进进行行细细分分,,派派生生出出呼呼叫叫次次数数和和平平均均通通话话时时间间等等属属性性列列。。数据据分分组组数据据聚聚集集数据据转转换换的的任任务务主主要要是是进进行行不不一一致致的的数数据据转转换换、、数数据据粒粒度度的的转转换换和和一一些些商商务务规规则则的的计计算,,是是真真正正将将源源数数据据变变为为目目标标数数据据的的关关键键环环节节((3)TransformationExtractionLoading不同同的的企企业业有有不不同同的的业业务务规规则则,,不不同同的的数数据据指指标标,,这这些些指指标标有有的的时时候候不不是是简简单单的的加加加加减减减减就就能能完完成成,,这这个个时时候候需需要要在在ETL中将将这这些些数数据据指指标标计计算算好好了了之之后后存存储储在在数数据据仓仓库库中中,,供供分分析析使使用用。商务规规则的的计算算数据源源中数数据的的质量量是非非常重重要的的,低低劣的的“脏脏”数数据容容易导导致低低质量量的决决策甚甚至是是错误误的决决策。。此外外,这这些““脏””数据据或不不可用用数据据也可可能造造成报报表的的不一一致等等问题题。因因此有有必要要全面面校验验数据据源的的数据据质量量,此过程是是数据据清洗洗即数据据值的的缺失失,这这在顾顾客相相关的的数据据中经经常出出现,,例如如顾客客输入入个人人信息息时遗遗漏了了所在在区域域缺失数数据数据重复复是反反复录录入同同样的的数据据记录录导致致的,,这类类数据据会增增加数数据分分析的的开销销。数据重重复常见的错例如在教教学选选课系系统中中,选选修某某门课课程的的人数数不能能够超超过该该课程程所在在教室室的座座位数数。错误数数据例如一一个顾顾客记记录中中省份份字段段使用用SH(上海海),,而此此顾客客的邮邮政编编码字字段使使用100000。数据冲突突主要的数据据质量量问题清洗数数据要要本着着四个个方面面的规规则数据补缺:对空数据、缺失数据进行数据补缺操作,无法处理的作标记数据清洗的四项原则数据替替换::对无无效数数据进进行替替换格式规规范化化:将源数数据抽抽取的的数据据格式式转换换成为为便于于进入入仓库库处理理的目目标数数据格格式主外建建约束束:通过建建立主主外键键约束束,对对非法法数据据进行行替换换或导导出到到错误误文件件重新新处理数据加加载是是将经经过提提取、、转换换的数数据加加载到到数据据仓库库中,,即入入库。。加载载任务务主要要是确确定数数据入入库的的次序序,装装入初初次数数据和和进行行数据据的定定期刷刷新初次加加载完全刷刷新增量加加载主要加加载策策略在初始始装载载后,,为维维护和和保持持数据据的有有效性性,可可以采采用更更新和和刷新新的方方式::更新新是对对数据据源的的变化化进行行记录录,而而刷新新则是是指在在特定定周期期数据据完全全重新新装载载。TransformationExtractionLoading问题为什么么要做做ETL,而不不是直直接利利用数数据??答案这个原原因有有多种种多样样,比比如可可能原原始数数据量量太大大,需需要加加以提提炼;;可能能业务务数据据的服服务器器面临临性能能压力力,不不希望望分析析工作作影响响性能能;可可能源源数据据的异异构性性和低低质量量,需需要加加以规规范;;还有有可能能有些些数据据直接接利用用起来来有困困难,,例如如SAP系统中中的数数据。。ETL的开发发设计计主要要有4个方面面的内内容设计数数据准准备区区的数数据结结构::数据据准备备区是是在ETL过程中中专门门用于于对数数据进进行抽抽取、、清晰晰、转转换等等处理理的临临时数数据库库,这这里需需要根根据ETL的需要要来设设计准准备区区的库库表结结构定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论