数据仓库,联机处理,数据挖掘Daa Warehousing_第1页
数据仓库,联机处理,数据挖掘Daa Warehousing_第2页
数据仓库,联机处理,数据挖掘Daa Warehousing_第3页
数据仓库,联机处理,数据挖掘Daa Warehousing_第4页
数据仓库,联机处理,数据挖掘Daa Warehousing_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库,联机分析处理,数据挖掘

DataWarehousing,OLAP,andDataMining

数据仓库:

一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程。OLAP与数据挖掘工具:是两种主要的分析工具,提供给决策者对数据进行分析,以针对分析结果做出决策。概要数据仓库的引出1.传统数据库以及OLTP(On-LineTransaction

Processing联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。

2.因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。

3.为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(DataWarehose)。数据仓库的定义与基本特性1.数据仓库的定义WilliamH.Inmon在1993年所写的论著《BuildingtheDataWarehouse》首先系统地阐述了关于数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。文中他将数据仓库定义为:adatawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions.一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。2.数据仓库的重要特性a)subject-oriented(面向主题性)面向主题表示了数据仓库中数据组织的基本原则,数据仓库中的数由数据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。例如,企业中的客户、产品、供应商等都可以作为主题看待。从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,使数据仓库的数据具有集成性。b)integrated(数据集成性)数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合等集成工作。也就是说,首先要从源数据库中挑选出数据仓库所需要的数据,然后将这些来自不同数据库中的数据按照某一标准进行统一,即将不同数据源中的数据的单位、字长与内容按照数据仓库的要求统一起来,消除源数据中字段的同名异义、异名同义现象,这些工作称为数据的清理(clean),把数据仓库的数据呈现给用户一个一致统一的视图。源数据加载到数据仓库后,还要根据决策分析的需要对这些数据进行概括、聚集处理。数据仓库的时变性,就是数据应该随着时间的推移而变化。c)time-variant数据的时变性尽管数据仓库中的数据并不像业务数据库那样反映业务处理的实际状况,但是数据也不能长期不变,如果依据10前的数据进行决策分析,那决策所带来的后果将是十分可怕的。因此,数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加到数据仓库中去,也就是说在数据仓库中必须不断的生成主题的新快照,以满足决策分析的需要。数据新快照生成的间隔,可以根据快照的生成速度和决策分析的需要而定。例如,如果分析企业近几年的销售情况,那快照可以每隔一个月生成一次;如果分析一个月的畅销产品,那快照生成间隔就需要每天一次。d)泊n坐on轰-v籍ol惠at呢il绞e数据番的非僻易失珍性数据胸仓库钟的非锁易失华性是蜜指数誉据仓古库的料数据消不进觉行更封新处惰理,跟而是基一旦鼓数据悬进入动数据鸣仓库辛以后升,就倒会保薄持一渔个相况当长静的时昼间。驰因为准数据灵仓库染中数典据大饿多表贡示过柴去某巨一时疤刻的耻数据窗,主黑要用叮于查密询、担分析棋,不糕像业狸务系吹统中咐的数鸦据库厉那样繁,要院经常喊进行添修改妙、添陶加,烫除非粗数据剃仓库岗中的饲数据聋是错终误的到。e)孕i鲜n童su巷pp眯or拔t转of微m费an誉ag喘em向en士t坏de该ci栋si膜on炸s庄支持摘决策璃系统数据爆仓库殖的组滩织的耳根本剂目的波在于递对决谁策的召支持折。高息层的羡企业狭决策稿者、紫中层处的管挖理者扫和基昏层的诞业务刺处理冬者等雹不同转层次失的管叠理人迈员均陕可以赖利用缝数据爷仓库抱进行姻决策疾分析撑,提坑高管伙理决组策的萝质量候。企业风管理迟人员圆可以饱利用级数据软仓库仰进行扛各种对管理反决策旅的分敏析,驾利用泪自己周所特键有的志、敏质锐的里商业认洞察部力和扛业务此知识竹从貌缩慧似平遣淡的姨数据绳发现谎众多浊的商接机。繁数据锋仓库初为管德理者卵利用若数据徒进行劳管理录决策零分析局提供诸了极盗大的隐便利佩。对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主体域、管理决策分析应用数据特性动态变化、按字段更新静态、不能直接更新、只是定时添加数据结构高度结构化、复杂、市和操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对相应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位数据月仓库雷与传墨统数牺据库骗的比温较尽管煮OL泡TP寸系统通和数居据仓呀库有孙着许笼多不河同的侦特性木且基宏本构它建思烟想不侧同,脱但是糖他们材却是碌紧密陵联系旨的,揭因为柔OL明TP惩系统改是数冻据仓卡库的隆数据后来源晋。OL分TP蛛系统应并不臭是为容了快校速回药答查徒询,订也不烂是为灵了存粮储分斯析趋侧势的纹历史寨数据劲而创透建的岛。一牺般的纵,O叮LT纲P提倦供了膊大量院的原翠始数纺据,春这些谢数据倍不易唤被分余析。数据泛仓库辛需要敏回答鞋更复啦杂的使查询业,而善不仅旦仅使苏一些另像“追英国僵主要渗城市葡的商赞品平絮均销渗售价盏格是揉多少我”之渣类的唇简单排聚集赞数据烈查询债。数据伏仓库骂需要钟回答体的查盟询类捐型可令以是买简单劣的查绵询,就也可技以是慢高度盘复杂特的,勤且还棵与终锻端用蛙户使狗用的援查询柜工具脑相关芳。Dr伯ea甩mH渔om登e数冬据仓砍库的泡示例腥支持裙以下咱查询储:20雀01厌年第递三季旦度,割整个公英格京兰的涌总收戏入是牛多少砌?20远00筒年英防国每幼一类疼房产要销售拴的总勺收入生是多向少?20泼01恢年租趴借房尾产业各务中秃每个键城市设哪个史地域拆最受狱欢迎扯?与苗过去毅的两杨年相尊比有单何不甲同?每个械分支盟机构容本月闸的房站产销翼售月动收入押是多摔少,至并与接刚过第去的连12努个月饺相比绢较。如果打对于厅10普万英辫镑以缝上的近房产阿,法会定价错格上炒升3县.5削%而港政府努税收居下降饼1.侍5%辉,对玩英国奸不同偿区域刑的销驾售会蕉产生裂什么特影响玻?在英扛国主峡要城搞市中谢,哪系种类吴型的争房产擦销售去价格句高于串平均略房产钢销售践价格奇?这丈与人贩口统板计数漆据有机何联威系?数据躺仓库躲的一伞个案镜例啤酒党与尿添布的摔故事某大裁型超肠市发奏现每转到周艺末,奥啤酒局与尿反布的隙销量装就会球同时百大增产,这聪是什弯么原阴因呢狱?经过瞒研究涨人员眉分析围发现芹,原芹来家滑里的档太太霉们让怪丈夫录们去稠超市剩给孩孝子买销尿布贞,而疗丈夫王们在师买尿姿布的雪时候或往往如顺便磨买上乌几瓶服啤酒循回去腐喝。粥这样集就产娇生了岗这个鹅比较韵奇怪处的现劈燕象。沃尔妻玛早蚂年利垃用N圆CR晨数据甩仓库脑技术洁,对咱商品急进行叼市场驱类组盗分析炮,即惠分析童哪些刻商品远顾客统最有肌希望渴一起畅购买候。沃什尔玛毒利用泄NC鞋R自轮动数苏据挖程掘工坡具(招模式肥识别羽软件队)对刷一年治多详洪细的伟原始北交易拾数据肢进行疼分析垃和挖券掘。削一个蛇意外验的发今现就鸡是:泄跟尿蜘布一堆起购准买最喂多的糠商品勤竟是弟啤酒伞!沃层尔玛吓就在判它的改一个冤个商汤店里随将它酿们并济排摆削放在购一起衫,结碗果是方尿布钩与啤领酒的带销售第量双词双增疼长。来自烛美国逼俄亥申俄州锈的N咐CR垄公司京(纽秀约证调券交抬易所仙股票贿代码践为N锄CR到)是赛全球顺领先股的信悦息技化术公锅司之竖一,中为全贱球超体过1粒30绍个国惰家提填供零锅售解保决方予案,龟业务眠涵盖曾食品供店、色药店岗、综街合性岩商场武、超册市、蒜连锁忆店及撤餐饮戏业等田市场紫,2捷00痕1年光总收影益达择59贱.1较7亿充美元窑。世较界十眉大零倚售商嘉中,娇就有炒六家蓄应用善NC匹R提松供的好零售器业全邀面解塔决方足案。数据竭仓库徒的体青系结接构图示荐:da轧ta坚wa迹re袖ho或us刑e_屑av钻.g贼if操作脱型数定据加载胜管理问器:执行弟所有傍与提奴取和菠装载逗数据奏到数方据仓翠库的讽有关拌操作型。仓库知管理棕器:执行刘管理拜一个枪数据氧仓库勿数据盈所有信的必唉要程量序,凤它可芳以由脾一些朴外购古的数镇据管醋理工卡具和枪针对称特殊喂需要丙编写丽的程嚷序组获成。掠包括魄以下吗工作减:1.街数据锈分析啄以确散保一套致性2.凉将临剑时存烤储介周质中指的数挠据转积换和秃合并鞠后加姻载到抹数据扣仓库买表中3.台为基负础表详创建皂索引杰和视凝图4.锅依据时需要豪,对歼数据求进行沟弱规流范化5.饮依据菌需要咸,生据成聚齐集信讲息6.烂备份舌和归厦档数驳据查询虾管理抖器:执行丛所有广数据筒仓库渐中与恢查询展工作爬相关其的管羽理工悟作。细节旦数据:数据回仓库乡丰中存控储了弦许多恋数据素库模星式中哀的细环节数只据轻度觉和高摘度综削合数劳据:数据抛仓库等中存姐放了括许多钻由浊仓库乓管理西器产牙生的粮预定歉义的岁轻度创或高禽度综闪合(遗聚集裁的)众数据游。存储展/备则份数薪据:数据链仓库超中存雁储了编用于球备份迟和存宫档的狠许多娘细节蒸和综煌合数往据。炕尽管民综合樱数据的是从卷细节感数据纵中产冠生的斩,但兰还是改有必念要备煮份这宴些综脂合数星据,身因为震他们戏可能肥已经牺超过疑了细油节数乞据的丽保持公期。瞎这些例数据氧要转威移到挪存储艘档案赖中,屿如磁妹盘或棵光盘匠上。元数陈据(戴me恐ta凤da存ta舅):数据法仓库纹中存肿储了薪所有否的元饰数据娘定义僚,这瓦些定似义可旷用于辛数据维仓库网中的汇所有释过程脑。元遍数据啄的用遥途包涝括油:1.皮数据齿抽取籍和加和载过输程:筋元岭数据挽可用饥于将铜数据驾影射冲到数漂据仓苦库的掉通用牧数据滩视图御中。2.诵数据狂仓库名管理金过程违:胳元数概据可量用于渔自动钉产生地表。3.兴作为吉查询桨过程恳的一贝部分咽:组元数止据可性用于诸将查旋询指售定到掀最合犁适的缝数据印源。终端阿用户畜访问疮工具数据腿仓库携的主道要目替的是遇为了下给业泄务用搞户提拜供决陷策信勿息。剃这些葬用户远通过毛终端戏用户内访问检工具巨与数爬据仓闪库交跃互。徒数据缘瑞仓库蔬必须殿有效贪地支师持查仿询和六例行崇分析惕。这些碧工具骂一般武分为球:a.潮报被表和横查询攀工具b.燃应结用程历序开叙发工们具c.押可傲执行泽信息粥系统抖工具d.蜂联晒机分迟析处么理工限具e.锁数话据挖轻掘工喊具OL习AP黑技术数据阅仓库闭是管纯理决限策分拐析的辅基础怜,要蛛有效傲地利把用数歪据仓盏库的潮信息辈资源蔑,必旁须要漆有强真大的乞工具隆对数战据仓咬库的报信息桃进行锹分析醋决策茧。On知-l吼in踪蝶e本An峰al从yt寨ic河al团P司ro卷ce狐ss河in煎g(火在线汗分析澡处理冶或联部机分以析处悬理)就是压一个肢应用昏广泛场的数罩据仓现库使案用技晴术。灵它可赠以根监据分绩析人悉员的解要求蓬,迅集速灵姐活地配对当裕量的幕数据侦进行莫复杂非的查振询处班理,掏并以让直观贵的容腹易理取解的抚形式祥将查言询结醋果提开供给梅各种如决策殊人员效,使园他们碍能够歼迅速王准确象地掌习握企润业的输运营部情况得,了瓣解市玩场的虹需求缎。发展渐背景60践年代逃,关珠系数责据库跑之父勉提出涌了关砌系模盖型,笨促进萍了联阵机事施务处浑理(驰OL捞TP蜡)的糖发展蚁(数旷据以尼表格肿的形刊式而宋非文足件方茂式存犯储)貌。1器99惑3年彩,提牧出了方OL夸AP堵概念无,认教为O楼LT俱P已咬不能蛋满足链终端缝用户袜对数六据库歼查询峡分析视的需就要,祖SQ树L对饰大型赚数据住库进有行的怕简单拾查询系也不节能满省足终怖端用脸户分钩析的飘要求赢。用坡户的早决策服分析搬需要并对关锤系数办据库帖进行爆大量骨计算阻才能界得到郊结果歼,而乞查询属的结球果并闪不能练满足其决策柜者提挡出的暂需求寸。因含此,恭提出沸了多量维数回据库可和多屯维分押析的影概念难,即欲OL乐AP犯。OL宜TP肚数据刑O严LA翁P数鼓据原始犬数据观导绵出数恒据细节别性数昨据每综猎合性锅和提唉炼性绸数据当前花值数偏据胆历援史数抢据可更认新刺不递可更亮新,彻但周客期性器刷新一次耻处理茎的数碑据量敲小写一次献处理骗的数受据量认大面向筛应用歌,事款务驱荣动靠面枕向分送析,石分析灯驱动面向追操作悟人员饲,支传持日类常操颗作变面向牛决策耐人员宋,支绳持管弦理需烦要二、趣什么虑是O共LA协P?定义天1脏:O捐LA枣P(箩联机径分析支处理唉)是针部对特顷定问暗题的敌联机秃数据幻玉访问苏和分料析。妄通过抢对信促息(冤维数盯据)饲的多仰种可冤能的淋观察马形式抛进行主快速类、稳碑定一喝致和闪交互守性的表存取禁,允院许管牺理决某策人叙员对甩数据歼进行寻深入彼观察灶。定义全2峡:O能LA涨P(处联机失分析燃处理再)是使掉分析论人员箭、管欺理人书员或让执行橡人员便能够塌从多贞种角辜度对樱从原锐始数日据中访转化呢出来占的、秘能够拣真正带为用榨户所波理解毕的、风并真跃实反秧映企森业维汗特性兼的信跃息进偿行快完速、江一致警、交咳互地启存取银,从置而获午得对糖数据车的更饿深入渗了解党的一尘类软果件技蜡术。另(O稳LA绘P委夹员会左的定股义)OL徐AP狭的目绪标是满贪足决燥策支继持或延多维俘环境予特定败的查伯询和塔报表获需求似,它杠的技名术核胸心是乒“维肆”这瘦个概割念,鸭因此猎OL暑AP务也可痛以说中是多惯维数艺据分犬析工沫具的允集合杂。相关涂基本哗概念1.惑维:是人岛们观刺察数领据的登特定嘱角度亮,是宅考虑祝问题齿时的袍一类牲属性详,属咱性集暖合构篇成一私个维喘(时掌间维著、地欧理维才等)存。2.鸟维的亡层次师:人们云观察篮数据寸的某昏个特业定角烛度(侵即某餐个维轮)还休可以蔬存在俭细节苗程度总不同螺的各罪个描四述方淘面(软时间锐维:王日期赶、月婆份、押季度申、年烫)。3.炎维的予成员储:维的笋一个多取值里。是礼数据裕项在迈某维杂中位蚕置的强描述关。(组“某遣年某梦月某则日”累是在融时间瘦维上胜位置跪的描垂述)4.萄多维手数据以集:是决敏策分桌析的敏支柱亿,O革LA旁P的陶核心受,有播时也攻称立国方体倚或者塑超立惑方。摸OL急AP毕展现历在用军户面展前的葵是一贪幅幅唯多维乓视图蜓。多娱维数棋据集粒可以月用一灵个多苗维数恢组来击表示陵。5.幻玉多维傍数组爸:维和庭变量气的组比合表耐示。易一个婚多维览数组换可以沿表示挠为:绿(维疤1,感维2熄,…喘,维陪n,返观察讲变量竞)。车(时诞间,纠地区仇,产禽品,兽销售鲁额)6.多数据搁单元秆(单势元格龙):多维贱数组宇的取类值。拴(2纵00掏0年浊1月妻,上个海,搅笔记贞本电陡脑,千$1妙00舍00票0)三层始数据咏仓库垦结构底层涨数据改仓库科服务配器,枣使用异称作悄网间坊连接炊程序保的应振用程裁序,服由操盐作数飞据库云和外残部数隶据源热提取胀数据滚.中间帐层是遍OL脏AP拍服务陪器,亿实现奇方法浪有关系游OL搞AP酷模型歌RO遣LA筒P在多粪维数障据上报的操栏作映屡射为引标准房诚的关球系模霞型多维役OL量AP摆模型放MO根LA像P直接坊实现飞多维坚数据剑的操南作顶层绞是客道户,买它包象括查库询和亡报告苗工具茂,分守析工绳具和郊数据弃挖掘店工具信(例局如趋父势分葛析,笑预测触等)业务尤处理答系统数据胖准备掘区数据郑仓库OL返AP席服务顺器客户稀端可视刮化处宗理底层中间棉层顶层数据趋抽取数据泥清理高转伙换多维腾化数据司加载OL网AP秩的特驾性1.偷快旦速性麻.泻用户兼对O盒LA弃P的漂快速嘉反应份能力祝有很矮高的险要求菠。2.史可聚分析讨性.输O娱LA亭P系轰统应扔能处苗理与震应用负有关撑的逻包辑与嚷统计杂分析凳。3.植多柄维性总.刻多维杀性是粱OL赢AP燥的关窜键属毯性。掉系统刊能够少提供右对数要据分惜析的樱多维睁视图族和多础维分顷析。4.逼信息幕型.忙不档论数胃据量氏有多遣大,织也不剥管数袜据存贝储在扬何处鼓,O年LA笛P系怪统应任能及慰时获良得信奶息,阴并且眯管理眯大容流量信构息。OL禾AP寄多维缘瑞数据钳分析1.迫切片杰和切宿块(Sl碎ic多e厦an蔬d膜Di父ce恢)在多野维数堡据结葬构中晴,按续二维详进行猫切片怨,按握三维配进行晋切块骡,可爽得到种所需悦要的元数据腔。如锄在“锈城市挑、产件品、资时间兴”三饼维立往方体灰中进海行切鲁块和坦切片艰,可乔得到艘各城斯市、盯各产由品的而销售朱情况吹。2.钩钻取涨(D朴ri轻ll也)钻取爸包含傍向下肢钻取与(D沿ri杀ll壁-d局ow笼n)脑和向响上钻趟取(墨Dr仍il镰l-享up木)/激上卷添(Ro爬ll页-u衣p)央操作模,什钻取贪的深叨度与滚维所足划分宿的层维次相股对应睬。3.蹲旋转期(R胳ot鸟at某e)咐/转轴杯(P俯iv萍ot俯)通过站旋转庆可以赞得到躁不同改视角熄的数捆据。OL厚AP的分艺析方沉法(爆一)黎切片库(s吹li陡ci失ng中)、排切块考(d创ic五in惠g)OL换AP的分蛋析方奖法(泽二)逗钻取桥(d赛ri扑ll糖-d阿ow慢n)按时条间维过向下掌钻取按时搞间维日向上要钻取60OL野AP的分南析方赖法(誓三)束旋转数据王挖掘就技术数据密挖掘裁的引搂出19炉89钱年8援月,观在第追11况届国秒际人礼工智竿能联才合会顾议的怜准题锦研讨障会上撒首次摸提出垮了基忘于数悦据库桐的知腊识发泡现(造KD再D,倒K晓no播wl社ed茧ge简D学is开co础ve端ry裤

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论