版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据挖掘边雪芬共六十八页 第一(dy)部分 数据仓库2022/7/202HD-bxf共六十八页数据仓库1.1 从数据库到数据仓库1.2 什么(shn me)是数据仓库1.3 DBMS vs. DWMS1.4 数据仓库的系统结构与相关问题1.5 数据仓库的相关概念 1.1 从数据库到数据仓库2022/7/203HD-bxf共六十八页1.1 从数据库到数据仓库Why数据仓库数据库:主要用于事务处理。数据库技术一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型的信息处理任务。但它对分析处理的支持一直不能令人满意,尤其是当以事务处理为主的OLTP(on-line transactio
2、n processing ,联机事务处理 )应用与以分析处理为主的DSS(Decision Support System ,决策支持系统)应用共存于同一个数据库系统中时,这两种类型的处理发生了明显(mngxin)的冲突。2022/7/204HD-bxf共六十八页1.1 从数据库到数据仓库Why数据仓库“蜘蛛网”问题为了避免企业中各部门或各用户间的冲突和简化用户的数据视图,一种称作“抽取程序”的方法目前被广泛地应用。不加控制的连续抽取最终导致系统内的数据间形成了错综复杂的网状结构,人们形象地称为“蜘蛛网”。企业的规模越大,“蜘蛛网”问题就越严重。虽然网上的任意两个节点的数据可能归根结底是从一个原
3、始库中抽取出来的,但它们的数据没有统一的时间基准,抽取算法各不相同,抽取级别也不相同,并且可能参考不同的外部数据。因而对同一问题的分析(fnx),不同节点却会产生不同甚至截然相反的结果。这当然使决策者无从下手。2022/7/205HD-bxf共六十八页1.1 从数据库到数据仓库事务型系统和分析型系统的分离事务型系统处理以传统的数据库为中心进行企业的日常业务处理例如:电信行业的记费数据库、银行(ynhng)数据库使用人员为企业的具体操作人员处理的数据为企业业务的细节信息目标是实现企业的业务运营分析型系统分析数据背后的关联和规律,为企业的决策提供可靠有效的依据。例如:对高校大学生就业信息进行分析,
4、以帮助学校指定招生计划并合理设置专业。使用人员为企业的中高层管理者或从事数据分析的工程师处理的数据为企业的宏观信息目标是为企业决策者提供信息支持2022/7/206HD-bxf共六十八页1.1 从数据库到数据仓库事务型系统和分析(fnx)型系统的分离可见,在事务型环境中直接构建分析型应用是不合适的。要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。 2022/7/207HD-bxf共六十八页1.
5、1 从数据库到数据仓库对数据的处理分两类:操作型处理(OLTP on-line transaction processing )操作型处理对数据的存取操作频率高而每次操作处理的时间短; 数据库系统分析型处理(OLAP on-line analytical processing )在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量(dling)的系统资源。数据仓库系统2022/7/208HD-bxf共六十八页第一章 数据仓库概述(i sh)1.1 从数据库到数据仓库1.2 什么是数据仓库1.3 DBMS vs. DWMS1.4 数据仓库的系统结构与相关问题(wnt)1.5 数
6、据仓库的相关概念 1.2 什么是数据仓库2022/7/209HD-bxf共六十八页什么是数据仓库 “A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of managements decision-making process.” W.H.Inmon. 1992 数据仓库是面向主题的、集成的、稳定(wndng)的、随时间变化的数据集合,用于支持管理决策过程。 1.2 什么(shn me)是数据仓库2022/7/2010HD
7、-bxf共六十八页Data Warehouse PropertiesSubjectOrientedIntegratedTime VariantNon VolatileDataWarehouse2022/7/2011HD-bxf共六十八页1.2 什么(shn me)是数据仓库数据仓库的四个主要特征数据仓库是面向主题的(Subject-Oriented)操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。是对各分析对象所涉及的操作数据
8、库中的数据的集成,是更高级别的数据抽象。典型的主题领域:客户;产品;交易;帐目数据仓库围绕一些主题,排除对于决策无用(w yn)的数据,提供特定主体的简明视图。2022/7/2012HD-bxf共六十八页1.2 什么(shn me)是数据仓库数据仓库的四个主要特征数据仓库是面向(min xin)主题的(Subject-Oriented)例如,若企业决策人员预分析客户的财务信息,则需要把关于客户的各种财务信息综合在“Customer Financial ”这一主题中。 2022/7/2013HD-bxf共六十八页 Operational SystemsSavingsSharesLoansInsu
9、ranceEquityPlansCustomerFinancial InformationData Warehouse Subject Area2022/7/2014HD-bxf共六十八页1.2 什么(shn me)是数据仓库2022/7/2015HD-bxf共六十八页1.2 什么(shn me)是数据仓库数据仓库的四个主要特征数据仓库是集成的(Integrated)数据仓库的数据来自于多个不同的数据源。多个数据源经常是异种或异构的,存在数据重复和语义不一致问题。 不是(b shi)对这些数据源中某些数据的复制,而是对这些数据源中数据的进一步抽象。它需要按照统一的结构、一致的格式、一致的度量单
10、位、一致的语义,从不同的数据源提取数据并进行清洗、转换、综合、抽象,最后集成为面向主题的数据集合,确保数据的综合性、宏观性和一致性。 2022/7/2016HD-bxf共六十八页J Jones女1945年7月20日J Jones去年有两张罚单一次大事故人寿保险汽车保险J JonesMain大街123号已婚房产保险J Jones两个孩子高血压健康保险J Jones女1945年7月20日出生去年有两张罚单一次大事故Main大街123号已婚两个孩子高血压顾客2022/7/2017HD-bxf共六十八页1.2 什么(shn me)是数据仓库数据仓库的四个主要特征数据仓库是随时间不断变化的(Time-V
11、ariant)数据仓库中的历史数据应该随时间的延长不断增加新的数据内容(周期性更新)。通过这些信息,可以对企业的发展历程和未来(wili)趋势做出定量分析和预测。随时间不断的延长,数据仓库中一些数据的历史将越来越久。一般情况下,历史久远的数据将不再被决策者关心。所以,数据仓库的数据超过一定的期限,就要被删除。数据仓库中大量数据都是综合数据。这些综合数据一般都与时间有关,如按照时间段进行综合的数据。这些综合数据要随着时间的延长而不断地变化。 2022/7/2018HD-bxf共六十八页1.2 什么(shn me)是数据仓库DataTime01/201202/ 201203/ 2012Data f
12、or JanuaryData for FebruaryData for MarchData Warehouse2022/7/2019HD-bxf共六十八页1.2 什么(shn me)是数据仓库数据仓库的四个主要特征数据仓库是非易失的(Non-Volatile)数据仓库的数据主要供企业决策分析之用,很少进行修改,所涉及的数据操作主要有两类:数据加载数据查询和联机分析 数据仓库的数据一般都是历史数据,是对多个不同数据源进行统计、综合和重组后导出的数据。只要(zhyo)数据源中与数据仓库相关的数据不发生改变,数据仓库中的数据就不应该被改变。一般来说,无需事务管理、并发控制与恢复等机制2022/7/2
13、020HD-bxf共六十八页Typically data in the data warehouse is not updated or deleted.ReadLoadINSERT ReadUPDATEDELETEOperational DatabasesWarehouse Database2022/7/2021HD-bxf共六十八页Changing DataOperational DatabasesWarehouse DatabaseFirst time loadRefreshRefreshRefreshPurgeorArchive2022/7/2022HD-bxf共六十八页1.2 什么(
14、shn me)是数据仓库数据仓库的其它特征数据仓库中的数据量非常大。级,级数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库一般还是应用数据库管理(gunl)系统来管理(gunl)其中的数据。数据仓库的使用人员较少。2022/7/2023HD-bxf共六十八页第一章 数据仓库概述(i sh)1.1 从数据库到数据仓库1.2 什么是数据仓库1.3 DBMS vs. DWMS1.4 数据仓库的系统结构与相关问题(wnt)1.5 数据仓库的相关概念 1.3 DBMS vs. DWMS2022/7/2024HD-bxf共六十八页1.3 DBMS vs. DWMS OLTP (联机事务处理(c
15、hl))On-Line Transaction ProcessingMajor task of traditional relational DBMSDay-to-day operations: 采购, 库存, 银行业, 制造业, 工资发放, 注册系统, 账目管理等。2022/7/2025HD-bxf共六十八页1.3 DBMS vs. DWMS OLAP (联机分析(fnx)处理)On-Line Analytical ProcessingMajor task of data warehouse systemData analysis and decision making2022/7/2026
16、HD-bxf共六十八页1.3 DBMS vs. DWMS 2022/7/2027HD-bxf共六十八页1.3 DBMS vs. DWMS DBMSDWMS具有功能OLTPOLAP数据视图当前的历史的细粒度的综合的局部的集成的设计目的面向应用面向分析查询90%事先可知道 90%是ad hoc的updateread-only but complex queries一次操作所涉及的数据量小一次操作所涉及的数据量大开发周期需求驱动数据驱动ad hoc:机动(jdng)的;临时的;特设的 2022/7/2028HD-bxf共六十八页第一章 数据仓库概述(i sh)1.1 从数据库到数据仓库1.2 什么(
17、shn me)是数据仓库1.3 DBMS vs. DWMS1.4 数据仓库的系统结构与相关问题1.5 数据仓库的相关概念 1.4 数据仓库的系统结构与相关问题2022/7/2029HD-bxf共六十八页1.4 数据仓库的系统结构与相关(xinggun)问题E: ExtractT: TransformL: LoadData MartData Mart数据仓库系统结构Data SourcesMulti-Tiered ArchitectureData StorageFront-End Tools2022/7/2030HD-bxf共六十八页数据仓库系统结构数据源(DataSource)数据(shj)仓
18、库的数据(shj)存储(DataStorage)应用工具(ApplicationTools)可视化用户界面(Visualization)。1.4 数据仓库的系统结构与相关(xinggun)问题2022/7/2031HD-bxf共六十八页1.4 数据仓库的系统结构与相关(xinggun)问题相关问题数据仓库数据模型逻辑数据结构代数操作数据仓库数据定义与操作语言数据仓库存储与索引结构OLAP操作实现算法OLAP查询处理与优化数据提取、转换(zhunhun)与加载数据维护2022/7/2032HD-bxf共六十八页第一章 数据仓库概述(i sh)1.1 从数据库到数据仓库1.2 什么(shn me)
19、是数据仓库1.3 DBMS vs. DWMS1.4 数据仓库的系统结构与相关问题1.5 数据仓库的相关概念 1.5 数据仓库的相关概念2022/7/2033HD-bxf共六十八页1.5 数据仓库的基本概念ETL:extract/transformation/loadETL工具就是进行数据(shj)的抽取、转换和“净化提炼”处理。“净化提炼”即对从多个不同业务数据(shj)库所抽取的数据(shj),进行数据(shj)项名称的统一、位数的统一、编码的统一和形式的统一,消除重复数据(shj)。ETL工具包括:data extract, data transform, data cleaning, d
20、ata loading.2022/7/2034HD-bxf共六十八页1.5 数据仓库的基本概念数据抽取(Data Extraction) 从数据仓库的角度来看,并不是业务数据库中的所有数据都是决策支持所必需的。通常,数据仓库按照分析的主题来组织数据,我们只需提取出系统分析必需的那一部分数据。例如,某超市确定以分析客户的购买行为为主题建立数据仓库,则我们只需将同客户购买行为相关的数据提取出来,而超市服务员工(yungng)的数据就没有必要放进数据仓库。 2022/7/2035HD-bxf共六十八页1.5 数据仓库的基本概念数据清洗(Data Cleaning)将错误的、不一致的数据在进入数据仓库
21、之前予以更正或删除,以免(ymin)影响决策支持系统决策的正确性。2022/7/2036HD-bxf共六十八页1.5 数据仓库的基本概念数据清洗(Data Cleaning)企业常常为不同的应用对象建立不同的业务数据库,这些业务系统中可能包含(bohn)重复的信息,存在数据不一致现象。例:2022/7/2037HD-bxf共六十八页1.5 数据仓库的基本概念数据清洗(Data Cleaning)由于冗余的数据存放在不同(b tn)的数据库中,如果不同(b tn)数据库间的数据刷新不是实时的,则可能出现数据不同(b tn)步的情况。例:2022/7/2038HD-bxf共六十八页1.5 数据仓库
22、的基本概念数据(shj)转换(Data Transformation)由于业务系统可能使用不同的数据库厂商的产品,各种数据库产品提供的数据类型可能不同,因此需要将不同格式的数据转换成统一的数据格式。例:2022/7/2039HD-bxf共六十八页1.5 数据仓库的基本概念数据装载将数据按照物理数据模型定义的表结构装入数据仓库,包括(boku)清空数据域、填充空格、有效性检查等。2022/7/2040HD-bxf共六十八页1.5 数据仓库的基本概念数据仓库存储(Data Repository) 数据仓库存储就是用于存放(cnfng)数据仓库数据和元数据的存储空间。数据的存储方式主要有3 种:多维
23、数据库关系型数据库这两种存储方式的结合。 2022/7/2041HD-bxf共六十八页1.5 数据仓库的基本概念数据业务系统中提取的或者从外部数据源中导入的数据经过清洗、转化后成为数据仓库的原始数据。由于需要数据仓库进行 OLAP 分析和数据挖掘,因此需要在原始数据的基础上增加(zngji)冗余信息,比如进行大量的预运算,建立多维数据库,以求迅速的展现数据。2022/7/2042HD-bxf共六十八页1.5 数据仓库的基本概念元数据(Metadata)数据是对事物的描述,“元数据”就是描述数据的数据,它提供了有关数据的环境,用于构造、维持(wich)、管理和使用数据仓库。数据仓库的元数据主要包
24、含两类数据:第一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包括所有源数据项的名称、属性及其在提取仓库中的转化;第二种元数据在数据仓库中是用来与最终用户的多维商业模型和前端工具之间建立映射的。2022/7/2043HD-bxf共六十八页1.5 数据仓库的基本概念在转换后,(User_ID,User_Name,Address)3 列原始的存放位置、进行的清洗转化(zhunhu)处理、数据最终的存放位置、数据格式、数据使用的规则等等都将作为元数据的一部分。2022/7/2044HD-bxf共六十八页1.5 数据仓库的基本概念主题(Subject)主题(Subject)是一个在较高层次上
25、将数据归类的标准,每一个主题基本对应一个宏观的分析领域。面向主题的数据组织方式(fngsh),就是在较高层次上对分析对象数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。2022/7/2045HD-bxf共六十八页1.5 数据仓库的基本概念维度(dimension)维()是指人们观察(gunch)事物的角度。在数据仓库中比较常用的维主要有:时间维、客户维、产品维、地区维等。人们从某个维的角度观察数据,还可以根据细节程度的不同形成多个描述层次,该多个描述层次就称为维层次。2022/7/2046HD-bxf共六十八页1.5 数据仓库的基本概念数据立
26、方体数据仓库中维的概念类似于关系表的属性。数据立方体是指由两个或更多个属性即两个或更多个维来描述或分类的数据。在三维的情况下以图形来表示,该类数据具有立方体结构,一般称为数据立方体。虽然我们通常从几何意义的角度将立方体理解为三维的,但是(dnsh)在数据仓库中数据立方体是一个 维的概念。“某产品在某个月份在某个地区的销售收入是多少”2022/7/2047HD-bxf共六十八页1.5 数据仓库的基本概念联机分析处理(OLAP)OLAP是使分析人员、管理人员、或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据(shj)的更深入了解的一类软件技术。OLAP技术的目的是满足决策支持
27、或者满足在多维环境下特定的查询和报表需求,技术核心为“维”。2022/7/2048HD-bxf共六十八页2022/7/2049HD-bxf共六十八页 第二(d r)部分 数据挖掘2022/7/2050HD-bxf共六十八页数据挖掘为什么要进行数据挖掘什么(shn me)是数据挖掘数据挖掘在什么类型的数据上进行数据挖掘的功能数据挖掘方法的分类如何度量挖掘结果数据挖掘的主要问题是什么2022/7/2051HD-bxf共六十八页 Necessity Is the Mother of InventionData explosion problem Automated data collection t
28、ools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases, data warehouses, and other information repositories We are drowning in data, but starving for knowledge! Solution: Data warehousing and data miningData warehousing and on-line analy
29、tical processingMining interesting knowledge (rules, regularities, patterns, constraints) from data in large databases2022/7/2052HD-bxf共六十八页Data mining applicationsThe Google system uses a mathematical algorithm calledPageRank to estimate the relative importance of individual web pages based on link
30、 patternsThe Advanced Scout system analyzes the logs of NBA games to uncover interesting pieces of information (e.g., “when player X is on the floor, player Ys shot accuracy decreases from 75% to 30%.”) As of 1997 the system was in use by several NBA teamsMotivation: Why data mining?PR是英文Pagerank 的缩
31、写形式,Pagerank取自Google的创始人LarryPage,它是Google排名运算法则(排名公式)的一部分,Pagerank是Google对网页重要性的评估,是Google用来衡量一个网站(wn zhn)的好坏的唯一标准。PR值的级别从1到10级,10级为满分。PR值越高说明该网页越受欢迎。Google把自己的网站的PR值定到9,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎。2022/7/2053HD-bxf共六十八页Motivation: Why data mining
32、?Applications电信公司股票信息超市(cho sh):尿布和啤酒Other ApplicationsText mining (news group, email, documents) and Web miningStream data mining2022/7/2054HD-bxf共六十八页什么(shn me)是数据挖掘Data mining is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns from h
33、uge volume of data 从大量数据中抽取出隐含的、有潜在用途的、未知的、人们可以理解的、有价值的信息和模式的过程(guchng)。这些新发现的规律、模式、信息和概念具有潜在使用价值。2022/7/2055HD-bxf共六十八页数据挖掘是知识发现(fxin)的同义词数据挖掘是知识发现中必不可少的一个步骤什么(shn me)是数据挖掘2022/7/2056HD-bxf共六十八页什么(shn me)是数据挖掘Data preprocessingData in the real world is dirty不完整的存在空值, 缺少感兴趣的属性(shxng)或仅包含聚集数据含有噪声的含有错
34、误或存在偏离期望的孤立点值e.g., Salary=“-10”不一致的数据值存在偏差e.g., Age=“42” Birthday=“03/07/1997”e.g., Was rating “1,2,3”, now rating “A, B, C”e.g., discrepancy between duplicate records数据预处理可以改进数据的质量,提高数据挖掘的精度2022/7/2057HD-bxf共六十八页Major Tasks in Data PreprocessingData cleaningFill in missing values, smooth noisy data
35、, identify or remove outliers, and resolve inconsistenciesData integrationIntegration of multiple databases, data cubes, or filesData transformationNormalization and aggregationData reductionObtains reduced representation in volume but produces the same or similar analytical resultsData discretizati
36、onPart of data reduction but with particular importance, especially for numerical data2022/7/2058HD-bxf共六十八页Forms of data preprocessing 2022/7/2059HD-bxf共六十八页2022/7/2060HD-bxf共六十八页2022/7/2061HD-bxf共六十八页数据挖掘在什么类型(lixng)的数据上进行Relational databaseData warehouseTransactional databaseAdvanced database and
37、 information repositoryObject-relational databaseSpatial and temporal dataTime-series data Stream dataMultimedia databaseHeterogeneous and legacy(遗产(ychn) databaseText databases & WWW2022/7/2062HD-bxf共六十八页数据挖掘的功能(gngnng)Concept description: Characterization(描述) and discrimination(区别)Generalize(归纳(gu
38、n), summarize(总结), and contrast data characteristics, e.g., dry vs. wet regionsAssociation (correlation and causality)Diaper Beer 0.5%, 75%Classification and Prediction ClassificationTo find a model for predicting the class labels of unseen dataPresentation: decision-tree, classification rule, neural ne
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2022教师考核表个人述职报告范文【7篇】
- 结算工作总结模板4篇
- 竞聘演讲稿(集合15篇)
- 元旦晚会有感心得5篇
- 春天周末经典祝福语
- 见习护士自我鉴定集锦15篇
- 消化工作计划合集6篇
- 煤矿岗位工作标准
- 广东省汕头市潮南井都中学2024-2025学年九年级上册语篇填空与补全对话专项练习测试卷(含答案)
- 村屯开展环境整治工作总结(4篇)
- 青年产业园铝灰和废酸资源化综合利用试验项目环评报告表
- 2024有限空间作业安全培训
- GB/T 44312-2024巡检机器人集中监控系统技术要求
- 统编版九下全册古诗词理解性默写及答案
- 【市质检】福州市2024-2025学年高三年级第一次质量检测 物理试卷(含答案)
- CJT 195-2004 外层熔接型铝塑复合管
- 工程图学及计算机绘图习题集
- 中国心力衰竭诊断和治疗指南2024解读
- 人教版三年级数学上册第七单元《长方形和正方形》(大单元教学设计)
- DBJ50-T-417-2022 建筑施工高处坠落防治安全技术标准
- 五年级上册英语教案-Unit 4 Lesson 21 What Year Is It-冀教版
评论
0/150
提交评论