版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与数据挖掘第章2024/3/27数据仓库与数据挖掘第章教材及参考书教材
JiaweiHan,数据挖掘概念与技术(中译本),机械工业出版社参考书
-苏新宁.数据仓库与数据挖掘.北京:清华大学出版社 -李志刚等.数据仓库与数据挖掘的原理及应用,高教出版社-安淑之等.数据挖掘与数据仓库,清华大学出版社 -周根贵.数据仓库与数据挖掘,浙江大学出版社 -康晓东.基于数据仓库的数据挖掘技术,机械工业出版社数据仓库与数据挖掘第章课时安排总课时32学时其中,课堂讲授16学时,实验16学时数据仓库与数据挖掘第章考核标准平时成绩占30%期末考试的成绩占70%数据仓库与数据挖掘第章答疑安排周三第6小节办公室等待大家的光临电子邮件答疑课间答疑行政南楼346房间数据仓库与数据挖掘第章本课程的特点理论性强 统计学、信息理论、各种算法实践性强 解决生活中的问题具备一定的计算机基础 数据库、数据结构、操作系统、算法实现等知识数据仓库与数据挖掘第章如何学习?定位:
-基本要求:掌握数据挖掘的操作流程和基本原理,能够基于软件工具,分析和解决具体数据挖掘应用问题。 -更高要求:对于计算机基础强、且学有余力的同学,能够针对具体应用,程序实现数据挖掘算法。理论联系实际数据仓库与数据挖掘第章课程体系共六章内容:第一章数据仓库与数据挖掘概述第二章数据仓库与OLAP第三章数据预处理第四章关联分析第五章分类和预测第六章聚类分析数据仓库与数据挖掘第章实验内容实验1数据仓库与OLAP的使用实验2测试常用数据预处理操作实验3测试K-means算法实验4分类挖掘任务的实践数据仓库与数据挖掘第章Chap1数据仓库与数据挖掘概述学习数据仓库与数据挖掘有何意义?初识数据仓库初识数据挖掘数据仓库与数据挖掘第章1、学习数据仓库与数据挖掘有何意义?•社会信息化后,社会的运转是软件的运转•社会信息化后,社会的历史是数据的历史数据仓库与数据挖掘第章划时代意义的技术?计算机和网络技术!有人甚至提出要把计算机与网络技术与火的发明相比拟。火的发明区别了动物和人;而计算机和网络技术则大大提高了人的生存质量和人的素质,使人成为社会人、全球人。数据仓库与数据挖掘第章网络之后的下一个技术热点是什么?《纽约时报》由60年代的10~20版扩张至现在的100~200版,最高曾达1572版;《北京青年报》也已是16~40版;市场营销报已达100版。然而在现实社会中,人均日阅读时间通常为30~45分钟,只能浏览一份24版的报纸。数据仓库与数据挖掘第章信息处理的难题 大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。数据仓库与数据挖掘第章数据爆炸但知识贫乏人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据的丰富带来了对强有力的数据分析工具的需求,快速增长的海量数据、存放在大型和大量数据库中,没有强有力的工具,理解这些数据已远远超出了人的能力.数据仓库与数据挖掘第章导致“数据爆炸但知识贫乏”的原因目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。数据仓库与数据挖掘第章数据仓库与数据挖掘第章我怎么分析这些数据?
数据仓库与数据挖掘第章如何才能不被信息淹没?人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”面对这一挑战,数据挖掘和知识发现(DataMiningandKnowledgeDiscovery)技术应运而生,并显示出强大的生命力.数据仓库与数据挖掘第章数据仓库与数据挖掘第章学习本课程的意义掌握数据仓库和数据挖掘的基本原理,用信息分析的方法进行思考问题.了解一些算法的基本思想.以便今后处理特定问题时使用.帮助你了解现代企业在信息化战略中所采用的技术手段,帮助你更深入地掌握面向经济问题开展研究和实践的基本方向.数据仓库与数据挖掘第章2初识数据仓库为什么要建立数据仓库?传统数据库的演化·主文件数据仓库与数据挖掘第章传统数据库的演化·单一数据库
数据仓库与数据挖掘第章20世纪80年代——90年代初期, 联机事务处理(OLTP)是数据库应用的主流!OLTP——在交易中处理信息,主要是基本的日常的事务处理。例如:银行交易数据库、业务数据库。数据仓库与数据挖掘第章20世纪90年代初期,
OLTP已经不足以获得市场竞争优势!用户要对大量业务数据和历史数据进行分析,产生决策,因此出现了联机分析处理(OLAP)!OLAP——基于业务数据的决策分析。数据仓库专家RalphKimball写道:“我们花了20多年的时间将数据放入数据库,如今是将它们拿出来的时候了!”数据仓库与数据挖掘第章OLTP和OLAP对数据的要求是不一样的!
OLTPOLAP
用户操作人员,低层管理人员
决策人员,高级管理人员
功能
日常操作处理分析决策
DB设计面向应用
面向主题
数据当前的,最新的,细节的,二维的,分立的
历史的,聚集的,多维的,集成的,统一的
存取读/写数十条记录读上百万条记录
工作单位简单的事务
复杂的查询
用户数上千个上百个
DB大小100MB~GB100GB~TB
数据仓库与数据挖掘第章正是事务处理和分析处理具有极其差异的性质,所以以事务处理环境来支持分析处理是行不通的!行不通的主要原因有:两种处理的性能特点不同!数据集成问题!数据动态集成问题!历史数据问题!数据的综合问题!数据仓库与数据挖掘第章传统数据库的演化·抽取程序因为用抽取程序能将数据从高性能联机事务处理方式中转移出来,所以在需要总体分析数据时就与联机事务处理性能不发生冲突。数据仓库与数据挖掘第章抽取程序形成了“蜘蛛网”数据不一致!数据仓库与数据挖掘第章而且生产率很低!数据仓库与数据挖掘第章传统数据库的演化·数据仓库数据在从操作型环境转移到数据仓库环境的同时进行集成数据仓库与数据挖掘第章什么是数据仓库(DW)?——是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、相对稳定的、随时间变化的、分层次的多维的集成数据集合。数据仓库与数据挖掘第章数据仓库的作用两个主要作用存储经过加工处理的决策需要的数据–存储数据的一种形式–加工和集成后的再存储查询和决策分析的依据–为数据驱动型的决策支持提供数据基础数据仓库与数据挖掘第章建立数据仓库的好处更加高效的地制定决策提供一个关于整个企业的整体构架集中存放,方便存取,提高生产效率减少重复数据处理和分析提高用户对数据的应用程度为商务流程再造提供支持数据仓库与数据挖掘第章数据仓库的特点面向主题集成性相对稳定(非易失)时态性(反映时间变化)数据仓库与数据挖掘第章3初识数据挖掘数据挖掘逐渐演变的过程:机器学习成为人们关心的焦点。从范例出发随着人工智能技术的形成和发展,人们的注意力转向知识工程,直接从计算机输入规则。从规则出发80年代末出现一个新的术语,即数据库中的知识发现,简称KDD(Knowledgediscoveryindatabase)。从数据出发
数据仓库技术的发展与数据挖掘有着密切的关系。促进,但不是先决条件!
数据仓库与数据挖掘第章数据挖掘在商务智能中的位置
IncreasingpotentialtosupportbusinessdecisionsEndUserBusinessAnalystDataAnalystDBAMakingDecisionsDataPresentationVisualizationTechniquesDataMiningInformationDiscoveryDataExplorationOLAP,MDAStatisticalAnalysis,QueryingandReportingDataWarehouses/DataMartsDataSourcesPaper,Files,InformationProviders,DatabaseSystems,OLTP数据仓库与数据挖掘第章什么是数据挖掘?数据挖掘(DataMining,DM),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)是从数据中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘数据库技术统计学知识库信息科学机器学习可视化技术数据仓库与数据挖掘第章数据挖掘的过程
(1) 数据收集(2) 数据预处理(3) 数据挖掘(4) 知识评价
数据仓库与数据挖掘第章数据挖掘系统结构
数据仓库与数据挖掘第章数据挖掘的任务数据挖掘任务有两类:描述和预测描述性挖掘任务刻划数据库中数据的一般特性;预测性数据挖掘任务在当前数据上进行推断、预测具体任务包括:1)分类(Classification)2)回归(Regression)3)聚类(Clustering)4)关联分析(AssociationAnalysis)5)时间序列分析(TimeSeriesAnalysis)6)偏差检测(DeviationDetection)7)概念描述(ConceptDescription)数据仓库与数据挖掘第章分类(Classification) 用于提取反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。在数据挖掘中,分类模型通过对已知类别的个体进行归纳,找出各类别与个体的特征属性之间的关系,即分类模式。例如:疾病诊断系统、高血压药物选择、电信客户流失。数据仓库与数据挖掘第章训练集应用决策树算法判断某人是否会购买计算机?数据仓库与数据挖掘第章算法输出age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..40数据仓库与数据挖掘第章聚类(Clustering) 是将一个群体分成多个类,使同类个体尽可能相似而不同类间个体差异尽可能大。 与分类的区别? 例如:电信客户细分?数据仓库与数据挖掘第章K-means算法的聚类过程数据仓库与数据挖掘第章关联(association) 用于发现事物间的关联规则,或称相关程度。 关联规则:X&YZ[s,c] 例如:如果IBM的股票价格上升,有70%的可能微软的股票价格要下降;买榔头的人有40%同时买钉子。 例如:交叉销售。数据仓库与数据挖掘第章回归(Regression) 用属性的历史数据预测未来趋势。包括线性问题、非线性问题。例如:工作与工龄的关系、机械系统故障的发生。数据仓库与数据挖掘第章时间序列分析(TimeSeriesAnalysis) 用已有的数据序列预测未来。 回归模型不强调数据间的先后顺序,而时间序列模型要考虑时间特性,尤其要考虑时间周期的层次,如天、周、月、年等,有时还要考虑日历的影响,如节假日等。 例如,股票数据挖掘等。数据仓库与数据挖掘第章偏差检测(DeviationDetection) 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。 例如:入侵检测。数据仓库与数据挖掘第章数据挖掘产品比较数据仓库与数据挖掘第章数据挖掘的热点和主要问题?主要热点:就目前来看,将来的几个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 航空航天采购合同协议书
- 沈阳理工大学《C++程序设计》2022-2023学年期末试卷
- 2024居间合同样本
- 2024试用期内是否要签合同
- 2024中外合资经营企业合同制造厂
- 2024家装装修的合同范本
- 糖尿病蛋白质的摄入
- 4人合伙人协议书(2篇)
- 租赁协议书(2篇)
- 关于银行实习日记模板汇编六篇
- TikTok全球化运营策略解析
- 保安班长工作管理制度
- 手术体位相关周围神经损伤及预防课件
- 2024人教版初中英语单词词汇表默写背诵(中考复习必背)
- 数字媒体技术专业大学生职业生涯规划书
- 【精】人民音乐出版社人音版五年级上册音乐《外婆的澎湖湾》课件PPT
- 抗肿瘤药物临床合理应用(临床)
- 弱电维护保养方案
- 安全施工管理组织机构图
- 中国数据中心产业发展白皮书(2023年)
- 《建筑企业财务 》课件
评论
0/150
提交评论