版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术1精选ppt前言学习目的和方向数据仓库-新型的信息管理手段数据挖掘-新型的信息分析技术基于数据仓库的数据挖掘更加有效2精选ppt教材数据仓库和数据挖掘苏新宁、杨建林等编著,清华大学出版社,2006参考书数据挖掘:概念与技术,[加]韩家炜坎伯〔Kamber,M.〕著范明等译微软公司核心技术书库SQLServer2000数据挖掘技术指南,[美]希德曼〔Seidman,C.〕著刘艺等译数据挖掘原理,[英]汉德〔Hand,D.)著张银奎等译前言3精选ppt参考书数据仓库原理与实践,林宇等编著数据仓库中的决策支持,瑞Gray沃森WatsonOracle9i数据仓库分析、构建实用指南,飞思科技产品研发中心编著数据挖掘讨论组前言4精选ppt主要内容第1章数据仓库、数据挖掘与信息管理第2章数据挖掘的功能、过程与方法第3章数据库挖掘第4章文本挖掘第5章Web挖掘第6章数据挖掘应用第7章数据挖掘软件开展分析5精选ppt第1章数据仓库、数据挖掘与信息管理6精选ppt数据仓库的起源数据库与数据仓库是信息资源管理的两种手段企业用户信息的需求有了新的变化,传统的数据库很难胜任这方面的要求数据仓库可以很好地满足这方面的要求7精选ppt1.1企业信息用户关心的新问题一般来说,用户关心以下问题:可访问性即用户能否得到他所需要的信息〔例,教室占用率〕;及时性即用户得到信息需要等多长时间〔例,地质模拟,算最正确注水温度、矿物浓度〕;格式即用户能否用电子表格、图形、地图或其他分析工具来操纵他所得到数据、能否得到报表形式的数据;完整性即用户得到的数据是否可信〔从不完整的数据中得出的结论可能不准确〕。8精选ppt1.1企业信息用户关心的新问题传统数据库技术的局限性
传统的数据库技术以数据库为中心进行从事务处理到决策分析等各种类型的数据处理工作,不适宜决策支持应用9精选ppt1.1企业信息用户关心的新问题事务处理环境不适宜决策支持应用的主要原因事务处理和分析处理的性能特性不同数据集成问题历史数据问题数据综合问题10精选ppt1.2解决问题的关键技术-数据仓库构建数据仓库,把分析型数据从事务处理环境中提取出来,按照决策支持处理的需要进行重新组织,建立单独的分析处理环境11精选ppt1.2解决问题的关键技术-数据仓库数据仓库Inmon把数据仓库描述为一个“面向主题的、完整的、非易失的、不同时间的、用于支持决策管理的数据集合〞通常有两种数据源的数据聚居在数据仓库中在大多数情况下,来自于事务处理系统周期性迁移的数据被移入数据仓库另一种数据源常常是购置过来的可以与内部数据相连通的外部数据库,如收入清单、人口统计信息等12精选ppt1.3数据仓库的商业应用典型应用:客户关系管理有了数据仓库,就可以了解客户是谁,他要什么,怎样提供更好的效劳给他,并以此创造更多利润零售业电信行业证券行业13精选ppt1.4数据仓库与信息管理数据仓库在信息管理方面的作用信息资源管理信息分析信息效劳基于数据仓库为用户提供信息效劳,可以使用户能够从多种视角观察数据,从而能够更深入地理解数据,从中获得决策支持信息数据仓库提供给用户的信息或知识可以是利用从数据仓库抽取出的数据组织成的报表或绘制成的直观图形14精选ppt1.5信息管理新问题催生数据挖掘人们被“淹没〞在数据“海洋〞之中如何不被堆积如山的信息所淹没?如何能够迅速地从海量信息中获取有用信息?在这种背景下,数据挖掘〔DataMining〕技术应运而生15精选ppt1.5信息管理新问题催生数据挖掘数据挖掘是指从大型数据集中提取人们感兴趣的知识,这些知识是隐含的、具有一定可信度的、对用户而言是新颖的且有潜在价值的知识,提取的知识表示为概念、规那么、模式等多种形式16精选ppt1.5信息管理新问题催生数据挖掘下面将通过一个案例研究来介绍各个数据分析阶段中所涉及的概念三个阶段:报表查询联机分析数据挖掘17精选ppt1.5信息管理新问题催生数据挖掘案例之报表查询18精选ppt1.5信息管理新问题催生数据挖掘案例之报表查询19精选ppt1.5信息管理新问题催生数据挖掘案例之联机分析1.1月份,头盔在什么地区销售最好?2.1月份,哪个国家的头盔销售在该畅销地区处于领先地位?3.在领先的国家中,哪个城市的头盔收入最高?20精选ppt1.5信息管理新问题催生数据挖掘案例之数据挖掘问题;对购置山地车的客户来说,什么是最可能会同时购置的商品?IntelligentMinerfordata该问题做出如下答案:头盔,可能性为92%:手套,可能性为62%:新款铃铛,可能性为23%;速度计,可能性为13%。关联算法发现了产品之间的联系。根据上面的答案,它会给销售人员一个目录,列出在销售某一具体产品时所建议的前3名关联产品。例如,如果销售山地车,销售人员可建议购置头盔、手套和新款铃铛。21精选ppt1.5信息管理新问题催生数据挖掘案例之数据挖掘3个月后,公司有了如下结果:季度的营业额上升34%,收入上涨32%;每辆山地车交易的平均销售收入增加了29%;山地车与头盔一块购置成了时尚〔每个销售地点的头盔成交量都上升了〕;手套的销售上升15%;山地车附件上升51%;22精选ppt1.6数据仓库与数据挖掘的关系构建在数据仓库平台上的数据挖掘效率会更高一般来说,数据挖掘的对象可以是普通的数据库、文件系统,也可以是数据仓库,但,数据仓库完成了知识发现过程中大局部的数据预处理工作数据挖掘库中的内容可以是数据仓库数据的一个逻辑上的子集数据挖掘是一个相对独立的系统,它可以独立于数据仓库系统而存在23精选ppt1.7数据仓库与数据库长期共存首先,企业在建立用于决策的数据仓库系统时,不能一味否认传统的数据库系统,还应该在企业内部保存数据库系统,用于日常的事务处理其次,数据库是数据仓库的根底第三,在技术实现方面,数据库与数据仓库差异不大,数据仓库并不是纯粹的技术科学,它强调的是数据组织的一种理念第四,不要脱离企业的实际,盲目地、片面地、甚至是赶时髦地去引进与实施数据仓库技术24精选ppt在何种数据上进行数据挖掘关系数据库数据仓库事务数据库高级数据库系统和信息库空间数据库时间数据库和时间序列数据库流数据多媒体数据库面向对象数据库和对象-关系数据库异种数据库和历史(legacy)数据库文本数据库和万维网(WWW)知识库25精选ppt空间数据库空间数据库是指在关系型数据库〔DBMS〕内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。常见的空间数据库数据类型地理信息系统(GIS)遥感图像数据医学图像数据26精选ppt时间数据库和时序数据库时间数据库和时序数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的数据。时序数据库存放随时间变化的值序列。对时间数据库和时序数据库的数据挖掘,可以通过研究事物发生开展的过程,有助于揭示事物开展的本质规律,可以发现数据对象的演变特征或对象变化趋势。27精选ppt流数据与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。主要应用场合网络监控网页点击流股票市场流媒体…等等与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。28精选ppt多媒体数据库多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括包括图形(graphics)、图象(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。29精选ppt面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个根底上实现了传统数据库的功能。对象-关系数据库基于对象-关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。面向对象数据库和对象-关系数据库中的数据挖掘会涉及一些新的技术,比方处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。面向对象数据库/对象-关系数据库30精选ppt异构数据库和历史(legacy)数据库历史数据库是一系列的异构数据库系统的集合,包括不同种类的数据库系统,像关系数据库、网络数据库、文件系统等等。有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。对于异构数据库系统,实现数据共享应当到达两点:一是实现数据库转换;二是实现数据的透明访问。WEBSERVICE技术的出现有利于历史数据库数据的重新利用。31精选ppt文本数据库和万维网(WWW)文本数据库存储的是对对象的文字性描述。文本数据库的分类无结构类型〔大局部的文本资料和网页〕半结构类型〔XML数据〕结构类型〔图书馆数据〕万维网(WWW)可以被看成最大的文本数据库数据挖掘内容内容检索WEB访问模式检索32精选ppt知识库针对知识库中的事实规那么应用综合归纳推理机制,挖掘出深层次的更富概括性的知识33精选ppt数据库数据仓库查询或报表传统分析数据挖掘集成分析34精选ppt数据仓库与传统数据库的区别
比较项目传统数据库数据仓库总体特征围绕高效的事务处理展开以提供决策支持为目标存储内容以当前数据为主主要是历史的、存档的、归纳的数据面向用户普通的业务处理人员高级的决策管理人员功能目标面向业务操作,注重实时性面向主题,注重分析功能汇总情况原始数据,不做汇总多层次汇总,数据细节有损失数据结构数据结构化程度高,适合运算操作数据结构化程度适中视图情况视图简单,内容详细多维视图,概括性强使用频率很高较低操作方式数据库主键上的散列/索引大量的扫描访问实现读取/写入并重以读取为主,较少写入数据规模100MB~1GB量级10GB~1TB量级数据访问量每次事务
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度教育信息化资源建设与运维合同3篇
- 2025版宁波环保企业员工绿色生产责任劳动合同4篇
- 二零二五年度新能源电动汽车研发与销售合同3篇
- 2025版新型城镇化抹灰分项工程劳务供应合同4篇
- 2025年度个人车辆租赁给单位使用规范合同2篇
- 2025年度个人知识产权担保合同模板8篇
- 2025年度泥水工程劳务分包合同范本(含材料供应)4篇
- 2025年度大型养殖场生猪养殖技术合作合同协议书4篇
- 2025年度二零二五年度猕猴桃种植农户利益联结合同4篇
- 2024年度青海省公共营养师之四级营养师能力测试试卷B卷附答案
- TB 10012-2019 铁路工程地质勘察规范
- 新苏教版三年级下册科学全册知识点(背诵用)
- 乡镇风控维稳应急预案演练
- 脑梗死合并癫痫病人的护理查房
- 苏教版四年级上册脱式计算300题及答案
- 犯罪现场保护培训课件
- 扣款通知单 采购部
- 电除颤操作流程图
- 湖北教育出版社三年级下册信息技术教案
- 设计基础全套教学课件
- IATF16949包装方案评审表
评论
0/150
提交评论