




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
决策支持系统决策支持系统第九章
数据挖掘与数据可视化本章学习目的与要求理解数据挖掘的基本概念;掌握数据挖掘常用的算法;理解数据可视化的基本概念;内容提示第一节数据挖掘第二节数据可视化第一节数据挖掘第一节数据挖掘数据挖掘的概念;数据挖掘的任务。
(一)数据挖掘概念---前言
信息产业的发展引发了数据的大量聚集,如一个中等规模企业每天要产生100MB以上来自各生产经营等多方面的商业数据;在科研方面,以美国宇航局的数据库为例,每天从卫星下载的数据量就达3~4TB之多。据估计,1993年全球数据存贮容量约为二千TB,到2000年增加到三百万TB,面对这极度膨胀的数据信息量,人们受到“信息爆炸”、“混沌信息空间”和“数据过剩”的巨大压力。前言人类的各项活动都是基于人类的智慧和知识,即对外部世界的观察和了解,做出正确的判断和决策以及采取正确的行动;而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据到知识到智慧,需要经过分析加工处理精炼的过程。前言数据与知识间的关系数据到知识的转变
数据仓库的出现,为更深入对数据进行分析提供了条件,它不同于管理日常工作数据的数据库,它更便于分析针对特定主题的集成化的、时变的的数据,且这些数据一旦存入就不再发生变化;
OLAP是数据分析手段的一大进步,以往的分析工具所得到的报告结果只能回答“什么”(WHAT),而OLAP的分析结果能回答“为什么”(WHY)。数据到知识的转变
但OLAP是建立在用户对深藏在数据中的某种知识有预感和假设的前提下,由用户指导的信息分析与知识发现过程;
由于数据仓库中的数据来源于多个数据源,因此其中埋藏着丰富的不为用户所知的有用信息和知识,而要使企业能及时准确地做出科学的经营决策,就需要有基于计算机与信息技术的智能化自动工具,来帮助挖掘隐藏在数据中的各类知识。数据挖掘的产生九十年代中期以来,许多软件开发商,基于数理统计、人工智能、机器学习、神经网络、进化计算和模式识别等多种技术和市场需求,开发了许多数据挖掘与知识发现软件工具,从而形成了近年来软件开发市场的热点。目前数据挖掘工具已开始向智能化整体数据分析解决方案发展,这是从数据到知识演化过程中的一个重要里程碑。数据挖掘的产生数据到知识的演化过程示意图(一)数据挖掘的概念
数据挖掘(DataMining,DM):又名数据库中的知识发现(Knowledgediscoveryfromdatabase,简称KDD),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。简单地讲就是从大量数据中挖掘或抽取出知识。数据挖掘的步骤数据挖掘过程示意图数据挖掘的过程整个知识挖掘过程是由若干挖掘步骤组成,而数据挖掘仅是其中的一个主要步骤。整个知识挖掘的主要步骤有:(1)数据清洗:清除数据噪声和与挖掘主题明显无关的数据;(2)数据集成:将来自多数据源中的相关数据组合到一起;(3)数据转换:将数据转换为易于进行数据挖掘的数据存储形式。数据挖掘的过程(4)数据挖掘:利用智能方法挖掘数据模式或规律知识;(5)模式评估:根据一定评估标准从挖掘结果筛选出有意义的模式知识;(6)知识表示:利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。(二)数据挖掘的任务利用数据挖掘技术可以帮助获得决策所需的多种知识。在许多情况下,用户并不知道数据存在哪些有价值的信息知识,因此对于一个数据挖掘系统而言,它应该能够同时搜索发现多种模式的知识,以满足用户的期望和实际需要。(二)数据挖掘的任务
数据挖掘功能以及所能够挖掘的知识类型说明描述如下:(1)关联分析;(2)分类与预测;(3)聚类分析;(4)异类分析;(5)演化分析。(1)关联分析
关联分析(associationanalysis)就是从给定的数据集发现频繁出现的项集模式知识(又称为关联规则,associationrules)。关联分析广泛用于市场营销、事务分析等应用领域。通常关联规则具有:X⇒Y形式,表示“数据库中的满足X中条件的记录也一定满足Y中的条件”。关联分析示例一个数据挖掘系统可以从一个商场的销售(交易事务处理)记录数据中,挖掘出如下所示的关联规则:Age(X,”20-29”)∧income(X,“20K-30K”)⇒buys(X,”MP3”)[support=2%,confidence=60%]上述关联规则表示:该商场有2%的顾客年龄在20岁到29岁且收入在2万到3万之间,这群顾客中有60%的人购买了MP3,或者说这群顾客购买MP3的概率为60%。(2)分类与预测分类(classification)就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别(class),即将未知事例映射到某种离散类别之一。分类模型(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。(2)分类与预测分类通常用于预测未知数据实例的归属类别(有限离散值),如一个银行客户的信用等级是属于A级、B级还是C级。但在一些情况下,需要预测某数值属性的值(连续数值),这样的分类就被称为预测(prediction)。尽管预测既包括连续数值的预测,也包括有限离散值的分类;但一般还是使用预测来表示对连续数值的预测;而使用分类来表示对有限离散值的预测分类与预测示例表中给出打高尔夫球与天气的关系,要求根据条件属性的不同取值来决定是否可以打高尔夫球。IDOutlookTemperatureHumidityWindyClass1OvercastHotHighNotN2OvercastHotHighVeryN3OvercastHotHighMediumN………………38SunnyHotHighMediumP39RainMildHighNotN40RainMildHighMediumN分类与预测示例分类结果(决策树)(3)聚类分析聚类分析(clusteringanalysis)与分类预测方法明显不同之处在于:分类所学习获取分类预测模型所使用的数据是已知类别归属,属于有教师监督学习方法;而聚类分析所处理的数据均是无类别归属。因此聚类分析属于无教师监督学习方法。聚类原则:类内距离最小,类间距离最大。(4)异类分析一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型。那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为异类(outlier)。对异类数据的分析处理通常就称为异类挖掘。(4)异类分析
之前许多数据挖掘方法都在正式进行数据挖掘之前就将这些异类作为噪声或意外而将其排除在数据挖掘的分析处理范围之内。但在一些应用场合,如各种商业欺诈行为的自动检测,小概率发生的事件(数据)往往比经常发生的事件(数据)更有挖掘价值。例如:可以根据购买的发生地点、购买商品类型和购买频率等发现属于信用卡诈骗的购买行为(异类数)。(5)演化分析数据演化分析(evolutionanalysis)就是对随时间变化的数据对象的变化规律和趋势进行建模描述。这一建模手段包括:概念描述、对比概念描述、关联分析、分类分析、时间相关数据分析(这其中又包括:时序数据分析、序列或周期模式匹配,以及基于相似性的数据分析)。演化分析示例例如:利用演化分析方法可对股市主要股票交易数据(时序数据)进行分析,以便获得整个股票市场的股票演化规律,以及一个特定股票的变化规律,这种规律或许能够帮助预测股票市场上的股票价格,从而有效提高投资回报率。第二节数据可视化第二节数据可视化数据可视化的概念;数据可视化的意义。
(一)数据可视化的概念数据可视化是关于数据之视觉表现形式的研究。数据可视化是当前的一个热点问题,特别在交互设计领域,如何把数据——特别是大规模的数据进行可视化就成为了一个非常热门的问题。(一)数据可视化的概念可视化(Visualization):利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业上市居间合同范本
- 2025年沈阳货运资格证考试中心
- 农资货物销售合同范本
- 出售桌球桌子合同范本
- 全手机购销合同范本
- 劳动解约合同范本
- 划线施工合同范例
- 《第一单元 参考活动1 唱响团歌》教学设计 -2023-2024学年初中综合实践活动苏少版八年级上册
- 内墙翻新粉刷合同范本
- 3人合伙养殖合同范本
- 人行道道铺设施工方案
- 【历史】元朝的建立与统一课件 2024-2025学年统编版七年级历史下册
- 2025年度游戏工作室游戏客服中心用工合同
- 2025湖北社会工作师历年高频重点提升(共500题)附带答案详解
- 桥梁拆除施工方案及安全措施
- 2024年吉林长春市总工会公招聘工会社会工作者笔试真题
- 【历史】2025年春季七下历史新教材课本答案大全(想一想、材料研读、读地图、课后活动)
- 2025中国烟草/中烟工业招聘高频重点提升(共500题)附带答案详解
- 江苏省中小学生金钥匙科技竞赛(高中组)考试题及答案
- 2025造价咨询工作计划范本
- 关于谷爱凌的课件
评论
0/150
提交评论