版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、ppt design 数据挖掘学习小结 报告人:王晓鹏 2013年9月30日 ppt design 内容 n研究背景 n知识发现 n什么是数据挖掘 n数据挖掘的方法 n数据挖掘所使用的技术 n数据挖掘利用的思想 n数据挖掘的主要问题 ppt design 研究背景 爆炸式增长的信息在给人们带来方便的同时,也带来了一系列的 问题,如信息过量、信息真伪、信息安全、信息形式多样化等。 虽然成熟的数据库系统可以高效地实现数据的录入、查询、统计 等功能,但无法发现数据中存在的关系和规则,无法对未来进行 预测。 快速增长的海量数据,存放在大型和大量数据库中,没有强有力 的工具,理解他们已远远超出了人的能力
2、。数据和信息之间的鸿沟要 求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖。 ppt design 知识发现(kdd) 一些人把数据挖掘视为知识发现的一个基本步骤,而另外大多数 人则把数据挖掘视为数据中的知识发现(kdd)的同义词。 知识发现是从数据集中识别出有效的、新颖的、潜在有用的, 以及最终可理解的模式的非平凡过程。 1.1.定义定义 ppt design 结果解释和评价 数据挖掘阶段 数据准备 知识发现知识发现 数据预处理 数据变换 数据选取确定发现任务的操作对象,即目标对象 消减数据维数或降维 包括消除噪声、推导计算缺值数据、 消除重复记录、完成数据类型转换等 决定使用什么样的开采
3、算法。 确定开采的任务,如数据总结、分类、 聚类、关联规则发现或序列模式发现 等。 数据挖掘阶段发现的模式,经过用户 和机器的评价,可能存在冗余或无关 的模式,这时需要剔除,使用户更容 易理解和应用。 2.2.知识发现过程知识发现过程 ppt design 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、 随机的实际应用数据中,提取隐含在其中的,人们事先不知 道的、但又是潜在有用的信息和知识的过程。 1. 定义定义 什么是数据挖掘 ppt design 1. 数据源是真实的、大量的、含噪声的; 2. 发现的是用户感兴趣的知识; 3. 发现的知识要可接受、可理解、可运用; 4. 这些知识是相对
4、的,是有特定前提和约束条件的,在特定领域 中具有实际应用价值。 什么是数据挖掘 2. 定义中所包含的信息定义中所包含的信息 ppt design 1. 理解数据和数据的来源(understanding); 2. 获取相关知识与技术(acquisition); 3. 整合与检查数据(integration and checking); 4. 去除错误或不一致的数据(data cleaning); 5. 建立模型和假设(model and hypothesis development); 6. 实际数据挖掘工作(data mining); 7. 测试和验证挖掘结果(testing and veri
5、fication); 8. 解释和应用(interpretation and use)。 3. 数据挖掘的完整步骤数据挖掘的完整步骤 什么是数据挖掘 ppt design 数据挖掘的方法 数据挖掘的方法主要有数据挖掘的方法主要有 1.特征化与区分 2.频繁模式、关联和相关性 3.分类与回归 4.聚类分析 5.离群点分析 ppt design 数据挖掘的方法 1.1.特征化与区分特征化与区分:数据特征化是目标类数据的一般特征或特征的汇 总。通常,通过查询来收集对应于用户指定类的数据。数据区分是将 目标类数据对象的一般特征与一个或多个对比类对象的一般特征进行 比较。目标类和对比类可以由用户指定,而
6、对应的数据对象可以通过 数据库查询检索。 数据特征化例子 例1.要汇总一年之内在沃尔玛超市花费50000元以上的顾客特征,结 果可能是顾客的概况,如年龄在4050岁、有工作、有很好的信誉等 级。 数据区分例子 例2.用户在使用某一软件之前,可能希望将上一年销售增加10%的软 件产品于同一时期销售至少下降30%的软件产品进行比较。 ppt design 2.2.频繁模式、关联和相关性:频繁模式、关联和相关性:频繁模式是在数据中频繁出现的模 式。存在多种类型的频繁模式,包括频繁项集、频繁子序列和频繁 子结构。挖掘频繁模式导致发现数据中有趣的关联和相关性。如果 一个关联规则不能同时满足最小支持度阈值
7、和最小置信度阈值,则 它认为是无趣的而被丢弃。 例3.频繁项集一般是指频繁地在事物数据集中一起出现的商品的集 合,如小卖部中被许多顾客频繁地一起购买的牛奶和面包。 例4.频繁出现的子序列,如顾客倾向于先购买电脑,再购买打印机, 然后再购买打印纸这样的模式就是一个序列模式。 例5.关联分析,如假设你作为某超市的经理,你想知道哪些商品经 常一块被购买,通过分析购物篮你很容易发现这一现象。 数据挖掘的方法 ppt design 3.3.分类与回归:分类与回归:分类是这样的过程,它找出描述和区分数据类或概念 的模型,以便能够使用模型预测类标号未知的对象的类标号。分类预 测类别(离散的、无序的)标号,而
8、回归建立连续函数模型。 例7. 知道父代身高,推测子代身高。研究表明,子代身高有回到父辈平均身 高的趋势,一般高个子父辈的儿子们的平均高度要低于父辈的平均身高,低 个子父辈的儿子们的平均高度要比父辈的高,即子代的平均身高向中心回归。 例6.下图是一个数据分类: 数据挖掘的方法 ppt design 4. 4. 聚类分析:聚类分析:聚类分析数据对象,而不考虑类标号。对象根据最 大化类内相似性、最小化类间相似性的原则进行聚类或分组。 例8.如果现在要把n个产品按产品的m个指标继续聚类,因为产品可 能之前的特色是不一样的。而这个时候影响产品的因素有m个,不 可能一个一个的考虑,那样是分不出类来的。所
9、以只能对产品的m 个指标综合考虑,采用统计分析软件(spss)中的样本聚类方法, 就可以直接将产品分好类。并且从分析结果还可以看出各类产品的 特色分别是什么。 数据挖掘的方法 ppt design 5.5.离群点分析:离群点分析:数据集中可能包含一些数据对象,它们与数据 的一般行为或模型不一致,这些数据对象是离群点。离群点数据 分析称做离群点分析或异常挖掘。 例9.两个当事人之间的股票交易被认为是正常的。然而,在短期 内,相同的股票在一小群当事人之间的大量交易就是集体离群点, 因为他可能是某些人操纵股市的证据。 数据挖掘的方法 ppt design 数据挖掘所使用的技术 统计学 数据库 系统
10、数据仓 库 信息检 索 应用邻 域技术 高性能 算法 算法 可视化 模式识 别 机器学 习 数据挖 掘 1.数据挖掘所使用的技术数据挖掘所使用的技术 ppt design 1)统计学:统计学研究数据的收集、分析、解释和表示。 例10.下图是一个统计图表: 数据挖掘所使用的技术 ppt design 3) 数据库系统与数据库:数据库系统研究、关注为单位和最终 用户创建、维护和使用数据库。数据库系统在处理非常大的、相 对结构化的数据集方面具有高度可伸缩性。 例11. 学校将每位同学的信息如姓名、性别、年龄、民族等都储 存起来,这就形成了一个数据库。对数据库中的数据进行一系列 的处理形成一个数据库系
11、统。 数据挖掘所使用的技术 ppt design 2) 机器学习:机器学习考察计算机如何基于数据学习或提高 它们的性能。其主要研究领域是计算机程序基于数据自动地学 习识别复杂的模式,并作出智能的决断。它包括:监督学习、 无监督学习、半监督学习、主动学习。 例12. 如声音识别,人脸识别,汽车无人驾驶等都是让机器不 断的学习,以此来不断提高它的性能。 数据挖掘所使用的技术 ppt design 4) 信息检索:信息检索是搜索文档或文档中信息的科学,它 的典型方法采用概率模型。 例13. 在不知道所要查询的文章标题的情况下,可以通过文章 中的关键字在google学术中搜索到与自己需要的文章类似的一
12、 类文章,在其中找到自己需要的文章。 数据挖掘所使用的技术 ppt design 5)此外还有可视化、算法、高性能计算和许多应用领域的大量技术。 c4.5 k-means svm apriori em pagerank adaboost knn naive bayes cart 十大经典算法 是一种最有影响的挖掘布尔关联规则频繁项集的算法 是google算法的重要内容。pagerank根基网站的外部链接和内 部链接的数量和质量,衡量网站的价值 是一种迭代算法,其核心思想是针对同一个训练集训练不同的 分类器然后把弱分类器集合起来,构成一个更强的最终分类器 支持向量机(support vector
13、 machine)。一种监督式学习的 方法,广泛运用于统计分类以及回归分析中 是一种聚类算法。它与处理混合正态分布的最大期望算法很相 似,因为它们都试图找到数据中自然聚类的中心 是机器学习算法中的一种分类决策树算法,它是决策树核心算 法id3的改进算法 k-最近邻域分类算法(k-nearest neighbor)。是一个理论上比 较成熟的的方法,也是最简单的机器学习方法之一 应用最广泛的两种分类模型有决策树模型和朴素贝叶斯模型, 理论上与其它算法比,它具有最小的误差。 分类与回归树,在分类树下面有两个关键的思想,第一个是关 于递归地划分自变量空间的想法,第二个是用验证数据进行减枝 最大期望算法
14、(expectation maximization )。是在概率模 型中寻找参数最大似然估计的算法 ppt design 数据挖掘主要利用的思想数据挖掘主要利用的思想 1.来自统计学的抽样、估计和假设检验; 2.人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论; 3.最优化、进化计算、信息论、信号处理、可视化和信息检索; 4.需要数据库系统提供有效的存储、索引和查询处理支持,需要高性能 (并行)或分布式计算的技术处理海量的数据集。 数据挖掘利用的思想 ppt design 数据挖掘的主要问题 数据挖掘的 主要问题 数据挖掘 与社会 数据库类型的 多样性 有效性 可伸缩性 用户界面 挖掘方法 数据挖掘对社会有何影响,可以采取什么 步骤来保护个人隐私,无
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新疆维吾尔自治区乌鲁木齐市米东区三校联考 2024-2025学年 高一上学期期末考试 生物试题 (含答案)
- 陕西省汉中市宁强县2024-2025学年九年级上学期1月期末历史试卷(含答案)
- 0805理财师三级理论知识真题(含答案)
- 安徽省安庆市怀宁县2024-2025学年高二上学期1月期末考试数学试题(含答案)
- 07年1月中英合作财务管理真题及答案
- 3分包合同条件
- 历史-辽宁省大连市2024-2025学年高三上学期期末双基测试卷及答案
- 2024电子商务市场竞争秩序与合同法规完善
- 2024年酒店品牌特许经营协议
- 福建省南平市将口镇中学2021年高二英语模拟试卷含解析
- 光伏业务合同范例
- 华北理工大学《高等代数》2023-2024学年第一学期期末试卷
- 2024年四川省泸州市中考英语试题含解析
- 2025届北京市清华附中高二物理第一学期期末联考试题含解析
- 2023电气工程师考试内部题库含答案
- 2025届河南省九师联盟商开大联考高一数学第一学期期末学业质量监测模拟试题含解析
- ASTM-A269-A269M无缝和焊接奥氏体不锈钢管
- 2024-2030年中国车载动态称重行业投融资规模与发展态势展望研究报告
- 2024年重庆公交车从业资格证考试题库
- 2023年山东省中职普通高校招生(春季高考)统一考试语文试题答案
- 2024年“一岗双责”制度(五篇)
评论
0/150
提交评论