(整理)什么是数据挖掘_第1页
(整理)什么是数据挖掘_第2页
(整理)什么是数据挖掘_第3页
(整理)什么是数据挖掘_第4页
(整理)什么是数据挖掘_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、什么是数据挖掘 数据挖掘 (Data Mining) ,又称为数据库中的知识发现 (Knowledge Discovery in Database, KDD),就是 从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘 就是从大量数据中提取或 “挖掘 ”知识。 并非所有的信息发现任务都被视为数据挖掘。 例如, 使用数据库管理系统查找个别的记录, 或通过因特 网的搜索引擎查找特定的 Web 页面,则是信息检索( information retrieval )领域的任务。虽然这些任务是 重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科

2、学技术和数据的明显特 征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的 能力。 数据挖掘的起源 为迎接前一节中的这些挑战, 来自不同学科的研究者汇集到一起, 开始着手开发可以处理不同数据类型 的更有效的、可伸缩的工具。这些工作建立在研究者先前使用的方法学和算法之上,在数据挖掘领域达到 高潮。特别地, 数据挖掘利用了来自如下一些领域的思想: (1) 来自统计学的抽样、 估计和假设检验, (2) 人 工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域 的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化

3、和信息检索。 一些其他领域也起到重要的支撑作用。 特别地, 需要数据库系统提供有效的存储、 索引和查询处理支持。 源于高性能 (并行) 计算的技术在处理海量数据集方面常常是重要的。 分布式技术也能帮助处理海量数据, 并且当数据不能集中到一起处理时更是至关重要。 数据挖掘能做什么 1) 数据挖掘能做以下六种不同事情(分析方法): 分类(Classification ) 估值(Estimation ) 预言(Prediction ) 相关性分组或关联规则( Affinity grouping or association rules ) 聚集( Clustering ) 描述和可视化( Des c

4、ription and Visualization ) 复杂数据类型挖掘 (Text, Web , 图形图像,视频,音频等 ) 2) 数据挖掘分类 以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘 直接数据挖掘 目标是利用可用的数据建立一个模型, 这个模型对剩余的数据, 对一个特定的变量 (可以理解成数据库 中表的属性,即列)进行描述。 间接数据挖掘 目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘 3) 各种分析方法的简介 分类 ( Classification ) 首先从数据中选出

5、已经分好类的训练集, 在该训练集上运用数据挖掘分类的技术, 建立分类模型, 对于 没有分类的数据进行分类。 例子: a. 信用卡申请者,分类为低、中、高风险 b. 分配客户到预先定义的客户分片 注意: 类的个数是确定的,预先定义好的 估值( Estimation ) 估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的 类别是确定数目的,估值的量是不确定的。 例子: a. 根据购买模式,估计一个家庭的孩子个数 b. 根据购买模式,估计一个家庭的收入 c. 估计 real estate 的价值 一般来说, 估值可以作为分类的前一步工作。 给定一些输入数据,

6、通过估值,得到未知的连续变量的值, 然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 01 )。然后,根据阈值,将贷款级别分类。 预言( Prediction ) 通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量 的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测, 这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。 相关性分组或关联规则( Affinity grouping or association rules ) 决定哪些事情将一起

7、发生。 例子: a. 超市中客户在购买 A的同时,经常会购买 B,即A = B(关联规则) b. 客户在购买A后,隔一段时间,会购买 B (序列分析) 聚集(Clustering) 聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类, 不需要训练集。 例子: a. 一些特定症状的聚集可能预示了一个特定的疾病 b. 租 VCD 类型不相似的客户聚集,可能暗示成员属于不同的亚文化群 聚集通常作为数据挖掘的第一步。例如,哪一种类的促销对客户响应最好? ,对于这一 类问题,首 先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更

8、好。 描述和可视化( Des cription and Visualization ) 是对数据挖掘结果的表示方式。 数据挖掘的一般流程 定义问题:清晰地定义出业务问题,确定数据挖掘的目的。 数据准备:数据准备包括:选择数据 - 在大型 数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理-进行数据再加工,包括检查数据的完 整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。 数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖 掘。 结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。 知识的运用:将分析所得到的知识

9、集成到业务信息系统的组织结构中去。 数据挖掘的商业背景 数据挖掘首先是需要商业环境中收集了大量的数据,然后要求挖掘的知识是有价值的。有价值对商业 而言,不外乎三种情况:降低开销;提高收入;增加股票价格。 数据挖掘技术实现 在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。 数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数 据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及 互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系

10、统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。 数据的存储和管理 数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数 据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储 和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数 据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的 服务器。 数据的展现 在数据展现方面主要的方式有: 查询:实现预定义查询、动态查询、 OLAP 查询与决策支持智能查询;报表:产生关

11、系数据表格、复 杂表格、 OLAP 表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、 交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最 小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关 系和模式的知识。 数据挖掘与数据仓库融合发展 数据挖掘和数据仓库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖 掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性。另一方面,数据挖掘技术已经成为数据仓 库应用中极为重要和相对独立的方面和工具。 数据挖掘和数据仓库是融合

12、与互动发展的,其学术研究价值和应用研究前景将是令人振奋的。它是数 据挖掘专家、数据仓库技术人员和行业专家共同努力的成果,更是广大渴望从数据库“奴隶 ”到数据库 “主人 转变的企业最终用户的通途。 数据挖掘 (Data Mining) ,又称为数据库中的知识发现 (Knowledge Discovery in Database, KDD) ,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡 过程,简单的说,数据挖掘就是从大量数据中提取或 “挖掘 ”知识。 1. 数据挖掘能做什么? 1) 数据挖掘能做以下六种不同事情(分析方法) : 分类 ( Classification

13、) 估值( Estimation ) 预言(Prediction ) 相关性分组或关联规则(Affinity grouping or association rules ) 聚集( Clustering ) 描述和可视化( Des cription and Visualization ) 复杂数据类型挖掘 (Text, Web ,图形图像,视频,音频等) 2) 数据挖掘分类 以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘 直接数据挖掘 目标是利用可用的数据建立一个模型, 这个模型对剩余的数据, 对一个特定的变量 (可 以理解成数据库中表的属性,即列)进行描述。 间接数据挖掘

14、 目标中没有选出某一具体的变量, 用模型进行描述; 而是在所有的变量中建立起某种关 系。 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘 3) 各种分析方法的简介 分类 ( Classification ) 首先从数据中选出已经分好类的训练集, 在该训练集上运用数据挖掘分类的技术, 建立 分类模型,对于没有分类的数据进行分类。 例子: a. 信用卡申请者,分类为低、中、高风险 b. 分配客户到预先定义的客户分片 注意: 类的个数是确定的,预先定义好的 估值( Estimation ) 估值与分类类似, 不同之处在于, 分类描述的是离散型变量的输出, 而估值处理连续值 的输出;分类的类

15、别是确定数目的,估值的量是不确定的。 例子: a. 根据购买模式,估计一个家庭的孩子个数 b. 根据购买模式,估计一个家庭的收入 c. 估计 real estate 的价值 一般来说, 估值可以作为分类的前一步工作。 给定一些输入数据, 通过估值, 得到未知 的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运 用估值,给各个客户记分(Score 01)。然后,根据阈值,将贷款级别分类。 预言( Prediction ) 通常, 预言是通过分类或估值起作用的, 也就是说, 通过分类或估值得出模型,该模型 用于对未知变量的预言。 从这种意义上说, 预言其实没有必要分为

16、一个单独的类。 预言其目 的是对未来未知变量的预测, 这种预测是需要时间来验证的, 即必须经过一定时间后, 才知 道预言准确性是多少。 相关性分组或关联规则( Affinity grouping or association rules ) 决定哪些事情将一起发生。 例子: a. 超市中客户在购买 A的同时,经常会购买 B,即A = B(关联规则) b. 客户在购买 A 后,隔一段时间,会购买 B (序列分析) 聚集( Clustering ) 聚集是对记录分组, 把相似的记录在一个聚集里。 聚集和分类的区别是聚集不依赖于预 先定义好的类,不需要训练集。 例子: a. 一些特定症状的聚集可能预

17、示了一个特定的疾病 b. 租 VCD 类型不相似的客户聚集,可能暗示成员属于不同的亚文化群 聚集通常作为数据挖掘的第一步。例如,哪一种类的促销对客户响应最好?,对于这 一 类问题, 首先对整个客户做聚集, 将客户分组在各自的聚集里, 然后对每个不同的聚集, 回答问题,可能效果更好。 描述和可视化(Des cription and Visualization ) 是对数据挖掘结果的表示方式。 2.数据挖掘的商业背景 数据挖掘首先是需要商业环境中收集了大量的数据,然后要求挖掘的知识是有价值的。 有 价值对商业而言,不外乎三种情况:降低开销;提高收入;增加股票价格。 3. 数据挖掘 技术实现 在技术

18、上可以根据它的工作过程分为: 数据的抽取、 数据的存储和管理、 数据的展现等 关键技术。 数据的抽取 数据的抽取是数据进入仓库的入口。 由于数据仓库是一个独立的数据环境, 它需要通过 抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。 数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数 据抽取方面, 未来的技术发展将集中在系统功能集成化方面, 以适应数据仓库本身或数据源 的变化,使系统更便于管理和维护。 数据的存储和管理 数据仓库的组织管理方式决定了它有别于传统数据库的特性, 也决定了其对外部数据的 表现形式。 数据仓库管理所涉及的数

19、据量比传统事务处理大得多, 且随时间的推移而快速累 积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量 的数据、 如何优化查询等。 目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库 的功能,将普通关系数据库改造成适合担当数据仓库的服务器。 数据的展现 在数据展现方面主要的方式有: 查询:实现预定义查询、动态查询、 OLAP 查询与决策支持智能查询;报表:产生关系 数据表格、 复杂表格、 OLAP 表格、报告以及各种综合报表; 可视化: 用易于理解的点线图、 直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互 关系;统计:进行平

20、均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖 掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。 数据挖掘与数据仓库融合发展 数据挖掘和数据仓库的协同工作, 一方面,可以迎合和简化数据挖掘过程中的重要步骤, 提高数据挖掘的效率和能力, 确保数据挖掘中数据来源的广泛性和完整性。另一方面,数据 挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。 数据挖掘和数据仓库是融合与互动发展的,其学术研究价值和应用研究前景将是令人振 奋的。它是数据挖掘专家、 数据仓库技术人员和行业专家共同努力的成果,更是广大渴望从 数据库 奴隶”到数据库 主人”转变的企业最终用户的通

21、途。口 数据挖掘导论 数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据。然而,提取有用的 信息已经成为巨大的挑战。通常,由于数据量太大,无法使用传统的数据分析工具和技术处 理它们。有时,即使数据集相对较小,由于数据本身的非传统特点,也不能使用传统的方法 处理。在另外一些情况下,需要回答的问题不能使用已有的数据分析技术来解决。这样,就 需要开发新的方法。 数据挖掘是一种技术, 它将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖 掘为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会。本 章,我们概述数据挖掘,并列举本书所涵盖的关键主题。我们从介绍需要新

22、的数据分析技术 的一些著名应用开始。 商务 借助POS(销售点)数据收集技术条码扫描器、射频识别(RFID)和智 能卡技术,零售商可以在其商店的收银台收集顾客购物的最新数据。零售商可 以利用这些信息,加上电子商务网站的日志、电购中心的顾客服务记录等其他的 重要商务数据,更好地理解顾客的需求,做出更明智的商务决策。 数据挖掘技术可以用来支持广泛的商务智能应用,如顾客分析、定向营销、工作 流管理、商店分布和欺诈检测等。数据挖掘还能帮助零售商回答一些重要的商务 问题,如“谁是最有价值的顾客?” “什么产品可以交叉销售或提升销售?”“公 司明年的收入前景如何?”这些问题催生了一种新的数据分析技术一一关

23、联分析 (见第6、7章)。 医学、科学与工程医学、科学与工程技术界的研究者正在快速积累大量数据, 这些数据对获得有价值的新发现至关重要。 例如,为了更深入地理解地球的气候 系统,NASA已经部署了一系列的地球轨道卫星,不停地收集地表、海洋和大气 的全球观测数据。然而,由于这些数据的规模和时空特性, 传统的方法常常不适 合分析这些数据集。数据挖掘开发的技术可以帮助地球科学家回答如下问题:“干 旱和飓风等生态系统扰动的频度和强度与全球变暖之间有何联系?”“海洋表面 温度对地表降水量和温度有何影响?”“如何准确地预测一个地区的生长季节的 开始和结束?” 再举一个例子,分子生物学研究者希望利用当前收集

24、的大量基因组数据,更好地理解基因的 结构和功能。过去,传统方法只允许科学家在一个实验中每次研究少量基因。微阵列技术的 最新突破已经能让科学家在多种情况下,比较数以千计的基因的特性。这种比较有助于确定 每个基因的作用,或许可以查出导致特定疾病的基因。然而,由于数据的噪声和高维性,需 要新的数据分析方法。除分析基因序列数据外,数据挖掘还能用来处理生物学的其他难题, 如蛋白质结构预测、多序列校准、生物化学路径建模和种系发生学。 1.1什么是数据挖掘 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用 来探查大型数据库,发现先前未知的有用模式。数据挖掘还具有预测未来观测结 果的能力

25、,例如,预测一位新的顾客是否会在一家百货公司消费100美元以上。 并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个 别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(inf ormation retrieval )领域的任务。虽然这些任务是重要的,可能涉及使用复杂 的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征 来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用 来增强信息检索系统的能力。 数据挖掘与知识发现 数据挖掘是数据库中知识发现 (knowledge discovery in database, KDD

26、 )不可 缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程,如图 1-1 所示。该过程包括一系列转换步骤,从数据的预处理到数据挖掘结果的后处理。 后处理 信息 输入数据 一数据预处理-一 数据挖掘 图1-1数据库中知识发现(KDD )过程 输入数据可以以各种形式存储(平展文件、电子数据表或关系表),并且可以驻留在集中的 数据存储库中,或分布在多个站点上。数据预处理(preprocess ing)的目的是将未加工的输 入数据转换成适合分析的形式。数据预处理涉及的步骤包括融合来自多个数据源的数据,清 洗数据以消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。由于收集 和

27、存储数据的方式可能有许多种,数据预处理可能是整个知识发现过程中最费力、最耗时的 步骤。 “结束循环(closing the loop ) ”通常指将数据挖掘结果集成到决策支持系统 的过程。例如,在商务应用中,数据挖掘的结果所揭示的规律可以与商务活动管 理工具集成,使得可以进行和测试有效的商品促销活动。这样的集成需要后处理 (postprocessing )步骤,确保只将那些有效的和有用的结果集成到决策支持系 统中。后处理的一个例子是可视化(见第 3章),它使得数据分析者可以从各种 不同的视角探查数据和数据挖掘结果。在后处理阶段,还能使用统计度量或假设 检验,删除虚假的数据挖掘结果。 1.2引发

28、数据挖掘的挑战 正如前面所提到的,当面临新的数据集提出的挑战时,传统的数据分析技术常常 遇到实际困难。下面是一些特定的挑战,它们引发了对数据挖掘的研究。 可伸缩由于数据产生和收集技术的进步,数吉字节、数太字节甚至数拍字节 的数据集越来越普遍。如果数据挖掘算法要处理这些海量数据集,则算法必须是 可伸缩的(scalable )。许多数据挖掘算法使用特殊的搜索策略处理指数性搜索 问题。可伸缩可能还需要实现新的数据结构,以有效的方式访问个别记录。例如,当要处理的数据不能放进内存时,可能需要非内存算法。使用抽样技术或开发并 行和分布算法也可以提高可伸缩程度。 高维性 现在,常常遇到具有数以百计或数以千计

29、属性的数据集,而不是数十 年前常见的只具有少量属性的数据集。在生物信息学领域,微阵列技术的进步已 经产生了涉及数千特征的基因表达数据。 具有时间或空间分量的数据集也趋向于 具有很高的维度。例如,考虑包含不同地区的温度测量的数据集。 如果温度在一 个相当长的时间周期内重复地测量,贝U维度(特征数)的增长正比于测量的次数。 为低维数据开发的传统的数据分析技术通常不能很好地处理这样的高维数据。此 外,对于某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速增加。 异种数据和复杂数据通常,传统的数据分析方法只处理包含相同类型属性的 数据集,或者是连续的,或者是分类的。随着数据挖掘在商务、科学、医

30、学和其 他领域的作用越来越大,越来越需要能够处理异种属性的技术。 近年来,已经出 现了更复杂的数据对象。这些非传统的数据类型的例子包括含有半结构化文本和 超链接的Web页面集、具有序列和三维结构的DNA数据、包含地球表面不同位置 上的时间序列测量值(温度、气压等)的气象数据。为挖掘这种复杂对象而开发 的技术应当考虑数据中的联系,如时间和空间的自相关性、图的连通性、半结构 化文本和XML文档中元素之间的父子联系。 数据的所有权与分布有时,需要分析的数据并非存放在一个站点,或归属一 个单位,而是地理上分布在属于多个机构的资源中。 这就需要开发分布式数据挖 掘技术。分布式数据挖掘算法面临的主要挑战包

31、括:(1)如何降低执行分布式计 算所需的通信量? (2)如何有效地统一从多个资源得到的数据挖掘结果?(3) 如何处理数据安全性问题? 非传统的分析传统的统计方法基于一种假设一检验模式。换句话说,提出一 种假设,设计实验来收集数据,然后针对假设分析数据。但是,这一过程劳力费 神。当前的数据分析任务常常需要产生和评估数以千计的假设,因此希望自动地 产生和评估假设导致了一些数据挖掘技术的开发。此外,数据挖掘所分析的数据集通常不是精心设计的实验的结果,并且它们通常代表数据的时机性样本( opp ortunistic sample ),而不是随机样本(random sample )。而且,这些数据集 常

32、常涉及非传统的数据类型和数据分布。 1.3数据挖掘的起源 为迎接前一节中的这些挑战,来自不同学科的研究者汇集到一起,开始着手开发 可以处理不同数据类型的更有效的、可伸缩的工具。这些工作建立在研究者先前 使用的方法学和算法之上,在数据挖掘领域达到高潮。特别地,数据挖掘利用了 来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验,(2)人工 智能、模式识别和机器学习的搜索算法、 建模技术和学习理论。数据挖掘也迅速 地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号 处理、可视化和信息检索。 一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和

33、查 询处理支持。源于高性能 (并行)计算的技术在处理海量数据集方面常常是重要的。分布式 技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。 图1-2展示数据挖掘与其他领域之间的联系。 数据库技术、并疔计算、分布式计算 1.4数据挖掘任务 通常,数据挖掘任务分为下面两大类: l预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般 称目标变量(target variable)或因变量(dependent variable),而用来做预测的属性称说明 变量(explanatory variable) 或自变量(independent variable)。

34、 l描述任务。这里,目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异 常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释 结果。 图1-3展示本书其余部分讲述的四种主要数据挖掘任务 图1-3四种主要数据挖掘任务 预测建模(predictive modeling)涉及以说明变量函数的方式为目标变量建立 模型。有两类预测建模任务:分类(classification ),用于预测离散的目标变 量;回归(regression ),用于预测连续的目标变量。例如,预测一个Web用户 是否会在网上书店买书是分类任务,因为该目标变量是二值的。另一方面,预测 某股票的

35、未来价格是回归任务,因为价格具有连续值属性。两项任务目标都是训 练一个模型,使目标变量预测值与实际值之间的误差达到最小。预测建模可以用 来确定顾客对产品促销活动的反应,预测地球生态系统的扰动,或根据检查结果 判断病人是否患有某种特定的疾病。 例1.1 预测花的类型 考虑如下任务:根据花的特征预测花的种类。特殊地, 考虑根据是否属于 Setosa、Versicolour、Virginica 这三类之一对鸢尾花(Ir is )进行分类。为进行这一任务,我们需要一个数据集,包含这三类花的特性。 一个具有这类信息的数据集是著名的鸢尾花数据集,可从加州大学欧文分校的机 器学习数据库中得到(http:/w

36、 /mlearn )。除花的种类之外, 该数据集还包含萼片宽度、萼片长度、花瓣长度和花瓣宽度四个其他属性。(鸢 尾花数据集和它的属性将在3.1节进一步介绍。)图1-4给出鸢尾花数据集中1 50种化的化瓣宽度与化瓣长度的对比图。化瓣宽度分成low、medium high 、1.75,)。花瓣长度也分成l 类,分别对应于区间0, 0.75)、0.75, 1.75) 5,)。根据 ow、medium high 三类,分别对应于区间0, 2.5)、2.5, 5) 花瓣宽度和长度的这些类别,可以推出如下规则: I * * V K * VersicoJour * Vlrgmic

37、a CM.755 1 JunwftK聘麓用 图1-4 150种鸢尾花的宽度与长度对比 花瓣宽度和花瓣长度为low蕴涵Setosa。 花瓣宽度和花瓣长度为medium蕴涵Versicolour。 花瓣宽度和花瓣长度为high蕴涵Virginica 。 尽管这些规则不能对所有的花进行分类,但是它们对大多数花都能很好地进行分 类(尽管不完善)。注意:根据花瓣宽度和花瓣长度,Setosa种类的花完全可 以与Versicolour和Virginica 种类的花分开;但是后两类花在这些属性上有一 些重叠。 关联分析(association analysis)用来发现描述数据中强关联特征的模式。 所发现的模

38、式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模 的,关联分析的目标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别一起访问的Web页面、理解地球气候系统不同元 素之间的联系等。 例1.2购物篮分析表1-1给出的事务是在一家杂货店收银台收集的销售数 据。关联分析可以用来发现顾客频繁地同时购买的商品。例如,我们可能发现规 则尿布?牛奶。该规则暗示购买尿布的顾客多半会购买牛奶。这种类型的规 则可以用来发现相关商品中可能的交叉销售的机会。 表1-1购物篮数据 事务ID 商品 1 面包,黄油,尿布,牛奶 2 咖啡,糖,小甜饼,鲑鱼 3 面包,黄油,咖啡,尿布

39、,牛奶,鸡蛋 4 面包,黄油,鲑鱼,鸡 5 鸡蛋,面包,黄油 6 鲑鱼,尿布,牛奶 7 面包,茶,糖,鸡蛋 8 咖啡,糖,鸡,鸡蛋 9 面包,尿布,牛奶,盐 10 茶,鸡蛋,小甜饼,尿布,牛奶 聚类分析(cluster analysis)旨在发现紧密相关的观测值组群,使得与属于 不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类可用来对 相关的顾客分组、找出显著影响地球气候的海洋区域以及压缩数据等。 例1.3文档聚类表1-2给出的新闻文章可以根据它们各自的主题分组。每 篇文章表示为词一频率对(w, C)的集合,其中W是词,而c是该词在文章中出现 的次数。在该数据集中,有两个自然簇。

40、第一个簇由前四篇文章组成,对应于经济新闻,而第二个簇包含后四篇文章,对应于卫生保健新闻。一个好的聚类算法 应当能够根据文章中出现的词的相似性,识别这两个簇。 表1-2新闻文章集合 文早 词 1 dollar: 1, industry: 4, country: 2, loan: 3, deal: 2, government: 2 2 machinery: 2, labor: 3, market: 4, industry: 2, work: 3, country: 1 3 job: 5, in?ation: 3, rise: 2, jobless: 2, market: 3, country: 2

41、, index: 4 3 5 domestic: 3, forecast: 2, gain: 1, market: 2, sale: 3, price: 2 6 patient: 4, symptom: 2, drug: 3, health: 2, clinic: 2, doctor: 2 7 pharmaceutical: 2, company: 3, drug: 2, vaccine: 1, ?u: 3 8 death: 2, cancer: 4, drug: 3, public: 4, health: 3, director: 2 medical: 2, cost: 3, increase: 2, patient: 2, health: 3, care: 1 异常检测(anomaly detection )的任务是识别其特征

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论