




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、,第1章概述,1.1,从数据中获取知识,1.2,数据挖掘的基本概念,1.3,数据挖掘的发展历程,1.4,数据挖掘的功能和数据挖掘系统的分类,1.5,数据挖掘的过程,1.6,数据挖掘与其他学科的关系,1.7,数据挖掘的应用和发展趋势,1.1,从数据中获取知识,知识是人类对客观世界的观察和了解,是人类对客观世界是什么、为什么、应该怎么做的认知,知识推动人类的进步和发展。人类所作出的正确判断和决策,以及采取正确的行动都是基于智慧和知识。,数据是反映客观事物的数字、词语、声音和图像等,是可以进行计算加工的“原料”。数据是对客观事物的数量、属性、位置及其相互关系的抽象表示,适合于保存、传递和处理。,面对
2、大量的数据,迫使人们不断寻找新的工具,对规律进行探索,为决策提供有价值的信息。数据挖掘有助于发现趋势,揭示已知的事实,预测未知的结果。,1.2,数据挖掘的基本概念,数据挖掘:是一种信息处理技术,从大量数据中自动分析并提取知识的技术。是一个处理过程,从大量数据中挖掘出隐含的、先前未知的、对决策有价值的知识的过程是通过仔细分析大量数据来揭示有意义的新的关系、模式和趋势的过程。,数据挖掘所获取的知识:是以模型或数据概化的形式给出。数据挖掘技术:有许多种类,其方法都采用基于归纳的学习。,数据挖掘的目的:从所获取的数据中发现新的、规律性信息和知识,辅助科学决策。,1.2,数据挖掘的基本概念,说明:(1)
3、数据量太小,常常无法反映出真实世界中的普遍特性,这样挖掘算法得出的结论不可靠。但并非小数据量就不可以进行挖掘,近年来研究者也提出了一些对小样本进行挖掘的方法,如支撑向量机方法就是基于小样本学习理论的非常实用的方法。,(2)从理论上说,数据量越大越好。但随着数据量的增大,算法执行效率会越来越低,甚至无法计算。,(3)在现实世界中,所获取数据往往具有不完全、有噪声、模糊、随机性等特点。当进行数据挖掘时,可以删除这些样本或记录,也可以采用一定的方法将这些缺失数据补上,或者使用可以自动处理缺失数据的算法。在实际工作中,还会遇到异常情况的干扰,使获得的数据偏离了真实值。这些问题,都需要在数据挖掘过程中予
4、以解决。,1.3,数据挖掘的发展历程,上世纪70年代,使用关系式数据库。,上世纪60年代,计算机以文件方式对数据进行管理。,在1989年8月第11届国际人工智能联合会议上,提出了数据挖掘的概念,即从数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)。上世纪90年代开始,科研界习惯沿用KDD这个术语,而在商用领域,普遍采用了“数据挖掘”。,1.3,数据挖掘的发展历程,数据挖掘系统的发展,1.4,数据挖掘的功能和数据挖掘系统的分类,数据挖掘技术的基本任务主要体现在:分类与回归、聚类、关联规则发现、时序模式、异常检测,1.4,数据挖掘的功能和数据挖掘系统的分类,分
5、类与回归主要用于解决下列问题:,1.4.1,分类与回归,如何将信用卡申请人分为低、中、高风险群。如何预测哪些顾客在未来半年内会取消该公司服务,哪些电话用户会申请增值服务。如何预测具有某些特征的顾客是否会购买一台新的计算机。如何预测病人应当接受三种具体治疗方案的哪一种。如何预测一位顾客在一次销售期间将花多少钱。如何预测银行可以安全地贷给贷款人的贷款量。使用2G通信网络的手机用户哪些有可能转换到3G通信网络。如何有效预测房地产开发中存在的风险。,1.4,数据挖掘的功能和数据挖掘系统的分类,分类(Classification)是构造一个分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别
6、上。分类算法要求基于数据属性值来定义类别,通常通过已知所属类别的数据的特征来描述类别。分类过程由两步构成:模型创建和模型使用。模型创建是指通过对训练数据集的学习来建立分类模型;模型使用是指使用分类模型对测试数据和新的数据进行分类。其中的训练数据集是带有类标号的,也就是说在分类之前,要划分的类别是已经确定的。通常分类模型是以分类规则,决策树或数学表达式的形式给出。,1.4.1,分类与回归,1.4,数据挖掘的功能和数据挖掘系统的分类,聚类分析主要用于解决下列问题:,1.4.2,聚类分析,如何通过一些特定的症状归纳某类特定的疾病。谁是银行信用卡的黄金客户。谁喜欢打国际长途,在什么时间,打到那里。对住
7、宅区进行聚类,确定自动提款机ATM的安放位置。如何对用户WAP上网行为进行分析,通过客户分群,进行精确营销。,1.4,数据挖掘的功能和数据挖掘系统的分类,1.4.2,聚类分析,聚类就是将数据划分或分割成相交或者不相交的群组的过程,通过确定数据之间在预先指定的属性上的相似性就可以完成聚类任务。聚类的输入是一组未被标记的数据,根据数据自身的距离或相似度进行划分。划分的原则是保持最大的组内相似性和最小的组间相似性,也就是使得不同聚类中的数据尽可能地不同,而同一聚类中的数据尽可能地相似。聚类除了将样本分类外,还可以完成孤立点挖掘。,1.4,数据挖掘的功能和数据挖掘系统的分类,关联规则主要用于解决下列问
8、题:,1.4.3,关联规则,商业销售上,如何通过交叉销售,以得到更大的收入。保险方面,如何分析索赔要求,发现潜在的欺诈行为。银行方面,如何分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务。哪些制造零件和设备设置与故障事件关联。哪些病人和药物属性与结果关联。哪些商品是已经购买商品A的人最有可能购买的。,1.4,数据挖掘的功能和数据挖掘系统的分类,关联规则(Association)揭示数据之间的相互关系,而这种关系没有在数据中直接表示出来。关联分析的任务就是发现事物间的关联规则,或称相关程度。关联规则的一般形式是:如果A发生,则B有百分之C的可能发生。C称为关联规则的置信度(Confidenc
9、e)。常用的2种技术:关联规则,发现一个事物与其他事物间的相互关联性或相互依赖性;序列模式分析,重点放在分析数据之间的前后因果关系。,1.4.3,关联规则,1.4,数据挖掘的功能和数据挖掘系统的分类,时序模式主要用于解决下列问题:,1.4.4,时序模式,下个月的商品销量、销售额或库存量是多少。明天广州市的最高用电负荷是多少。,时序模式是描述基于时间或其他序列的经常发生的规律或趋势,并对其建模。是用已知的数据预测未来的值,重点考虑数据之间在时间维度上的关联性,包含时间序列分析和序列发现。时间序列分析(TimeSeries)用已有的数据序列预测未来。数据的属性值是随着时间不断变化的。尤其要考虑时间
10、周期的层次,如天、周、月、年等,有时还要考虑日历的影响,如节假日等。序列发现用于确定数据之间与时间相关的序列模式。这些模式与在数据(或者事件)中发现的相关的关联规则很相似,只是这些序列是与时间相关的。,1.4,数据挖掘的功能和数据挖掘系统的分类,1.4.5,异常检测,异常是对差异和极端特例的表述,如分类中的反常实例、聚类外的离群值、不满足规则的特例等。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能比正常的数据更有用。异常检测(OutlierDetection,也称为离群点检测)是用来发现与正常情况不同的异常和变化,并进一步分析这种变化是否是有意的诈骗行为,还
11、是正常的变化。,1.4,数据挖掘的功能和数据挖掘系统的分类,1.4.6,数据挖掘系统的分类,根据数据源类型分类:例如,有关系的、事务的、对象-关系的或数据仓库的挖掘系统。根据数据挖掘的功能分类:如特征提取、区分、关联和相关分析、分类、预测、聚类、异常检测和演变分析。根据所用的技术分类:用户交互程度(例如自动系统、交互探查系统、查询驱动系统;所用的数据分析方法(例如面向数据库或面向数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络等)根据应用分类:例如,金融、电信、股票市场、e-mail等。一般情况下,泛化的全能的数据挖掘系统可能并不适合特定领域的挖掘任务。,1.5,数据挖掘的过程,1
12、.5.1,数据挖掘的一般流程,数据挖掘的过程可以分为:明确问题、数据准备、数据挖掘、结果解释和评估。明确问题:数据挖掘的首要工作是研究发现何种知识。数据准备(数据收集和数据预处理):数据选取、确定操作对象,即目标数据,一般是从原始数据库中抽取的组数据;数据预处理一般包括:消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换。数据挖掘:确定数据挖掘的任务,例如:分类、聚类、关联规则发现或序列模式发现等。确定了挖掘任务后,就要决定使用什么样的算法。结果解释和评估:对于数据挖掘出来的模式,要进行评估,删除冗余或无关的模式。如果模式不满足要求,需要重复先前的过程,,1.5,数据挖掘的过程,1.5
13、.2,跨行业数据挖掘标准过程,跨行业数据挖掘标准过程CRISP-DM(CRoss-IndustryStandardProcessforDataMining),1996年,三个公司(数据仓储供货商NCR、德国汽车航天公司Daimler-Chrysler、统计分析软件供货商SPSS)建立社团,目的是建立数据挖掘方法和过程的标准。获得了EC(EuropeanCommission)的资助,创建了CRISP-DM特别小组(SpecialInterestGroup,简称SIG)。1999年,SIG开发并提炼出CRISP-DM,同时在Mercedes-Benz和OHRA(保险领域)企业进行了大规模数据挖掘项
14、目的实际试用。SIG组织目前在伦敦、纽约、布鲁塞尔已经发展到200多个成员。2000年,正式推出CRISP-DM1.0版。,1.5,数据挖掘的过程,1.5.2,跨行业数据挖掘标准过程,1.5,数据挖掘的过程,1.5.2,跨行业数据挖掘标准过程,CRISP-DM分为六个阶段和四个层次,这六个阶段的顺序是不固定的,经常需要前后调整。主要取决于每个阶段或是阶段中特定任务的产出物是否是下一个阶段必需的输入。图中箭头指出了最重要的和依赖度高的阶段关系。图中外圈象征数据挖掘自身是循环的,在一个解决方案发布之后一个数据挖掘的过程才可以继续。在这个过程中得到的知识可以触发新的,经常是更聚焦的问题。后续的过程可
15、以从前一个过程得到益处。,1.5,数据挖掘的过程,1.5.2,跨行业数据挖掘标准过程,(1)业务理解(BusinessUnderstanding)是对数据挖掘的需求进行了解确认,对目标有一个清晰明确的定义,针对不同的需求做深入的了解,将其转换成数据挖掘的问题,并拟定初步计划。在此阶段中,需要与企业各层次进行讨论,了解相关领域的有关情况,熟悉背景知识,对要解决的问题非常清楚和全面了解,明确到底想干什么,才能正确地针对问题拟定分析过程。,1.5,数据挖掘的过程,1.5.2,跨行业数据挖掘标准过程,(2)数据理解(dataunderstanding)在明确了需要进行数据挖掘的预测目标后,要建立数据库
16、与分析数据。在这个阶段必须先收集数据,了解数据的含义与特性,并过滤出所有可能有用的数据,然后进行数据整理并评估数据的质量,必要时再将分属不同数据库的数据加以合并或整合。,1.5,数据挖掘的过程,1.5.2,跨行业数据挖掘标准过程,针对海量数据,要考虑下列问题:用哪些数据源,哪些数据与当前问题相关。取样数据是否满足数据挖掘目标,样本属性与挖掘目标之间是否存在相关性。如何保证取样数据的质量,是否在足够范围内有代表性。数据样本取多少合适,如何分类(训练集、验证集、测试集)。抽样数据是否存在明显的规律和趋势,数据是否存在周期性。样本数据是否按时间顺序排列,不同时间粒度数据是否存在明显分组。数据中是否存
17、在缺失值、异常值。,1.5,数据挖掘的过程,1.5.2,跨行业数据挖掘标准过程,数据库建立完成后再进行数据分析,并找出影响最大的数据,进而判断是否有必要进一步收集更为详细的数据。抽取数据的标准:一是相关性二是可靠性三是最新性。并非需要使用全部数据。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使其反映的规律性更加凸现出来。即使是从一个数据仓库中进行数据取样,也要检查其质量如何。如果原始数据有误,就很难从中探索规律性。若从正在运行着的系统中进行数据取样,则更要注意数据的完整性和有效性。衡量取样数据质量的标准包括:资料完整无缺,各类指标项齐全;数据准确无误,反映的都
18、是正常(而不是反常)状态下的水平。,1.5,数据挖掘的过程,1.5.2,跨行业数据挖掘标准过程,对获取的数据,可进行作抽样操作。抽样的方式包括:随机抽样。在采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽样的概率。如按10%的比例对一个数据集进行随机抽样,则每一组观测值都有10%的机会被抽到。等距抽样。如按5%的比例对一个有100组观测值的数据集进行等距抽样,即:100/5=20,等距抽样方式是取第20、40、60、80和第100等五组观测值。分层抽样。在这种抽样操作时,首先将样本总体分成若干层次(或者说分成若干个子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次可设
19、定不同的概率。这样的抽样结果可能具有更好的代表性,进而使模型具有更好的拟合精度。,1.5,数据挖掘的过程,1.5.2,跨行业数据挖掘标准过程,对获取的数据,可进行作抽样操作。抽样的方式包括:从起始顺序抽样。这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者就直接给定选取观测值的组数。分类抽样。在前述几种抽样方式中,抽样的单位都是一组观测值。分类抽样的单位是一类观测值。这里的分类是按观测值的某种属性进行区分。如按客户名称分类、按地址区域分类等。显然在同一类中可能会有多组观测值。分类抽样的选取方式类似于前面所述的几种方式,只是抽样以类为单位。,1.5,数据挖掘的过程,1
20、.5.2,跨行业数据挖掘标准过程,当拿到了一个样本数据集后,首先要探索它是否达到设想的要求,有无什么明显的规律和趋势、有没有出现从未设想过的数据状态、因素之间有什么相关性、它们可区分成怎样一些类别等。这种数据探索过程就是进行深入调查的过程。最终要达到的目的就是要搞清多因素相互影响的,十分复杂的关系。但是,这种复杂的关系不可能一下子建立起来。开始时,可以先观察众多因素之间的相关性;再按其相关的程度,以了解它们之间相互作用的情况。这些探索、分析,并没有一成不变操作规律性;相反,是要有耐心的反复的试探,仔细的观察。在此过程中,专业技术知识会帮助进行有效的观察。但是,也不要让专业知识所束缚。可能实际存
21、在着先验知识认为不存在的关系。假如数据是真实可靠的,那么绝对不要轻易地否定数据呈现出的新关系,很可能就是发现的新知识。有了它,也许会导引在此后的分析中,得出比原有的认识更加符合实际的规律性知识。,1.5,数据挖掘的过程,1.5.2,跨行业数据挖掘标准过程,(3)数据预处理(datapreparation)采样数据中常常包含许多含有噪声、不完整、甚至是不一致的数据,对数据挖掘所涉及的数据对象必须进行预处理。对所抽取的样本数据进行探索、审核和必要的加工处理,是保证挖掘质量所必需的。此阶段和数据理解阶段为数据准备阶段的核心,这是建立模型前的最后一步数据准备工作。数据预处理任务很可能要反复执行多次,并
22、且没有任何既定的顺序,其目的是把各种不同来源的数据加以清理、整理和归并,以适合数据挖掘技术的使用。数据预处理主要包括:数据清洗、数据集成、数据转换、缺失值处理、坏数据处理、属性选择等。,1.5,数据挖掘的过程,1.5.2,跨行业数据挖掘标准过程,(4)建立模型(modeling)这是数据挖掘工作的核心环节,即应用各种数据挖掘技术,建立分析模型,发现问题的根源。模型的构建主要包括模型建立、模型训练、模型预测3个步骤。预测模型是对采样数据轨迹的概括,它反映的是采样数据内部结构的一般特征,与该采样数据的具体结构并不完全吻合。模型的具体化就是预测公式,公式可以产生与观察值有相似结构的输出,这就是预测值
23、。预测模型是多种多样的,可以适用于不同结构的样本数据,因此,对任一个具体采样数据,就有选择适当预测模型的问题。正确选择预测模型在数据挖掘过程中是具有关键性的一步。有时由于模型选择不当,造成预测误差过大,就需要改换模型。必要时,可同时采用几种预测模型进行运算,以便对比、选择。对建立模型来说,是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对问题最有用。,1.5,数据挖掘的过程,1.5.2,跨行业数据挖掘标准过程,(5)评价和解释(evaluationandexplanation)这个阶段,已经从数据分析的角度建立了看似高质量的模型,模型评估的目的就是从建立的模型中自动找出一个最好的模型出来
24、。实际应用中,随着应用数据的不同,模型的准确率会变化。在最后部署模型之前,要评估模型,检查构造模型的步骤,确保模型可以完成目标任务。对于挖掘结果加以评价和解释。模型效果评价的办法之一就是直接使用原来建立模型的样本数据来进行检验。另一种办法是另外找一批数据,已知这些数据是反映客观实际的规律性的。这次的检验效果可能会比前一种差。差多少是要注意的,若是差到所不能容忍程度,那就要考虑第一次构建的样本数据是否具有充分的代表性;或是模型本身是否够完善。这时候可能要对前面的工作进行反思了。若这一步也得到了肯定的结果时,那所建立的数据挖掘模型应得到很好的评价了。,1.5,数据挖掘的过程,1.5.2,跨行业数据
25、挖掘标准过程,(6)实施(deployment)一般而言,完成模型创建并不意味着任务的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。模型建立并经验证后,有两种主要的使用方法:第一种是提供给分析人员做参考,由分析人员通过查看和分析这个模型后提出行动方案建议;另一种是把此模型应用到不同的数据集上。此外,在应用了模型后,还要不断监控它的效果。,1.6,数据挖掘与其他学科的关系,1.6.1,数据挖掘与数据库知识发现,数据挖掘(DataMining)与数据库知识发现(KnowledgeDiscoveryinDatabase,KDD)在定义与使用上比较混乱。有人认为,
26、是同一含义的不同名词术语,只是学术界更多的用KDD,商业界更偏爱用数据挖掘。也有人认为,这两个概念有所区别:一是数据源有差异。数据挖掘系统可以在关系数据库、事务数据库、数据仓库、文本数据、Web等数据组织形式中挖掘知识,数据源比KDD更加广泛。二是任务内容有差异。KDD是从数据库发现知识的全部过程,包括:数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式生成、及评估等一系列步骤。数据挖掘是在数据集上完成知识的提炼,是KDD中一个重要的步骤。,1.6,数据挖掘与其他学科的关系,1.6.2,数据挖掘与数据查询,通过对获取的知识来看数据挖掘和数据查询的区别。浅知识本质是真实的。可以很容易地在数据
27、库中存储和操作浅知识,数据库查询是提取数据中浅知识的优秀工具。多维知识也是真实的。然而这种数据以多维格式存储,联机分析处理(OLAP)工具用于处理多维数据。隐含知识表示数据中的模式或规则,这些模式或规则不容易用数据库查询语言查询出来。然而,数据挖掘算法却可以轻易地找到它们。深知识是存储在数据库中,仅仅在给出要查找内容的方向时,才能找到的知识。目前数据挖掘工具还不能定位深知识。,1.6,数据挖掘与其他学科的关系,1.6.2,数据挖掘与数据查询,当确切地知道要找什么时,数据库查询语言和OLAP工具是发现并报告数据库中信息的优秀的工具。数据库查询很容易提取下列信息:所有使用信用卡购买煤气烤炉的客户列
28、表。年龄超过40岁,并且平均每年生病5天或少于5天的职员列表。至少发作过一次心脏病,并且血液胆固醇浓度低于200的病人列表。一月份使用信用卡消费超过300元的信用卡持有者列表。通过数据挖掘,可得出人们未曾想到过的问题,以及答案。下面的例子说明数据挖掘的作用:开发利用信用卡账单促销的信用卡客户的一般特征文件。将不良信用风险的个人与很可能按时还贷的个人区别开来。对天空图像数据中发现的模糊对象进行分类。判断个背部动过手术的病人什么时候可能重新工作。,1.6,数据挖掘与其他学科的关系,1.6.3,数据挖掘与统计分析,从理论来源来看,在很多情况下都是同根同源的。相对于传统的统计分析技术,数据挖掘有如下一
29、些特点:数据挖掘特别擅长于处理大数据,尤其是几十万行、几百万行,甚至更多更大的数据。在进行数据挖掘时都会借助数据挖掘工具,而这些挖掘工具的使用,很多时候并不需要特别专业的统计背景作为必要条件。不过,基本的统计知识和技能是必需的。数据挖掘不是为了替代传统的统计分析技术。相反,是统计分析方法学的延伸和扩展。数据挖掘利用了统计学的抽样、估计和假设检验,其与传统的数据分析(如查询、报表、联机应用分析)。,1.6,数据挖掘与其他学科的关系,1.6.3,数据挖掘与统计分析,1.6,数据挖掘与其他学科的关系,1.6.4,数据挖掘与数据仓库,一般情况下,数据挖掘时把数据从数据仓库中拿到数据库或数据集市中。从数
30、据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清洗差不多,如果数据在导入数据仓库时已经清理过,很可能在做数据挖掘时就没必要在清理一次了。数据挖掘库可能是数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。如果数据仓库的计算资源很紧张,最好是建立一个单独的数据挖掘库。当然不必为了数据挖掘建数据仓库。为了数据挖掘,可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市(不是必须构建数据仓库),就可以进行数据挖掘。根据数据挖掘与数据库及数据仓库系统的耦合程度可以分为零耦合、松散耦合、半紧密耦合及紧密耦合四种结构。,1.6,数据挖掘与其他学科的
31、关系,1.6.5,数据挖掘与在线分析处理,数据挖掘和在线分析处理(OnLineAnalyticalProcessing,OLAP)是不同的工具,基于的技术也不相同。OLAP是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到结论。OLAP分析过程在本质上是一个演绎推理的过程。数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。在本质上是一个归纳的过程。数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么OLAP工具能回答这些问题。利用OLAP工具还可以帮助在数据挖掘过程
32、中探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都能帮助更好的理解数据,加快知识发现的过程。,1.6,数据挖掘与其他学科的关系,1.6.6,数据挖掘与人工智能、专家系统、机器学习,数据挖掘利用了人工智能(AI)都致力于模式发现和预测。数据挖掘就是利用了人工智能技术的应用程序,把这些高深复杂的技术封装起来,使人们不用掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。人工智能把注意力集中在了表达广义分类的模糊边缘上。机器学习主要是对数据挖掘过程中的数据变量选择处理极有帮助,在通过大量搜索表达式和选择变量上有很大作用。专家系统方法借助专家,工程师获取专家
33、的知识,并使用自动化工具创建新知识的计算机模型。数据挖掘和专家系统可以协作来解决疑难问题。,1.6,数据挖掘与其他学科的关系,1.6.6,数据挖掘与人工智能、专家系统、机器学习,数据挖掘受到了很多学科领域的影响,其中数据库、机器学习、统计学影响最大。数据库提供数据管理技术,机器学习和统计学提供数据分析技术。统计学界提供的很多技术通常在机器学习界进一步研究,变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。虽然从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域。但数据挖掘并不是机
34、器学习的简单应用。传统的机器学习研究并不把海量数据作为处理对象,很多技术是为处理中小规模数据设计的,如果直接把这些技术用于海量数据,效果可能很差,甚至可能用不起来。因此,数据挖掘必须对这些技术进行专门的、不简单的改造。,1.7,数据挖掘的应用和发展趋势,1.7.1,商业的数据挖掘,数据挖掘能分析出数据中的有用信息,给企业带来显著的经济效益。在金融领域,数据挖掘技术的应用水平已经达到或接近70%,在营销领域也达到50%。数据挖掘可有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销量比率,设计更好的货品运输与分销策略,减少企业成本。商业数据挖掘
35、应用可以细分为下面几类:关于销售、顾客、产品、时间和地区的多维分析分析促销活动的有效性分析顾客的忠诚度向顾客推荐商品,1.7,数据挖掘的应用和发展趋势,1.7.2,金融业的数据挖掘,在银行和金融机构中产生的金融数据通常相对比较完整,可靠,并且高质量,便于系统化的数据分析和数据挖掘。金融业数据挖掘的典型应用有以下几类:多维数据分析和数据挖掘预测贷款偿还和分析客户信用客户的分类与聚类,1.7,数据挖掘的应用和发展趋势,1.7.3,欺诈侦测中的数据挖掘,电话公司、信用卡公司、保险公司以及股票交易行业每年因为诈欺行为而造成的损失都非常可观。数据挖掘可以从一些信用不良的客户数据中找出相似特征并预测可能的
36、欺诈交易,达到减少损失的目的。可用的工具包括:数据可视化工具(用图形的方式按一定时间一定人群显示交易活动)链接分析工具(识别不同人和活动之间的联系)分类工具(滤掉不相关的属性,对高度相关属性排级)聚类分析工具(将不同案例分组)孤立点分析工具(探测异常资金量的转移等行为)序列模式分析工具(分析异常访问模式的特征)这些工具可以识别出一些重要的活动关系和模式,有助于调查人员聚焦可疑线索,做进一步的处理。,1.7,数据挖掘的应用和发展趋势,1.7.4,DNA数据分析中的数据挖掘,数据挖掘成为DNA分析中的强有力工具。DNA数据分析中的典型数据挖掘应用有:异构、分布基因数据库的语义集成DNA序列间相似搜
37、索和比较用关联分析来识别同时出现的基因序列用路径分析来发现在疾病不同阶段的致因基因用可视化工具分析遗传数据,1.7,数据挖掘的应用和发展趋势,1.7.5,电信行业中的数据挖掘,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好地利用资源和提高服务质量。电信行业中的典型数据挖掘应用有:电信数据的多维分析分析盗用模式和识别异常模式分析多维关联和序列模式电信数据分析中可视化工具的使用,1.7,数据挖掘的应用和发展趋势,1.7.6,科学和统计数据挖掘,数据挖掘技术通常是面向数据库的,用于处理大量的多维和各种复杂类型的数据。然而还有很多数据挖掘
38、技术用于统计数据,尤其是数值数据分析,这些技术已经被扩展应用到科学(如:心理学、医学、电子工程和制造业的实验数据),以及经济或社会科学数据中。科学和统计数据挖掘中的典型方法和技术如下:回归概化线形模型回归树方差分析混合效应模型判别式分析时间序列分析幸存分析质量控制,1.7,数据挖掘的应用和发展趋势,1.7.7,数据挖掘系统和软件,一般来说,数据挖掘系统应该包括如下几个方面:数据类型:大多数数据挖掘系统处理的是格式化的数据,或者是带有数字、分类和符号属性的类似于关系的数据。某些特殊的系统可以挖掘文本文档、地理数据、多媒体数据、时间序列数据、DNA序列、Weblog记录及其Web数据,或者用于特定
39、应用(如金融、零售业、电信业等)的数据。支持的操作系统类型:有的数据挖掘系统只有在一种操作系统上运行,有的可以在多个操作系统上运行。支持数据挖掘系统的操作系统有UNIX和MicrosoftWindows,也有数据挖掘系统运行在OS/2、Macintosh和Linux上。大型的面向工业的数据挖掘系统一般支持C/S结构。数据挖掘系统提供基于Web的接口是趋势,允许输入和输出XML数据。数据源:这是指数据挖掘系统操作的特定的数据格式。一些系统只能操作ASCII文本,另外一些可以操作关系数据,访问多个关系数据源。数据挖掘系统支持ODBC连结和OLEDB是非常重要的。与数据仓库一块工作的数据挖掘系统必须遵循OLAP标准的OLEDB规范。,1.7,数据挖掘的应用和发展趋势,1.7.7,数据挖掘系统和软件,数据挖掘的功能和方法:数据挖掘功能是数据挖掘系统的核心。一些数据挖掘系统只
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 营养学与心理学的交叉应用试题及答案
- 文化市场的品牌建设与传播策略试题及答案
- 装配电工初级试题及答案
- 育婴师应知的急救知识考查试题及答案
- 健康管理考试试题及答案
- 文化产业人才流动试题及答案研究
- 文化产业管理考试的个案分析与讨论试题及答案
- 三年级多音字练习
- 行政客服面试试题及答案
- 成人大专护理试题及答案
- 植物标本的采集和制作
- 愚公移山英文 -中国故事英文版课件
- 绘本故事:睡睡镇
- 酒店住宿水单模板1
- 保利幕墙工程技术标述标课件
- 体育50米快速跑教案9篇
- 大跨结构的经典之作-鸟巢论文
- 订单延期交货的相关处理规定
- 有机溶剂作业场所个人职业病防护用品使用规范
- 汽车维修工(中级)技能理论考试核心题库(职校考试600题)
- 工商联各项规章制度
评论
0/150
提交评论