版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商务数据挖掘与应用案例分析第2章数据挖掘建模方法
2.1概述>>
2.2业务理解>>
2.3数据理解>>2.4数据准备>>
2.5建模>>2.6评估>>2.7部署>>
2.1概述(1)成功的数据挖掘是让数据有商业价值,数据挖掘分析师需要知道什么对商业有价值,并且知道为了获得巨大收益如何整理数据。为了成功运用数据挖掘,对数据挖掘技术层面的理解至关重要,尤其是应该了解如何将数据变成有用信息的过程。本章主要介绍跨行业标准流程CRISP-DM(cross-industrystandardprocessfordatamining)。该模型将一个数据挖掘项目的生命周期分为业务理解、数据理解、数据准备、建模、评估和部署等6个阶段,这个流程为我们提供了一个数据挖掘所需步骤的完整概括。2.1概述(2)业务理解(BusinessUnderstanding)数据理解(DataUnderstanding)数据准备(DataPreparation)建模(Modeling)评估(Evaluation)部署(Deployment)商业数据挖掘案例某一家银行存在一个业务难题,他们的特别商业产品——家庭抵押贷款额度,不能吸引好的客户,家庭抵押贷款业务量低。为此,美国消费者资产协会决定与Hyperparallel公司合作,采取数据挖掘方法来解决这个问题。根据CRISP-DM建模体系,第一阶段是业务理解。从这个案例来看,主要的业务问题是解决家庭抵押贷款的业务量。从业务角度上看,是否存在一些客户群体对家庭抵押贷款这项业务感兴趣,而这些客户群体又有什么共同的特征,客户什么时候最可能需要这种贷款等等。根据一般常识和商业顾问、领域专家的意见,他们认为可能使用家庭贷款业务的人群有两种:一种是有孩子上大学的家长,想通过家庭抵押贷款支付学费,另一种是高收入但收入不稳定的人,想通过家庭抵押贷款事、使其收入削峰填谷。经过上述的业务理解后,需要进行数据理解。首先要收集数据挖掘过程所需要的数据。多年来,美国银行一直将数百万的零售客户数据存储在一个巨大的关系数据库中。关系数据库中的数据共有42个字段,每个记录保存了客户的详细信息。收集到原始数据后,需要根据问题识别数据有用的特征,检验数据的质量,对缺失的字段、数值型变量的取值范围等质量问题进行检验并作处理。然后,对这些数据进行筛选,转换,调整,规范化后,输入到公司数据仓库中。美国银行利用这个系统,能参透与银行保持联系的客户的所有关系。数据库中数据的属性汇集成客户独一无二的特征,然后采用Hyperparallel公司的数据挖掘工具进行分析。经过数据挖掘工具的决策树功能,按照现有银行划分客户的规则,将客户分成两类,即可能或者不可能对提供家庭抵押贷款做出反应。经过了大量的有购买产品和没有购买产品的客户数据,决策树最终获得判定不同类型客户之间差别的规则。一旦发现规则,利用得到的模型可以给每个潜在客户记录增加一个属性,即好的潜在客户标志,就是由数据挖掘模型生成的。接着使用模式的查找工具,确定客户什么时候最有可能需要这种贷款。最后,使用聚类工具将具有相似属性的客户分成不同的组。在某一点上,数据挖掘工具发现了14个客户簇,其中很多簇似乎没有什么特别的发现。但是,有一个簇具有两个令人费解的特点:一是这个簇的39%的人不同时拥有企业和个人账户,二是这个簇中的客户占到家庭抵押贷款可能响应者的四分之一。这些数据提示好奇的数据挖掘者,上述簇中的客户有可能使用家庭抵押贷款来从事商业活动。利用数据挖掘的结果,美国消费协会资产协会和银行的零售分支机构联合组织市场调查、与客户面谈。市场调查的结果证实了贷款收入将被用于从事商业活动。尽管市场调查存在一些缺点,例如响应者并不能代表全部的人口,有些客户并非诚实对待调查等等,但是与现有客户和以前的客户进行面谈的时候,也可以深入了解其他方式无法得到的情况。对由数据挖掘产生的结果进行评估之后,美国银行制定部署运用方案,并且按照方案采取了相应的措施,最终,家庭抵押贷款的响应率从0.7%上升到了7%。资料来源:(美)MichaelJ.A.Berry(美)GordonS.Linoff著.数据挖掘技术:市场营销、销售与客户关系管理领域应用.机械工业出版社.2006.72.2业务理解业务理解是数据挖掘的第一个阶段,从业务的角度了解项目的要求和最终目的是什么,并将这些目的与数据挖掘的定义以及结果结合起来。具体任务包括:(1)业务梳理(2)业务描述(3)业务特征研究(4)业务关联分析2.3数据理解(1)数据理解阶段是从收集数据开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的自己去形成隐含信息的假设。其任务包括:(1)数据收集(2)数据描述(3)数据探索(4)数据质量检测2.3数据理解(2)(1)数据收集在收集数据之前,需要根据业务问题明确数据挖掘过程需要哪些信息,哪些变量是必需的,哪些变量与数据挖掘目标不相关,然后根据选择的标准收集数据,检查是否所有的信息都确实可以利用来实现数据挖掘的目标。(2)数据描述描述数据主要是熟悉数据,理解数据的内涵,检验数据的“总的”或者“表面的”特征。例如从商业的角度理解每个变量及其值的含义,变量的含义是否始终一致,变量是否与具体的数据挖掘目标相关联等。2.3数据理解(3)(3)数据探索探索数据主要是详细分析引人注目的变量特征,识别潜在的特征,思考和评估在描述数据过程中的信息和发现,提出假设并确定方案,阐明数据挖掘的目标。例如,电信公司想挖掘出移动业务之间的关联规则,那么,在描述数据后,根据数据的特征,选择各种可能相关的业务进行挖掘,对于显而易见的规则,则可以不作考虑。比如说开通上网功能的客户中绝大部分客户也开通了飞信业务,则在探索数据时,不需要考虑这两个业务之间的关联。(4)数据质量检测检验数据质量,列举有关问题。例如数据是否完整、正确,是否存在缺失值,数值型变量的范围是否落在允许的范围内,变量的含义与变量值是否一致等质量问题。2.4数据准备(1)数据准备阶段的工作是对可用的原始数据进行一系列的组织以及清洗等预处理,使之达到建模需求,而这些数据将是模型工具的输入值。数据准备阶段的任务有可能执行多次,并且没有任何规定的顺序。这个阶段其任务包括:(1)数据筛选(2)数据清理(3)数据构建(4)数据整理合并(5)规范化数据(6)准备建模数据集(7)选择建模技术和训练模型(1)数据筛选数据筛选的任务是确定数据挖掘分析过程中所必须的数据,即选择有用的特征和记录。在选择数据的时候,首先要考虑的问题是数据要符合解决企业问题的需要。再者,由于用于建模的数据应尽可能地完整,数据量尽可能多。当开发预测模型时,资料中也应该包括想要的输出。2.4数据准备(2)(2)数据清洗数据挖掘过程是否成功,得出的结果模型是否可靠,取决于数据质量的好坏。清理数据的任务恰恰是清理数据中包含的噪声和与数据挖掘主题明显无关的数据,从而提高数据的质量。清理数据通常包括:填补空缺的数据值。例如忽略有空缺值的记录;人工填写空缺值;使用一个全局变量填写空缺值;使用属性的均值填写空缺值。清理噪声数据。对于噪声数据有以下几种处理方法:一是分箱,二是聚类方法,通过聚类发现孤立点。三是计算机与人工相结合的方法,四是回归分析,建立回归方程。解决不一致问题。数据的不一致主要表现在数据的单位、命名、结构、含义不一致。可以通过对数据的统一调整进行解决。2.4数据准备(3)(3)数据构建数据构建包括建设性的数据准备工作,例如属性构造,多维数据组织(聚集),数据泛化处理。属性构造是指构造新的属性并添加到属性集中,以帮助提高数据挖掘的过程。多维数据组织(聚集)是指对数据进行汇总和聚集,采用切片、旋转等操作将原始数据按照多维立体形式组织成为不同层次、不同粒度、不同维度的聚集。数据泛化处理是指使用高层次的概念替换低层次的概念。例如短信业务替换各种不同种类的短信业务,使用国家替换城市。2.4数据准备(4)(4)数据整合数据整合的主要任务是将来自多数据源(例如数据库、文件等)的相关数据组合到一起,即把不同来源、格式、特点性质的数据在逻辑上或者物理上有机地集合在一起,使之更加有利于数据挖掘过程的实现。(5)数据规范化规格化数据就是将有关属性数据按比例缩放,使之落入一个特定的小范围内,以消除数值型数据因大小不一而造成的数据挖掘结果的误差。常用的规格化数据方法有三种:最大最小规格化z-score规格化小数定标规格化2.4数据准备(5)2.4数据准备(6)(6)准备建模数据集数据准备是在数据建模前对数据的最后一步进行处理,对数据进行上述处理后,还不能直接用于数据建模,还需要考虑到数据的稀疏程度。通常,对于稀疏的数据,最好选用15%~30%的比例来建模,例如:在建立欺诈检测模型时,欺诈记录的数据占比例很小。如果直接用这样的数据进行建模,那么,成功预测没有欺诈的可能性将会很高。但是这样得到的模型用处不大甚至完全无用。为了评估模型,一般将建模数据集分成三个部分,即训练集、测试集和评估集。将数据的训练集作为最初用于建立模型的数据,用测试集和评估集来精化模型和评估模型。2.5建模(1)2.5.1成功建立预测模型的注意要点2.5.2如何建立有效的预测模型2.5建模(2)一个模型的好坏依赖于所选择的算法和使用的工具。一些工具可以生成许多不同的模型,而且可以自动从中选出最好的模型。可以选择多种不同的数据挖掘技术,每一种技术都有它的优缺点。实际应用时,需要根据数据挖掘的目的以及数据的特点选择数据挖掘的算法。数据挖掘中的建模是针对问题的特定对象,为了特定的数据挖掘目的,做出假设,运用适当的数据挖掘工具和其他科学工具建立模型,利用模型解释特定的现象和预测对象的未来状况。
2.5.1成功建立预测模型的注意要点(1)对于预测模型而言,当预言与结果相一致时,才能说明预言是有效的然而,要成功建立预测模型,需要注意以下三点:(1)预测模型的时间范围在建立模型的过程中,首先需要训练模型,即用历史数据构建模型,进行预测,然后将模型应用于新的数据中从而生成结果,这个过程称为得分,它是用最新的数据来预测未来的结果。具体如图所示:2.5.1成功建立预测模型的注意要点(2)(2)模型的使用有效期在建立预测模型的时候,还需要考虑模型的使用有效期问题,即模型使用有效期和模型预测有效期。模型使用有效期是指在业务环境、技术手段、客户基础等相对稳定的条件下,可以继续使用之前建立的预测模型。但是随着时间的推移,这些条件可能会发生变化,因此,必须用新的数据构建新的模型,而不能用之前建立的模型进行预测。模型预测有效期是指预测结果应该在特定的时间内才有效。例如电信行业中预测某个特定季度或者特定月份的客户流失率。在这种情况下,需要对不同季度或者月份使用不同的预测。2.5.1成功建立预测模型的注意要点(3)(3)建立预测模型的假设为什么可以用预测模型来预测现实生活中特定对象的未来状况?原因是预测模型的成功应用依赖于三个基本假设:假设1:历史是未来的写照假设2:数据是可以获得的假设3:数据中包含我们的预期目标2.5.2如何建立有效的预测模型(1)建立预测模型最重要的目标是保持模型稳定,有效模型的建立需要考虑以下因素:(1)预测建模的第一项任务就是搜集足够预先分类好的数据,将模型集分为三部分:训练集、测试集、评估集,并理解模型在各个子集上的效果。(2)对于类别不平衡的数据,通过抽样来控制模型集的密度,即不同分布的类别比例。(3)注意观察所用数据的输入和输出时间范围,所有输入都必须出现在输出之前,保留一个执行期间是明智的选择。(4)在模型集中使用多重时间窗口有助于确保模型稳定、并在时间上易于转换。(5)大多数建模过程需要建立多个模型,并对多个模型的效果进行比较,以选用效果最好的模型进行预测,或者对多个模型进行组合,以得到性能更优的集成分类模型。(6)对不同的模型集、模型参数以及时间范围进行试验,有助于建立更好更稳定的模型。2.5.2如何建立有效的预测模型(2)在了解以上因素的基础上,需要掌握建立有效预测模型的基本步骤:(1)用训练集的数据进行训练建立模型。这步产生的结果是找出数据中所包含的预测模式。(2)利用测试集,对模型进行修正。其目的是为了防止模型对训练集的模式记忆太深,出现过度拟合现象,以使模型更具一般性,并且能够很好地适应未知数据。(3)对模型的效果进行评价。这个过程需要用到评估集,这部分数据也是模型集的一部分。它是在建模和测试修正过程中尚未用到的那部分数据集。检测模型的性能可以通过判错矩阵和增益表(liftchart)或累计增益图(cumulativegainchart)来评价。2.5.2如何建立有效的预测模型(3)实际值YN预测值Y2%4%N12%82%实际值YN预测值Y7%40%N3%50%a)判错矩阵判错矩阵表示了一个模型与事实发生冲突的可能性。从判错矩阵中可以看出预测模型预测正确的比例和预测错误的比例,使我们认识到模型的执行效果,理解模型的结果。
表2-1表示的是判错矩阵。究竟哪个模型是最优的模型,还要视业务问题而定。
表2-1判错矩阵2.5.2如何建立有效的预测模型(4)b)累计增益图累计增益图是一种常用的用于评估模型执行效果的图表。它的横轴和纵轴都是百分比构成。横轴表示资料得分从小到大排序以后,按十分位累计资料百分比。累计增益图的纵轴表示这部分资料在总资料中的比例。下图表示的是不同模型产生的累计增益图表。建模曲线和对角线包围的面积越大,说明模型的执行效果越好。2.6评估评估是将模型输出的结果与现实生活中发生的结果进行对比,进一步评估模型。要保证预测结果的有效性,对预测模型进行分析与评价时,应遵循如下原则:合理性预测能力稳定性在评估结果之后,需要回顾检讨探测的过程,从而决定后续的步骤与调整。经过对模型的评估,回顾整个探测的过程,查找建模结果中与现实生活中发生结果的差距,检查探测过程的可能出现的错误,决定后续的数据挖掘的步骤并做出相应的调整。2.7部署模型的作用是从数据中找到知识,获得的知
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗救助计划
- 《头部CT概述》课件
- 《求职简历的写作》课件
- 言语治疗技术失语症听理解评估
- 《纺织品工艺》课件
- 重庆市第一中学2019-2020学年高一下学期期末考试化学试题(解析版)
- 小组游戏带领班级分组学号尾号每组课前模拟并带领一
- 妇科手术患者血栓管理
- 社会保险发展历史社会保险第三讲
- 《终修订版装修手册》课件
- 2024年医疗器械经营质量管理规范培训课件
- 景区旅游安全风险评估报告
- GB/T 36187-2024冷冻鱼糜
- 22G101三维彩色立体图集
- 建筑施工安全生产治本攻坚三年行动方案(2024-2026年)
- DL-T 1476-2023 电力安全工器具预防性试验规程
- 国家开放大学《心理健康教育》形考任务1-9参考答案
- MOOC 法理学-西南政法大学 中国大学慕课答案
- (高清版)DZT 0399-2022 矿山资源储量管理规范
- 《营养早餐》PPT课件
- 辩论赛评分表(完整版)
评论
0/150
提交评论