数据挖掘项目实施过程概述_第1页
数据挖掘项目实施过程概述_第2页
数据挖掘项目实施过程概述_第3页
数据挖掘项目实施过程概述_第4页
数据挖掘项目实施过程概述_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘项目实施过程概述二零一一年八月目录1.业务理解.41.1确定 业务 目标 .41.1.1编写业务 背景 资料 .41.1.2定义业务 目标 .61.1.3业务成功 标准 .61.2评估情况 .71.2.1资源清单 .71.2.2要求、假设和约束 .81.2.3风险和费用 .91.2.4术语 .91.2.5成本 /收益分 析 .101.3确定数据挖 掘目标 .101.3.1数据挖掘目 标 .111.3.2数据挖掘成功 标准 .111.4制定工程 计划 .122.数据理 解.122.1收集初始数 据 .122.2描述数据 .142.2.1编写数据 说明报告 .142.3探索数据 .152.

2、3.1编写数据探索 报告 .152.4验证 数据 质量 .162.4.1编写数据 质量报告 .163.数据准 备.173.1选择 数据 .183.1.1包括或排除数 据 .183.2清理数据 .193.2.1编写数据清理 报告 .193.3构建新数据 .203.4集成数据 .203.4.1格式化数 据 .214.建模 .214.1选择 建模技 术 .224.1.1选择正确的建模技 术 .224.1.2建模假 设 .234.2生成 测试设计 .234.2.1编写测试设计 .244.2.2电子商务零售 业示例 - 测试设计 .244.3构建模型 .244.3.1参数设置 .254.3.2运行模 型

3、 .254.4评估模型 .264.4.1综合模型 评估 .264.4.2跟踪已修正的参 数 .27机密22019/12/225.评估 .275.1评估结果 .285.2审核过程 .285.3确定后 续步骤 .296.部署 .306.1制定部署 计划 .306.2计划监视 和维护 .316.3生成最 终报 告 .326.3.1准备最终演示 .326.4执行最 终工程 审核 .33业务理解在开始工作之前 ,需要首先探 讨一下我们期望通 过数据挖掘 获得什么。尽可能多地一些重要 业务人员参与此类讨论 ,并将结果记录下来。了解进行数据挖掘的业务原因有助于 确保在花费宝贵的资源之前所有人都达成一致意 见

4、。并对期望结论有一致的 认识。机密32019/12/221.1 确定业务目标第一个任 务是尽可能多地了解数据挖掘的 业务目标。通过详细说 明问题、目标和资源,可以将今后的风险降至最低。包括:开始收集有关当 前业务情况的背景信息 。记录下由关键决策者决定的具体 业务目标。一致同意用于确 定从业务角度判定数据挖掘成功与否的 标准。编写业务背景资料理解组织的业务情况有助于了解在以下 这些方面需要解决什么 问题:可用资源(人力资源和物资)问题目标将需要对当前商业情况进行一些研究,以便找到 对影响数据挖掘项目结果的那些 问题的正确答案。确定组织结构建立组织结构图来说明企业分公司、部门和项目团队的结构。确

5、保包含管理者的名字和 职责。识别组织 中的关键个人。识别将提供财务支持和/或领域专门知识的内部负责人。机密42019/12/22确定是否存在指 导委员会并制作一份成 员列表。识别将受到数据 挖掘项目影响的 业务单位。说明存在问题的领域识别存在问题的领域,例如市场营销、客户服务或业务发展。使用常 规术语来描述问题。阐明项目的先决 条件。项目背后的动机。企业是否已经在使用数据挖掘。检查业务团队 内数据挖掘项目的状态。准备有关的组织进行数据挖掘的信息演示文稿。说明当前的解决方案说明当前用于解 决业务问题的所有解决方案。说明当前解决方 案的优点和缺点。此外,指出这个解决方案在 组织内的接受程度。定义业

6、务目标作为的研究和会 议的结果,应该拟 定一个主要具体目 标,并得到 项目负责人和受结果影响的 其他业务单 位的一致同意。这个目标将最终从模糊的概念,例如“减少客 户流失 ”转变为可以指导进行分析的具体数据挖掘目 标。确定以下内容:需要使用数据 挖掘解决的问题。机密52019/12/22准确地指出所有 业务问题。确定其他 业务要求。使用业务术语 和指标指定如 “预期收益率提高 ”“高价 值客户流失减少 10%”。业务成功标准目前的目 标可能很清晰,但如何衡量是否已 经达到该目标。在继续推进之前,定义数据挖掘 项目的业务成功特征很重要。成功 标准分为两类:客观标准。这些标准很简单,如审核准确度或

7、商定的流失率减少 值具体提高了多少。主观标准。主观标准(如“发现一组有效解决方案 ”)比较难于确定,但你们可以商定由谁进行最终决策。尽可能准确地 记录此项目的成功 标准。确保每个 业务目标都有相关的成功 标准。调整决定者的主 观成功衡量标准使其一致。如果可能 ,记录下客户的期望值。1.2 评估情况有了一个明确指 定的目标,下面应该评估处当前的状 况。这一步骤需要获得以下信息,例如:什么类型的数据 可供分析;是否具有完成此 项目所需的人力 资源;所涉及的最大 风险因素是什么;机密62019/12/22对于这些风险,是否具有相 应的应急计划;资源清单获取准确的 资源清单是必不可少的步 骤。通过实际

8、查 看硬件、数据源和人力资源问题,可以节省很多时间以及避免很多 问题。调查硬件资源需要哪些硬件 资源支持挖掘。识别数据源和知 识存储哪些数据源可用 于数据挖掘。记录数据类型和数据格 式。采用什么方式存 储数据。是否可以对数据仓库或操作数据库进行实时访问 。是否计划购买外部数据。是否存在任何 让无法访问所需数据的安全 问题。识别人力资源是否能找到 业务和数据专家。是否确定数据 库管理员以及可能会需要的其他技 术支持人员。在阶段报告中应包含一个联系人和资源列表。要求、假设和约束如果真实地评估了项目的负载情况,获得回报的可能性就更大。尽可能清楚地阐明这些利害关系,这将有助于 预防未来出 现问题。机密

9、72019/12/22确定要求最基本的要求就 是之前讨论过的业务目标,但需要考虑下面这些问题:对于数据或 项目结果,是否存在安全或法律方面的限 制。是否所有人都已 对项目计划要求达成共 识。是否存在任何 对结果部署的要求(例如,发布到网上或将得分读取到数据 库中)。说明假设是否存在可能影 响项目的经济因素(例如,咨询费或竞争产品)。是否存在 对数据质量的假设。工程负责人/管理团队期望采用什么方式 查看结果。换句话说,他们是希望了解模型本身,还是只想看到 结果。验证约束是否具有数据 访问所需的所有密 码。是否验证过所有对数据使用的法律 约束。所有财务约束是否都在工程的预算内。风险和费用考虑工程进

10、行中可能会遇到的 风险是一种明智的做法。风险的类型包括:计划(如果工程花费的时间比预期时间长 怎么办。)机密82019/12/22财务(如果工程负责人遇到预算问题怎么办。)数据(如果数据质量较差或者范 围过窄怎么办。)结果(如果初期结果达不到 预期怎么办。)当考虑了各种风险之后,制定一个应急计划以帮助避 免失败:记录下每种可能 遇到的风险。记录每种风险的相应应急计划。术语为了确保 业务和数据挖掘团队 “说同一种语言 ”,应该 考虑为技术术语 和需要解 释的专门用语编写一个词汇表。例如,如果“流失 ”对于的 业务具有特殊且独特的意思,就 值得为了整个 团队的利益 对其进行明确 说明。同样,团队还

11、会受益于对收益图的使用说明。任务列表在表中记录术语或团队成员容易混淆的行 话。包括业务和数据挖掘 术语。考虑在公司内 部网或其他工程文档中 发布此列表。成本 /收益分析这一步回答 问题,数据挖掘的底线是什么。作为最终评估的一部分,将工程成本和潜在的成 功收益进行比较非常重要。将下列估 计成本包括在的分析中:数据收集和使 用的任何外部数据机密92019/12/22结果部署运营成本然后,考虑下列收益:要达到的主要目 标其他通 过数据探索获得的深入 见解因深刻理解数据 而可能获得的收益1.3 确定数据挖掘目 标已经明确了业务目标,应该将其转换为数据挖掘 实体。例如,“减少流失 ”的业务目标可以转换为

12、包含下列信息的数据挖掘目 标:基于最近的采 购数据识别高价值客户使用可用的客 户数据构建一个模型 ,用于预测每个客户的流失可能性基于流失 倾向和客户价值为每个客户指定等级这些数据挖掘目 标可以随即被企 业用于减少最有价 值客户的流失。业务和技术必须紧密配合才能获得有效的数据挖掘。数据挖掘目 标描述数据挖掘 问题的类型,如聚类、预测或分类。使用具体的 时间单位记录技术目标,例如预测在三个月内有效。机密102019/12/22如果可能,为所需结果提供实际的数字,例如为 80% 的现有客户生成流失得分。数据挖掘成功 标准必须使用技术术语来定义成功,以便随时了解数据挖 掘工作的进度。使用之前确定的数据

13、 挖掘目标来明确说明成功的基准。描述模型 评估(例如,准确度、性能等)的方法。定义评估成功的 基准。提供具体的数字。尽可能 详细地定义主观衡量标准,并确定成功的决定 者。考虑成功部署模 型结果是否算是数据挖掘成功的一部分。立即开始 对部署进行计划。1.4 制定工程 计划工程 计划是适用 于所有数据挖掘工作的主要文档。如 果计划制定得好,它可以为每个工程相 关人员提供各个数据挖掘 阶段的目 标、资源、风险以及计划等信息。可能希望在公司内部网中 发布此计划,同时发布这个阶段收集到的所有文档。创建计划时,确保已经解决了下面 这些问题:是否已 经和所涉及的每个人讨论了工程任务和提议的计划。是否所有 阶

14、段或任务都包含估 计的时间。是否包含了部署 结果或业务解决方案所需的工作量和 资源。机密112019/12/22计划中是否突出 显示了决策点和 审核求。是否已 经标记出通常会发生多个迭代的 阶段,例如建模阶段。数据理解数据理解 阶段包含深入了解可用于挖掘的数据。此步 骤是在下一个 阶段(数据准备)中避免意外问题发生的关键,这个后续阶段通常是工程中耗 时最长的部分。数据理解包含使 用工具,通过组织的表格和 图形访问数据以及探索数据 。在这一阶段中,可以确定数据的 质量并在工程文档中描述 这些步骤的结果。2.1 收集初始数据此时已作好访问数据的准备。数据来自各种不同的数 据源,例如:现有数据。这包

15、括大量不同的数据,例如交易数据、 调查数据、Web 日志等。考虑现有数据是 否足以满足的需要 。购买的数据。是否使用补充性数据,如果没有,考虑是否需要使用此 类数据。其他数据。如果上面的数据源并不能 满足的需求,可能需要开展 调查或开始进行其他跟踪以便 补充现有的数据存 储。查看数据然后考 虑以下问题。确保记录 下发现的问题。数据库中的哪些 属性(列)看起来最有用。哪些属性看起来 并不相关,可以排除在外。要想得出概括的 结论或者做出准确的 预测,现有数据 是否足够。机密122019/12/22所选的建模方法 是否存在过多属性。是否要合并不同 的数据源。如果要合并,是否存在合并 时会引发问题的区

16、域。是否考虑过如何处理各个数据源中的缺失 值。编写数据收集报告使用上述步 骤中收集的材料,可以开始 编写数据收集 报告。一旦完成,可将此报告添加到工 程 Web 站点或向工程 团队发 布。它也可以与后 续步骤中准备的报告组合在一起,如数据说明、探索和 质量验证。这 些报告将在整个数据准 备阶段指导的工作。2.2 描述数据可以采用多种方 式对数据进行描述 ,但是大多数描述都将重点放在数据的数量和 质量上,即可提供多少数据以及 这些数据的具体情况。以下 列出了描述数据时需要用到的 一些关键内容。数据的数量。对于大多数建模技 术,数据大小都具有相关的 协定。大型数据集 可以生成更准确 的模型,但它们

17、也会增加 处理时间。考虑是否可以使用数据的 一个子集。当为最终报告记录信息时,确保包括所有数据集的大小 统计数据量, 并且记住在描述 数据时考虑记录和字段(属性)的数量。值类型。数据可以采用多种格式,例如 数字、类别(字符串)或布尔值(true/false)。注意值 类型可以防止在后面的建模阶段出现问题。编码 方案。数据库中的值常用于表示特征,如性 别或产品类型。例如,一个数据集可以使用 M 和 F 来表示 男性和女性,此外也可以使用数字 值 1 和 2 表示。注意数据报告中的那些冲突的方案。机密132019/12/22编写数据说明报告要有效地推 进的数据挖掘工程,考虑使用下列度量 标准生成准

18、确数据 说明报告的值:数据数量数据的格式是什 么。指定用于捕 获数据的方法,例如,ODBC 。数据库有多大(使用行数和列数描述)。数据质量数据是否包含与 业务问题相关的特征。所呈现的是什么 数据类型(符号、数字等)。是否为关键属性计算了基本统计数据。这些数据为业务问题提供了哪些深入的见解。是否能 够为相关的属性设置优先级。如果不能,业务分析师是否可以提供 进一步的见解。2.3 探索数据使用工具中的表 格、图表和其 他可视化工具来探索数据。此 类分析可以帮助解决在 业务理解阶段构建的数据挖掘目 标。它们还 可以帮助用于 设定假设以及制定将在数据 准备阶段进行的数据转换任务。机密142019/12

19、/22编写数据探索 报告当创建图形并对可用数据进行统计时,应该开始设定数据如何才能解决技术和业务目标的假设。记录发现 的问题以便将其包含在数据探索 报告中。确定以下内容:对数据设定了什么类型的假设。哪些属性看起来 对于进一步的分析有用。探索是否揭示了 新的数据特征。这些探索怎 样改变了的初始假设。是否能 标识特定的数据子集以供 过后使用。再次查看一下的 数据挖掘计划。此次探索是否更改了 目标。2.4 验证数据质量数据几乎没有完 美的。事实上,大多数数据都包含代 码错误、缺失值或其他类型的不一致 现象。一种可避 免可能出现缺陷的方法是在建模前 对可用数据 进行全面的 质量分析。缺失数据包括空值或

20、编码为无应答的值(例如 $null$、? 或 999)。数据错误通常是在输入数据时造成的排字 错误。度量标准错误包括正确 输入但却基于不正确的度量方案的数据。编码不一致通常包含非标准度量单位或不一致的 值,例如同时使用 M 和 male 表示性别 。机密152019/12/22无效的元数据包含字段的表面意思和字段名称或定 义中陈述的意思不匹配。确保记录下此类质量问题。编写数据质量报告数据存在 多种类型的数据质量问题。考虑下列 质量问题并规划解决方案。将所有答复 记录在数据质量报告中。有没有找到任何 缺失属性和空字段 。如果找到了,此类缺失值是否暗含什么意思。是否存在可能会 在后面的合并或 转换

21、的过程中导致问题的拼写前后不一致的情况。是否探索了偏差 值以确定它们是 “无效数据 ”还是值得进一步分析的 现象。是否对值执行了真实性检查。记录 下所有明 显的冲突(例如青少年具有高收入) 。是否考 虑过将那些对的假设没有任何影响的数据排除在外。数据是否存 储在平面文件中。如果是,这些文件中的定界符是否一致 。每条记录是否都包含相 同数量的字段。数据准备数据准 备是数据 挖掘最重要的 阶段之一,通常需要花费大量的时间。据估计,实际的数据准 备工作通常占 50-70% 的工程时间和工作量。在前期的业务理解 和数据理解 阶段投入足够的精力可以将 对这一阶段的投入降至最低, 但仍需花 费大量的精力

22、为挖掘准备和打包数据。机密162019/12/22取决于的 组织及组织目标,数据准备通常包含以下任 务:合并数据集和 /或记录选择数据子集 样本汇总记录导出新的属性排序数据以便建 模删除或替换空值或缺失值分为训练数据集和测试数据集3.1 选择数据基于在前面的 阶段执行的初始数据收集 ,可以开始选择与的数据挖掘目 标相关的数据。通常,有以下两种 选择数据的方式:选择项目(行)包含各种决策的制定,例如要包含哪些 帐户、产品或客户。选择属性或特征(列)包含有关使用哪些特征的决策制定,如交易金 额或家庭收入。包括或排除数据在决定要包括或 排除哪些数据子集的 时候,确保记录下做出这些决定的根本原因。某个

23、给定的属性是否与的数据挖掘目 标相关。机密172019/12/22某个特定数据集 或属性的质量是否会 导致的结果无效。是否能 对此类数据进行数据挽救。对于使用某些特 定字段,如性别或种族是否存在任何 限制。在此阶段所作的 决定是否与在数据理解 阶段所作的假 设不同。如果不同,确保在工程 报告中记录下的原因。3.2 清理数据清理数据包括深 入了解选择包含在分析中的数据存在的 问题。可以通过记录和字段操作 节点来清理数据。数据问题缺失数据数据错误编码不一致缺失或无效的元 数据可能的解决方案排除行或特征。或者,使用估计值填充空值。通过逻辑关系手动发现错误并进行替换。或者,排除特征。决定使用其中一 种

24、编码方案,然后转换及替换相应的值。手动检测可疑字段并追踪其正确的意思。在数据理解 阶段准备的数据质量报告包含的数据的特定 问题类型的详细信息。编写数据清理 报告报告的数据清理 成果对于跟踪数据的更改是必不可少的步 骤。轻松掌握工作的详细信息将有 助于将来的数据挖掘工程。编写报告时应对以下问题进行考虑:机密182019/12/22数据中 产生了哪些类型的无用数据 。使用什么方法 删除这些无用数据。哪些技 术获得了成功。是否存在无法挽 救的情况或属性。确保记录因无用数 据而排除的数据。3.3 构建新数据经常会遇到需要 构建新数据的情况 。有以下两种构建 新数据的方式:导出属性(列或特征)生成记录(

25、行)3.4 集成数据同一组业务问题 具有多个数据源的情况很多 见。例如,可以访问同一组客户的抵押贷款数据以及购买的人口统计数据。合并数据的基本 方法有以下两种:合并 数据,涉及合并 两个具有相似 记录但不同属性的数据集。 这些数据通 过各记录的相同关 键标识符(例如客户 ID )合并。生成的数据将会增加一些列或 特征。追加数据,涉及集成 两个或多个具有相似属性但不同 记录的数据集。数据基于相似字段(例如产品名称或合同 时长)集成。机密192019/12/22如果没有花 费足够的时间开发和理解的数据,集成数 据将会变得很复杂。更多地思考一下那 些看上去与数据挖掘目 标关系最大的 项目和属性,然

26、后开始集成的数据。使用合并或追加 ,集成那些认为对于建模有用的数据集 。考虑在建模之前 保存生成的输出。合并之后,可以通过汇总值简化数据。汇总表示通过总结多条记录和/或表中的信息计算出新值。此外,也可能需要生成一些新 记录(例如多年联合退税的平均减免 额)。格式化数据作为建模前的最 后一个步骤,检查某些特定技 术是否需要数据具有特定格式或顺序很有用 。例如,某种序列算法要求数据在运行模型前 预先排序的情况很常见。即使模型可以 执行排序操作,但是在建模前使用排序 节点可以节省处理时间。格式化数据 时考虑下列问题:计划使用哪些模 型。这些模型是否需 要特定的数据格式或 顺序。建模这是的努力工作 开

27、始有所回报的阶段。此时这些结果开始表现在业务理解阶段呈现的业务问题。机密202019/12/22建模时通常会执行多次迭代。通常,数据挖掘人员会使用默 认参数运行多个模型,然后再 对这些参数 进行微调或回到数据准 备阶段以便 执行所选模型所需的操作。仅使用一个模型且 仅执行一次就能 圆满地解答 组织的数据挖掘 问题,这样的情况几乎不 存在。这就是数据挖掘如此有趣的原 因,可以使用多种方法来考虑某个已知的 问题。4.1 选择建模技术尽管可能已 经知道哪种类型的建模方式最能 满足组织的需要,但现在应该做出有关使用哪些 建模方式的正式决定。通常,将会基于下列因素确定最适用的模型:可用于挖掘的数据类型。

28、例如,感兴趣的字段是否 为分类(符号型)。数据 挖掘目标。是否只想 获取有关交易数据存 储的深入 见解并挖掘出令客 户感兴趣的购买模式。或者是否 需要生成一个得分 ,例如用于表明拖欠学生 贷款的倾向。具体的建模要求。模型是否要求使用特定的数据大小或 类型。是否需要一个具有易于演示的 结果的模型。选择正确的建模技 术通常,数据挖掘人员使用多种技 术从多个不同方向 处理问题。当决定要使用哪 种(些)模型之后,考虑以下的问题是否会影响的选择:此模型是否需要 将数据分为测试集和训练集。是否具有足 够的数据为给定的模型生成可靠的 结果。机密212019/12/22此模型是否需要 特定的数据质量级别。的当

29、前数据是 否达到这一级别。的数据是不是适 用于此特定模型的恰当 类型(例如适用于 GRI 的符号输出字段)。如果不是,是否可以使用数据操控 类节点进行必要的 转换。建模假设当开始 缩小建模 工具的选择范围时,记录下决策制定 过程。记录下所有为了达到模型的要求 而设定的数据假 设以及为此而执行的数据操作。例如,Logistic 回归和神经网络节点都要求其数据 类型在执行前经过完全实例化(数据类型已知)。这就意味着将需要在流中添加一个 类型节点并执行该节点以便在构建和 运行模型前全面运行数据。与之相似 ,预测模型(例如 GRI 或C5.0)可以受益于在预测不常发生事件的 规则时 重新平衡数据。当

30、进行此类预测时,通过在流中插入一个平衡 节点并在模型中增加平衡性更 强的子集通常可以获得更好的 结果。4.2 生成测试设计作为实际构建模型之前的最后一个步 骤,应该再次考虑要采用什么方式 对模型的结果进行测试。生成一个 全面的测试设计 操作包含两个部分:描述模型的 “优异性 ”标准定义将要对其测试这些标准的数据模型的 优异性可以通过多种方法度量。 对于监督式模型,例如C5.0、GRI和 C&RT ,优异性的度量方法通常是估 计特定模型的 错误率。对于非监督式模型,例如 Kohonen 聚类网络,度量方法可以包括易于解 释、部署或所需处理时间等标准。机密222019/12/22模型构建操作是 一

31、个迭代的过程。这意味着通常需要 测试多个模型的 结果才能决定使用和 部署哪些模型。编写测试设计测试设计 就是将 用于测试生成的模型的步 骤说明。因为建模是一个迭代 过程,因此知道何时应该停止调整参数以及 尝试另一种方法或模型非常重要。任务列表当创建测试设计 时,考虑以下问题:将使用什么数 据测试模型。是否已将数据分 为训练 /测试集。(这是在建模 时常会使用的方法。)要怎样度量监督式模型是否成功(例如 C5.0 和 GRI)。要如何度量非 监督式模型是否成功(例如 Kohonen 聚类网络)。愿意在 尝试另一种模型类型前使用调整的设置重新运行多少次模型。电子商务零售业示例 - 测试设计4.3

32、构建模型大多数数据挖掘 人员通常都会在部署或集成模型之前构建多个模型, 然后再比较它们的结果。为了跟踪处理多个模型的过程,确保记录下每个模型 所使用的设置和数据。这可以在与其他 人讨论这些结果时提供帮助,并且还可以在需要时重新跟踪的 步骤。在模型构建过程的最后 阶段,将获得三类将在数据挖掘决策 时使用的信息:机密232019/12/22参数设置包括记录的生成最佳 结果的参数。生成的 实际模型。模型结果说明,包括在执行模型并探索其 结果时发生的性能和数据 问题。参数设置大多数建模技 术都具有大量参数或 设置,对这些参数 和设置进行调整即可控制建模 过程。例如,可用通过调整决策 树的深度、分割和一

33、些其他 设置对它进行控制。通常情况下,大多数人都会先使用默 认选项构建一个模型 ,然后再在后续的会话中改进参数。一旦确定了可生 成最准确结果的参数,确保保存流和 生成的模型节点。此外,记录下最佳设置也可以在决定使用新数据自 动构建或重新构建模型 时提供帮助。运行模型运行模型是一 项简单的任务。只需执行模型即可生成 可查看的结果。对于每个模型,记录以下信息:是否能从此模型 得出有意义的结论。此模型是否揭示 了新的深入见解或不寻常的模式。模型是否存在 执行问题。执行时间是否合理。此模型是否存在 数据质量难题,例如具有大量缺失 值。有没有 应该记录 的计算不一致 问题。机密242019/12/224

34、.4 评估模型既然已 经具有一组初始模型,深入了解它 们以确定哪 些模型既准确又有效,足以成 为最终的模型。最终包含多 层含义,例如“可以部署 ”或 “展 现了用 户感兴趣的模式 ”。参考之前创建的测试计划有助于从 组织的观点出发进行评估。综合模型评估对于每个正在考 虑的模型,最好基于 测试计 划中生成 的标准进行一次系 统评估。在这里,可以使用评估图表分析 结果是否有 效。还应该 考虑结果从逻辑上看是否合理或者 它们是否对于的业务目标来说太过简单(例如,所揭示的采购顺序为酒酒酒)。一旦进行了评估,基于客观(模型正确性)和主观(易于使用或结果无需解 释)标准对模型进行排序。?评估模型结果。基于

35、对业务问题 的理解对结果进行审核。咨询对某个特定结果的相关性具有深入了解的数据 分析师或其他专家。考虑某个模型的 结果是否易于部署 。的组织是要求将 该结果部署到 Web 上还是发送回数据 仓库中。分析结果对的成功标准的影响。它们是否达到在 业务理解阶段建立的目 标。如果能 够成功解 决上述问题并相信当前模型达到了的目 标,现在可以开始进一步执行更全 面的模型评估并进行最终部署。否则,根据所学到的知 识使用经过调整的参数 设置重新运行模型。机密252019/12/22跟踪已修正的参数基于在模型 评估过程中了解的信息 ,现在应该再次查看一下模型。此时具有两个选项:调整现有模型的 参数。选择另一个

36、模型 来解决的数据挖掘 问题。在这两种情况下 ,都将返回构建模型 任务并重复 执行该任务直至结果成功。不要担心重复 执行这一步骤。在找到满足需要的模型 之前,数据挖掘人 员多次评估和重新运行模 型是非常常见的。这是一个在 调整多个模型的参数之前用于同 时构建这些模型并比较结果的实用参数。评估现在,数据挖掘工程已 经完成了一大半。而且,根据之前定义的数据挖掘成功标准,还确定在建模 阶段构建的模型从技 术上说是正确而且有效的。应该使用在工程 开始时设立的业务成功标准评估的努力结果。这是确保的组织可以利用所 获得的结果的关键环节。数据挖掘可以生成两种类型的结果:前期阶段中选定的最终模型。从模型本身以

37、及 数据挖掘过程中得出的任意 结论或推论。这些均称为发现的问题。机密262019/12/225.1 评估结果在这个阶段,将对工程结果是否达到 业务成功标准的评估进行规范。此步骤要求对声明的 业务目标有清晰地了解,因此确保在工 程评估时包含关 键决策制定者。首先,需要将对数据挖掘结果是否达到 业务成功标准的评估记录在案。在报告中考 虑以下问题:的结果是否明确 声明并且采用可以 轻松展示的格式。是否存在 应该突出强调的特别故事或独特的 发现问题。是否能 够按照模型和发现的问题对于业务目标的适用顺序对他们进行排序。总的来说,这些结果能在多大程度上 满足组织的业务目标。结果是否还引发了哪些其他问题。将

38、如何使用商业术语表述这些问题。评估完结果后,编辑汇总 一个已批准的模型列表以包含在最 终报告中。此列表应该包含同时满足组织的数据挖掘目 标以及业务目标的那些模型。5.2 审核过程有效的方法通常 包含用于反映 刚完成的过程的成功之 处和不足之 处的时间。数据挖掘也不例 外。首先,应该汇总 每个阶段的活动和决定,包括数据准 备步骤、模型构建等。然后对于每个阶段,考虑以下问题并提出改 进建议:这一阶段是否对最终结果的值有所贡献。机密272019/12/22有没有方法可以 简化或改善这一特定阶段或操作。这一阶段的失败之处和失误分别是什么。下一次应该如何避免这些问题。是否存在死端,例如某些已 验证无效的

39、特殊模型 。是否有办法预测此类死端,以便可以更有效 地开展工作。这一阶段是否存 在任何令人惊喜的 结果(不论好或坏)。事后看来,是否有明显的办法可以预测此类事件的发生。是否有其他的 备选决定或策略可以在某个 给定的阶段使用。在将来的数据挖掘工程中注意此 类替代选项。5.3 确定后续步骤此时具有两个 选择:继续 进入部署阶段。下一个阶段将帮助将模型 结果并入的 业务过 程中,从而生成最终的报告。即使的数据挖掘工作没有成功,也 应该部署来 创建最终报告以便将其发送给工程负责人。返回 到前面的步骤改进或替换的模型 。如果发现的结果几乎可以算是(但并非)最佳结果,可以考虑另一轮建模。可以将在此 阶段中

40、了解到的信息用于改 进模型并生成更好的 结果。此时,的决定关系到建模 结果的准确度和相关性 。如果结 果实现了的数据挖掘目标和业务目标,则已经可以进入部署 阶段。不论作出什么决定,都确保 记录下完整的 评估过程。机密282019/12/22部署部署就是使用的 新的深入见解在组织内部进行改善的 过程。这可以表示正式的集成,例如 实施一个用于生成随后要 读入数据 仓库中的流失得分的模型。此外,部署还意味着可以使用从数据挖掘中 获得的深入 见解改善的 组织。例如,也许会发现数据中 的报警模式指明年 龄超过 30 岁的客户行为会发生改变。这些结果可能不会正 式集成到的信息系 统中,但它们无疑对于计划和

41、制定 营销决策非常有用。通常,部署阶段包含两种 类型的活动:计划和监视结果的部署完成包尾的任 务,例如生成最 终报告和执行工程审核取决于 组织的要求,可能需要 完成上述步骤之一或全都完成。6.1 制定部署 计划第一个步 骤是汇总的结果,包含模型和发现的问题。这个步骤可以帮助确定哪些模型可以集成 到的数据库系统中,哪些发现的问题应该 向的同事展示。对于每种可部署 的模型,创建一个分步 骤执行的计划以便部署和集成到的系统中。注意任何技 术细节问题 ,例如模型输出的数据 库要求。例如,也许系统要求建模 输出使用制表符分隔格式部署。对于包含的每个 发现问题,创建将此信息 传递给策略制定者的计划。对于两种值得说明的结果类型是否有 备择部署计划。考虑如何监控部署。当模型不 再适用时将作何决定。机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论