数据挖掘与Clementine使用培训(深圳电信)_第1页
数据挖掘与Clementine使用培训(深圳电信)_第2页
数据挖掘与Clementine使用培训(深圳电信)_第3页
数据挖掘与Clementine使用培训(深圳电信)_第4页
数据挖掘与Clementine使用培训(深圳电信)_第5页
已阅读5页,还剩301页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、0数据挖掘与数据挖掘与Clementine使用培训使用培训北京瑞斯泰得数据技术开发北京瑞斯泰得数据技术开发8/14/2021Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403851一、数据挖掘概述 什么是数据挖掘 数据挖掘的实现路线和流程 数据挖掘方法论CRISP-DMBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangz

2、hou (8620)382403852为什么进行数据挖掘? 商业观点 业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值 客户信息数据 客户交易行为数据 客户反馈数据 网络数据 计算机变得越来越便宜、功能却越来越强大 商业竞争越来越激烈,对客户了解越多就意味着机会越大Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403853为什么进行数据挖掘? 技术观点 业务中的数据量呈现指数增长(GB/小时) 传统技术难以从这些大量数据中发现有

3、价值的规律 数据挖掘可以帮助我们从大量数据中发现有价值的规律0500,0001,000,0001,500,0002,000,0002,500,0003,000,0003,500,0004,000,00019951996199719981999The Data GapTotal new disk (TB) since 1995Number of analysts From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”Beijing Stats Data Mi

4、ning Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403854一个市场营销的例子在数据中发现有价值的规则或者模式在数据中发现有价值的规则或者模式女性对市场活动做出女性对市场活动做出回应,男性对市场活回应,男性对市场活动不做出回应,和年动不做出回应,和年龄无关龄无关Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403855一个市场营销的例

5、子数据变的复杂会如何?数据变的复杂会如何?女性对市场活动做出回应,女性对市场活动做出回应,老年男性也可能对市场活动老年男性也可能对市场活动做出回应做出回应Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403856一个市场营销的例子数据挖掘可以从异常复杂的数据中发现规律数据挖掘可以从异常复杂的数据中发现规律通过数据挖掘发通过数据挖掘发现回应的现回应的5 5条规条规则:则:1 1、如果收入大、如果收入大于于2962229622,有孩,有孩子,并且

6、孩子的子,并且孩子的数量小于等于数量小于等于2 2,那么对市场活,那么对市场活动会回应动会回应通过数据挖掘发通过数据挖掘发现不回应的现不回应的5 5条条规则:规则:1 1、如果收入小、如果收入小于,并且有一个于,并且有一个孩子,那么对市孩子,那么对市场活动不会回应场活动不会回应Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403857数据挖掘收益分析向60%的客户发信,得到了90%的收益数据挖掘的意义Beijing Stats Data Mi

7、ning Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403858利润分析图Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403859数据挖掘效果模拟分析数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,0

8、00)每个响应的收入$125$125$0总收入$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000目的:发现新客户目的:发现新客户( (使响应率从使响应率从1%1%提高到提高到1.2%)1.2%)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038510什么是数据挖掘? 不同的定义 从大

9、量数据中发现非平凡的、先前不知道的、有价值的规律的过程 从大量数据中自动化(或者半自动化)的发现有价值规律的过程 数据挖掘的其他名称 数据库内知识发现(KDD- Knowledge discovery in databases ) 数据/模式分析 商业智能 人工智能 Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038511数据挖掘的起源 来源于机器学习/人工智能、模式识别、统计学和数据库 传统技术的局限性 巨量的数据 高维数据 数据分布不

10、理想机器学习/模式识别统计学数据挖掘数据挖掘数据库系统Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038512数据挖掘面临的挑战 海量数据 高维数据 数据复杂性 数据质量问题 数据所有权和分布 隐私问题Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038513数据挖掘方法论项目顺利实施

11、的保证 商业理解商业理解 数据理解数据理解 数据准备数据准备 建立模型建立模型 模型评估模型评估 模型发布模型发布Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038514商业理解商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布确定商业目标形势评估确定数据挖掘目标制定项目计划背景商业目标成功标准拥有资源需求、假定和限制风险和偶然性专业术语成本和收益数据挖掘目标数据挖掘成功标准项目计划工具和

12、方法评估Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038515数据理解商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布收集原始数据数据描述数据探索性分析数据质量描述数据收集报告数据描述报告探索性数据分析报告数据质量报告Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guan

13、gzhou (8620)3824038516数据准备商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布选择数据确定分析包含/剔除数据数据集数据集描述数据清理数据清理报告数据重构生成新的变量(字段)生成新的记录整合数据合并相关数据格式化数据改变数据格式,适应分析Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038517建立模型商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型

14、模型模型评估评估结果结果发布发布选择建模技术产生检验设计建立模型评价模型模型技术模型假设检验设计参数设定建模模型评价参数设定的修订模型描述Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038518模型评估商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布结果评估数据挖掘过程回顾确定下一步的工作评估数据挖掘结果被认可的模型数据挖掘过程的回顾列出可能的行动决策Beijing Stats Data

15、 Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038519结果发布商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布发布结果计划监测和维护模型计划生成最终数据挖掘报告项目回顾结果发布计划监测和维护模型计划最终数据挖掘报告数据挖掘报告展现项目检验总结Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou

16、(8620)3824038520商业理解是数据挖掘的起点C2C1解决方案解决方案商业价值商业价值商业需要商业需要Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038521商业理解的内容 数据挖掘能解决什么样的商业问题?数据挖掘能解决什么样的商业问题? 数据挖掘得到的结果,是否可以采取相应数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本?的行动以提高利润或降低成本? 我们期望模型能够给我们怎样的精确率?我们期望模型能够给我们怎样

17、的精确率? 有那些前提假定?有那些前提假定?Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038522约束分析 时间约束分析时间约束分析 资源约束分析资源约束分析人力资源人力资源数据资源数据资源软件资源软件资源硬件资源硬件资源Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038523制定

18、特定的数据挖掘目标制定的数据挖掘目标应具有:制定的数据挖掘目标应具有: 可评估性(可评估性(assessable)assessable) 可实现性(可实现性(attainableattainable)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038524如何给定一个数据挖掘问题 是检验性数据挖掘还是探索性数据挖掘?是检验性数据挖掘还是探索性数据挖掘? 确定哪些是可以实现的数据挖掘问题确定哪些是可以实现的数据挖掘问题 结果可测度性结果可测

19、度性 信息(数据)的可获得性信息(数据)的可获得性 评估和控制其他相关因素的影响评估和控制其他相关因素的影响Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038525数据来源与数据之间的关系Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038526使数据适合数据挖掘 对数据进行适当的合并

20、和汇总 一般数据挖掘分析都要一个行列(记录变量)的二维表,必须把从不同数据源得到的不同格式的数据整合成这样一张表,要求:所有的记录含有排列顺序一致的变量所有记录的变量信息是完整的(理想化状态,在现实中很难达到)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038527检查数据质量 影响数据质量的几个主要问题缺失值缺失值不合理值不合理值不同数据源的不一致不同数据源的不一致异常值异常值Beijing Stats Data Mining Co.

21、Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038528对数据进行适当的变换 数据的标准化变换 生成新的变量 数据的重新编码 数据降维,从变量角度或者从记录角度Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038529数据挖掘模型的分类 数据描述和汇总(Data description and summarization) 细分(Segment

22、ation) 概念描述(Concept descriptions) 分类(Classification) 预测(Prediction) 相关分析(Dependency analysis)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038530数据挖掘技术的分类数据挖掘数据挖掘描述描述预测预测统计回归统计回归关联规则关联规则决策树决策树可视化可视化聚类聚类顺序关联顺序关联汇总汇总神经网络神经网络分类分类时间序列预测时间序列预测Beijing

23、 Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038531数据挖掘的典型结果金融 问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树)收入大于5万元/年是否有无储蓄帐户是否房主否是是否批准不批准批准Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038532数

24、据挖掘的典型结果电信 问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络)输 入流失概率(0.87)输 出男293000元/月套餐A130元/月Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038533数据挖掘的典型结果零售 问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (

25、8621)53060345 Guangzhou (8620)3824038534数据挖掘的典型结果制造业 问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038535数据挖掘的典型结果政府 问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络)Beijing Stats Data Mining Co. Ltd.Beijing (8610

26、)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038536检验的形式 方法层面的检验方法层面的检验 训练集和检验集训练集和检验集 不同方法的互相印证和比较不同方法的互相印证和比较 模型准确性的检验模型准确性的检验: : 商业层面上的检验商业层面上的检验 利润率的检验利润率的检验 模型结果可操作性的检验模型结果可操作性的检验 其他检验其他检验Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3

27、824038537关注那些错误的预测Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038538数据挖掘不成功的几种可能性 糟糕的数据糟糕的数据 组织抵制组织抵制 结果没有被有效的发布结果没有被有效的发布 得到了无用的结果得到了无用的结果Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038

28、539模型发布的形式 书面报告书面报告 数据库更新数据库更新 针对特定主题的应用系统针对特定主题的应用系统Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038540数据挖掘的体系结构用户界面SPSS Data Access PackClementine Solutions Publisher RuntimeC/S结构或B/S结构发布数据挖掘模型C/S结构建立数据挖掘模型数据库模型库分析员ClementineSPSS Data Access

29、PackBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038541Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038542二、Clementine概述 Clementine在数据挖掘中的地位 Clementine发展历史 Clementine的配置 Clementine操作基础Beij

30、ing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038543数据挖掘的一般流程及数据挖掘软件在数据挖掘过程中的地位!?Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038544数据挖掘方法论项目顺利实施的保证 商业理解商业理解 数据理解数据理解 数据准备数据准备 建立模型建立模型 模型评估模型评估

31、 模型发布模型发布Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038545Clementine发展历程 Clementine是ISL (Integral Solutions Limited)公司开发的数据挖掘工具平台 1998年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点1994:Clementine V1.0发布发布1998:被被SPSS收购收购199

32、9:Clementine ServerClementine Solution Publisher2000:Clementine V6.02002年年9月月:Clementine 7.02003年年9月月:Clementine 7.1中文版中文版2003年年4季度季度Clementine 8.01998-20072004年年1季度季度Clementine 8.1中文版中文版2006年年12月月Clementine 10.0中文版中文版Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 G

33、uangzhou (8620)3824038546Clementine的软件构成 Clementine Client; Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038547Clementine的两种运行方式单机版运行单机版运行以下情况必

34、须使用单机版运行:以下情况必须使用单机版运行: 数据存储在本机,且不能在网络数据存储在本机,且不能在网络上共享;上共享; 机器不联网;机器不联网; 无无Clementine Server可供使用。可供使用。以下情况可以使用单机版运行:以下情况可以使用单机版运行: 要处理的数据量很小(比如:小要处理的数据量很小(比如:小于于2M)并且数据存储在单机或可)并且数据存储在单机或可到达局域网处;到达局域网处; 单机内存、硬盘相对要处理的数单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满据量来说足够大,并且速度也满足要求。足要求。C/SC/S结构运行结构运行以下情况必须使用以下情况必须使用C/S

35、C/S结构运行:结构运行: 单机内存或者硬盘不够大,难以单机内存或者硬盘不够大,难以运行大量数据;运行大量数据; 单机上没有或者无法配置数据连单机上没有或者无法配置数据连结,无法从数据库中获取数据;结,无法从数据库中获取数据; 组织规则不允许下载大量数据到组织规则不允许下载大量数据到单机。单机。以下情况可以使用以下情况可以使用C/SC/S结构运行:结构运行: 要处理的数据量很大,并且存储要处理的数据量很大,并且存储在可以通过在可以通过SPSS Data AccessSPSS Data Access技技术可到达的数据库处;术可到达的数据库处; 单机速度慢,单机速度慢,Clementine Cle

36、mentine ServerServer运行的机器配置高。运行的机器配置高。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038548Clementine的系统结构Clementine的三层结构的三层结构:1、数据库层;、数据库层;通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行;2、服务器端;、服务器端;进行调度,不能在数据库层面进行的操作在服务器端进行(比

37、如数据挖掘模型计算过程)3、客户端。、客户端。在三层结构下通过Clementine Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。Clementine ClientClementine Client和和Clementine ServerClementine Server通过通过SDLSDL(Stream Stream Description LanguageDescription Language )之间进行信息交换,)之间进行信息交换,Clementine ServerClementine Server和和DatabaseDatabase通过通过SQLS

38、QL语句进行信息交换。语句进行信息交换。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038549Clementine运行的两种方式 图形界面方式图形界面方式 适用操作系统适用操作系统 Windows系列系列 特点:特点: 图形化界面图形化界面 与客户直接交互与客户直接交互 适合交互式分析过程适合交互式分析过程命令行方式命令行方式使用操作系统使用操作系统WindowsWindows系列系列UnixUnix系列系列特点:特点:命令行操作命令行

39、操作不能生成图形,所有结果保存在不能生成图形,所有结果保存在文件里或者数据库中文件里或者数据库中适合于以下情况使用:适合于以下情况使用:运行耗时较长的建模过程运行耗时较长的建模过程希望在后台运行一些耗时较长的希望在后台运行一些耗时较长的数据准备数据准备过程希望按照一定的时间定期运过程希望按照一定的时间定期运行(比如每周、每月等)行(比如每周、每月等)希望把希望把ClementineClementine(数据挖掘过(数据挖掘过程)运行过程嵌入应用系统中程)运行过程嵌入应用系统中Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Sha

40、nghai (8621)53060345 Guangzhou (8620)3824038550Clementine的界面和设计思路 可视化界面可视化界面 四个区域分别是建模区、结点区、模型描述区、项目管理四个区域分别是建模区、结点区、模型描述区、项目管理区区 通过连接结点构成数据流建立模型通过连接结点构成数据流建立模型 ClementineClementine通过通过6 6类结点的连接完成数据挖掘工作,它们类结点的连接完成数据挖掘工作,它们是:是: Source(源结点):Database、Var. Files等 Record Ops (记录处理结点):Select、Sample等 Field

41、 Ops(字段处理结点):Type、Filter等 Graphs(图形结点):Plot、Distribute等 Modeling(模型结点):Neural Net、等 Output(输出结点):Table、Matrix等Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038551Clementine操作基本知识 鼠标应用鼠标应用三键与双键鼠标三键与双键鼠标左键左键 选择节点或图标置于建模区选择节点或图标置于建模区右键右键 激活浮动菜单激活浮动

42、菜单中键中键 连接或断开两个节点连接或断开两个节点 帮助帮助Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038552Clementine操作基本知识 节点的增加,以节点的增加,以 为例为例 Click “Sources”Click “Sources”,Click Click ,Click “Click “流区域流区域” Click “Sources”Click “Sources”,Double Click Double Click Cli

43、ck “Sources”Click “Sources”,Drag to “Drag to “流区域流区域” 节点的删除节点的删除 Click Click , DeleteDelete Right Click Right Click ,Click “Delete”Click “Delete” 节点的移动:节点的移动:DragDragBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038553Clementine操作基本知识 节点的编辑节点的编辑

44、Double ClickDouble ClickRight Click Right Click ,Click “Edit”Click “Edit” 节点的重命名和解释节点的重命名和解释Right Click Right Click ,Click “Edit”Click “Edit”,Click “Annotations”Click “Annotations”Double Click Double Click ,Click Click “Annotations”“Annotations”Right Click Right Click ,Click “Rename Click “Rename an

45、d Annotations”and Annotations” 拷贝、粘贴拷贝、粘贴Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038554Clementine操作基本知识 构建流时节点的连接构建流时节点的连接 Highlight Highlight ,Add to the CanvasAdd to the Canvas Right Click Right Click ,Click “Connect”Click “Connect”,Clic

46、k Click Drag the middle mutton from to Drag the middle mutton from to 构建流时节点连接的删除构建流时节点连接的删除 Right Click or Right Click or , Click Click “Disconnect”“Disconnect” Right Click “Connection”Right Click “Connection”,Click “Delete Click “Delete Connection”Connection” Double Click orDouble Click or Beijing

47、 Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038555Clementine操作基本知识 流的执行流的执行 Highlight “Stream”Highlight “Stream”,ClickClick Right Click Right Click ,Click “Execute”Click “Execute” In the Edit Window of the In the Edit Window of the , Click Click “Exe

48、cute”“Execute” 流的保存流的保存 帮助帮助 Help MenuHelp Menu Dialogue WindowDialogue WindowBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038556一个例子罗斯文商贸公司 商业问题:商业问题: 微软公司提供的案例数据库微软公司提供的案例数据库罗斯文商贸公司,罗斯文商贸公司,如何对客户价值进行评估如何对客户价值进行评估 背景介绍:背景介绍:1.1.罗斯文商贸公司是罗斯文商贸公司

49、是MicrosoftMicrosoft数据库产品(数据库产品(Access, Access, SQL ServerSQL Server等等) )中的一个示例数据库;中的一个示例数据库;2.2.它虚拟了一家经销日用品的商贸公司的情况;它虚拟了一家经销日用品的商贸公司的情况;3.3.目前该公司保存的历史数据资料,见下页;目前该公司保存的历史数据资料,见下页;4.4.我们需要对客户的价值进行评估,以便采取有效的我们需要对客户的价值进行评估,以便采取有效的市场销售策略。市场销售策略。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Sha

50、nghai (8621)53060345 Guangzhou (8620)3824038557罗斯林商贸公司数据Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038558罗斯文商贸公司统计问题 数据挖掘问题:数据挖掘问题: (1 1)如何描述客户价值?)如何描述客户价值?购买总金额?购买购买总金额?购买频次?平均每次购买金额?最近购买金额?它们的频次?平均每次购买金额?最近购买金额?它们的线性组合?线性组合?使用最简单的购买总金额使用最简单

51、的购买总金额 (2 2)需要什么样的数据挖掘方法?)需要什么样的数据挖掘方法?描述汇总?描述汇总?分类?预测?概念描述?细分?相关分析?分类?预测?概念描述?细分?相关分析?使使用最简单的描述汇总用最简单的描述汇总 (3 3)需要的数据从哪里来?)需要的数据从哪里来?从以下几个来源:从以下几个来源: 客户 订单 订单明细Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038559罗斯文商贸公司商业问题解决方案 商业问题解决方案商业问题解决方案

52、 从所有客户中找出最有价值的从所有客户中找出最有价值的1010个客户,将个客户,将名单发给市场部门,让其对这些客户进行更多名单发给市场部门,让其对这些客户进行更多的关注的关注Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038560Clementine的优化包括两个方面的优化 结构优化 用户优化Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53

53、060345 Guangzhou (8620)3824038561结构优化 把中间结果存储在Server上(尽量使用server版处理) 从数据流上整理考虑的执行数据流(能一步完成的处理尽量不要分解到多个执行) 减少数据的迁移(数据提前进行规划)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038562用户优化自动优化数据流:当使用这一选项时,自动优化数据流:当使用这一选项时,ClementineClementine将重写数据流以使效率最高

54、(可以通将重写数据流以使效率最高(可以通过过Clementine ServerClementine Server中的中的sql_rewriting_enabledsql_rewriting_enabled来调整是否可以使用)来调整是否可以使用)优化的SQL生成。使尽可能的操作在数据库内进行。优化Clementine执行。调整数据降维的操作尽可能接近数据源完成。手动优化数据流手动优化数据流操作顺序:有些操作可以在SQL中完成,有些操作不能在SQL中完成,尽可能把能够在SQL中完成的一起排在前面数据类型:尽可能在源节点处由用户自定义数据类型,而不是Clementine自动读取。Beijing St

55、ats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038563一个数据挖掘的实例客户信用级别判断系统Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038564问题的提出 如何通过数据挖掘实现小灵通信用级别的如何通过数据挖掘实现小灵通信用级别的判断系统判断系统 某电信公司按照某种标准将小灵通客户信某电信公司按照某

56、种标准将小灵通客户信用等级分为用等级分为5 5类,分别是类,分别是gradeAgradeA、gradeB gradeB 、gradeCgradeC、gradeXgradeX、gradeYgradeY。现在希望建立。现在希望建立一套系统,能够使得市场部人员根据用户一套系统,能够使得市场部人员根据用户的几项关键的个人基本信息判断该客户的的几项关键的个人基本信息判断该客户的信用级别,从而有针对性地对其采用不同信用级别,从而有针对性地对其采用不同的市场营销策略。的市场营销策略。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shangh

57、ai (8621)53060345 Guangzhou (8620)3824038565数据描述变量名称变量含义备注Age年龄Sex性别Value消费水平分为高(high)、低(low)和一般(normal)三种Range联系范围分为高(high)、低(low)和一般(normal)三种WorkRatio工作时段比例0-1之间DistanceRatio 长话比例0-1之间Credit信用级别以下五种之一:gradeA、gradeB 、gradeC、gradeX、gradeYBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shan

58、ghai (8621)53060345 Guangzhou (8620)3824038566遵循CRISP-DM的数据挖掘过程数据理解(数据流)数据理解(数据流)数据准备(数据流)数据准备(数据流)建立模型(数据流)建立模型(数据流)模型评估(数据流)模型评估(数据流)结果发布(数据流)结果发布(数据流)商业理解(文档)商业理解(文档)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038567在进行数据挖掘过程中应该注意的几个问题 商业经验

59、的作用商业经验的作用 数据的拆分数据的拆分训练集与检验集训练集与检验集 不同模型的印证与比较不同模型的印证与比较Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038568结果发布 信用级别静态列表信用级别静态列表 信用级别写回数据库信用级别写回数据库 实时判断信用级别的分析应用实时判断信用级别的分析应用Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (862

60、1)53060345 Guangzhou (8620)3824038569Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038570三、数据理解:数据的可视化和报告 数据组织形式 数据图形展现 数据表格展现Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038571数据挖掘要求的数据格式变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论