版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内容纲要▶▶BI的相关背景▶▶数据挖掘的基础知识▶▶数据挖掘过程▶▶常用数据挖掘方法▶▶常用数据挖掘工具1内容纲要▶▶BI的相关背景1BI的相关背景BI(BusinessIntelligence,商业智能)是目前全球IT市场中非常热门的一个话题;其关键推进因素是ERP等系统的相对完善后,形成了海量数据,如何发挥这些数据的价值其实就是BI所需要解决的问题;BI是数据->信息->知识的一个逐步转化过程;BI系统主要由数据仓库-DW(DataWarehouse),联机分析处理-OLAP(OnlineAnalyticalProcessing),数据挖掘-DM(DataMining)三大部分组成;2BI的相关背景BI(BusinessIntelligencBI的相关背景BI系统结构3BI的相关背景BI系统结构3内容纲要▶▶BI的相关背景▶▶数据挖掘的基础知识▶▶数据挖掘过程▶▶常用数据挖掘方法▶▶常用数据挖掘工具4内容纲要▶▶BI的相关背景4
典型的业务问题如何优化下一阶段的营销活动?高价值客户中,谁可能流失?谁贡献的利润最多?谁花费的成本最高?客户都有什么样的消费特点?5
典型的业务问题如何优化下一阶段的营销活动?高价值客户中,谁
数据挖掘都可以应用到何处?6
数据挖掘都可以应用到何处?6
何谓数据挖掘?数据信息决策数据挖掘是一个从海量数据中抽取前所未知的,可理解的,可操作信息的过程。7
何谓数据挖掘?数据信息决策数据挖掘是一个从海量数据中抽取前
数据库与数据挖掘发展历程8
数据库与数据挖掘发展历程8
数据挖掘是一门交叉学科数据挖掘数据库技术统计学其他学科信息科学机器学习可视化技术9
数据挖掘是一门交叉学科数据挖掘数据库技术统计学其他学科信息内容纲要▶▶BI的相关背景▶▶数据挖掘的基础知识▶▶数据挖掘过程▶▶常用数据挖掘方法▶▶常用数据挖掘工具10内容纲要▶▶BI的相关背景10
数据挖掘的过程商业理解数据理解数据准备
数据挖掘建立模型模型评估模型发布11
数据挖掘的过程商业理解数据理解数据准备数据建立模型模型评
商业理解定义商业目标定义数据挖掘目标12
商业理解定义商业目标12
数据理解需要的数据可以获得的数据对可获得的数据进行观察、分析用直方图显示输入数据分布聚类以发现孤立点在保持数据特征的基础上抽样过滤不想要的数据值映射13
数据理解需要的数据13
数据准备一定要保证数据质量!14
数据准备一定要保证数据质量!14
建立模型确定抽样规则选择合适的算法调整算法的参数15
建立模型确定抽样规则15
模型评估使用一组新数据评估构建好的模型16
模型评估使用一组新数据评估构建好的模型16
模型发布制作成自动化处理软件包,上线使用。17
模型发布制作成自动化处理软件包,上线使用。17
数据挖掘过程中工作量比例18
数据挖掘过程中工作量比例18
数据挖掘的过程数据仓库选择的数据选择转换挖掘理解转换后的数据可理解的信息抽取的信息19
数据挖掘的过程数据仓库选择的选择转换挖掘理解转换后的数据可内容纲要▶▶BI的相关背景▶▶数据挖掘的基础知识▶▶数据挖掘过程▶▶常用数据挖掘方法▶▶常用数据挖掘工具20内容纲要▶▶BI的相关背景20
业务问题与数据挖掘算法间关系Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神经网络NeuralNetworks聚类分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis决策树DecisionTrees
倾向性分析信用特性分析
客户保留客户生命周期管理目标市场价格弹性分析
客户细分市场细分
倾向性分析客户保留目标市场欺诈检测关联分析Association
市场组合分析套装产品分析目录设计交叉销售21
业务问题与数据挖掘算法间关系Debt<10%ofInc
数据挖掘的类型预测型数据挖掘:使用已知知识构建模型,用以预测未来。描述型数据挖掘:寻找数据中的模式,使用找到的模式指导决策。22
数据挖掘的类型预测型数据挖掘:22
数据挖掘技术(预测型/描述型)分类结果将落入哪个类别中?影响预测结果的主要因素是什么?值预测这一事件发生的可能性是多大?23
数据挖掘技术(预测型/描述型)23
数据挖掘技术聚类存在哪些逻辑上的群集?关联规则事件之间存在怎样的联系?序列模式这个事件之后会发生那些事件?相似时间序列这个结果是否与以前的一个模式相同?24
数据挖掘技术聚类24
三种主要的数据挖掘技术分类(客户流失)聚类(客户细分)关联规则(购物篮分析)25
三种主要的数据挖掘技术分类聚类关联规则25
分类分类算法采取行动!26
分类分类算法采取行动!26
决策树分类训练:基于历史数据,创建决策树27
决策树分类训练:基于历史数据,创建决策树27
决策树分类应用:基于历史数据,创建决策树28
决策树分类应用:基于历史数据,创建决策树28
决策树分类的参数一般数据挖掘工具在应用决策树分类算法时,可调整的参数:输入变量误差矩阵(代价矩阵)最大树深度节点最大纯度节点最少记录数29
决策树分类的参数一般数据挖掘工具在应用决策树分类算法时,可
神经网络分类
输入层(i)隐藏层(j)输出层(k)
x1x2xiWijWjkOjOk
前馈是指信号先前传播,输入->隐层->输出结点(神经元)30
神经网络分类结点(神经元)30
BP算法原理网络结构的确定输入层结构由输入变量(属性)来定。每个属性为一个输入结点;输出层结构由输出结果来定。有几个输出值,就有几个输出结点;隐藏层层数和结点数点的确定:主要靠经验。初始权值的确定:取决于对问题的了解和先验知识,那部分作用强,权值就设得大些;靠经验。训练过程:一个神经元连接权重调整的过程。前向传播阶段
输入层->隐层->输出层反向传播阶段
计算输出的结果和目标结果的差距
经输出层->隐层->输入层反推神经元连接的权重调整对每个输入样本重复上述步骤,直到网络收敛为止31
BP算法原理网络结构的确定31
聚类低高高高12845376因素二因素三因素一示例32
聚类低高高高12845376因素二因素三因素一示例32
聚类算法演示图分群神经网络(Kohonen)33
聚类算法演示图分群33
关联规则34
关联规则34
关联规则对于规则A=>B,A=>B的支持度=同时包含A、B的事务数÷总事务数
A=>B的置信度=(A交B)的支持度÷A的支持度LIFT=(A=>B的置信度)÷B的支持度35
关联规则对于规则A=>B,35
序列模式100%购买C产品的顾客在未来的时间里都购买了X产品。36
序列模式100%购买C产品的顾客在未来的时间里都购买了X产
相似序列37
相似序列37
相似序列38
相似序列38
RBF预测RBF(RadialBasisFunction)神经网络预测结果是个连续型变量39
RBF预测RBF(RadialBasisFuncti
RBF预测根据输出空间,将输入空间划分为区域计算每个区域的区域中心40
RBF预测根据输出空间,将输入空间划分为区域计算每个区域的
RBF预测计算每个中心的权重Y=f(x1,x2,x3…)41
RBF预测计算每个中心的权重Y=f(x1,x2,x3…)4
RBF预测第一步:训练第二步:应用42
RBF预测第一步:42内容纲要▶▶BI的相关背景▶▶数据挖掘的基础知识▶▶数据挖掘过程▶▶常用数据挖掘方法▶▶常用数据挖掘工具43内容纲要▶▶BI的相关背景43常用数据挖掘工具IntelligentMiner(IBM);Clementine(SPSS);SASEnterpriseMiner(SAS);44常用数据挖掘工具IntelligentMiner(IBM新业务营销留住老客户(提升老客户活跃度)识别与培养影响力高端根据客户本业务行为特征及偏好开展针对性营销,改进客户体验①客户流失预警及客户挽留①靠影响力高端带动②数据数据数据发展新客户发现潜在客户,进行交叉销售①靠影响力高端带动②数据数据识别影响力高端①根据影响力高端的需求特点设计产品①制定能激发影响力高端积极进行横向传播的营销策略①数据数据数据营销方式①营销方式②注释:电信新业务营销思路新业务营销留住老客户识别与培养影响力高端根据客户本业务行为特项目整体操作框架项目整体操作框架基于用户彩铃生命周期细分的算法描述数据源整合需求用户细分模型及行为属性标签彩铃营销管理子平台建设需求基于用户彩铃生命周期细分的算法描述数据源整合需求用户细分模型彩铃潜在用户决策树模型彩铃目标用户(N=20228;L=13.2%)IVR用户N1:IVR用户(N=1238;L=35.1%)N6:ARPU<58元(N=10060;L=5%)N5:ARPU>=58元(N=8880;L=19.3%)N2:非IVR用户(N=18940;L=11.74%)ARPU>=66.5元N3:ARPU>=66.5(N=862;L=44.8%)N4:ARPU<66.5(N=426;L=15.5%)ARPU>=58N8:短信发送<10条(N=3804;L=14.5%)N7:短信发送>=10条(N=5076;L=22.9%)短信发送量>=10N12:ARPU增量<15元(N=2596;L=16.2%)N11:ARPU增量>=15元(N=2479;L=30%)ARPU增量>=15N18:有漫游(N=808;L=11.5%)N17:没有漫游(N=1788;L=18.3%)漫游业务漫游业务N16:有漫游(N=821;L=20%)N15:没有漫游(N=1658;L=34.9%)梦网短信用户N22:非梦网短信用户(N=1029;L=31.2%)N21:梦网短信用户(N=629;L=41%)N23:彩信用户(N=194;L=26.8%)N24:非彩信用户(N=627;L=17.9%)彩信用户新业务个数>=1N25:是(N=1069;L=20.6%)N26:否(N=719;L=14.9%)N13:彩信用户(N=282;L=24.5%)N14:非彩信用户(N=3522;L=13.7%)彩信用户ARPU增量>=15N19:是(N=1555;L=20.6%)N20:否(N=1967;L=8.3%)漫游业务N28:有漫游(N=401;L=13.7%)N27:没有漫游(N=1154;L=23%)动感地带学生套餐andARPU>30N10:非学生套餐(N=9626;L=4.7%)N9:学生套餐(N=434;L=13%)数据源整合需求用户细分模型及行为属性标签彩铃营销管理子平台建设需求彩铃潜在用户决策树模型彩铃目标用户IVR用户N1:IVR用户改造平台,从用户出发重新规划彩铃铃音内容属性分析个人铃音库中铃音内容属性特点抽提出用户铃音内容偏好依据用户铃音内容偏好进行针对性营销对应归类打标数据汇总营销效果回馈贴铃音内容偏好标签铃音内容偏好属性标签构建思路框架数据源整合需求用户细分模型及行为属性标签彩铃营销管理子平台建设需求改造平台,从用户出发重新规划彩铃铃音内容属性分析个人铃音库中49彩铃铃音内容属性标签应用示例歌手地域表达情绪铃音类型音乐来源榜单音乐时尚观DIY彩铃铃音标签秋天不回来黄金甲Girlofyourdreams(开篇版)数据源整合需求用户细分模型及行为属性标签彩铃营销管理子平台建设需求彩铃铃音内容属性标签应用示例歌手地域表达情绪铃音类型音乐来源50用户铃音内容偏好抽提示例用户A:铃音库中铃音:用户B:铃音库中铃音:用户A的铃音内容属性偏好特征:无跟随倾向;时尚族;喜欢主流男歌手,但无明显的歌手倾向;偏好国语,大众流行POP;影视插曲;情感属性:伤感;休闲圈;不具标新立异特质;用户B的铃音内容属性偏好特征:无跟随倾向;时尚族;喜欢新歌;无明显的歌手倾向,喜欢女歌手;偏好英文歌曲,大众流行POP;专辑CD;情感属性:欢乐激情;休闲圈;不具标新立异特质;提取用户彩铃内容属性偏好特征数据源整合需求用户细分模型及行为属性标签彩铃营销管理子平台建设需求用户铃音内容偏好抽提示例用户A:用户B:用户A的铃音内容属性51内容纲要▶▶BI的相关背景▶▶数据挖掘的基础知识▶▶数据挖掘过程▶▶常用数据挖掘方法▶▶常用数据挖掘工具52内容纲要▶▶BI的相关背景1BI的相关背景BI(BusinessIntelligence,商业智能)是目前全球IT市场中非常热门的一个话题;其关键推进因素是ERP等系统的相对完善后,形成了海量数据,如何发挥这些数据的价值其实就是BI所需要解决的问题;BI是数据->信息->知识的一个逐步转化过程;BI系统主要由数据仓库-DW(DataWarehouse),联机分析处理-OLAP(OnlineAnalyticalProcessing),数据挖掘-DM(DataMining)三大部分组成;53BI的相关背景BI(BusinessIntelligencBI的相关背景BI系统结构54BI的相关背景BI系统结构3内容纲要▶▶BI的相关背景▶▶数据挖掘的基础知识▶▶数据挖掘过程▶▶常用数据挖掘方法▶▶常用数据挖掘工具55内容纲要▶▶BI的相关背景4
典型的业务问题如何优化下一阶段的营销活动?高价值客户中,谁可能流失?谁贡献的利润最多?谁花费的成本最高?客户都有什么样的消费特点?56
典型的业务问题如何优化下一阶段的营销活动?高价值客户中,谁
数据挖掘都可以应用到何处?57
数据挖掘都可以应用到何处?6
何谓数据挖掘?数据信息决策数据挖掘是一个从海量数据中抽取前所未知的,可理解的,可操作信息的过程。58
何谓数据挖掘?数据信息决策数据挖掘是一个从海量数据中抽取前
数据库与数据挖掘发展历程59
数据库与数据挖掘发展历程8
数据挖掘是一门交叉学科数据挖掘数据库技术统计学其他学科信息科学机器学习可视化技术60
数据挖掘是一门交叉学科数据挖掘数据库技术统计学其他学科信息内容纲要▶▶BI的相关背景▶▶数据挖掘的基础知识▶▶数据挖掘过程▶▶常用数据挖掘方法▶▶常用数据挖掘工具61内容纲要▶▶BI的相关背景10
数据挖掘的过程商业理解数据理解数据准备
数据挖掘建立模型模型评估模型发布62
数据挖掘的过程商业理解数据理解数据准备数据建立模型模型评
商业理解定义商业目标定义数据挖掘目标63
商业理解定义商业目标12
数据理解需要的数据可以获得的数据对可获得的数据进行观察、分析用直方图显示输入数据分布聚类以发现孤立点在保持数据特征的基础上抽样过滤不想要的数据值映射64
数据理解需要的数据13
数据准备一定要保证数据质量!65
数据准备一定要保证数据质量!14
建立模型确定抽样规则选择合适的算法调整算法的参数66
建立模型确定抽样规则15
模型评估使用一组新数据评估构建好的模型67
模型评估使用一组新数据评估构建好的模型16
模型发布制作成自动化处理软件包,上线使用。68
模型发布制作成自动化处理软件包,上线使用。17
数据挖掘过程中工作量比例69
数据挖掘过程中工作量比例18
数据挖掘的过程数据仓库选择的数据选择转换挖掘理解转换后的数据可理解的信息抽取的信息70
数据挖掘的过程数据仓库选择的选择转换挖掘理解转换后的数据可内容纲要▶▶BI的相关背景▶▶数据挖掘的基础知识▶▶数据挖掘过程▶▶常用数据挖掘方法▶▶常用数据挖掘工具71内容纲要▶▶BI的相关背景20
业务问题与数据挖掘算法间关系Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神经网络NeuralNetworks聚类分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis决策树DecisionTrees
倾向性分析信用特性分析
客户保留客户生命周期管理目标市场价格弹性分析
客户细分市场细分
倾向性分析客户保留目标市场欺诈检测关联分析Association
市场组合分析套装产品分析目录设计交叉销售72
业务问题与数据挖掘算法间关系Debt<10%ofInc
数据挖掘的类型预测型数据挖掘:使用已知知识构建模型,用以预测未来。描述型数据挖掘:寻找数据中的模式,使用找到的模式指导决策。73
数据挖掘的类型预测型数据挖掘:22
数据挖掘技术(预测型/描述型)分类结果将落入哪个类别中?影响预测结果的主要因素是什么?值预测这一事件发生的可能性是多大?74
数据挖掘技术(预测型/描述型)23
数据挖掘技术聚类存在哪些逻辑上的群集?关联规则事件之间存在怎样的联系?序列模式这个事件之后会发生那些事件?相似时间序列这个结果是否与以前的一个模式相同?75
数据挖掘技术聚类24
三种主要的数据挖掘技术分类(客户流失)聚类(客户细分)关联规则(购物篮分析)76
三种主要的数据挖掘技术分类聚类关联规则25
分类分类算法采取行动!77
分类分类算法采取行动!26
决策树分类训练:基于历史数据,创建决策树78
决策树分类训练:基于历史数据,创建决策树27
决策树分类应用:基于历史数据,创建决策树79
决策树分类应用:基于历史数据,创建决策树28
决策树分类的参数一般数据挖掘工具在应用决策树分类算法时,可调整的参数:输入变量误差矩阵(代价矩阵)最大树深度节点最大纯度节点最少记录数80
决策树分类的参数一般数据挖掘工具在应用决策树分类算法时,可
神经网络分类
输入层(i)隐藏层(j)输出层(k)
x1x2xiWijWjkOjOk
前馈是指信号先前传播,输入->隐层->输出结点(神经元)81
神经网络分类结点(神经元)30
BP算法原理网络结构的确定输入层结构由输入变量(属性)来定。每个属性为一个输入结点;输出层结构由输出结果来定。有几个输出值,就有几个输出结点;隐藏层层数和结点数点的确定:主要靠经验。初始权值的确定:取决于对问题的了解和先验知识,那部分作用强,权值就设得大些;靠经验。训练过程:一个神经元连接权重调整的过程。前向传播阶段
输入层->隐层->输出层反向传播阶段
计算输出的结果和目标结果的差距
经输出层->隐层->输入层反推神经元连接的权重调整对每个输入样本重复上述步骤,直到网络收敛为止82
BP算法原理网络结构的确定31
聚类低高高高12845376因素二因素三因素一示例83
聚类低高高高12845376因素二因素三因素一示例32
聚类算法演示图分群神经网络(Kohonen)84
聚类算法演示图分群33
关联规则85
关联规则34
关联规则对于规则A=>B,A=>B的支持度=同时包含A、B的事务数÷总事务数
A=>B的置信度=(A交B)的支持度÷A的支持度LIFT=(A=>B的置信度)÷B的支持度86
关联规则对于规则A=>B,35
序列模式100%购买C产品的顾客在未来的时间里都购买了X产品。87
序列模式100%购买C产品的顾客在未来的时间里都购买了X产
相似序列88
相似序列37
相似序列89
相似序列38
RBF预测RBF(RadialBasisFunction)神经网络预测结果是个连续型变量90
RBF预测RBF(RadialBasisFuncti
RBF预测根据输出空间,将输入空间划分为区域计算每个区域的区域中心91
RBF预测根据输出空间,将输入空间划分为区域计算每个区域的
RBF预测计算每个中心的权重Y=f(x1,x2,x3…)92
RBF预测计算每个中心的权重Y=f(x1,x2,x3…)4
RBF预测第一步:训练第二步:应用93
RBF预测第一步:42内容纲要▶▶BI的相关背景▶▶数据挖掘的基础知识▶▶数据挖掘过程▶▶常用数据挖掘方法▶▶常用数据挖掘工具94内容纲要▶▶BI的相关背景43常用数据挖掘工具IntelligentMiner(IBM);Clementine(SPSS);SASEnterpriseMiner(SAS);95常用数据挖掘工具IntelligentMiner(IBM新业务营销留住老客户(提升老客户活跃度)识别与培养影响力高端根据客户本业务行为特征及偏好开展针对性营销,改进客户体验①客户流失预警及客户挽留①靠影响力高端带动②数据数据数据发展新客户发现潜在客户,进行交叉销售①靠影响力高端带动②数据数据识别影响力高端①根据影响力高端的需求特点设计产品①制定能激发影响力高端积极进行横向传播的营销策略①数据数据数据营销方式①营销方式②注释:电信新业务营销思路新业务营销留住老客户识别与培养影响力高端根据客户本业务行为特项目整体操作框架项目整体操作框架基于用户彩铃生命周期细分的算法描述数据源整合需求用户细分模型及行为属性标签彩铃营销管理子平台建设需求基于用户彩铃生命周期细分的算法描述数据源整合需求用户细分模型彩铃潜在用户决策树模型彩铃目标用户(N=20228;L=13.2%)IVR用户N1:IVR用户(N=1238;L=35.1%)N6:ARPU<58元(N=10060;L=5%)N5:ARPU>=58元(N=8880;L=19.3%)N2:非IVR用户(N=18940;L=11.74%)ARPU>=66.5元N3:ARPU>=66.5(N=862;L=44.8%)N4:ARPU<66.5(N=426;L=15.5%)ARPU>=58N8:短信发送<10条(N=3804;L=14.5%)N7:短信发送>=10条(N=5076;L=22.9%)短信发送量>=10N12:ARPU增量<15元(N=2596;L=16.2%)N11:ARPU增量>=15元(N=2479;L=30%)ARPU增量>=15N18:有漫游(N=808;L=11.5%)N17:没有漫游(N=1788;L=18.3%)漫游业务漫游业务N
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 4S店展厅木地板安装协议
- 部编版四年级上册道德与法治期末测试卷(含答案) (四)
- 专利技术入股合同协议书范本2024年
- 2024年辽宁客运从业资格证考试模板
- 2024年水电工承包合同
- 2024年宜宾客运上岗证模拟考试
- 2024年客运从业资格证网上继续教育
- 2024年项目建设委托合同
- 2024年大庆道路客运输从业资格证到期换证考试
- 2024年绿化承包合同书
- 新人教PEP版(三起)三年级上册英语全册课件(2024年新版教材)
- (正式版)JBT 106-2024 阀门的标志和涂装
- 自然辩证法概论-第4章(2018新大纲)
- 职业价值观研究综述
- 智慧树知到韩国语入门(延边大学)网课章节测试答案
- 各国标准螺纹基本尺寸对照表
- 论文范文浅谈儿童自闭症
- 城市公园管理养护中的难点、重点与建议
- 必看!设备管理必须要懂的一、二、三、四、五
- 三角函数的图像与性质复习课件
- 初一英语自我介绍PPT课件
评论
0/150
提交评论