版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘概述
now1
贾晓谦服务即产品品质是生命
2003.8.20
❖概念及发展背景
❖数据挖掘项目实施过程
典型应用举例
♦:♦未来发展及挑战
❖数据挖掘系统的选择
。Q&A
概念定义
什么是数据挖掘?
—简单的说,就是从大量数据中自动提取知识信息。
两个要点:
---自动的
---知识信息,模式或规则
暗示了将使用统计学方法
数据挖掘的意义在于前瞻性,而不是对历史的简单回顾。
数据挖掘不是…
。数据挖掘不是
-----Datawarehousing
-----SQL/AdHocQueries/Reporting
-----OnlineAnalyticalProcessing(OLAP)
-----DataVisualization
。数据挖掘是对数据的深度加工
什么激发了数据挖掘
此三项技术促进了数据挖掘理论与实践的大发展
数据的积累
报表太
多!晕
cP
O
能自动
发现模---------
NX
式吗?,NN3
____
♦:♦年龄在25—30之间,男性IT工程师买XXX保险的可能性为35%)
计算能力的增强
♦硬件资源
—过去30年,计算机硬件稳步发展
—处理器达到了振奋人心的速度
—大容量存储设备的问世为数据收集提供可能
软件资源
—特别是并行处理系统的发展,使计算机有能力处理更复杂的任务
统计分析算法的应用
•决策树
.分类
•神经元网络方法
•规则归纳
.
・聚类
.
i技术分类
数据挖掘
描述类
>聚类
关联规则
」时间序列
应用领域
金融行业
—贷款偿还预测和客户信用度分析
—目标客户群的识别,分类与聚类
—险种关联分析,预测购买了某个险种的客户是否会买另一种保险
电信行业
---流失客户分析
—盗用模式分析和异常模式识别
---通话量时间序列分析
零售业
—产品相关性分析
---客户忠诚度分析
生物医学
—DNA序列间相似搜索和比较
概念及发展背景
❖数据挖掘项目实施过程
❖典型应用举例
♦:♦未来发展及挑战
❖数据挖掘系统的选择
。Q&A
数据挖掘方法论
。CRISP-DM
----Cross-IndustryStandardProcessForDataMining
—当今流行的数据挖掘流程标准之一
---由SPSS、NCR、Daimler-Benz制定
数据挖掘方法论
•商业理解
•数据理解
•数据准备
・建立模型
•总体评估
•模型发布
商业理解
❖商业理解
■确定业务目标
・资源评估
-确定数据挖掘目标
-制定数据挖掘项目计划
数据理解
数据理解
-收集初始数据
-描述数据
-分析数据
-检查数据质量
数据准备
数据准备
-选择数据
■清洗数据
■构建数据结构
-集成数据
-规范化数据
建立模型
建立模型
■选择模型技术
■设计实验
-建立模型
-访问模型
模型评估
模型评估
-评估数据挖掘结果
■处理过程回顾
-制订下一步的计划,如何改进
模型发布
模型发布
■制订发布计划
■制订监控和维护策略
-产生最终报告
■项目回顾
概念及发展背景
❖数据挖掘项目实施过程
❖典型应用举例
❖未来发展及挑战
❖数据挖掘系统的选择
。Q&A
应用举例-决策树
♦案例描述:
-某超市对会员实行卡式管理,分为金卡、银卡、铜卡、普通卡
■持有不同卡的客户应该得到不同的服务
-金卡客户应该提供什么服务?需要找出金卡客户的人群特征
-一个新登记的客户成为金卡客户的可能性有多大?服务上要有体现
♦研究方法:
-以决策树作为挖掘工具来寻找持卡客户的人群特征
-选取年收入、婚姻状况、家庭子女数作为培训数据
-选取会员卡属性作为被预测实体
应用举例-决策树
金卡铜卡
(73.66%)(81.86%)
下页
、年收入上的信息增益
31、计算成员卡分
最大,所以作为根类所需的数学
节点,依次类推
期望=0.94
家庭子女数
=0.048
形成树
性别=0.029
相关性网络浏览器-test,|g|x|
&|0|Xl%I触I
MaritalStatus
MemberCardTotalChildren
YearlyIncome
请选择网络中的节点以突出显示其相关性
关闭I帮助(H)
16:17
应用举例—聚类
案例描述:
-某超市定期给会员发送促销杂志,效果不好。原因是对所有会员都发放
同样的杂志,而促销的广告内容只能适合某一部分人,众口难调;
■市场部门打算对所有会员客户进行一下分类,针对不同的人群发放不同
内容的杂志。
研究方法:
•以聚类作为挖掘方法来对客户群进行细分;
•选取会员的自然属性年收入、婚姻状况、家庭子女数、教育程度作为培
训数据;
-选取销售额作为划分自然属性的度量值;
-预先设置的聚类数为3,既打算把所有会员客户分成3类。
应用举例-关联分析
♦案例描述:
-为了分析商品之间的联系,选取10000笔交易作为研究对象。统计发现
有6000笔包含产品A,7500笔包含产品B,而有4000笔同时包括A、B
两产品。
研究方法:
■以关联规则作为分析方法来研究A和B之间关系;
-支持度:表示规定的关联规则必须满足的最小阀值;
-可信度:表示关联规则成立的最小可信程度。
应用举例-关联分析
♦:♦研究结果:
-支持度(Support)=(同时购买A和B的交易数)/交易总数
=4000/10000
=40%
-可信度(Confidence)=(同时购买A和B的交易数)/购买了A的交易数
=4000/6000
=66%
-结论:购买A产品的顾客有同时买B产品的可能
(Support=40%,Confidence=66%)。
概念及发展背景
数据挖掘项目实施过程
❖典型应用举例
❖未来发展及挑战
❖数据挖掘系统的选择
。Q&A
应用状态
数据挖掘是一种技术,和其他的技术一样也需要时间和精力来研究、开发,
最终逐步成熟。整个生命周期应包含下列几个阶段:
落
沟
后
创
早
早
后
新
期
期
坎
期
者
多
多
接/
数
数
受
接
接
者
受
受
者
者
应用状态
目前已经有许多通用的数据挖掘系统,但都是给那些非常熟悉数据挖掘和
数据分析技术的专家设计的,这就是使得系统很难被企业经理或普通百姓
使用。
目前的数据挖掘系统趋向于适合各种商业应用的横向解决方案,而不是针
对某个特定商业应用的解决方案。这不能体现商业逻辑与数据挖掘功能的
平滑集成,不要期望通用的数据挖掘系统会象与领域无关的关系数据库那
样取得成功。
也有一些好的迹象,例如保险企业收益率分析等纵向解决方案的出现,会
为数据挖掘提供一个好的发展方向。/
主要挑战
为了使数据挖掘成为一种被广泛接受的技术,必须对下列内容做进一步研
究和开发
—数据挖掘查询语言的标准化
DMQL(DataMiningQueryLanguage)
—增加与用户的交互,联机挖掘
—背景知识与可视化技术的结合
—有效性和可伸缩性,不能停留在玩具阶段
—应付复杂数据类型,如聚类中量刚处理,序列值处理等
—文本挖掘,汉语语料库的完善、分词技术的进一步提高
概念及发展背景
数据挖掘项目实施过程
♦:♦典型应用举例
#未来发展及挑战
❖数据挖掘系统的选择2
。Q&A
如何选择数据挖掘系统
功能和方法
—有些系统只提供一两种数据挖掘功能,而有些支持多种挖掘功能。
—有些系统只给出某一挖掘功能的一种方法,而有些则提供多种方法。
❖与数据库或数据仓库的结合
—无偶合。只操作ASCII数据文件。
—松散偶合。数据首先被返回到缓冲区或主存,然后利用挖掘功能分析,
这样的系统可伸缩性不好。
—半松偶合。只对少数几个数据挖掘原语(排序、聚合、多路联接)提
供了有效的实现。
—紧密偶合。最理想的方式,即把数据挖掘查询优化成循环的数据挖掘
和检索过程,在数据库端实现。
如何选择数据挖掘系统
可伸缩性
—数据挖掘有两种伸缩性问题,行(记录)可伸缩性和列(维)可伸缩。
—行扩大10倍,而执行时间不超过原来的10倍,则系统在行上可伸缩。
—
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论