数据挖掘基本概念与算法介绍_第1页
数据挖掘基本概念与算法介绍_第2页
数据挖掘基本概念与算法介绍_第3页
数据挖掘基本概念与算法介绍_第4页
数据挖掘基本概念与算法介绍_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘基本概念与算法介绍数据挖掘基本概念与算法介绍TERADATA2007年5月2 报告内容n 数据挖掘的基本概念n 数据挖掘与统计分析n 数据挖掘的基本算法n 数据挖掘实施方法论n 总结与讨论n 数据挖掘的基本概念3 改变未来世界的十大新兴技术nTechnology Review(麻省理工学院2002年1月出刊) 机器与人脑的接口 塑胶晶体管 数据挖掘(Data Mining) 数字权利管理 生物测定学(Biometrics) 语言识别处理 微光学技术(Microphotonics) 解开程序代码(Untangling Code) 机器人设计 微应用流体学(Microfluidics)4

2、什么是数据挖掘?DataInformationKnowledgeWisdomn存在太多数据挖掘的定义,但基本上有这样一种描述结构 To find / discover / extract / dredge / harvest 、 Interesting / novel / useful / implicit / actable / meaningful 、 Information / knowledge / patterns / trends / rules / anomalies 、 In massive data / large data set / large database / da

3、ta warehouse 、Data + contextInformation + rulesKnowledge + experience5 为什么会出现数据挖掘?n数据爆炸性增长是数据挖掘技术应运而生的根本原因。 只见树木,不见森林(Drowning in data but starving for information) 计算复杂度 数据管理问题 数据类型的多样性处理大容量数据是数据挖掘技术区别于其他数据分析方法的唯一标志吗?6 其他数据分析方法:统计学n从处理数据的角度看、 数据规模不同 数据来源不同:观测数据(Secondary Analysis) VS 试验数据(Primary A

4、nalysis) 数据类型不同(结构化数据、半结构化数据、非结构化数据)n从分析思想的角度看 更关注实证性分析(Empirical Analysis)而非探索性分析(Exploratory Analysis) 更关注模型(Model)而非算法(Algorithm)n但二者具有相当密切的联系 从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉 更加深入的渗透和交叉(如探索性数据分析,EDA)数据挖掘是数据驱动的探索性分析 !7 其他数据分析方法:商业智能nE.F.Codd的数据分析模型 绝对模型(Categorical Model):依据预定义路径寻找原因,如查询 解释模型

5、(Exegetical Model):依据多层次路径寻找原因,如多维分析 思考模型(Contemplative Model):参数化路径,如场景分析 公式模型(Formulaic Model):模型化路径,如数据挖掘ReportingAd Hoc QueriesPredictive ModelingWhat happened ?Why did it happen ?What will happen ?ROI应用复杂性应用复杂性Stage 3Stage 2Stage 1Human DiscoveryMachine-assisted Discovery现象 模型 误差数据挖掘寻找的是模型 !8 数

6、据挖掘是一个过程- “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)9 数据挖掘过程中的数据预处理n数据清洗 填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题 主要分析方法:分箱(Binning)、聚类、回归n数据集成 多个数据库、数据方或文件的集成n数据变换 规范化与汇总n数据简化 减少数据量的同时, 还可以得到相同或相近的分析结果 主要分析方法:抽样、主成分分析n数据离散化 数据简化的一部分, 但非常重要 (尤其对于数值型数据

7、来说)10 数据挖掘过程中的数据探索n探索性数据分析(Exploratory Data Analysis, EDA) 探索性地查看数据,概括数据集的结构和关系 对数据集没有各种严格假定 “玩”数据n主要任务 数据可视化(a picture is worth a thousand words) 残差分析(数据拟合 + 残差) 数据的重新表达(什么样的尺度对数抑或平方跟会简化分析?) 方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值)n常见方法 统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等 统计图,如饼图、直方图、散点图、箱尾图等 模型,如聚类11 什么不是数据挖掘?n

8、定量分析(Quantitative Analysis)的需要存在企业管理运行的各个侧面或环节,但并非所有的定量分析问题都可以归结到数据挖掘范畴的问题。 简单的报表、图表及多维分析仍是日常分析工作的主要内容 小样本数据的分析传统统计分析方法更成熟有效,如趋势预测 某些特定业务问题无法用数据挖掘算法加以解决,例如 资源最优配置问题是个运筹学问题 某些物流管理问题或者供应链管理问题是个随机规划问题 营销预演本质是个系统仿真问题12 报告内容n 数据挖掘的基本概念n 数据挖掘与统计分析n 数据挖掘的基本算法n 数据挖掘实施方法论n 总结与讨论n 数据挖掘与统计分析13 统计学与数据挖掘的联系n从处理数

9、据数据挖掘中采用了大量统计学的思想、方法和工具 聚类分析(无监督学习过程,统计分析中的主要技术) K-Means Self Organizing Map (SOM) 数据分类(有监督学习过程) 统计分类技术:距离判别,费雪判别,贝叶斯判别 数据挖掘中的分类技术 :决策树,神经网络 其他方法 相关分析 主成分分析 回归分析 序列分析14 统计学与数据挖掘的区别n 数据 样本数量不同(在统计学中样本数量大于30,则成为大样本) 数据来源和质量不同 数据挖掘既可以处理结构化数据,也可以处理非结构化和异型数据n 方法 数据挖掘的前提是占有大量数据,统计中的实验设计、抽样设计并不适用 有些数据挖掘的分析

10、方法是统计学中没有的,如强调实时分析 统计分析方法在对大规模数据处理时占用系统的资源和时间太多,不适宜采用,因此数据挖掘大量采用神经网络、遗传算法等人工智能方法n 模型(模式) 模型(统计学) VS 模式(数据挖掘) 统计建模强调模型的普适性,数据挖掘强调从数据中发现模式n 算法 统计学强调模型,运算量居于次要地位 数据挖掘的精华在于结果的未知性,强调探索性分析,与之对应的是算法而不是模型n 方法论 统计学:以数学为基础,每种方法有严格的证明体系 数据挖掘:采用实验方法,不具有很强的严谨性15 数据挖掘相对于统计学的特点n使用数据挖掘工具无须具备太专业的统计知识,处理大量的实际数据更有优势,使

11、得数据挖掘人员可以集中精力在业务建模方面n数据挖掘从大型数据库提取所需数据,利用专属计算机软件进行分析,更能满足企业的需求 n从理论的角度来看,数据挖掘与统计学不同,其目的在于方便企业的末端使用者应用,而非为统计学家提供检验工具 16 报告内容n 数据挖掘的基本概念n 数据挖掘与统计分析n 数据挖掘的基本算法n 数据挖掘实施方法论n 总结与讨论n 数据挖掘的基本算法17 几个基本概念n模型(Model) vs 模式(Pattern) 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去 模型:对数据集的一种全局性的整体特征的描述或概括,适用

12、于数据空间中的所有点,例如聚类分析 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析n算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出n描述型挖掘(Descriptive) vs 预测型挖掘(Predictive) 描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征 预测型挖掘:根据观察到的对象特征值来预测它的其他特征值 描述型挖掘可以是目的,也可以是手段18 几类基本的挖掘算法n关联规则(模式、描述型) 发现数据集中的频繁模式 例如:buy(x,”diapers”) buy(

13、x,”beers”) 0.5%, 60%n分类与预测(模型、预测型) 发现能够区分或预测目标变量(唯一的)的规则或者函数 分类的目标变量一般是范畴型的,而预测则是数量型的,并不必然带有任何时间延续型的暗示 例如:股票市值的预测,病人病情的判断n聚类(模型、描述型) 对数据分组以形成新类,类标记是未知的 例如:市场细分n孤立点探测(Outlier Detection)(模式、预测型) 分析异常或噪声数据的行为模式 例如:欺诈检测19 广东移动数据挖掘项目中的数据挖掘算法 客户流失 (分类模型、Logistic回归算法) 彩铃WAP购买倾向预测 (分类模型、Logistic回归算法) 彩信增量销售

14、预测 (分类模型、Logistic回归算法) 彩铃用户流失预测 (分类模型、Logistic回归算法) 客户价值增长预测 (分类模型、Logistic回归算法) 竞争对手流失预测 (分类模型、Logistic回归算法) 集团客户分群 (聚类模型、K-Means算法) 集团客户级别打分 (分类模型、Logistic回归算法) 产品关联分析 (关联规则) 个人客户分群分析 (聚类模型、K-Means算法) 集团客户流失预警模型 (AHP方法 + Logistic回归算法)20 分类问题的基本定义n给定一数据集合(训练集) 数据记录由一系列变量组成 其中有一个变量是目标分类标签n寻找一模型,使目标分

15、类变量值是其他变量值的一个函数n利用上述函数,一未知分类变量值的数据记录能够尽可能准确地被判定到某一类别中去 一般会有另一独立地数据集(测试集)用以验证所构建分类函数的准确性,避免过度拟合21 分类过程示意训练集训练集分类学习分类学习训练集训练集分类器分类器IF rank = professorOR years 6THEN tenured = yesJef is YES!22 先回顾简单的二元线性回归问题n y = b0 + b1x + u y称为被解释变量或者因变量,是一个连续变量 X称为解释变量或者自变量,是一个连续变量 b0 、b1称为回归系数 u是随机误差,一般假设服从标准正态分布yx

16、y = b0 + b1x + u.23 Logistic回归进行分类和预测n LOGISTIC回归是一种特殊的回归模型,与古典的线性回归模型不同,其响应变量(Response Variable)是一分类变量(Categorical Variable)而非连续变量(Continuous Variable)。响应变量是一个二值化的变量,通常以10表示某一事件发生或者不发生。n 应用Logistic回归得到的概率p通常表示在将来某段时间后某一事件发生的概率。 Odds: 目标事件发生的数量 / 非目标事件发生的数量. Odds ratio= prob(目标事件)/prob(非目标事件)=p/(1-p

17、) p = prob(目标事件) prob表示事件发生的概率 Logit: log of odds ratio = log(p/(1-p) Logistic回归: 拟合下面的模型 logit=a0+a1*X1+ak*Xk p=prob(目标事件)=exp(logit)/(1+exp(logit) p的取值范围: 0,1nnnnxbxbbxbxbbeep.1101101p24 流失类模型案例n 建模目的:预测某一段时间之后客户流失的概率。n 确定时间窗口:n 确定目标变量:定义在Data Window中正常而在Forecast Window中流失的客户为0,而没有流失的客户为1。n 选择自变量:

18、在电信的客户流失模型中,我们一般使用下面几种类型的变量。 客户流失指标 客户信息数据(人口统计学数据、合同数据) 呼叫数据 计费和支持数据 一些转换之后得到的变量 其它数据Data WindowForecast WindowTime LagMM-1M-2M-3MM-5M+1M+225 流失类模型案例n 模型的评价 Lift值 R方 ROC曲线 K-S值n 模型的应用 P值大的客户具有更高的流失倾向 模型的评分分布 划定Cut Off Line。对Cut Off Line的划定可以采用更多的市场数据进行参考,如正确挽留一个客户准备的平均收益和成本,错误挽留一个客户的平均成本,客户流失的平均损失等

19、。有了这些数据可以进一步使用贝叶斯方法建立数量化的分类模型,以确定对Cut Off Line的划定。频数评分0 10000Cut Off Line非流失流失26 分类中的决策树(Decision Tree)归纳n决策树 类似于流程图的树型结构 内部节点代表对某个属性的一次测试 分支代表测试的输出结果 叶节点代表分类标签或分布n决策树的生成包括两个阶段 树的创建首先, 所有训练样本都位于根节点递归地基于选择属性来划分样本集 树的修剪识别并删除那些反映噪声或孤立点的分支n应用决策树: 对未知样本进行分类 在决策树上测试样本的各个属性值27 决策树示意age?overcaststudent?cred

20、it rating?noyesfairexcellent40nonoyesyesyes30.40n示例:是否购买计算机? 28 决策树在电信客户流失问题中的应用实例 结论:结论:ARPU 聚类的基本概念n基本定义 将数据对象集划分成事先未知的分组或类别 聚类的原则:类内相似度高,类间相似度低 相似度一般为某种距离函数D(i,j) 聚类既可以作为独立分析工具考察数据分布结构,也可以作为其他分析方法的预处理步骤 很不幸,对聚类结果的评价一般都是主观的n基本分类 将数据对象集划分成事先未知的分组或类别30 聚类示意n 基于欧氏距离的三维空间中的聚类n 基于质心的聚类算法(K-Means)|(|),(

21、222jzizjyiyjxixjidA1A2B1xyz31 个人客户分群示例n 个人客户分群 更好地了解客户的手段 提高客户的管理和沟通能力 提升客户价值Customer ExpenditureCustomer TenureHighLowShortLongn 分群是根据客户的关键属性将客户分成不同的组别,要求做到 组间差异化最大 组内相似性最大32 关联规则的基本概念n基本定义 给定(1)事务数据集(2)每个事务是数据项的集合,试图发现项集中的频繁模式或关联关系 所谓频繁模式或者关联规则就是一个具有“A B”形式的逻辑蕴涵式 频繁模式并不必然蕴涵着因果关系或相关关系! 算法实现基本上基于APR

22、IORI法则:频繁项集的所有非空子集一定也是频繁(Frequent)的n基本分类 布尔关联规则 vs 定量关联规则 buy(x,”diapers”) buy(x,”beers”) Age(x,”30.39”) income(x,”42k.48k”) buy(x,”PC”) 单维关联规则 vs 多维关联规则 单层关联规则 vs 多层关联规则 Age(x,”30.39”) income(x,”42k.48k”) buy(x,”IBM PC”) 序列模式(Sequence Pattern) 数据项是一个包含时间标签的序偶item(i),t33 关联规则的量度n支持度:Support(A=B)=#AB

23、/#N,表示A和B同时出现的概率。n期望可信度:Support(A)=#A/#N,表示A出现的概率。n置信度:Confidence(A=B)=Support(A=B)/Support(B)n改善度:Lift(A=B)=Confidence(A=B)/Support(B)名称描述公式支持度X、Y同时出现的频率 P(XY) 期望可信度 Y出现的频率 P(Y) 置信度X出现的前提下,Y出现的频率P(Y|X) 改善度 置信度对期望可信度的比值 P(Y|X)/P(Y) 34 关联规则的度量n发现具有最小置信度和支持度的全部规则 X Y Z 支持度(support), s, 事务中包含X & Y & Z的

24、概率 置信度(confidence), c, 事务中包含X & Y的条件下, 包含Z的条件概率n令最小支持度为50%, 最小置信度为50%, 则有A C (50%, 66.6%)C A (50%, 100%)顾客购买尿布顾客购买尿布顾客购买两者顾客购买两者顾客购买啤酒顾客购买啤酒35 对支持度与置信度的批判n示例 总共5000名学生, 其中 3000人玩篮球 3750人吃谷类食品 2000人既玩篮球又吃谷类食品play basketball eat cereal 40%, 66.7% 是一个误导规则, 因为吃谷类食品的学生占学生总数的75%, 比66.7%更高play basketball n

25、ot eat cereal 20%, 33.3% 其实是一个更精确的规则, 尽管它的支持度和置信度都比较低36 关联规则的应用n市场购物篮分析(Market Basket Analysis) 例如一个事务是客户的一个购物清单,同一客户的两份清单被认为是两个不同的事务 数据项是所有可能陈列货物的全集 目标是发现同时出现的货品组合间的关联模式 应用:商品货价设计、仓储规划、网页布局、产品目录设计等等n交叉销售(Cross Selling) 客户依次购买不同产品的序列 目标是发现在购买某一产品组合之后客户可能购买的另一产品或服务 应用:网络故障分析、网站门户设计等37 关联规则的应用实例 我们定义L

26、IFT值大于1的规则为强关联规则。 发现这样的关联规则是有价值,有意义的。 关联规则是基于统计方法发现的数据当中的内在规律,而这种规律在现实中是否有意义还需要市场业务人员作进一步的验证。业务一业务一业务二业务二LSUPPORTRSUPPORTSUPPORTCONFIDENCELIFTZSCORE彩铃业务手机邮箱0.07340.040320.03220.4386910.88021266.19541梦网短信手机邮箱0.670380.040320.040320.060141.4915740.52694国内自动漫游手机邮箱0.382530.040320.020370.053251.3206819.84

27、956本地普通通话(比例)手机邮箱0.690050.040320.030590.044331.099458.3204238 从算法到应用39 广东移动数据挖掘项目的技术特点n几种主要的数据挖掘技术都已经得到广泛的应用 聚类分析 关键规则 分类预测模型(决策树,Logistic回归)n应用了数据挖掘技术之外的机器学习和统计建模技术 KPI预测(混沌时间序列分解预测方法,BP神经网络预测方法) 集团客户流失预警(层次分析法) 更多的数据分析方法n新的挖掘课题更侧重于高级数量分析 客户生命周期(管理营销学的实践,多模型支撑的分析过程) 响应模型(市场分析模型与数据挖掘模型的应用结合) 运筹学模型(应用于经营规划的优化)40 报告内容n 数据挖掘的基本概念n 数据挖掘与统计分析n 数据挖掘的基本算法n 数据挖掘实施方法论n 总结与讨论n 数据挖掘实施方法论41 数据挖掘过程模型(DM Process Model)n用以管理并指导Data Miner有效、准确开展数据挖掘工作以期获得最佳挖掘成果的一系列工作步骤的规范标准。 由厂商提出的 SPSS的5A(Assess, Access, Analysis, Act, Automat) SAS的SEMMA(Sample, Explore, Modify, Model,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论