大数据挖掘技术之DM经典模型.docx

上传人：k*** IP属地：天津上传时间：2021-06-06 格式：DOCX 页数：16 大小：81.30KB 积分：20 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、大数据挖掘技术之 DM 经典模型（下）数据分析微信公众号 datadw 关注你想了解的，分享你需要的。接着上篇大数据挖掘技术之 DM 经典模型（上）文章，接下来我们将探讨朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型。4、朴素贝叶斯模型表查询模型简单有效，但是存在一个问题。随着输入数量的额增加，每个单元格中训练样本的数量会迅速减少。如果维度为 2 ，且每一维有 10 个不同的变量，那么就需要 100 个单元格，而当有 3 个维度时，就需要 1000 个单元格， 4 个维度就是 10000. 这样成指数级的增长，哪怕的传统数据挖掘中都会遇到明显瓶颈。当试图预测某一个概率值

2、时，朴素贝叶斯模型就提供这一办法。基本思想：每个输入变量本身就包含一些预测需要的信息。比如目标变量是取消业务的概率，解释变量是市场、获取渠道、初始信用评分、利率计划、电话号码类型、手机号以及客户年龄。这些变量都具有预测能力。根据取消率的显著差异性，可将每个变量划分在不同的范围中。简单理解：条件概率是指给定 B 的条件下 A 的概率以及给定 A 的条件下 B的概率。解释：给定 B 的条件下 A 发生的概率，等于给定 A 的条件下 B 发生的概率乘以 A 和 B 发生的概率的比例。如果 A 代表停止续签， B 代表使用黑莓手机，然后给定使用黑莓手机的条件下停止续签的概率，就是

3、给定停止续签的条件下使用黑莓手机的概率乘以总体停止续签的概率与总体使用黑莓手机的概率之比。4.1 、概率、几率和释然概率：0到1之间的一个数字，表示一个特定结果发生的可能性。一种估计结果概率的方法是计算样本数据中出现结果次数的百分比。几率：某一特定结果发生于不发生的概率比。如果一个事件发生的概率是 0.2，那么不发生的概率是 0.8。那么其发生的几率就是 1/4 。几率的取值是 0 到无穷。似然：两个相关的条件概率比。即给定 B 发生的情况下，某一特定结果 A 发生的概率和给定 B 不发生的情况下 A 发生的概率之比。4.2 、朴素贝叶斯计算对任意数量属性中的每一个属性，朴素贝叶

4、斯公式都将目标事件的几率与该事件的似然联系起来。回到基于营销市场、渠道获取、最初信用评分、费率计算、电话号码类型、手机型号以及客户年龄来预测客户流失的例子。例如上面谈到的黑莓手机续签的案例，我们关注的是。 1、停止续签的总体几率。 2 、黑莓手机用户停止的似然。 3 、在整个州市场停止续签的似然。之所以定义为“朴素”，是基于所有似然相乘都基于输入变量相互独立的假设。在这个案例中，假设的是使用黑莓手机的似然与市场独立（并且存在于该州的似然与手机类型独立）。而在实际中，这种真正相互独立的情况很少见。朴素贝叶斯模型最吸引人的点：对于待评分的观测，如果缺失某些输入值，可以简

5、单地将缺失的似然从模型中去掉。意味着，包含那些并不是对所有有用都可用的输入（用户年龄），但如果知道这些变量，它们就有用。给定不同输入的概率，且这些输入与停止续签相关，朴素贝叶斯公式就可以计算停止续签的几率，而公司对这种停止续签的用户更感兴趣。4.3 、朴素与表查询模型的比较对于概率型目标来说，朴素贝叶斯模型和表查询模型密切相关。两者之间的主要区别就在于如何使用维度。在表查询模型中，使用所有维度依次定义单元格，然后计算每一个单元格的目标概率。因此，表查询模型可以获取变量之间的相互作用。在朴素中，需要为每一个维度单独计算似然，之后组合这些似然，从而计算出目标概率。似

6、然的组合有一个假设：各维度关于目标彼此独立。表查询没有说明这样一类属性的组合关系，即由于在训练数据中出现的频率很低，导致这些概率很低的属性就不会出现。在朴素模型中可以预测任何从未出现过的组合，但要这样做，就必须假设这些输入所造成的影响彼此独立。表查询模型没有这样的假设，所以当数据多到可以支持一个可信的估计模型时，表查询模型也许会做的更好。5、线性回归回归模型也是一种预测建模技术。在 Excel 中就可以使用线性回归。回归模型也很复杂，这里谈到最佳拟合曲线。输入变量和目标变量必须都是数值变量，回归方程描述了两者之间的一种算术关系。 “最佳的”关系是指最大限度地减

7、少了从数据点到拟合曲线的垂直距离的平方和。5.1 最佳拟合曲线如下图，显示了一个知名博主发表的一篇文章日浏览率随着时间和被关注度之间的关系。图中使用描点的符号是空心圆，它有助于清楚的显示各点之间的聚集情况。例如，在较短时间内用户的关注度分布非常密集。当使用不同的颜色比较不同的客户组时，这种散点图尤其有用随着时间的增加，博客的日访问量会越来越低，最后维持到一个水平。画出来的曲线更像是一个双曲线。根据 X 轴，时间的递增。 Y 轴，日访问量的增加。我们可以模拟出这个博主的访问量随时间变化的曲线。如果在保证博客质量的同时，我们就可以预测博主的一篇博客的访问量大致在什么范

8、围。可能这里有很多的误差或不精确的地方。但是通过拟合曲线，我们更能从直观上看到，曲线的走势。如果曲线更精确的化，我们甚至可以模拟出曲线的函数表达式。如果用作数据点的标记并没有完全拟合，散点图可以传递出更多的信息。最佳拟合曲线的性质：在所有可能的曲线中，最佳拟合曲线指的是从观察点到曲线垂直距离的平方最下的那条曲线，散点图显示了每个点到曲线之间的距离。最佳拟合曲线的定义就是最小二乘法的定义。欧式距离公式对该值进行了开方，在没有计算机的年代，计算欧式距离非常困难。当时，高斯提出这一观点，就是利用计算平方和，代替计算距离之和。这样做的目的，就使最佳拟合曲线系数很容

9、易计算PXGOlO&lSZLSZOS-00 0-00 001-00 002-OO-OOC 三-00 00*-oooos-4)0 00960G 0 旷500 00-4UC眄您叶1Q0.0&-000-这里谈到的是线性回归，其实回归模型是一个直线方程，这里只是来描述一个拟合曲线，其实算不上一个回归曲线。在现实之中，更多线性回归的模型很少见，更多的是曲线拟合。5.2拟合的优点对于一个给定的数据集，总是可以找到一条最佳的拟合曲线。但是，存在很多条曲线，哪条才是最佳的。这里引入“残差”，就是度量预测值与实际值之差。还有一个标准方法，成为，用来衡量描述曲线对观测数据的拟合程度。(1)残差如图，身高与体

10、重模型的残差一个无偏模型在丢失高值点方面应与丢失低值点类似。在残差图中，最重要的一点就是，这些值是位于拟合曲线之上的可能性与之下的可能性是否一样。从图中我们也可以看到在曲线上与在曲线下的样本点是不一样的。一个良好的模型所产生的估计值应该接近真实值，所以残差应该集中于曲线轴附近。如图中也是可以看到抛离曲线的一些孤立点。这些点出现的原因，可能是由于一些人为记录的原因造成的。IBS 170175 ISO 俩在统计学中，残差在回归方程中要考虑误差项。最佳拟合曲线的方程是：Y=aX+b但该曲线，不是完整的模型。统计人员会将模型方程表示为：&代表误差项，因为X并不能完美的展示丫。误差项表示模型无

11、法解释的丫的部分。Y=aX +b+ &（2）R（R 这里代表是 R 的平方）对于最佳拟合曲线，R的取值始终在01之间。当该值接近1时，说明该曲线在捕获输入和目标之间的关系方面表现很好。若接近于 0，则说明最佳拟合曲线的表现很差。在 01 的范围内，值越大表明两者之间存在很强的关系，越下其关系越下。相比于随机猜测的平均值，模型的估计值有多好。定义简单，但计算起来复杂。R要比较最佳拟合曲线与y平均值的水平线。1减去两个误差的比值可以计算出R。分子式最佳拟合曲线残差的平方和。分母是水平线的残差平方和。R度量了最佳拟合曲线优于均值作为估计的程度。R 度量了数据的稳定性。同一数据集

12、中不同的样本是否会生成相似的模型当 R 值较低时，不同的样本可能会表现出非常不同的行为。或者，在此基础上，再加入少量观察值可能会极大地改变模型的系数。当 R 值较高时，再加入少量观察值就不会有上述的改变。5.3 全局效应回归方程能发现数据中的全局模式。即，方程系数应该对范围内的所有输入变量都起作用。这表明回归模型善于捕获那些总是正确的模式，不是产于处理局部模式。例如，考虑不同年龄的汽车保险购买人的风险。年轻司机的风险较高。随着驾驶人员经验的不断增加，风险会逐步降低。而对年龄很大的驾驶者，风险又会增加。因为年龄很难作为回归方程的输入。因为没有全局模式，对于不

13、同的年龄组，年龄的影响变化又会不同。在很多程度上，这个需要根据建模人员的熟悉程度，可以使用那些在不同取值范围的变量作为输入参数。但是，回归方程本身不会发现局部模式。6、多元回归引入线性回归的那个例子使用了单一的输入持续期来解释日访问量随时间的变化。当一个回归模型有多个输入时，就称其为多元回归6.1 、等式线性回归模型的一般形式（没有误差项）是：Y=a+a1x1+a2x2+a3x3+.+anxn 。这个方程通过添加更多变量，并为每个变量选定系数，对最佳曲线方程进行了扩展。尽管通过引入更多维度，可以将线性回归的几何解释扩展到多元回归曲线变为平面再变到超平面。考虑到每个字变量对因变量估

14、计值的贡献会更容易些，即可以由系数决定自变量贡献的大小和方向。6.2 、目标变量的范围一个回归方程可以产生任何值。如果对 X 没有限制，那么 Y 也是没有限制的。对 Y=aX+b 就可以说明这一点，该方程是一条简单的直线，取值随之 X 的取值而边变化，从负无穷到正无穷。但实际情况非如此。许多目标变量的范围并不是无穷的，甚至不是连续的。对于这些情况，统计学家引入了一个链接函数将回归方程产生的 Y 值映射到目标变量的一个适合的范围。当目标遵循某一已知的分布时，就可以选择一个链接函数，它产生的值与目标的平均值相同，同时也会产生一个类似的分布。即使不知道确切的分布，

15、也可以引入链接函数将估计映射到目标的一个适当的范围。后面我们会介绍逻辑回归分析，那里使用一个链接函数将线性回归的无穷范围映射到 01 的区间，该区间等价于概率估计。6.3 、使用多元回归的其他注意事项回归模型中有多个输入变量时，会产生一些在单一输入中不存在的问题。理想情况下，所有输入之间应该线性无关。被模型显示地包含的输入之间可能存在相互。添加一个新输入将会改变所有原输入的系值取值。（1）线性无关与朴素贝叶斯类似，多元模型的输入之间应该线性无关。这一位置改变其中一个输入值应该对其他输入值没有影响。实际情况很难实现真正独立性。一般情况，注意不要包含彼此密切相关的自变量就可以。

16、如果包含这些变量，往往会导致模型的一个输入变量有较大的正系数而另一个输入变量有较大的负系数。两个变量本质上相互抵消，因此这两个系数的取值并不会对任何变量有真正意义上的影响。2）交互即使两个变量是完全独立的，它们对目标的影响也可能是相关的。一个冰淇淋的吸引力可能依赖于价格和天气尤其是某天的炎热程度。这些变量可以认为是独立的（当然，冰淇淋的价格并不取决于温度，温度可能会影响冰淇淋的价格，但是这里假设不会）。尽管这些变量相互独立，价格对目标的影响扔可能受温度的影响。当天气炎热的时候，人民不是在意冰淇淋的价额都会购买。当天气寒冷的时候，只有真正物美价廉才可能会吸

17、引人民购买。类似的，价格的变化对住户率的影响可能会随着距离市中心的远近不同而不同。这就是交互的例子。当认为交互很重要时，一般情况下，可以通过添加新变量引入这些交互，而这些新变量是标准化交互中涉及变量值的产物。（3）添加变量可以改变模型中的原有变量的取值一种很自然的模型开发方法从一个仅有一个输入的简单模型开始，然后通过增加变量逐步提高其复杂性。如果所有输入变量都是完全独立的，那么添加或删除其中一个变量不会更改模型中的其他变量的系数。但是输入变量几乎不可能完全独立，所有包含另一个变量会改变系数的大小，甚至可能改变模型中其他原有变量系数的正负值。6.4 、多元回归的变量选

18、择多元回归模型在有大量输入时，它的表现并不理想。选择正确的输入变量对任何建模而言都是最重要的部分。这里谈到“领域知识” ，就是首先要考虑的是对该问题所知道的一些先验知识以及以往人民解决此类问题的额方法。有的时候领域知识对一时模型的预测可以提供一个很好的指标指向。当使用领域知识和常识创建了一张候选变量列表后，用于创建回归模型的软件通常可以帮助使用者选择出模型所需的最好变量。使用的方法：（1 ）前向选择前向现在开始使用一组输入变量，其中一些变量或全部变量都可以出现在最终模型里。第一步是为每一个输入变量创建一个单独的回归模型；如果有 n 个输入变量，那么第一步会考虑具有一个输入变量的 n 个不同的回归模型。选择测试得分最高的模型所对应的变量作为前向选择模型中的第一个变量。选择最佳模型的一种方法是选择 R 值最低的模型。另

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据挖掘技术之DM经典模型.docx

文档简介

温馨提示

最新文档

评论

大数据挖掘技术之DM经典模型.docx

文档简介

温馨提示

最新文档

评论

相关文档