大数据分析的案例、方法与挑战47_第1页
大数据分析的案例、方法与挑战47_第2页
大数据分析的案例、方法与挑战47_第3页
大数据分析的案例、方法与挑战47_第4页
大数据分析的案例、方法与挑战47_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据分析的案例、方法与挑战中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012数据分析者面临的问题 数据日趋庞大,无论是入库和查询,都出现性能瓶颈 用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高 使用的模型越来越复杂,计算量指数级上升 传统技能无法应对大数据:R、SAS、SQL中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC20122场景介绍 信令监测是做什么的?中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012体系架构 数据库服务器:HP小型机,128G内存,48颗CPU,2节点RAC,其中一个节点用于入库,另外一个节点用于查询

2、 存储:HP虚拟化存储,1000个盘 入库节点 入库方式常规路径sqlldr 大量使用表分区设计 数据量:每小时写入200G左右数据磁盘物理写大约为450G每小时问题:1 入库瓶颈 2 查询瓶颈中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012数据库设计 物理上采用ASM 大表全部按时间分区,开始时按小时分区,但由于数据量庞大,后来改成15分钟分区,最后变成每分钟切换1个分区 采用sqlldr方式入库中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC20125入库故障描述 由于数据量太大,不得不同时启用多个处理机,产生了多个入库节点 当入库节点分别增加到2节点和4节

3、点以后,sqlldr出现停顿现象中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012AWR报告中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012AWR报告中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012AWR报告中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012关于Buffer Cache中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012Latch中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012寻找Buffer busy wait的根源 Sqlldr和OCI方式同时insert 多个节

4、点同时insert 解决办法1 放弃使用OCI2 对sqlldr进行垂直切分,尽量避免同时多进程插入同一张表中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012再看AWR中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012新的故障现象 Sqlldr依然有停顿,次数较为频密而持续时间较短 HWM冲突问题中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012关于HWM中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012针对HWM冲突的优化措施 对于无法垂直切分的特大表,按照入库节点号作子分区中山大学海量数据与云计算研究中心 黄志洪201

5、2.4DTCC2012再看AWR HWM冲突已经被消除 Sqlldr频密周期性短暂停顿的问题依旧中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012最终问题根源 AWR报告的提示文件头部竞争 表空间大小与自动扩展是问题根源 修正表空间设置后问题消失中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201218备选方案牺牲实时性换取直接路径插入直接路径插入有什么好处? 为什么没有采用直接路径插入?中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201219备选方案交换分区中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201220备选方案外部表中

6、山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201221使用传统关系型数据库遇到的困难 All in one,并非专门针对数据分析设计和优化 设计复杂,调优复杂,数据分析师兼任DBA 当数据规模增加时,需要扩展硬件,边际成本指数级上升,存在无法突破的物理瓶颈中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201222解决方案 列式数据库,实时数据库等新的数据库技术 分布式集群:Hadoop,NoSQL及其它分布式数据库技术 混合使用各种专业分析产品中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201223场景:行为指纹识别当当为0 时,AC两个矢量完全相

7、关,即两个号码的交往圈相似度最高当越接近0,说明两个号码的交往圈越相似2012.4DTCC2012中山大学海量数据与云计算研究中心 黄志洪25为 90 时,AC两个矢量完全不相关,即两个号码的交往圈相似度最低基于分布式平台运行海量数据移动客户数据量达到TB级云化Oracle数据库中sql语句可以得到结果,但希望进一步提高效率MapReduce方法希望尝试多个相似度计算结果中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012云计算网络发展的必然结果中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012Hadoop Hadoop的主要功能:HDFS和Map-Reduc

8、e HDFS实现数据的分布式存储,并且实现冗余备份 Map-Reduce实现计算任务的分布化,尽量使到某个节点的计算任务主要面对存储在本地的数据,以减少跨节点的网络数据传送中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201228HDFS结构示意图中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201229Map-Reduce示意图中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201230HDFS与Map-Reduce一起工作中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201231Hive 基于Hadoop的常用数据分析工具 可以看成是S

9、QL到Map-Reduce的转换器 HiveQL尚未能完全支持SQL 92 外部应用可以通过hive客户端、JDBC、ODBC等方式访问Hive中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201232HBase 列式数据库,特别适合作为数据分析的场景,可以减少I/O 无真正索引 自动分区 增加新节点时自动线性扩展 使用Hbase命令而非SQL 可以通过Java,REST,thrift等接口访问HBase中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201233Hadoop体系图中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201234NoSQL No

10、SQL = Not Only SQL High performance, Huge Storage, High Scalability & High Availability NoSQL面向的场景:事务性要求不高,实时性要求不高,查询较为简单,数据海量 可分布化,运行在廉价的PC集群上 典型的NoSQL产品,通常某种产品只适合某种特定场景,常要配搭使用中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201235基于Hadoop的用户指纹识别算法 求某个客户最相似客户的MapReduce化(以相关系数为例): Map() Input: 某客户数值、所有客户数值 将所有客户随机平分到

11、k台机器 Output: k 个最大相关系数(local) Emit the k 个跟某客户最相似的客户 Reduce( ) Input: Key: null; values: k 个最大相关系数(local) Output: 最大相关系数(global) Emit the 最大相关系数、与某客户最相似客户中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201236数据分析者期待的解决方案 完美解决性能瓶颈,在可见未来不容易出现新瓶颈 过去所拥有的技能可以平稳过渡。比如SQL、R 转移平台的成本有多高?平台软硬件成本,再开发成本,技能再培养成本,维护成本中山大学海量数据与云计算研究

12、中心 黄志洪2012.4DTCC201237一种新的普适性关联挖掘方法 海量,不一定是指数据记录多,有时可能是变量很多 观察变量之间是否具有联系的传统回归方法中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201238传统回归模型的困难 为什么一定是线性?或某种非线性模型? 过分依赖于分析者的经验 对于非连续的离散数据难以处理中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201239网格方法 Science上的文章Detecting Novel Associations in Large Data Sets 方法概要:用网格判断数据的集中程度,集中程度意味着是否有关联

13、关系 方法具有一般性,即无论数据是怎样分布的,不限于特定的关联函数类型,此判断方法都是有效 方法具有等效性,计算的熵值和噪音的程度有关,跟关联的类型无关 MIC:the Maximal Information Coefficient MINE:Maximal Information-based Nonparametric Exploration中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201240MIC值计算 坐标平面被划分为(x,y)网格G(未必等宽),其中xyn0.6 在G上可以诱导出“自然概率密度函数”p(x,y),任何一个方格(box)内的概率密度函数值为这个方格所

14、包含的样本点数量占全体样本点的比例 计算网格划分G下的 mutual information值 IG中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201241MIC值计算 构造特征矩阵mxy,矩阵的元素mxy=maxIG/log minx,y。max取遍所有可能的(x,y)网格G MIC=max mxy。Max取遍所有可能的(x,y)对中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201242MIC值计算 Mxy的计算是个难点,数据科学家构造了一个近似的逼近算法以提高效率 HYPERLINK /content/suppl/2011/12/14/334.6062.15

15、18.DC1 /content/suppl/2011/12/14/334.6062.1518.DC1在作者的网站上,可以下载MINE计算MIC的程序(Java和R)以及测试用数据集 HYPERLINK /Downloads /Downloads实验:WHO数据集,垒球数据集中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201243MIC的性质 如果变量对x,y存在函数关系,则当样本数增加时,MIC必然趋向于1 如果变量对x,y可以由参数方程c(t)=x(t),y(t)所表达的曲线描画,则当样本数增加时,MIC必然趋于1 如果变量对x,y在统计意义下互相独立,则当样本数增加时,MI

16、C趋于0中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201244MIC观察中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201245MIC与线性回归模型对比中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201246对基因数据集spellman的探索 数据集包含6223组基因数据 MINE对关联关系的辨认力明显强于以往的方法,例如双方都发现了HTB1,但MINE方法挖出了过去未被发现的HSP12中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201247欢迎交流:stswzhQQ:1829118中山大学海量数据与云计算研究中心微博:/hao

17、lan2011DTCC201248附录资料:不需要的可以自行删除大数据挖掘技术之DM经典模型(下)数据分析微信公众号datadw关注你想了解的,分享你需要的。接着上篇大数据挖掘技术之DM经典模型(上)文章,接下来我们将探讨朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型。4、朴素贝叶斯模型表查询模型简单有效,但是存在一个问题。随着输入数量的额增加,每个单元格中训练样本的数量会迅速减少。如果维度为2,且每一维有10个不同的变量,那么就需要100个单元格,而当有3个维度时,就需要1000个单元格,4个维度就是10000.这样成指数级的增长,哪怕的传统数据挖掘中都会遇到明显瓶颈。当试图预测某一

18、个概率值时,朴素贝叶斯模型就提供这一办法。基本思想:每个输入变量本身就包含一些预测需要的信息。比如目标变量是取消业务的概率,解释变量是市场、获取渠道、初始信用评分、利率计划、电话号码类型、手机号以及客户年龄。这些变量都具有预测能力。根据取消率的显著差异性,可将每个变量划分在不同的范围中。简单理解:条件概率是指给定B的条件下A的概率以及给定A的条件下B的概率。解释:给定B的条件下A发生的概率,等于给定A的条件下B发生的概率乘以A和B发生的概率的比例。如果A代表停止续签,B代表使用黑莓手机,然后给定使用黑莓手机的条件下停止续签的概率,就是给定停止续签的条件下使用黑莓手机的概率乘以总体停止续签的概率

19、与总体使用黑莓手机的概率之比。4.1、概率、几率和释然概率:0到1之间的一个数字,表示一个特定结果发生的可能性。一种估计结果概率的方法是计算样本数据中出现结果次数的百分比。几率:某一特定结果发生于不发生的概率比。如果一个事件发生的概率是0.2,那么不发生的概率是0.8。那么其发生的几率就是1/4。几率的取值是0到无穷。似然:两个相关的条件概率比。即给定B发生的情况下,某一特定结果A发生的概率和给定B不发生的情况下A发生的概率之比。4.2、朴素贝叶斯计算对任意数量属性中的每一个属性,朴素贝叶斯公式都将目标事件的几率与该事件的似然联系起来。回到基于营销市场、渠道获取、最初信用评分、费率计算、电话号

20、码类型、手机型号以及客户年龄来预测客户流失的例子。例如上面谈到的黑莓手机续签的案例,我们关注的是。1、停止续签的总体几率。2、黑莓手机用户停止的似然。3、在整个州市场停止续签的似然。之所以定义为“朴素”,是基于所有似然相乘都基于输入变量相互独立的假设。在这个案例中,假设的是使用黑莓手机的似然与市场独立(并且存在于该州的似然与手机类型独立)。而在实际中,这种真正相互独立的情况很少见。朴素贝叶斯模型最吸引人的点:对于待评分的观测,如果缺失某些输入值,可以简单地将缺失的似然从模型中去掉。意味着,包含那些并不是对所有有用都可用的输入(用户年龄),但如果知道这些变量,它们就有用。给定不同输入的概率,且这

21、些输入与停止续签相关,朴素贝叶斯公式就可以计算停止续签的几率,而公司对这种停止续签的用户更感兴趣。4.3、朴素与表查询模型的比较对于概率型目标来说,朴素贝叶斯模型和表查询模型密切相关。两者之间的主要区别就在于如何使用维度。在表查询模型中,使用所有维度依次定义单元格,然后计算每一个单元格的目标概率。因此,表查询模型可以获取变量之间的相互作用。在朴素中,需要为每一个维度单独计算似然,之后组合这些似然,从而计算出目标概率。似然的组合有一个假设:各维度关于目标彼此独立。表查询没有说明这样一类属性的组合关系,即由于在训练数据中出现的频率很低,导致这些概率很低的属性就不会出现。在朴素模型中可以预测任何从未

22、出现过的组合,但要这样做,就必须假设这些输入所造成的影响彼此独立。表查询模型没有这样的假设,所以当数据多到可以支持一个可信的估计模型时,表查询模型也许会做的更好。5、线性回归回归模型也是一种预测建模技术。在Excel中就可以使用线性回归。回归模型也很复杂,这里谈到最佳拟合曲线。输入变量和目标变量必须都是数值变量,回归方程描述了两者之间的一种算术关系。“最佳的”关系是指最大限度地减少了从数据点到拟合曲线的垂直距离的平方和。5.1最佳拟合曲线如下图,显示了一个知名博主发表的一篇文章日浏览率随着时间和被关注度之间的关系。图中使用描点的符号是空心圆,它有助于清楚的显示各点之间的聚集情况。例如,在较短时

23、间内用户的关注度分布非常密集。当使用不同的颜色比较不同的客户组时,这种散点图尤其有用。随着时间的增加,博客的日访问量会越来越低,最后维持到一个水平。画出来的曲线更像是一个双曲线。根据X轴,时间的递增。Y轴,日访问量的增加。我们可以模拟出这个博主的访问量随时间变化的曲线。如果在保证博客质量的同时,我们就可以预测博主的一篇博客的访问量大致在什么范围。可能这里有很多的误差或不精确的地方。但是通过拟合曲线,我们更能从直观上看到,曲线的走势。如果曲线更精确的化,我们甚至可以模拟出曲线的函数表达式。如果用作数据点的标记并没有完全拟合,散点图可以传递出更多的信息。最佳拟合曲线的性质:在所有可能的曲线中,最佳

24、拟合曲线指的是从观察点到曲线垂直距离的平方最下的那条曲线,散点图显示了每个点到曲线之间的距离。最佳拟合曲线的定义就是最小二乘法的定义。欧式距离公式对该值进行了开方,在没有计算机的年代,计算欧式距离非常困难。当时,高斯提出这一观点,就是利用计算平方和,代替计算距离之和。这样做的目的,就使最佳拟合曲线系数很容易计算。这里谈到的是线性回归,其实回归模型是一个直线方程,这里只是来描述一个拟合曲线,其实算不上一个回归曲线。在现实之中,更多线性回归的模型很少见,更多的是曲线拟合。5.2拟合的优点对于一个给定的数据集,总是可以找到一条最佳的拟合曲线。但是,存在很多条曲线,哪条才是最佳的。这里引入“残差”,就

25、是度量预测值与实际值之差。还有一个标准方法,成为,用来衡量描述曲线对观测数据的拟合程度。(1)残差如图,身高与体重模型的残差。一个无偏模型在丢失高值点方面应与丢失低值点类似。在残差图中,最重要的一点就是,这些值是位于拟合曲线之上的可能性与之下的可能性是否一样。从图中我们也可以看到在曲线上与在曲线下的样本点是不一样的。一个良好的模型所产生的估计值应该接近真实值,所以残差应该集中于曲线轴附近。如图中也是可以看到抛离曲线的一些孤立点。这些点出现的原因,可能是由于一些人为记录的原因造成的。在统计学中,残差在回归方程中要考虑误差项。最佳拟合曲线的方程是:Y=aX+b但该曲线,不是完整的模型。统计人员会将

26、模型方程表示为:代表误差项,因为X并不能完美的展示Y。误差项表示模型无法解释的Y的部分。Y=aX +b+(2)R(R这里代表是R的平方)对于最佳拟合曲线,R的取值始终在01之间。当该值接近1时,说明该曲线在捕获输入和目标之间的关系方面表现很好。若接近于0,则说明最佳拟合曲线的表现很差。在01的范围内,值越大表明两者之间存在很强的关系,越下其关系越下。相比于随机猜测的平均值,模型的估计值有多好。定义简单,但计算起来复杂。R要比较最佳拟合曲线与y平均值的水平线。1减去两个误差的比值可以计算出R。分子式最佳拟合曲线残差的平方和。分母是水平线的残差平方和。R度量了最佳拟合曲线优于均值作为估计的程度。R

27、度量了数据的稳定性。同一数据集中不同的样本是否会生成相似的模型。当R值较低时,不同的样本可能会表现出非常不同的行为。或者,在此基础上,再加入少量观察值可能会极大地改变模型的系数。当R值较高时,再加入少量观察值就不会有上述的改变。5.3全局效应回归方程能发现数据中的全局模式。即,方程系数应该对范围内的所有输入变量都起作用。这表明回归模型善于捕获那些总是正确的模式,不是产于处理局部模式。例如,考虑不同年龄的汽车保险购买人的风险。年轻司机的风险较高。随着驾驶人员经验的不断增加,风险会逐步降低。而对年龄很大的驾驶者,风险又会增加。因为年龄很难作为回归方程的输入。因为没有全局模式,对于不同的年龄组,年龄

28、的影响变化又会不同。在很多程度上,这个需要根据建模人员的熟悉程度,可以使用那些在不同取值范围的变量作为输入参数。但是,回归方程本身不会发现局部模式。6、多元回归引入线性回归的那个例子使用了单一的输入持续期来解释日访问量随时间的变化。当一个回归模型有多个输入时,就称其为多元回归。6.1、等式线性回归模型的一般形式(没有误差项)是:Y=a+a1x1+a2x2+a3x3+.+anxn。这个方程通过添加更多变量,并为每个变量选定系数,对最佳曲线方程进行了扩展。尽管通过引入更多维度,可以将线性回归的几何解释扩展到多元回归曲线变为平面再变到超平面。考虑到每个字变量对因变量估计值的贡献会更容易些,即可以由系

29、数决定自变量贡献的大小和方向。6.2、目标变量的范围一个回归方程可以产生任何值。如果对X没有限制,那么Y也是没有限制的。对 Y=aX+b 就可以说明这一点,该方程是一条简单的直线,取值随之X的取值而边变化,从负无穷到正无穷。但实际情况非如此。许多目标变量的范围并不是无穷的,甚至不是连续的。对于这些情况,统计学家引入了一个链接函数将回归方程产生的Y值映射到目标变量的一个适合的范围。当目标遵循某一已知的分布时,就可以选择一个链接函数,它产生的值与目标的平均值相同,同时也会产生一个类似的分布。即使不知道确切的分布,也可以引入链接函数将估计映射到目标的一个适当的范围。后面我们会介绍逻辑回归分析,那里使

30、用一个链接函数将线性回归的无穷范围映射到01的区间,该区间等价于概率估计。6.3、使用多元回归的其他注意事项回归模型中有多个输入变量时,会产生一些在单一输入中不存在的问题。理想情况下,所有输入之间应该线性无关。被模型显示地包含的输入之间可能存在相互。添加一个新输入将会改变所有原输入的系值取值。(1)线性无关与朴素贝叶斯类似,多元模型的输入之间应该线性无关。这一位置改变其中一个输入值应该对其他输入值没有影响。实际情况很难实现真正独立性。一般情况,注意不要包含彼此密切相关的自变量就可以。如果包含这些变量,往往会导致模型的一个输入变量有较大的正系数而另一个输入变量有较大的负系数。两个变量本质上相互抵

31、消,因此这两个系数的取值并不会对任何变量有真正意义上的影响。(2)交互即使两个变量是完全独立的,它们对目标的影响也可能是相关的。一个冰淇淋的吸引力可能依赖于价格和天气尤其是某天的炎热程度。这些变量可以认为是独立的(当然,冰淇淋的价格并不取决于温度,温度可能会影响冰淇淋的价格,但是这里假设不会)。尽管这些变量相互独立,价格对目标的影响扔可能受温度的影响。当天气炎热的时候,人民不是在意冰淇淋的价额都会购买。当天气寒冷的时候,只有真正物美价廉才可能会吸引人民购买。类似的,价格的变化对住户率的影响可能会随着距离市中心的远近不同而不同。这就是交互的例子。当认为交互很重要时,一般情况下,可以通过添加新变量

32、引入这些交互,而这些新变量是标准化交互中涉及变量值的产物。(3)添加变量可以改变模型中的原有变量的取值一种很自然的模型开发方法从一个仅有一个输入的简单模型开始,然后通过增加变量逐步提高其复杂性。如果所有输入变量都是完全独立的,那么添加或删除其中一个变量不会更改模型中的其他变量的系数。但是输入变量几乎不可能完全独立,所有包含另一个变量会改变系数的大小,甚至可能改变模型中其他原有变量系数的正负值。6.4、多元回归的变量选择多元回归模型在有大量输入时,它的表现并不理想。选择正确的输入变量对任何建模而言都是最重要的部分。这里谈到“领域知识”,就是首先要考虑的是对该问题所知道的一些先验知识以及以往人民解

33、决此类问题的额方法。有的时候领域知识对一时模型的预测可以提供一个很好的指标指向。当使用领域知识和常识创建了一张候选变量列表后,用于创建回归模型的软件通常可以帮助使用者选择出模型所需的最好变量。使用的方法:(1)前向选择前向现在开始使用一组输入变量,其中一些变量或全部变量都可以出现在最终模型里。第一步是为每一个输入变量创建一个单独的回归模型;如果有n个输入变量,那么第一步会考虑具有一个输入变量的n个不同的回归模型。选择测试得分最高的模型所对应的变量作为前向选择模型中的第一个变量。选择最佳模型的一种方法是选择R值最低的模型。另一种方法是使用统计检验中F-检验的方法。最好的模型是在验证集上的误差最小

34、的模型。这看上去更像是数据挖掘,因为它使用了验证集,并没有对输入或目标值做出任何假设。选定了第一个变量后,这以过程会在此重复进行。第二次通过将每个剩余变量与第一步已选定的变量组合以创建包含有两个输入变量的n-1个回归模型。这些模型中最好的模型将会是下一次迭代的基础,下次迭代会测试带有三个变量的多元回归模型。持续这一过程直到满足某些停止条件为止。终止条件可以是到达最大的选择变量个数,或者继续增加变量不能在继续提高模型的某个阈值。(2)逐步选择逐步选择与前向选择非常类似,只有一点不同。在每个步骤中除了增加一个变量外,还可以删除一个变量,较早进入模型的一个变量可能由于后续变量的联合作用而不再是有效变

35、量。(3)后向消去后向消去选择变量的方法首先使用所有的n个输入变量创建了一个多元回归模型。使用统计检验,消去较糟糕的变量,然后重置该模型。持续该过程直到满足某些停止条件,比如到达理想变量的最小数目。7、逻辑回归分析线性回归模型有一种特殊的形式。该形式对任意数量的输入变量都可用,但当只有一个输入变量时,效果最明显。回归公式是一条直线方程。直线的一个属性是它可以向两端无限延伸。除与X轴平行的直线外,回归模型没有最大值和最小值。这些属性使得线性回归模型适用于估计那些取值范围可能很广的连续变量。相同的属性使得线性回归模型适用于建模无界的、连续的目标,而不适于建模二元结果,比如是否或好坏。因为二元问题是

36、极其常见的,这就逻辑回归分析模型。7.1建模二元输出建模二元输出似乎不像是一个评估任务。有两个类别的,任务是将每条记录分配到其中的一个类。这就是一个分类任务。然而,该任务可以重述为“某个记录属于其中一个类的概率是多少?”,因为概率是数字,这个问题就转化为一项评估任务。(1)使用线性回归评估概率在谈到基于客户的持续期估计订阅在报纸上的支付额度模型上。呼叫中心通过与用户取得联系,其中一些客户同意签订订阅协议。签订合约不久后他们便开始接收报纸,随后他们要支付一笔账单。一些新用户不会抽时间来支付这第一张订单,从而消减了报纸的收入。一段时间后,没有支付订单的客户被停止收到报纸,其中一些支付账单的新客户并

37、有可能在很长时间后成为良好的客户。不过在前面几个星期,客户不愿意付款的可能性非常大。目标值为0可以表示为从未付款的客户,为1的表示付过款的客户,所有这里会存在一条最佳拟合曲线。但不能保证这是一个好的模型。因为在超过一定天后,这一概率轨迹值大于1,而且这一估计值会随着持续期的增加而无限的增加。这就是直线的性质:显然存在弊端,没有最大值或最小值。(2)将回归直线弯成曲线显然,直线不是一个估计概率的合适形状。逻辑回归分析通过将回归直线弯成一个更合适的形状来解决这一问题。我们要获得一个取值范围在01之间的函数。这就是逻辑函数。7.2、逻辑函数朴素贝叶斯模型是乘以一串似然来估计几率,然后将其转换成概率。把线性回归转换成逻辑回归也使用了这类技巧。第一步:通过P与1-P之间将概率P转换为几率。几率和概率表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论