下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据江湖,回归5式
今天要跟大家分享的主题叫做:数据江湖,回归5式!
如今啊,大数据时代,群雄割据,天下大乱。各位童鞋,闯荡江湖,凶险难测。没一些
必备的看家的本领,就想从数据出发,直达价值的彼岸,恐怕很难。
为此呢,熊大教大家几招防身绝技,叫做:回归5式!简单的说,就是5种最常见的
回归模型。这5个招式,看似简单,却是熊大行走江湖的看家本领。【可归5式,就如同少
林长拳,看似平淡无奇,但是如果辅以深厚的内力,就能威力无比。
所以呀,今天除了要教给大家这回归5式以外,熊大还要跟大家说道说道这内力的修
为。没有深厚的内力修为,任何绝妙的功夫,都是花拳绣腿。
好了,闲话少说,先从回归5式开始。
回归分析第1式:线性回归,或者更严格地说,是普通线性回归。
前面我们说了,什么是回归分析?回归分析就是关于XY相关性的分析。那么具体到
线性回归,它的主要特征是什么呢?
普通线性回归的主要特征就是:它的因变量必须是连续型数据。什么是连续型数据呀?
简单通俗的讲,就是得是连续的。例如:身高、体重、价格、温度都是典型的连续型数据。
但是,在实际工作中,由于所有的计算机,实际上都只能存储有限位有效数字,因此,在真
实的数据江湖里,不存在严格的连续数据,只有近似的。接下来,我们讨论一下,普通线性
回归在数据江湖中,有哪些重要应用?太多了!随便说几个。
先说一个简单刺激的:股票投资。
这里的因变量Y是某只股票或者资产组合的未来收益率。这是一个连续型的因变量。
如果我们能够建立Y和一系列X的相关关系,例如X可以是该股票背后企业的财务特
征,我们就可以通过X云预测Y,然后通过合理的交易策略,实现超额收益率,俗称:发
大财!
其次,再考虑一个关于消费者的案例:客户终身价值。
这里的因变量Y是一个目标客户,从现在开始,到未来无限远时间,所能够给企业创
造的收入,经过一定的利率折现到现在的价值。如果我们能够建立Y和一系列X的相关
关系,例如X可以是这些消贽者的人口统计特征以及过去的消贽记录,我就可以通过X去
预测Y。这样可以帮助我们识别潜在的高价值客户。
大家都知道,高血压是一个非常普遍的慢性疾病,是个人或者社保医疗支出中的一大块。
而血压这个Y也是一个连续型数据。深刻理解•个人的血压Y,同各种相关因素X(例如:
饮食习惯、服药习惯)之间的关系,对于改进健康、降低医疗开支,有重要的意义。
总结一下,在我们通往价值的坎坷道路上,一定会遇到各种各样的数据挑战。他们中
绝大多数,都可以被规范成为回归分析问题。而只要这个问题的Y是连续型数据,那么回
归分析第1式“线性回归”,基本能搞定!
回归分析第2式:0-1回归。
如果我的因变量不是连续的怎么办?例如:是0-1型数据。什么是“0-1型数据”?0-
1型数据就是说呀,这个数据只可能有两个取值。
例如:性别,只有“男”、“女”两个取值;消费者的购买决策,只有“买”或者“不买”
两个取值:病人的癌症诊断,只有“得癌症”或者“不得癌症”两个取值。类似地,大家可
以给出很多0-1型数据的例子来。
碰到这种数据挑战的时候,线性回归就不好使了。你需要的是回归分析第2式:0-1回
归。0-1回归主要砍的就是0-1型因变量的问题。()-1型的因变量又包含了很多很多的招数,
我个人认为,其实大同小异,最常见的有两招就可以了。一招是:逻辑回归,也叫做Logistic
Regression;另外一招是:ProbitRegressiono
具体想学的同学,大家可以去杳“广义线性模型”眉关的武林秘籍,我就不再这里赘述
了。我主要想跟大家分享的是:“0-1回归''是一个非常重要的回归模型,你要不会这招,休
想行走数据江湖,永远不可能到达价值的彼岸。
为什么这么说?因为相关的重要应用太多了,咱们说几个时鬃有趣的。
第一个例子。现在征信特别火,尤其是互联网征信。
征信是啥?征信就是对某个体的信誉做评估。啥是信誉?就是如果我借钱给你,你按时
还钱的概率有多大?所以,对于这个业务而言,因变量就是一个借款人是否会还钱。而0/
回归的主要使命,就是评价该借款人未来还钱的可能性。是一个介于0和I之间的概率。
如果产品经理愿意,就可以把这个概率经过一定的单调变换,变成一个具体的征信得分。你
看,0-1回归重要不?
再跟大家看一个例子,大家都喜欢网上购物,什么淘宝、京东、天猫啥的。每一次登陆
进自己的账户,我们看到了什么?是不是总能看到一些被推荐的商品,“猜你喜欢”,对不?
这些商品是怎么被推荐出来的?这个背后啊,也是一个0-1回归的问题。
举个例子,咱先找一堆X]描述消费者的特征(什么性别啦、年龄啦、购物习惯啦等等),
然后咱们再找一堆的X2描述商品特征(什么品类呀、价格呀、品牌呀、型号呀等等)。咱把这
两堆X放在一起,问一个问题:说您会买吗?丫二。表示不会,Y=1表示会。这就是一个标
准的0-1回归问题了。
有了这个模型,我们可以知道:对于什么样的消费者,推荐什么样的商品,会产生什么
样的购买概率。然后在所有的待选商品中,挑选概率最大的(例如5个),呈现在您的眼前。
这就成就了个性化推荐。
有人说了:“王老师,您说的不对,我们用的模型可不是逻辑回归那么简单,老复杂了」
这个木有问题,真正的工程实践,所用的模型,有可能更简单,也有可能更复杂。但是,都
逃离不了0-1回归的本质所在。
最后,再分享一个有趣的例子。现在啊,这社交网络特别火,什么Facebook>Twiner、
QQ、微信、微博、陌陌笔等。
对于社交平台而言,帮助用户发现好友、建立丰富紧密的好友关系,非常重要。为此啊,
几乎所有的社交平台都有“推荐好友”这个功能。这个功能从人质上讲,跟个性化推荐商品
一样,也是一个0-1回归的问题。稍微有点区别,可能是,在社交平台上做推荐,我仅多了
一大类全新的X,就是社交关系。
例如,在我们考虑是否要给张三推荐李四的时候,一个重要的X变量就是“他仅之间
有多少共同好友”,或者“在张三的关注中,有多少人关注了李四“,这些重要的X变量是
根据社交网络的结构推算出来的,对于预测“张三是否会真的关注李四“,帮助巨大。
总结一下,在数据的江湖里,你一定会碰到“0-1数据”的挑战。如果没有0-1回归分
析护身,通往价值的道路一定是坎坷无比。
回归分析第3式:定序回归。
什么是定序回归?就是因变量是定序数据的回归分析。那么,什么乂是定序数据呢?定
序数据就是关乎顺序的数据,但是又没有具体的数值意义。
考虑一个特别常见的例子。例如,咱公司出一款新的矿泉水,叫做“狗熊山泉,有点不
甜”。我想知道消费者对它的喜好程度。因此啊,我决定请人来品尝一下,然后呢,根据他
的喜好程度,给出一个打分。I表示非常不喜欢,2表示有点不喜欢,3表示一般般,4表
示有点喜欢,5表示非常喜欢。这就是我关心的因变量。
这种数据常见吗?非常常见!有什么特点?
第一、它没有数值意义,不能做任何代数运算。例如,您不能做加法。我不能说:1(很
不喜欢)加上一个2(有点不喜欢)居然等于了3(表示一般般)。这显然不对。这就是该数据的
第一个特点,没有具体的数值意义。
第二,这个数据的第二个特点是它的顺序很重要。例如:1(很不喜欢)就•定要排在2(有
点不喜欢的前面),而2(有点不喜欢)就必须要排在3(一般般的前面)。这个顺序呀,很重要!
这就是为什么人们管它叫做“定序数据
我们说了,定序数据没有具体的数值意义。因此,我们不能确信:2(有点不喜欢)和1(很
不喜欢)的差距,是否正好等于5(超级喜欢)和4(有点喜欢)之间的差距。事实上,基本上不
可能相等,因为没那么巧!
既然这些取值之间的间距到底是多少,谁也说不清楚。那么,把很不喜欢定义为SY=1$,
还是$Y=1.5$,还是说$Y=3$,都无所谓。同样的,加何定义有点不喜欢,也随意。但是
只要这个定义,不破坏顺序就可以了。这就是定序数据的核心要义。
定序回归应用的常见的战场有哪些?前面说了,消费者调查,请大家表达自己的偏好。
在线下,这就是最普通的市场调研;在线上,就可能是豆瓣上人们对一个电影的打分评级;
在医学应用中,有些重要的心理相关的疾病(例如:抑郁症)也会涉及到定序数据。这就是回
归分析第三式:定序回归。
回归分析第4式:计数回归。
什么是计数回归?就是因变量是计数数据的回归分析。那么,什么又是计数数据呢?就
是数数的数据。例如,谁家有几个孩子,养了几条狗。
有什么特点?既然是数数,它就必须是非负的整数.不能是负数,说谁家有负3个孩
子,没这事。不能是小数,例如说谁家养了L25只狗,也没这说法。
计数数据在哪些地方常见?例如:客户关系管理中,有一个经典的RFM模型,其中这
个F,就是frequency,说的是一定时间内,客户到访的次数。可以是0次,也可以是1次、
2次、很多次。但是,不能是-2次,更不能是2.3次。这样清楚吗?
计数数据还出现在医学研究中。一个癌症病人体内肿瘤的个数:0是没有,也可以是1
个、2个、或者很多个。
计数数据还出现在社会研究中。例如,二胎政策放开,一对夫妻最后到底如何选择要生
育多少个孩子呢?可以是0个、1个,也可以是2个。但是,不能是-2个,也不能是0.7
个。
要应对计数型因变量,咱就需要回归分析第4式:计数回归。计数回归也有很多招数。
最常见的是泊松同归、负二项回归、零膨胀泊松I可归等方法。欲知详情,请参见各路统计学
秘籍。
回归分析第5式:生存回归。
生存回归是生存数据回归的简称。而生存数据回归就是因变量是生存数据的回归分析。
什么是生存数据?生存数据就刻画的一个现象或个体,存续生存了多久,也就是我们常说的
生存时间。
因此,我们要清晰定义两个东西。一个是出生,一个是死亡。以人的自然出生为出生,
以人的自然死亡为死亡,就定义了一个人的寿命,这就是一个典型的生存数据。该数据,对
(例如)寿险精算非常重要。
如果以一个电子产品[例如:灯泡)第一次使用为出生,到最后报废为死亡,就决定了产
品的使用寿命。
如果以一个消费者的注册成为我家的网站为出生,到某天离我而去,再也不登陆为死亡,
这定义了一个消费者的生命周期。
如果,以一个企业的工商注册为出生,到破产注销为死亡,这刻画的是企业的生命周期。
如果,以一个创业团队获得A轮融资为出生,到创业板上市为死亡(请注意呀,这是一
个开心的死亡),这刻画的是风险投资回报的周期。
由此可见,生存数据无处不在啊。要分析这种数据,您就需要I可归分析第5式:生存
回归。这样清楚吗?
谀,且慢。细心的同学一定会问:埃,这听起来生存数据不就是一个连续型的数据吗?
为什么不用线性回归呢?咱把数据做一个对数变换,线性回归它就搞不定r吗?啊哈,您可
真是问到点子上了。您说的一点都没错,本来啊,线性回归是可以搞定生存数据的,如果生
存数据是被精确观察到的。
什么?有可能生存数据没有被精确观测到吗?是的呀,考虑一个具体的例子。
咱以人的寿命为例,我们关心一个问题:一个人是芬学习统计学(这个X),是否会影响
得到他的寿命(Y)?看,这是•个典型的回归分析问题吧.为此,我们调查了很多数据,隔
壁老王不幸被抽中,为此我们想知道老王到底能活多久。
老王今年60,身体倍儿棒,吃饭倍儿香,核心问题是他还没挂呢,我们怎么知道他要
活多久呢?咋办呢?要不再等个几十年,等老王挂了,知道他的精确寿命了,咱们再做分析?
这怎么能行呢,万一,我先挂了怎么办!谁来做分析?所以,老王的寿命,这个Y到底应
该怎么办呢?我们对它不是一无所知,因为他已经虚度春秋60载了,所以,我们知道老王
的Y一定比60大。这是一个宝贵的信息,但是,大多少,我不知道。所以,在数据上我
们是怎么记录这个事情呢?我们把Y记作60+,看到这个神奇的没。只要一个数据后
面跟着一个“+”,这表明真实的数据比这个大,但是,大多少不知道。
这种数据叫什么?这种数据叫作CensoredData,中文被称作截断的数据。
如果,咱们的生存数据,没有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年代理加盟协议范本
- 《民族复兴中国梦》课件
- 2025年个人消费贷款抵押合同
- 2025年化学灾难责任保险合同
- 2025年宽带网络使用协约
- 2025年石材质押合同
- 2025版绿色建筑项目募集资金三方监管与支持合同4篇
- 2025版信息安全管理体系委托管理合同范本3篇
- 2025版卫生间装修材料环保认证协议书3篇
- 2025版农业设施设计顾问服务协议3篇
- 医院三基考核试题(康复理疗科)
- 2024-2030年中国招标代理行业深度分析及发展前景与发展战略研究报告
- 医师定期考核 (公共卫生)试题库500题(含答案)
- 基因突变和基因重组(第1课时)高一下学期生物人教版(2019)必修2
- 内科学(医学高级):风湿性疾病试题及答案(强化练习)
- 音乐剧好看智慧树知到期末考试答案2024年
- 办公设备(电脑、一体机、投影机等)采购 投标方案(技术方案)
- 案卷评查培训课件模板
- 2024年江苏省样卷五年级数学上册期末试卷及答案
- 人教版初中英语七八九全部单词(打印版)
- 波浪理论要点图解完美版
评论
0/150
提交评论