原创R语言逻辑回归对收入进行预测报告附代码数据_第1页
原创R语言逻辑回归对收入进行预测报告附代码数据_第2页
原创R语言逻辑回归对收入进行预测报告附代码数据_第3页
原创R语言逻辑回归对收入进行预测报告附代码数据_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、逻辑回归对收入进行预测1逻辑回归模型回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。最简单的回归是线性回归,在此借用AndrewNG的讲义,有如图1.a所示,X为数据点一肿瘤的大小,丫为观测值一一是否是恶性肿瘤。通过构建线性回归模型,如h。(x)所示,构建线性回归模型后,即可以根据肿瘤大小,预测是否为恶性肿瘤h0(x).05为恶,fh0(x)0.5为良性。Zi=ln(Pi1-Pi)=30+31x1+.

2、+Zi=lnnxni-Pi)=30+31x1+.+3nxn2数据描述该数据从美国人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。3问题描述其实对于收入预测,主要是思考收入由哪些因素推动,再对每个因素做预测,最后得出收入预测。这其实不是一个财务问题,是一个业务问题。对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,提高运营人员的办事效率。流失预测。这方面会偏向于大额付费用户,提取额特征向量运用到应用

3、场景的用户流失和预测里面去。我们尝试并预测个人是否可以根据数据中可用的人口统计学变量使用逻辑回归预测收入是否超过$50K的资金。在这个过程中,我们将:1.导入数据2.检查类别偏差3.创建训练和测试样本4.建立logit模型并预测测试数据5.模型诊断4数据描述分析查看部分数据123456对数据进行描述统计分析:AGEWORKCLASSFNLWGTMin.:17.00Private:22696Min.:122851stQu.:28.00Self-emp-not-inc:25411stQu.:117827Median:37.00Local-gov:2093Median:178356Mean:38.5

4、8?:1836Mean:1897783rdQu.:48.00State-gov:12983rdQu.:237051Max.:90.00Self-emp-inc:1116Max.:1484705(Other):981EDUCATIONEDUCATIONNUMMARITALSTATUSHS-grad:10501Min.:1.00Divorced:4443Some-college:72911stQu.:9.00Married-AF-spouse:23Bachelors:5355Median:10.00Married-civ-spouse:14976Masters:1723Mean:10.08Marr

5、ied-spouse-absent:418Assoc-voc:13823rdQu.:12.00Never-married:1068311th:1175Max.:16.00Separated:1025(Other):5134Widowed:99340 United-States013 United-States040 United-States040 United-States040Cuba040 United-States0AGEWORKCLASSFNLWGTEDUCATIONEDUCATIONNUM139State-gov77516Bachelors13Never-married250Sel

6、f-emp-not-inc83311Bachelors13Married-civ-spouse338Private215646HS-grad9Divorced453Private23472111th7Married-civ-spouse528Private338409Bachelors13Married-civ-spouse637Private284582Masters14Married-civ-spouseMARITALSTATUS1Adm-clericalNot-in-familyWhiteMale217402Exec-managerialHusbandWhiteMale003Handle

7、rs-cleanersNot-in-familyWhiteMale004Handlers-cleanersHusbandBlackMale005Prof-specialtyWifeBlackFemale006Exec-managerialWifeWhiteFemale00RELATIONSHIPRACESEXCAPITALGAINCAPITALLOSSoccupationNATIVECOUNTRYABOVE50KHOURSPERWEEKOCCUPATIONRELATIONSHIPRACEProf-specialty:4140Husband:13193Amer-Indian-Eskimo:311

8、Craft-repair:4099Not-in-family:8305Asian-Pac-Islander:1039Exec-managerial:4066Other-relative:981Black:3124Adm-clerical:3770Own-child:5068Other:271Sales:3650Unmarried:3446White:27816Other-service:3295Wife:1568(Other):9541SEXCAPITALGAINCAPITALLOSSHOURSPERWEEKFemale:10771Min.:0Min.:0.0Min.:1.00Male:217

9、901stQu.:01stQu.:0.01stQu.:40.00Median:0Median:0.0Median:40.00Mean:1078Mean:87.3Mean:40.443rdQu.:03rdQu.:0.03rdQu.:45.00Max.:99999Max.:4356.0Max.:99.00NATIVECOUNTRYABOVE50KUnited-States:29170Min.:0.0000Mexico:6431stQu.:0.0000?:583Median:0.0000Philippines:198Mean:0.2408Germany:1373rdQu.:0.0000Canada:

10、121Max.:1.0000(Other):1709从上面的结果中我们可以看到每个变量的最大最小值中位数和分位数等等。查看数据维度dim(inputData)13256115CylinderOptionsCylinderOptionsa-4080Oe+ooa-4080Oe+oo加从上面的结果中我们可以看到收入情况和一个人的资本收入以及性别存在着正相关。从图中我们可以看到,如果性别是男性,那么他的收入一般会较高,性别是女性,收入较低。5检查类偏差理想情况下,丫变量中事件和非事件的比例大致相同。所以,我们首先检查因变量ABOVE50K中的类的比例。01247207841显然,不同收入人群比例有偏差

11、。所以我们必须以大致相等的比例对观测值进行抽样,以获得更好的模型。6建模分析6.1创建训练和试验样本解决类别偏差问题的一个方法是以相等的比例绘制训练数据(开发样本)的0和1。在这样做的时候,我们将把其余的inputData不包含在testData中。test_ones-input_ones-input_ones_training_rows,test_zeros-input_zeros-input_zeros_training_rows,testData-rbind(test_ones,test_zeros)rowbindthe1sand0s接下来,需要找到变量的信息值,以匕解在解释因变量(ABOVE504方面的价值。6.2构建Logit模型和预测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论