下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、逻辑回归对收入进行预测1逻辑回归模型回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。最简单的回归是线性回归,在此借用AndrewNG的讲义,有如图1.a所示,X为数据点一肿瘤的大小,丫为观测值一一是否是恶性肿瘤。通过构建线性回归模型,如h。(x)所示,构建线性回归模型后,即可以根据肿瘤大小,预测是否为恶性肿瘤h0(x).05为恶,fh0(x)0.5为良性。Zi=ln(Pi1-Pi)=30+31x1+.
2、+Zi=lnnxni-Pi)=30+31x1+.+3nxn2数据描述该数据从美国人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。3问题描述其实对于收入预测,主要是思考收入由哪些因素推动,再对每个因素做预测,最后得出收入预测。这其实不是一个财务问题,是一个业务问题。对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,提高运营人员的办事效率。流失预测。这方面会偏向于大额付费用户,提取额特征向量运用到应用
3、场景的用户流失和预测里面去。我们尝试并预测个人是否可以根据数据中可用的人口统计学变量使用逻辑回归预测收入是否超过$50K的资金。在这个过程中,我们将:1.导入数据2.检查类别偏差3.创建训练和测试样本4.建立logit模型并预测测试数据5.模型诊断4数据描述分析查看部分数据123456对数据进行描述统计分析:AGEWORKCLASSFNLWGTMin.:17.00Private:22696Min.:122851stQu.:28.00Self-emp-not-inc:25411stQu.:117827Median:37.00Local-gov:2093Median:178356Mean:38.5
4、8?:1836Mean:1897783rdQu.:48.00State-gov:12983rdQu.:237051Max.:90.00Self-emp-inc:1116Max.:1484705(Other):981EDUCATIONEDUCATIONNUMMARITALSTATUSHS-grad:10501Min.:1.00Divorced:4443Some-college:72911stQu.:9.00Married-AF-spouse:23Bachelors:5355Median:10.00Married-civ-spouse:14976Masters:1723Mean:10.08Marr
5、ied-spouse-absent:418Assoc-voc:13823rdQu.:12.00Never-married:1068311th:1175Max.:16.00Separated:1025(Other):5134Widowed:99340 United-States013 United-States040 United-States040 United-States040Cuba040 United-States0AGEWORKCLASSFNLWGTEDUCATIONEDUCATIONNUM139State-gov77516Bachelors13Never-married250Sel
6、f-emp-not-inc83311Bachelors13Married-civ-spouse338Private215646HS-grad9Divorced453Private23472111th7Married-civ-spouse528Private338409Bachelors13Married-civ-spouse637Private284582Masters14Married-civ-spouseMARITALSTATUS1Adm-clericalNot-in-familyWhiteMale217402Exec-managerialHusbandWhiteMale003Handle
7、rs-cleanersNot-in-familyWhiteMale004Handlers-cleanersHusbandBlackMale005Prof-specialtyWifeBlackFemale006Exec-managerialWifeWhiteFemale00RELATIONSHIPRACESEXCAPITALGAINCAPITALLOSSoccupationNATIVECOUNTRYABOVE50KHOURSPERWEEKOCCUPATIONRELATIONSHIPRACEProf-specialty:4140Husband:13193Amer-Indian-Eskimo:311
8、Craft-repair:4099Not-in-family:8305Asian-Pac-Islander:1039Exec-managerial:4066Other-relative:981Black:3124Adm-clerical:3770Own-child:5068Other:271Sales:3650Unmarried:3446White:27816Other-service:3295Wife:1568(Other):9541SEXCAPITALGAINCAPITALLOSSHOURSPERWEEKFemale:10771Min.:0Min.:0.0Min.:1.00Male:217
9、901stQu.:01stQu.:0.01stQu.:40.00Median:0Median:0.0Median:40.00Mean:1078Mean:87.3Mean:40.443rdQu.:03rdQu.:0.03rdQu.:45.00Max.:99999Max.:4356.0Max.:99.00NATIVECOUNTRYABOVE50KUnited-States:29170Min.:0.0000Mexico:6431stQu.:0.0000?:583Median:0.0000Philippines:198Mean:0.2408Germany:1373rdQu.:0.0000Canada:
10、121Max.:1.0000(Other):1709从上面的结果中我们可以看到每个变量的最大最小值中位数和分位数等等。查看数据维度dim(inputData)13256115CylinderOptionsCylinderOptionsa-4080Oe+ooa-4080Oe+oo加从上面的结果中我们可以看到收入情况和一个人的资本收入以及性别存在着正相关。从图中我们可以看到,如果性别是男性,那么他的收入一般会较高,性别是女性,收入较低。5检查类偏差理想情况下,丫变量中事件和非事件的比例大致相同。所以,我们首先检查因变量ABOVE50K中的类的比例。01247207841显然,不同收入人群比例有偏差
11、。所以我们必须以大致相等的比例对观测值进行抽样,以获得更好的模型。6建模分析6.1创建训练和试验样本解决类别偏差问题的一个方法是以相等的比例绘制训练数据(开发样本)的0和1。在这样做的时候,我们将把其余的inputData不包含在testData中。test_ones-input_ones-input_ones_training_rows,test_zeros-input_zeros-input_zeros_training_rows,testData-rbind(test_ones,test_zeros)rowbindthe1sand0s接下来,需要找到变量的信息值,以匕解在解释因变量(ABOVE504方面的价值。6.2构建Logit模型和预测
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 火电厂实习报告(15篇)
- 开学心得400字8篇
- 居民环保倡议书(10篇)
- 用工单位用工合同(31篇)
- 山西省太原市2024-2025学年九年级上学期期中测评物理试卷
- 河南省周口市西华县2024-2025学年八年级上学期期中地理试题
- 2024年11月八年级期中物理试卷
- 上海高考语文三年模拟真题(21-23年)知识点汇编-古诗词赏析
- 2024年医疗设备维修保养合同范本
- 快递行业劳动协议样式
- 鱼塘清淤回填施工技术方案
- 建筑工程企业自我评价报告书
- 2024年交管12123学法减分考试试题库及答案
- (高清版)JTG D50-2017 公路沥青路面设计规范
- DZ∕T 0262-2014 集镇滑坡崩塌泥石流勘查规范(正式版)
- 微量元素与人体健康智慧树知到期末考试答案章节答案2024年吉林大学
- 延安红色文化资源开发利用研究
- 专题08 上海卷作文(课件)-2022年高考语文作文评析+素材拓展+名师下水文
- 建筑垃圾清运及处置 投标方案(技术方案)
- MOOC 设计原理与方法-东南大学 中国大学慕课答案
- WHT 78.4-2022 演出安全 第4部分:舞台音响安全-PDF解密
评论
0/150
提交评论