数据分析算法与模型模拟题三附答案_第1页
数据分析算法与模型模拟题三附答案_第2页
数据分析算法与模型模拟题三附答案_第3页
数据分析算法与模型模拟题三附答案_第4页
数据分析算法与模型模拟题三附答案_第5页
免费预览已结束,剩余3页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、、计算题(共4题,100分)1、通过分析关于二手车的相关变量,研究这些变量怎么影响二手车的交易价格。回二手车抽样-预处理.csv收集的数据包含:变量名代表含义数据类型备注yuanjia原价连续变量汽车原价baojia报价连续变汽车报价licheng里程连续变量累计里程数(单位:pailiang排量.L.连续变量发动机单位时间内本量mali最大马力.Ps.连续变量最大动力输出changshang厂商离散变十一分类一一排名®商分别用1-10表示1以外的其他水平cheshen_type车身结构-车类型离散变量四分类一一“SUV”、“三厢”、“MPV”pengzhuang排除重大碰撞离散变排

2、除重大碰撞(0)大碰撞(1)waiguan_xiufu外观修复检查离散变排除外观修复(0)观修复(Dwaiguan_quexian外观缺陷检查离散变排除外观缺陷(0)观缺陷(1)neishi_quexian内饰缺陷检查离散变量排除内饰缺陷(0)饰缺陷(1)shangpaishijian上牌时间连续变量与2017年2月之间(单位:月)对数据进行预处理,分析应采用的模型,写出详细的思路和数据分析过程,用多种方法检验和解释模型,说明模型的实际意义。答案解析:因变量采用车辆报价数据,自变量选择除车辆报价数据之外的其他变量,进行线性回归分析可以看到册I除了三个变量,R方和调整R方都接近1,模型拟合度很好

3、。由于自变量中真皮座椅、外观缺陷、车身类型未通过t检验,因此需要将这三个变量删除后再做线性回归分析,可得:Y=l.1036-0.0646shangpaishijian-0.10641icheng-0.4235biansu+0.8482zhouju-1.0036pailiang+0.0154mali-0.1729tianchuangl+0.7581tianchuan2+0.3974daocheyingxiang-0.5061GPS-0.2864waiguan_xiufu+0.5156yuanjia+0.1665paifang_0.0199changshang模型拟合效果很好,且通过了F检验和t检

4、验,(常数项的t检验可以不通过)可以根据此模型对二手车进行价格评估2、利用Apriori算法,写出下列购物篮数据的频繁项集和强关联规则(设定支持度为2,置信度为0.7)若此购物篮数据为某超市随机选取的7位顾客的交易数据,请结合之前得到的结果为该超市提一些建议。先将给定的数据整理成datahoop关联分析可识别的格式,导入datahoop平台,对变策牛肉、鸡肉、牛奶、奶酪、靴子、衣服进行关联分析。设置最小支持度为2/7=0.286,最小置信度为0,可以得到频繁项集(删除垂旦).设置最小支持数为2/7=0.286、最小置信度=0.7,可以得到提升度X的有效强关联规则(删除单项)解答:首先对原数据进

5、行预处理至ABcDEFG顾客ID购买项abcde品&eTFFTT|1相,bjeTTTFT!2同百TTFTT;|2相jGUHTFTTT|3foc;eFTTFT!3hd同FTFTT!4fcd)FFTTF!4同b©TTTFF|5d间TFFTT|5ab同TTFFT然后再处理至支持度排名项目1102030丽项目2支持度置信度提升度U”aedeb(ftftrl568910>>>>>>>>>05050810.710.61一项的频繁集0610.510.85710.75

6、0.83330.6251.07141.07141.04171.0417二项频繁集删除重复项支持度排名1-23080.81070.71060.61一项的频繁集060.61050.510.85711.0714支持度置信度提升度70a)d)(ri5810b)050.83331.0417二项频繁集0.83331.0417一项频繁项集:(e)、(a)、(d)、(b)、(c)二项频繁项集:(a,e)、(d,e)、(b,e)再将支持度和置信度的值分别设置成0.286和0支持度排寺项目310oamb相d也2356789项目2支持度置信度->eJ0.80.8->aD.70.7-&am

7、p;gt;(e)D.60.8571->eD.50.8333->eD.50.8333d)-&gt,闷0.4e)->a)0.4b-&gt.同0.3.7,导入datahoop平台提升度TZ1.07141.04171.041711.250.81.14290.750.9375二项的有效强关联规则:aea三项的强关联规则:(a,d)(d,e)-(a,b)-从上面数据可以看出牛肉和鸡肉等肉食产品可以放在一起,和奶酪则要放在附近的走道旁,让需要的顾客更方便拿取方便客户选择,牛奶3、以下数据是31个省市各行业的工资情况,各行业工资难免相关,因此,请先进行

8、降维处理再进行聚类分析。降维、聚类.xls答案解析:分析数据发现无缺失值,且不露要进行其他处理。本案例采用k-means算法进行聚类,因此还霍考虑异常值和共线性.由于量太少,单独一个数据也可能是一个特殊的类,因此这里不做异常值处理。由相关系数定阵分析发现变量之间存在共线性,所以不能直接进行聚类,接下来用主成分分析对变量进行降维处理。设置主成分个数为2时发现累计贡献率为0.9557,效果很好,可以用PC1和PC2进行聚类分析.(这里PC1和PC2是由标准化后的安量求得的,很小,且没有量纲差距,所以聚类分析时不再进行标准化)。接下来用k-means算法对PC1和PC2进行聚类分析,分别选3,4,5

9、个类别迸行聚类,发现聚成三类时效果最好。解答:先将数据导入datahoop平台,进行降维处理贡献率累计贡献率F0.49220.4922F_20.33610.8283得出的贡献率和累计贡献率值均在0至1之间将数据进行聚类分析WflB©伯初口即的忌m尿隹化足目执行2Ss闻战创匕TrueFa«eTrue4Means*夫个敢>03逅属相MUWSW2公S*(疔HfSttW何氐K-Means>010电1.K-Means>0300因为之前已进行降维处理所以不再进行标准化,设置聚类个数为3,初始中心点选择次数为10,最大迭代次数为3004则奖中心峰本个03母4547244

10、W3W3W47283»XW67424b7",-g303817123W417W212673"4为30503M42均25bM*&T5213WS1的W9J7T531将3350961437S3<fl71646233444S»»7X8543123827163971638617924由37X32637297639KO05020125的0323唧W35102&盼口659n3558296249:$11755跖7%5我1妁17KM5799W5480305»9«>5752333MWb样本个数依次为再将聚类个数设置成4

11、,其他数值不变不均先/软。“孙213325b4830】OS339102752$,36蓼通心4241239如85JCC5591165921355M2g膛4/5?2513917420066734743647416722148934741714640740叫49023862(54316164BDb&U35911W75569c66S740D42W32K”B575UQ476移53814617JJ535295i25832691S算3:674B77225290970C630910WXWS3用3325T0090*273W7913烟8辨心溺5庠*M5K的25际3055578?»87463545

12、ITO833Z25383646793332SQ1173850355243783S<如671203793426691d484B6862WM702406H92样本个数为可以看出样本存在不均衡因此聚类分为3类时分类效果最好4、为了研究影响泰坦尼克号生还与否的影响因素有哪些,收集如下数据:5train.csv巴Itrain-原始.csv收集变量包括:Passengerld*Survived,Pclass>Sex,Age,SibSp,Parch,Ticket,Fare»CabinyEmbarkedPassengerld=>乘客IDSurvived=>是否生还Pclass

13、=>乘客等级(1/2/3等舱位)Name=乘客姓名Sex=>性别Age=>年龄-SibSp=堂兄弟/妹个数Parch=父母与小孩个数Ticket=船票信息Fare=>票价Cabin=>客舱Embarked=>登船港口对收集进行预处理,选择适当的算法进行分析,并评价和解释模型,要求写出具体的思路过程。答案解析:本次分析选取变量包括:Survived=是否生还、Pclass=乘客等级(1/2/3等舱位)、Sex=性别、Age=年龄、SibSp=堂兄弟/妹个数、Parch=父母与小孩个数、Fare=票价截图可以看到,性别属于定性本案例研究以上选取的变量对于乘客是否获救的影响.通过原始的变星,因此对此进行研完需要对这些变是进行前期数值转换.本次处理把性别进行0和1处理,female(女)转换成0,male(55)转换成1.本案例选取的变量中,年龄Age存在缺失值,因此对于年龄的缺失值霜要进行处理,本次对年龄的缺失值用所有年龄

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论