CPDA考试应用模拟_第1页
CPDA考试应用模拟_第2页
CPDA考试应用模拟_第3页
CPDA考试应用模拟_第4页
CPDA考试应用模拟_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、计算题(题数:4,共分)影响中国人口自然增添率的要素有好多,据剖析主要要素可能有:(1)从宏观经济上看,经济整体增添是人口自然增添的基根源泉;(2)居民花费水平,它的高低可能会间接影响人口增添率。(3)文化程度,因为教育年限的高低,相应会转变人的传统观点,可能会间接影响人口自然增添率(4)人口散布,非农业与农业人口的比率也会对人口增添率有相应的影响。为了全面反应中国“人口自然增添率”的全貌,选择人口增添率作为被解说变量,以反应中国人口的增添;选择“国名收入”及“人均GDP”作为经济整体增添的代表;选择“居民花费价钱指数增添率”作为居民花费水平的代表。暂不考虑文化程度及人口散布的影响。从《中国统计年鉴》采集到以下数据(见表1):设定的线性回归模型为:算法1多元线性回归.xlsx1)求出模型中的各个参数,试从多个角度议论此线性回归模型,并查验模型的经济意义;2)查验模型中能否存在多重共线性问题(逐渐回归),如有,试除去多重共线性。答案分析:1)直接进行线性回归即可获得各个参数(用excel)。多元线性回归模型议论能够从拟合优度、T查验、F查验等多个方面出发。(2)求变量的有关系数矩阵或采纳逐渐回归法(也能够用datahoop平台做线性回归,会自动删除共线的变量)。2.对近期上映的10部电影进行检查研究,抽取290人对这10部电影的评分(分值0~10分),结果以下表所示。1)依据表中数据对这10部电影的评分进行因子剖析,并分析各个因子的含义;2)能否利用电影的评分数据对这290名观影者进行聚类剖析给出你的原因。算法2因子剖析.xlsx答案分析:1)因子剖析选择隐含因子数为3,分别代表动作片、爱情片、动画片的影响评分因子。2)能够,这290人对电影的偏好有差别,能够进行聚类,有关性剖析后清除共线性的影响再进行聚类。某商场为了优化商品摆放结构,对近期顾客购置的商品种类进行了统计,如附表所示。(1)写出所有有效强关系规则(minsupport=10%,minconfidence=50%);(2)联合实质状况剖析顾客喜爱的商品搭配,并对该商场提出合理的建议。算法3关系剖析.xlsx答案分析:关系规则剖析中设置参数(minsupport=10%,minconfidence=50%),结果中强关联规则经过调整显示条目所有写出(重复的删除)。联合实质状况剖析要写详尽。4.某市为检查驾驶员视力状况(“1”表示视力正常,“0”表示有视力缺点)、年龄、能否有驾驶教育经历(“1”表示有,“0”表示没有),这三个要素对能否曾惹起交通事故(“1”表示发生过,“0”表示未发生过)的影响,随机抽样检查了45名驾驶员,获得数据以下:1)成立模型剖析驾驶员视力状况、年纪、能否有驾驶教育经历对能否曾惹起交通事故的影响,写出详尽的思经过程。2)若要应用此模型展望某批驾驶员中可能会惹起过交通事故的人都有哪些,则还需要进行的研究步骤有哪些请说明。算法4逻辑回归.xlsx答案分析:逻辑回归,数据预办理包含剖析共线性和异样值等,数据分为训练数据和测试数据,综合训练偏差和测试偏差议论模型。第二问要采集数据、办理数据、应用模型直接展望。-------------------------------------------------------------------------------------------------------------------------------------------一、计算题(题数:4,共分)年有关经济数据如附表所示。设定国内生产总值为x1,地产投资总数为x2,全国居民花费水平为x3、全社会固定财产投资房子完工面积为x4,作为自变量;全国房子销售均价设为Y,作为因变量。成立以下的多元线性回归模型:y=b0+b1*x1+b2*x2+b3*x3+b4*x4+εb0,b1,b2,b3,b4是未知参数,ε是节余残差,且E(ε)=0,与四个自变量没关。(1)求出参数b0,b1,b2,b3,b4,并评判模型拟合优度和实质意义,写出详尽的分析依照和思经过程;2)依据(1)对模型进行修正。多元线性回归.xlsx答案分析:(1)直接做线性回归,可得各个参数。经过R^2,F、T查验,p值平分别剖析模型。系数在经济意义上存在不合理性,可能是共线性的影响。(datahoop平台会删除共线的变量,所以这里用excel或spss等做回归。)(2)有关性剖析和解说,去掉一些变量,从头做线性回归(在Datahoop平台上直接做也能够,平台会自动删除共线的变量)。2.为认识电影票房的影响要素有哪些,某出品人采集了2010年至2013年间中国电影发放放映协会统计的过千万票房的国产电影有关统计指标,共波及275部影片。详细数据如附表所示。Datahoop上传测试集:电影票房数据(2010-2013).xlsxDatahoop上传训练集:电影票房数据(2010-2013).xlsx对数据进行预办理(包含缺失值、数据种类、失散化等),选择决议树模型进行拟合,并查验和剖析模型。要求写出详尽的思路和过程。答案分析:电影票房:电影票房是本次模型建模的因变量。经过对选用数据的统计剖析,将票房数据进行分类,一共分为8个层次,,分类状况如表所示:等级12345678范围≥1000万≥2000万≥3000万≥6000万≥1亿万≥1亿9000万≥3亿≥20亿<2000万<3000万<6000万<1亿万<1亿9000万<3亿<9亿万2.电影属性:电影种类分为爱情、喜剧等14种,分类依照是依据豆瓣和mtime里面对该部电影的标签分类。时长单位为分钟,取值范围75-156分钟。电影档期:电影上映年份,含5月1日在内的5、6月归为黄金1档;含10月1日的10、11月归为黄金2档;12、1、2月归为贺岁档(不一样于网上贺岁档时间分类);7、8、9月归为暑期档,剩下三四月归为一般档。品牌属性:宣发方:明星私企=S,国有宣发企业=G,小私营企业=L,联合刊行=C。电影属性:能否改编,能否真切,能否翻拍,能否有续集导演、演员影响度:导演年月、导演第几部作品、导演能否得奖、导演能否转型、演员百度指数1,演员百度指数2数据预办理:办理缺失值方法:决议树【事例剖析】第一步:用训练集数据训练模型,正确度超出70%,展望成效还能够第二步:用测试集数据测试,发现正确度很低这也是真切数据和真切场景常常见面对的问题。注意这个题的结论是模型不可以够应用于实质。个顾客编号为(T1,T2,T3,T4,T5,T6,T7,T8,T9)每一顾客购置的商品记录{{I1,I2,I5},{I2,I4},{I2,I3},{I1,I2,I4},{I1,I3},{I2,I3},{I1,I3},{I1,I2,I3,I5},{I1,I2,I3}}设最小支持度为22%,利用Apriori算法进行关系剖析,写出所有屡次项集和强关联规则。(分)我的答案答案分析:C1项数集支持度计数{I1}6{I2}7{I3}6{I4}2{I5}2最小支持度=2/9=22%,即最小支持度频度为2,则1—L1屡次项集支持度计数{I1}6{I2}7{I3}6{I4}2{I5}2C2项数集支持度计数{I1,I2}4{I1,I3}4{I1,I4}1{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2{I3,I4}0{I3,I5}1{I4,I5}0去掉小于最小支持的频度,获得2相屡次集2—L2屡次项集支持度计数{I1,I2}4{I1,I3}4{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2C3项数集支持度计数{I1,I2,I3},2{I1,I2,I5}2{I1,I3,I5}1{I2,I3,I4}0{I2,I3,I5}1{I2,I4,I5}0去掉小于最小支持的频度,获得3相屡次集3—L3屡次项集支持度计数{I1,I2,I3},2{I1,I2,I5}2C4项数集支持度计数{I1,I2,I3,I5}1去掉小于最小支持的频度,获得4相屡次集为空集。则再不行能发现新的频集,算法结束。最后获得的屡次项集为{I1}{I2}{I3}{I4}{I5}{I1,I2}{I1,I3}{I1,I5}{I2,I3}{I2,I4}{I2,I5}{I1,I2,I3}{I1,I2,I5}强关系规则将商品记录TF化导入平台设置参数即可获得,可是多展现。对各地域乡村居民家庭均匀每人生活花费支出进行聚类,即从综合角度来看哪些地域的花费水平近似,并联合实质状况剖析模型成效;再对不一样的花费项目进行聚类,即对变量进行聚类,来看哪些变量属于一类。其数据如附表所示。聚类.xlsx注:数据根源—对数据进行预办理,选择适合的算法模型进行聚类,要求写出详细思路。答案分析:剖析数据能否出缺失值、异样值,用k-means聚类要考虑共线性(有关系数大于的必定要办理),进行因子剖析或办理强有关变量后再进行聚类。(分别选用2、3、等类,选择轮廓系数大且易于解说的分类结果)---------------------------------------------------------------------------------------------------------------------------一、计算题经过剖析对于二手车的有关变量,研究这些变量怎么影响二手车的交易价钱。二手车抽样-预办理.csv采集的数据包含:变量名代表含义数据种类备注yuanjia原价连续变量汽车原价baojia报价连续变量汽车报价licheng里程连续变量累计里程数(单位:万公里)pailiang排量.L.连续变量发动机单位时间内开释的能量mali最大马力.Ps.连续变量最大动力输出changshang厂商失散变量十一分类——排名前十的厂商分别用1-10表示,以及前十之外的其余水平cheshen_type车身结构-车种类失散变量四分类——“SUV”、“两厢”、“三厢”、“MPV”pengzhuang清除重要碰撞失散变量清除重要碰撞(0)&存在重要碰撞(1)waiguan_xiufu外观修复检查失散变量清除外观修复(0)&存在外观修复(1)waiguan_quexian外观缺点检查失散变量清除外观缺点(0)&存在外观缺点(1)neishi_quexian内饰缺点检查失散变量清除内饰缺点(0)&存在内饰缺点(1)shangpaishijian上牌时间连续变量与2017年2月之间的时间差(单位:月)对数据进行预办理,剖析应采纳的模型,写出详尽的思路和数据剖析过程,用多种方法查验和解说模型,说明模型的实质意义。答案分析:因变量是报价,连续变量,所以用线性回归,直接导入Datahoop做线性回归,会自动删除共线的变量,F查验T查验都经过(有p值超出的,剖析实质状况是会不够理想,可是也在可接受范围)。实质意义:剖析每个变量对二手车交易价的影响,哪个最大哪个最小,哪个可调,进而提出一些自己的看法。利用Apriori算法,写出以下购物篮数据的屡次项集和强关系规则(设定支持度为2,置信度为)若此购物篮数据为某商场随机选用的7位顾客的交易数据,请联合以前获得的结果为该商场提一些建议。答案分析:屡次项集可是多说明。支持度次数化为2,实质为2/7,将数据TF化导入平台关系剖析设置参数,即可得强关系规则。以下数据是31个省市各行业的薪资状况,各行业薪资不免有关,所以,请先进行降维办理再进行聚类剖析。降维、聚类.xls答案分析:剖析数据没出缺失值、异样值不作办理。做有关性剖析后,发现变量之间有关性很高,用主成分剖析或因子剖析(取2或3个因子)降维,降维后导出再进行聚类剖析。为了研究影响泰坦尼克号生还与否的影响要素有哪些,采集以下数据:train-原始.csv采集变量包含:PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,EmbarkedPassengerId=>乘客IDSurvived=>能否生还Pclass=>乘客等级(1/2/3等舱位)Name=>乘客姓名Sex=>性别Age=>年纪SibSp=>表兄弟/妹个数Parch=>父亲母亲与儿童个数Ticket=>船票信息Fare=>票价Cabin=>客舱Embarked=>登船港口对采集进行预办理,选择适合的算法进行剖析,并议论和解说模型,要求写出具体的思经过程。答案分析:本次剖析选用变量包含:Survived=>能否生还、Pclass=>乘客等级(1/2/3等舱位)、Sex=>性别、Age=>年纪、SibSp=>表兄弟/妹个数、Parch=>父亲母亲与儿童个数、Fare=>票价。理把性别进行0和1办理,female(女)变换成0,male(男)变换成1。年纪Age存在缺失值,所以对于年龄的缺失值需要进行办理,本次对年纪的缺失值用所有年纪数据的均匀值进行填充。采纳方法:逻辑回归,依据模型的展望结果能够看出模型的正确度仍是比较好的,模型的AUC值也是比较高的。所以能够依据这些变量展望乘客生还与否。---------------------------------------------------------------------------------------------------------------一、计算题电信企业为剖析客户流失状况,为客户能否流失供给参照依照,随机选用了600名客户进行研究,获得了如附表所示一系列数据,采集到的数据包含以下字段:在网月数截止数据采集时间为止的在网月数年纪客户实质年纪婚姻状况客户婚姻状况,0代表未婚,1代表已婚现地点居住时间此刻地点的居住月份教育程度1:专科以下;2:本科;3:硕士;4:研究生;5:博士工作状态0:待业;1:任职性别0:女;1:男租设施0:不租;1:租IP电话0:无;1:有无线电话0:有;1:无本月话费话费详细金额语音信箱0:无;1:有网络0:无;1:有来电显示0:无;1:有呼喊等候0:无;1:有呼喊转移0:无;1:有流失状态0:未流失;1:流失依据这些客户数据,进行数据预办理,以后分别用逻辑回归和SVM算法进行分析,对照两种算法的拟合优度,进而选择二者中更为适合的算法模型。写出剖析思路和过程,并为电信企业供给客户营运的有关建议。数据剖析应用1电信客户流失数据.xlsx答案分析:依据逻辑回归和SVM算法对数据的不一样要求,预办理要剖析数据的共线性和异样值,以后分别进行逻辑回归和SVM算法剖析,发现SVM的召回率、正确率、正确度等指标均较好,所以选择SVM算法。有关建议包含引入此模型剖析客户,进而针对性营运等。2.选用7项经济指标作为决定经济种类的影响要素,对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)进行聚类剖析(各项数据均来自2010年国家统计年鉴)。数据剖析应用2省市分类.xlsx对数据进行预办理(创立新的变量等),比较说明聚成几类时聚类成效最好,写出剖析思路和过程,并剖析每一类的实质意义。答案分析:若用k-means进行聚类,预办理要考虑共线性和异样值(数据比较少不可以轻易删除异样值),且分别剖析聚成2、3、4等类的成效(由均匀轮廓系数判断)。---------------------------------------------------------------------------------------------一、计算题某金融机构为了研究其信誉卡发放风险,采集整理了一些客户的数据,包含他们的基本信息,经济状况,以及能否拖欠还款等,详细如附表所示(已经将客户分为了训练集和测试集)。数据剖析应用1测试数据.xlsx数据剖析应用1训练数据.xlsx进行数据预办理,并用不一样的算法模型(逻辑回归、神经网络等)剖析信誉卡拖欠还款状况,联合测试数据对照模型的拟合优度,要求写出详细的思经过程。答案分析:剖析数占有没出缺失值异样值等,数据预办理(逻辑回归考虑共线性、神经网络不考虑),分别用逻辑回归和神经网络对训练集进行拟合,由召回率、正确率平剖析训练偏差,接着对测试集进行展望剖析获得展望值与实质值对照,求召回率、正确率平剖析泛化偏差。对照决定用哪个模型。为了研究手机好评率与品牌、价钱的关系,某企业采集如附表所示数据,数据采集的信息包含手机的议论得分和议论内容以及手机品牌和价钱等信息。手机数据.xlsx对数据进行预办理,选择适合的模型剖析手机好评率与品牌、价钱的关系,要求写出详尽的思路和过程。答案分析:本事例想要经过对应剖析剖析不一样手机品牌和不一样价钱区间的手机的好评状况。对应剖析是研究由定性变量组成的交互汇总表来揭露变量间的联系。交互表的信息以图形的方式展现。主要合用于有多个类其余定类变量,能够揭露同一个变量的各个类型之间的差别,以及不一样变量各个类型之间的对应关系。合用于两个或多个定类变量。所以本事例需要对要研究的定量变量进行定性办理。本事例中品牌属于类型数据,可是此中包含汉字,因子需要进行从头编码;价钱属于连续型变量,所以需要进行失散化办理。好评数不可以直接代表手机的好评情况,所以为了更好地表示手机的好评状况,这里采纳好评率进行剖析。因为好评率计算出来仍旧是一个0到1之间的连续变量,所以需要进行失散化办理。数据剖析:本次剖析采纳版本进行剖析,第一对品牌和气评率进行对应剖析。从剖析结果能够看到数据的交错表,以及提取的3个公因子的贡献率和因子得分。从因子贡献率能够看到提取两个因子的贡献率就达到了80%以上,所以提取两个因子即可。依据对应剖析的图表能够看各处于hp1也就是低好评度的品牌主要有品牌7,9,11,12。接着较低好评度品牌有3,4。较高好评度品牌包含1,5。高好评度品牌有8,10。所以品牌好评率散布为:好评率等级品牌初级ZUK,飞利浦,金立,酷派较低HTC,LG较高360,oppo高级锤子,华为这样就能够清楚地看出不一样品牌的好评状况。而后对价钱等级和气评率等级进行对应剖析,能够看到用户议论中500-1500价钱区间的手机好评率最低,500-6000价位的手机好评率也最低。1500-2000价位的手机好评率较低;2000-2500价位/3000-3500价位和6000-7000价位手机好评率较高,好评率最高的是价位2500-3000价位手机和3500-4000价位。--------------------------------------------------------------------------------下边是7个地域2000年的人均国内生产总值(GDP)和人均花费水平的统计数据:要求:(1)绘制散点图,并计算有关系数,说明二者之间的关系;2)人均GDP作自变量,人均花费水平作因变量,利用最小二乘法求出预计的回归方程,并解说回归系数的实质意义;3)计算判断系数,并解说其意义;4)查验回归方程线性关系的显着性(a=);5)假如某地域的人均GDP为5000元,展望其人均花费水平;6)求人均GDP为5000元时,人均花费水平95%的置信区间和展望区间。(所有结果均保存三位小数)(分)窗体顶端我的答案窗体底端答案分析:提示:(1)使用Datahoop或Excel作出散点图、有关系数,作出有关描述;注意自变量与因变量确实定,利用Datahoop或Excel写出回归方程,作出回归系数实质意义的描述;写出判断系数,并描述意义;在a=的前提下,查验方程的显着性,并做描述;使用Datahoop展望功能做出结果;写出置信区间和展望区间。--------------------------------------------------------------------------------------------依据以下给出的数据进行剖析,本次给出鸢尾花数据,此中包含萼片长、萼片宽、花瓣长、花瓣宽、以及花的种类数据,请依据以下问题进行回答。(此题数据供给在excel里面,数据剖析为三份,一份训练数据,一份测试数据,一份展望数据)(1)依据训练数据,用种类_num作为因变量Y,其余变量作为自变量X,做逻辑回归,写出逻辑回归的方程。(2)依据测试数据获得的结果,写出逻辑回归的混杂矩阵,以及正确率和召回率,Accuracy和F1的值(可依据测试数据结果计算表格获得测试数据集的相应的结果)。3)给出一组展望数据,依据训练模型结果展望,写出展望结果。(分)窗体顶端我的答案窗体底端答案分析:提示:----------------------------------------------------------------------------------------------下表为购物篮事物数据:(1)设minsupport=40%,利用Apriori算法写出所有的屡次项目集,并指出此中支持度最大的二项屡次项目集。2)在第一问基础上设minconfidence=60%,找出所有的有效强关系规则。(分)窗体顶端我的答案窗体底端答案分析:提示:使用Datahoo进行Apriori剖析,注意参数调整--------------------------------------------------------------------------------------某厨卫企业要开发一款燃气灶产品,列举出5个可作为卖点的功能属性:防风、准时、防干烧、不沾油、迅速而正确地打火。该企业的产品设计人员不知道该主要开发哪项功能,剖析师小李向企业提出了使用KANO模型对上述五个功能进行调研分类的想法。并获得了企业的支持。假定你是小李请你绘制KANO模型图来介绍对功能属性分类的思路请你对燃气灶的防干烧功能属性设计检盘问题针对燃气灶的防干烧功能,受访者有多少种可能的回答组合,请写出每一种回答组合所对应的属性类型符号(符号见最后一行题注)4.假定鉴于对240名受访者的调研,获得下表,请算出这5种功能各自的worse系数和better系数,并鉴于这两个系数判断这5中功能的属性类型5.请对该燃气灶的这5项功能开发提出建议注:魅力属性用符号A表示;必备属性用符号M表示;希望属性用符号O表示;没关紧要属性用符号I表示;用户厌烦的属性用R表示;有问题的回答用Q表示功能OIMA118302963烧4778308522140870而正确地打火452010768油69512989(分)窗体顶端我的答案窗体底端答案分析:提示:(1)绘制KANO模型图(2)描述通用检盘问题3)作出属性类型表4)计算worse和better系数,并画出象限图5)给出开发建议---------------------------------------------------------------------------------------挪动企业想联合用户通话行为,介绍相应套餐,或许联合用户现有套餐优化用户套餐,供给个性化套餐,进而对客户进行精确营销,增添客户粘性。为此,挪动企业采集了以下数据,挪动企业采集到的数据包含以下字段:变量名称变量标签Customer_ID用户编号Peak_mins工作日上班时间电话时长OffPeak_mins工作日下班时间电话时长Weekend_mins周末电话时长International_mins国际电话时长Total_mins总通话时长average_mins均匀每次通话时长请你依据这些客户数据,进行数据的预办理(数据预办理过程中能够依据现有变量结构新变量进行剖析),预办理以后选择适合变量进行剖析,剖析算法自行选择,写出剖析思路和过程,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论