Python经济大数据分析模拟试卷试卷一含参考答案_第1页
Python经济大数据分析模拟试卷试卷一含参考答案_第2页
Python经济大数据分析模拟试卷试卷一含参考答案_第3页
Python经济大数据分析模拟试卷试卷一含参考答案_第4页
Python经济大数据分析模拟试卷试卷一含参考答案_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大学试卷学年第1学期;课号课程名称Python经济大数据分析(A闭卷);适用班级(或年级、专业)(每位考生需要答题纸(8k)1张、草稿纸(16k)1张)考试时间120分钟班级学号姓名题号一二三四五六七八九十成绩满分30202030得分评卷人一、单项选择题(每道题2分,共30分)1.衡量取样数据的质量的标准不包括:()A.资料完整无缺B.各类指标项齐全C.数据准确无误D.数据一致2.Python中如果用户要自己定义函数,需要使用的关键字是?()A.fromB.def或lambdaC.importD.return3.以下代码的输出结果为()defFoo(x):if(x==1):return1else:returnx+Foo(x-1)print(Foo(4))10B.24C.7D.1以下关于分类问题的说法错误的是?()A.分类问题输入属性必须是离散的B.分类属于监督学习C.回归问题在一定条件下可被转化为多分类问题D.多分类问题可以被拆分为多个二分类问题5.关于第三方库,以下说法不正确的是()。A.下载源代码自行安装B.用pip命令安装C.现在编译好的文件包进行安装D.单独导入库名不可以使用库中的所有子模块6.提供了数组支持以及相应的高效的处理函数的是()A.SciPyB.KerasC.NumpyD.StatsModels7.有关数据质量正确的说法是()A.错误的数据也可能产生有用的结果B.数据预处理的重要目的是提高数据挖掘结果的质量C.因为分析的数据量很大,有些噪声即使不去除也对数据挖掘没多大影响D.数据质量不需要对业务理解8.假设有三类数据,用OVR(OneVRest)方法需要分类几次才能完成?A.3B.4C.1D.29.以下哪些不是二分类问题?A.根据一个人的身高和体重判断他(她)的性别。B.根据肿瘤的体积、患者的年龄来判断良性或恶性?C.身高1.85m,体重100kg的男人穿什么尺码的T恤?D.或者根据用户的年龄、职业、存款数量来判断信用卡是否会违约?10.以下不属于集中趋势统计量的是()A.均值B.中位数C.四分位数D.众数11.置信度是度量()的指标。A.简洁性B.可靠性C.实用性D.新颖性12.以下不属于聚类算法类型的是()A.划分方法B.层次方法C.基于密度的方法D.决策树归纳算法13.下面哪个回归分析的说法是正确的()A.非线性回归问题一般要转化为线性回归B.回归分析不需要样本训练C.可以预测非数据型属性的类别D.回归分析是分析一个变量与其他一个(或几个)变量之间的线性关系的统计方法14.以下不属于属性规约常用的处理技术是()A.合并属性B.决策树归纳C.主成分分析D.特征加权15.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则二、填空题(每空2分,共20分)1.处理缺失值常用的三种方法是:删除记录、___________和____________。2.二分类问题的混淆矩阵如图所示,通过图中的数据可以得知精确率是________,召回率是_________,F1值是___________,真正例率是__________,假正例率是________,准确率是________,错误率是_________。(保留两位小数)3.对聚类分析算法进行评价常用的方法有purity评价法、RI评价法和________。三、名词解释题(每道题5分,共20分)1.脏数据2.数据清洗3.关联规则4.BP神经网络四、简答题(每道题6分,共30分)1.在数据质量分析的过程中,如何进行异常值分析?2.数据探索的定义,简述数据质量分析中脏数据的类型。3.简述为什么要做数据预处理,数据预处理的主要内容。4.什么是决策树?决策树的剪枝有哪些方法?5.什么是聚类?简要描述K-Means聚类算法的实现过程。试卷一答案单选1-5:DBAAD6-10:CBDCC11-15:BDADC填空1.数据插补、不处理。2.0.90;0.78;0.84;0.78;0.02;0.93;0.073.5F值评价法名词解释题1.脏数据:脏数据一般是指不符合要求以及不能直接进行相应分析的数据。2.数据清洗:数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉和挖掘主题无关的数据,处理缺失值、异常值等。3.关联规则:假设I={I_1,I_2,⋯,I_n}是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(TransactionID)对应。关联规则是反映一个事物与其他事物之间的相互依存性和关联性,用于从大量数据中挖掘出有价值的数据项之间的相关关系,可从数据中分析出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则。4.BP神经网络:一种按误差拟传播算法训练的多层前馈网络,学习算法是σ学习规则。问答题1.异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点的分析。异常值分析方法主要有:简单统计量分析、3原则、箱型图分析。2.通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。脏数据的类型:缺失值、异常值、不一致的值、重复数据以及含有特殊符号的数据。3.在数据挖掘中,海量的原始数据中存在着大量不完整、不一致、有异常的数据,将严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以需要进行数据的预处理。数据预处理的主要包括数据清洗、数据集成、数据变换和数据规约。4.决策树是一种机器学习的方法,是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,生成算法有ID3,C4.5和C5.0等。决策树的剪枝通常有两类方法,一类是预剪枝,另一类是后剪枝。5.聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论