下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学年第1学期;课号课程名称Python经济大数据分析(B闭卷);适用班级(或年级、专业)(每位考生需要答题纸(8k)1张、草稿纸(16k)1张)考试时间120分钟班级学号姓名题号一二三四五六七八九十成绩满分30202030得分评卷人一、单项选择题(每道题2分,共30分)1.在进行数据抽样时候的标准不包括:()A.可靠性B.有效性C.一致性D.相关性2.以下代码的运行结果是?()defInputInt(a):a=15b=2InputInt(b)print(b)15B.2C.15.2D.b3.对于数据挖掘中的原始数据,不需要考虑的问题包括()。A.错误值B.重复C.不完整D.数据产生的人4.对于不服从正态分布的变量、分类或等级变量之间的关联性常采用:()A.Spearman相关系数B.判定系数C.Pearson相关系数D.Gamma系数5.在进行数据探索时能够一次查看数据的基本情况的方法是()A.subplot()B.describe()C.cumsum()D.add_subplot()6.由于研究目的和对比基础不同,在进行相对数比较时采用的方法不包括()A.结构相对数B.比例相对数C.过程相对数D.强度相对数7.以下不属于数据处理中经常使用的缺失值填充的方法()。A.忽略元组B.属性均值填充缺失值C.最近邻填充缺失值D.回归填充缺失值8.哪些算法不需要数据归一化?A.kNNB.SVMC.k-meansD.决策树9.以下哪些方法不能用于处理欠拟合?A.增加模型复杂度B.增大正则化系数C.增加新的特征D.对特征进行变换,使用组合特征或高维特征10.以下那种说法是错误的()。A.一个系统越是有序,信息熵就越低B.中国足球队战胜巴西足球队的信息熵要小于中国乒乓球队战胜巴西乒乓球队的信息熵C.信息增益=信息熵-条件熵D.一个系统越是混乱,随机变量的不确定性就越大,信息熵就越高11.关于CART算法,错误的是()。A.CART算法既可以处理分类问题,也可以处理回归问题B.可以处理样本不平衡问题C.CART算法采用信息增益率的大小来度量特征的各个划分点D.CART分类树采用基尼系数的大小来度量特征的各个划分点12.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘中的()。A.关联规则B.聚类C.分类D.自然语言处理13.有关数据挖掘预处理不正确的说法是()。A.预处理是数据挖掘一个不可少的环节B.数值规约可以使用聚类进行C.预处理涉及缺失值分析、异常值分析等很多工作D.预处理的过程可能本身就是一个数据挖掘过程14.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()A.0.821B.1.224C.1.458D.0.71615.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?A.分类B.聚类C.关联分析D.协同过滤二、填空题(每空2分,共20分)1.数据抽样的标准包括:可靠性、有效性、___________。2.Python中包含4种内建的数据结构为:________、字典、元组、_________。3.常用的异常值探测方法是简单统计量分析、箱型图分析和____________。4.数据的不一致性主要是数据的_____________和______________。5.处理缺失值常用的三种方法是:删除记录、___________和____________。6.实现分类与预测的常用算法有回归分析、__________、人工神经网络、___________和支持向量机。三、名词解释题(每道题5分,共20分)1.分类2.决策树3.预测4.纯随机序列四、简答题(每道题6分,共30分)1.简述什么是异常值分析,以及进行异常值探测的方法。2.简述为什么要做数据预处理,数据预处理的主要内容。3.常见的分类算法有哪些?4.简述分类的概念,以及分类算法的实现过程。5.LR(逻辑回归)和SVM的联系与区别?试卷二答案单选1-5:CBDBA6-10:CADBB11-15:CACDD填空1.相关性2.列表list、集合set3.3σ原则4.矛盾性、不相容性5.数据插补、不处理。6.决策树、贝叶斯网络名词解释题1.分类是构建一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。2.决策树(DecisionTree)通过对训练样本的学习,并建立分类规则,然后依据分类规则,对新样本数据进行分类预测,属于有监督学习。3.预测是建立两种或两种以上变量间相互以来的函数模型,然后进行预测和控制。4.纯随机序列又称白噪声序列,序列的各项之间没有任何相关性,序列在进行完全无序的随机波动。问答题1.异常值分析是检验数据是否有录入错误,是否含有不合常理的数据。常用的方法有简单统计量分析、3σ原则和箱型图。2.在数据挖掘中,海量的原始数据中存在着大量不完整、不一致、有异常的数据,将严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以需要进行数据的预处理。3.答:SVM、神经网络、随机森林、逻辑回归、KNN、贝叶斯4.分类是构建一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类算法的过程有两步:第一步是学习步,通过归纳分析训练样本集来建立分类模型,得到分类规则;第二步是分类步,先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用模型对未知类标号的待测样本集进行预测。5.联系:LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题)两个方法都可以增加不同的正则化项,如L1、L2等等。所以在很多实验中,两种算法的结果是很接近的。区别:LR是参数模型,SVM是非参数模型。从目标函数来看,区别在于逻辑回归采用的是LogisticalLoss,SVM采用的是hingeloss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。SVM的处理方法是只考虑SupportVectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 关于个人护士述职报告范文5篇
- 2024年皮毛批发销售协议样本版B版
- 2024年海门商品房购买合同
- 一年级道德与法治下册 第二单元 学校生活真快乐 第五课 成长不烦恼教学实录 苏教版
- 上海市八年级政治下册 第四单元 分清是非 第13课 多一点情趣 多一点高雅 第1框 学会休闲教学实录 苏教版
- 物流机械与设备
- 陀螺定义,基本特性及分类
- 分数连除与乘除混合(教学实录)-2024-2025学年六年级上册数学苏教版
- 2024秋七年级英语上册 Unit 7 Days and Months Lesson 40 When Is Your Birthday教学实录 (新版)冀教版
- 参观类的实习报告范文合集十篇
- 体育特长生足球专项测试表
- 培训市场调查分析报告
- 物业小区安全生产隐患排查治理表
- 公路法知识培训课件
- (高清版)DZT 0331-2020 地热资源评价方法及估算规程
- 循环水泵岗位安全操作规程培训
- 大学生劳动教育课件:发展专业技能进行创造性劳动
- 医院筹建新科室方案
- 人民大会堂介绍课件
- 大营销管控:持续做大做强的科学管控体系
- 基于杜邦分析的三元股份有限公司盈利能力分析
评论
0/150
提交评论