版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、20秋学期(1709、1803、1809、1903、1909、2003、2009 )数据科学导论在线作业试卷总分:100 得分:100一、单选题 (共 20 道试题,共 40 分)1.对于k近邻法,下列说法错误的是()。A.不具有显式的学习过程B.适用于多分类任务C.k值越大,分类效果越好D.通常采用多数表决的分类决策规则答案:C2.以下哪个不是处理缺失值的方法()A.删除记录B.按照一定原则补充C.不处理D.随意填写答案:D3.在一元线性回归模型中,残差项服从()分布。A.泊松B.正态C.线性D.非线性答案:B4.一元线性回归中,真实值与预测值的差称为样本的()。A.误差B.方差C.测差D.
2、残差答案:D5.Apriori算法的加速过程依赖于以下哪个策略( )A.抽样B.剪枝C.缓冲D.并行答案:B6.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()A.异常值B.缺失值C.不一致的值D.重复值答案:C7.单层感知机模型属于()模型。A.二分类的线性分类模型B.二分类的非线性分类模型C.多分类的线性分类模型D.多分类的非线性分类模型答案:A8.层次聚类适合规模较()的数据集A.大B.中C.小D.所有答案:C9.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在
3、窃漏电等异常行为属于数据变换中的()A.简单函数变换B.规范化C.属性构造D.连续属性离散化答案:C10.例如将工资收入属性值映射到-1,1或者0,1内属于数据变换中的()A.简单函数变换B.规范化C.属性构造D.连续属性离散化答案:B11.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。A.越小B.越大C.无关D.不确定答案:B12.考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()A.1,2,3,4B.1
4、,2,3,5C.1,2,4,5D.1,3,4,5答案:C13.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。A.1,线性B.2,线性C.1,非线性D.2,非线性答案:A14.实体识别属于以下哪个过程()A.数据清洗B.数据集成C.数据规约D.数据变换答案:B15.通过变量标准化计算得到的回归方程称为()。A.标准化回归方程B.标准化偏回归方程C.标准化自回归方程D.标准化多回归方程答案:A16.我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。A.自上而下B.自下而上C.自左而右D.自右而左答案:B17.聚类是一种()。A.有监督学习B.无
5、监督学习C.强化学习D.半监督学习答案:B18.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。A.最小化方差#最小化标准差B.最小化残差平方和C.最大化信息熵答案:C19.实体识别的常见形式()A.同名异义B.异名同义C.单位不统一D.属性不同答案:D20.以下哪一项不属于数据变换()A.简单函数变换B.规范化C.属性合并D.连续属性离散化答案:C二、多选题 (共 10 道试题,共 20 分)21.距离度量中的距离可以是()A.欧式距离B.曼哈顿距离C.Lp距离D.Minkowski距离答案:ABCD22.Apriori算法的计算复杂度受()影响。A.支持度阈值B.项数C.事务数D
6、.事务平均宽度答案:ABCD23.K-means聚类中K值选取的方法是()。A.密度分类法B.手肘法C.大腿法D.随机选取答案:AB24.聚类的主要方法有()。A.划分聚类B.层次聚类C.密度聚类D.距离聚类答案:ABC25.对于多层感知机,()层拥有激活函数的功能神经元。A.输入层B.隐含层C.输出层答案:BC26.什么情况下结点不用划分()A.当前结点所包含的样本全属于同一类别B.当前属性集为空,或是所有样本在所有属性上取值相同C.当前结点包含的样本集为空D.还有子集不能被基本正确分类答案:ABC27.下列选项是BFR的对象是()A.废弃集B.临时集C.压缩集D.留存集答案:ACD28.系
7、统日志收集的基本特征有()A.高可用性B.高可靠性C.可扩展性D.高效率答案:ABC29.下面例子属于分类的是()A.检测图像中是否有人脸出现B.对客户按照贷款风险大小进行分类C.识别手写的数字D.估计商场客流量答案:ABC30.k近邻法的基本要素包括()。A.距离度量B.k值的选择C.样本大小D.分类决策规则答案:ABD三、判断题 (共 20 道试题,共 40 分)31.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。答案:正确32.给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分
8、到超平面的两侧,则称该数据集是线性可分数据集。答案:错误33.Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。答案:正确34.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。答案:正确35.两个对象越相似,他们的相异度就越高。答案:错误36.朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能答案:正确37.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。答案:错误38.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点
9、非常敏感。答案:正确39.K均值(K-Means)算法是密度聚类。答案:错误40.K-means算法采用贪心策略,通过迭代优化来近似求解。答案:正确41.赤池信息准则是衡量统计模型拟合优良性的一种标准。答案:正确42.平均减少的不纯度越大,则特征重要度越高。答案:正确43.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。答案:错误44.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。答案:正确45.数据科学具有广泛的应用领域,可以应用在社交网络、职业体育、政治竞选答案:正确46.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。答案:正确47.决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB12T 544-2014 南水北调工程项目档案归档整.理规范
- 人生大事的观后感
- 中学新学期开学的致辞(17篇)
- 中学校长开学会议讲话稿(6篇)
- 中学高级述职报告
- 教师课件制作教学课件
- 影响薪酬管理的因素及原则
- 浇铸型工业有机玻璃板材 编制说明
- 歌曲春晓课件教学课件
- 榜样事迹课件教学课件
- 体质测试成绩表(自动统计数据)(小学、初中)
- 初二八年级下物理期中考试分析
- 外派董事监事管理办法
- 医疗行业伦理委员会成员2023年工作总结
- 脑卒中后吞咽障碍患者进食护理(2023年中华护理学会团体标准)
- DB21T 2885-2023居住建筑节能设计标准
- 遗体防腐整容污染处理设备器械消毒
- 护理质量管理常用工具
- 2022公路工程施工技术方案手册
- 亮化工程可行性研究报告
- (完整版)病例演讲比赛PPT模板
评论
0/150
提交评论