南开大学《数据科学导论》20秋在线作业(参考答案)_第1页
南开大学《数据科学导论》20秋在线作业(参考答案)_第2页
南开大学《数据科学导论》20秋在线作业(参考答案)_第3页
南开大学《数据科学导论》20秋在线作业(参考答案)_第4页
南开大学《数据科学导论》20秋在线作业(参考答案)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.以下哪一项不是特征选择常见的方法?()A.过滤式B.封装式C.嵌入式D.开放式答案:D2.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。A.最小化方差B.最小化残差平方和C.最大化信息熵D.最小化标准差答案:C3.以下哪些不是缺失值的影响?()A.数据建模将丢失大量有用信息B.数据建模的不确定性更加显著C.对整体总是不产生什么作用D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出答案:C4.下列两个变量之间的关系中,哪个是函数关系?()A.人的性别和他的身高B.人的工资与年龄C.正方形的面积和边长D.温度与湿度答案:C5.哪一项不属于规范化的方法?()A.最小—最大规范化B.零—均值规范化C.小数定标规范化D.中位数规范化答案:D6.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A.关联规则发现B.聚类C.分类D.自然语言处理答案:A7.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5};假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()。A.1,2,3,4B.1,2,3,5C.1,2,4,5D.1,3,4,5答案:C8.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。A.1B.2C.3D.4答案:B9.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。A.4B.5C.6D.7答案:C10.以下哪一项不属于数据变换?()A.简单函数变换B.规范化C.属性合并D.连续属性离散化答案:C11.一元线性回归中,真实值与预测值的差称为样本的()。A.误差B.方差C.测差D.残差答案:D12.聚类的最简单最基本方法是()。A.划分聚类B.层次聚类C.密度聚类D.距离聚类答案:A13.单层感知机模型属于()模型。A.二分类的线性分类模型B.二分类的非线性分类模型C.多分类的线性分类模型D.多分类的非线性分类模型答案:A14.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。A.最优回归线B.最优分布线C.最优预测线D.最佳分布线答案:A15.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。A.减小,减小B.减小,增大C.增大,减小D.增大,增大答案:B16.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。A.产量每增加一台,单位成本增加100元B.产量每增加一台,单位成本减少1.2元C.产量每增加一台,单位成本平均减少1.2元D.产量每增加一台,单位平均增加100元答案:C17.对于k近邻法,下列说法错误的是()。A.不具有显式的学习过程B.适用于多分类任务C.k值越大,分类效果越好D.通常采用多数表决的分类决策规则答案:C18.实体识别属于以下哪个过程?()A.数据清洗B.数据集成C.数据规约D.数据变换答案:B19.在回归分析中,自变量为(),因变量为()。A.离散型变量,离散型变量B.连续型变量,离散型变量C.离散型变量,连续型变量D.连续型变量,连续型变量答案:D20.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。A.越小B.越大C.无关D.不确定答案:B21.K-means聚类中K值选取的方法是()。A.密度分类法B.手肘法C.大腿法D.随机选取答案:AB22.系统日志收集的基本特征有()。A.高可用性B.高可靠性C.可扩展性D.高效率答案:ABC23.Apriori算法的计算复杂度受()影响。A.支持度阈值B.项数C.事务数D.事务平均宽度答案:ABCD24.距离度量中的距离可以是()。A.欧式距离B.曼哈顿距离C.Lp距离D.Minkowski距离答案:ABCD25.k近邻法的基本要素包括()。A.距离度量B.k值的选择C.样本大小D.分类决策规则答案:ABD26.多层感知机的学习过程包含()。A.信号的正向传播B.信号的反向传播C.误差的正向传播D.误差的反向传播答案:AD27.一元回归参数估计的参数求解方法有()。A.最大似然法B.距估计法C.最小二乘法D.欧式距离法答案:ABC28.什么情况下结点不用划分?()A.当前结点所包含的样本全属于同一类别B.当前属性集为空,或是所有样本在所有属性上取值相同C.当前结点包含的样本集为空D.还有子集不能被基本正确分类答案:ABC29.数据科学具有哪些性质?()A.有效性B.可用性C.未预料D.可理解答案:ABCD30.下面例子属于分类的是()。A.检测图像中是否有人脸出现B.对客户按照贷款风险大小进行分类C.识别手写的数字D.估计商场客流量答案:ABC31.剪枝是决策树学习算法对付“过拟合”的主要手段。()A.正确B.错误答案:A32.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。()A.正确B.错误答案:B33.相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。()A.正确B.错误答案:B34.分拆方法是自底向上的方法。()A.正确B.错误答案:B35.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。()A.正确B.错误答案:A36.在数据预处理时,无论什么情况,都可以直接将异常值删除。()A.正确B.错误答案:B37.对于项集来说,置信度没有意义。()A.正确B.错误答案:A38.给定关联规则A→B,意味着:若A发生,B也会发生。()A.正确B.错误答案:B39.信息熵越小,样本结合的纯度越低。()A.正确B.错误答案:B40.聚合方法是自底向上的方法。()A.正确B.错误答案:A41.BFR聚类簇的坐标可以与空间的坐标保持一致。()A.正确B.错误答案:B42.集中趋势能够表明在一定条件下数据的独特性质与差异。()A.正确B.错误答案:B43.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。()A.正确B.错误答案:B44.朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能。()A.正确B.错误答案:A45.数据科学运用科学方法分析数据,位于几个学科的交叉点并利用领域特定的知识,使大数据的分析成为可能。()A.正确B.错误答案:A46.使用SVD方法进行图像压缩不可以保留图像的重要特征。()A.正确B.错误答案:B47.K均值(K-Means)算法是密度聚类。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论