南开大学22春学期《数据科学导论》在线作业答卷_第1页
南开大学22春学期《数据科学导论》在线作业答卷_第2页
南开大学22春学期《数据科学导论》在线作业答卷_第3页
南开大学22春学期《数据科学导论》在线作业答卷_第4页
南开大学22春学期《数据科学导论》在线作业答卷_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

22春学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业-00002试卷总分:100得分:100一、单选题(共20道试题,共40分)1.聚类是一种()。A.有监督学习B.无监督学习C.强化学习D.半监督学习答案:B2.一元线性回归中,真实值与预测值的差称为样本的()。A.误差B.方差C.测差D.残差答案:D3.对于k近邻法,下列说法错误的是()。A.不具有显式的学习过程B.适用于多分类任务C.k值越大,分类效果越好D.通常采用多数表决的分类决策规则答案:C4.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。A.产量每增加一台,单位成本增加100元B.产量每增加一台,单位成本减少1.2元C.产量每增加一台,单位成本平均减少1.2元D.产量每增加一台,单位平均增加100元答案:C5.哪一项不属于规范化的方法()A.最小-最大规范化B.零-均值规范化C.小数定标规范化D.中位数规范化答案:D6.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()A.K-meansB.BayesNetworkC.C4.5D.Apriori答案:D7.在回归分析中,自变量为(),因变量为()。A.离散型变量,离散型变量B.连续型变量,离散型变量C.离散型变量,连续型变量D.连续型变量,连续型变量答案:D8.层次聚类适合规模较()的数据集A.大B.中C.小D.所有答案:C9.BFR聚类是用于处理数据集()的k-means变体。A.大B.中C.小D.所有答案:A10.手肘法的核心指标是()。A.SESB.SSEC.RMSED.MSE答案:B11.层次聚类对给定的数据进行()的分解。A.聚合B.层次C.分拆D.复制答案:B12.根据映射关系的不同可以分为线性回归和()。A.对数回归B.非线性回归C.逻辑回归D.多元回归答案:B13.以下属于关联分析的是()A.CPU性能预测B.购物篮分析C.自动判断鸢尾花类别D.股票趋势建模答案:B14.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。A.减小,减小B.减小,增大C.增大,减小答案:B15.特征选择的四个步骤中不包括()A.子集产生B.子集评估C.子集搜索D.子集验证答案:C16.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。A.最小化方差#最小化标准差B.最小化残差平方和C.最大化信息熵答案:C17.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。A.最优回归线B.最优分布线C.最优预测线D.最佳分布线答案:A18.BFR聚类用于在()欧氏空间中对数据进行聚类A.高维B.中维C.低维D.中高维答案:A19.Apriori算法的加速过程依赖于以下哪个策略()A.抽样B.剪枝C.缓冲D.并行答案:B20.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。A.4B.5C.6D.7答案:C二、多选题(共10道试题,共20分)21.系统日志收集的基本特征有()A.高可用性B.高可靠性C.可扩展性D.高效率答案:ABC22.距离度量中的距离可以是()A.欧式距离B.曼哈顿距离C.Lp距离D.Minkowski距离答案:ABCD23.Apriori算法的计算复杂度受()影响。A.支持度阈值B.项数C.事务数D.事务平均宽度答案:ABCD24.下面例子属于分类的是()A.检测图像中是否有人脸出现B.对客户按照贷款风险大小进行分类C.识别手写的数字D.估计商场客流量答案:ABC25.数据科学具有哪些性质()A.有效性B.可用性C.未预料D.可理解答案:ABCD26.聚类的主要方法有()。A.划分聚类B.层次聚类C.密度聚类D.距离聚类答案:ABC27.k近邻法的基本要素包括()。A.距离度量B.k值的选择C.样本大小D.分类决策规则答案:ABD28.层次聚类的方法是()A.聚合方法B.分拆方法C.组合方法D.比较方法答案:AB29.多层感知机的学习过程包含()。A.信号的正向传播B.信号的反向传播C.误差的正向传播D.误差的反向传播答案:AD30.什么情况下结点不用划分()A.当前结点所包含的样本全属于同一类别B.当前属性集为空,或是所有样本在所有属性上取值相同C.当前结点包含的样本集为空D.还有子集不能被基本正确分类答案:ABC三、判断题(共20道试题,共40分)31.数据科学具有广泛的应用领域,可以应用在社交网络、职业体育、政治竞选答案:正确32.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。答案:正确33.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。答案:错误34.平均减少的不纯度越大,则特征重要度越高。答案:正确35.使用SVD方法进行图像压缩不可以保留图像的重要特征。答案:错误36.多层感知机的学习能力有限,只能处理线性可分的二分类问题。答案:错误37.关联规则可以用枚举的方法产生。答案:正确38.获取数据的方式有多种,可以从网页、测量、数据库、传统媒体、监控等等方式答案:正确39.每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。答案:正确40.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。答案:正确41.当特征为离散型时,可以使用信息增益作为评价统计量。答案:正确42.由不同的距离度量所确定的最近邻点是不同的答案:正确43.Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。答案:正确44.sigmoid函数属于阶跃函数,是神经网络中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论