南开大学21秋学期数据科学导论在线作业72319_第1页
南开大学21秋学期数据科学导论在线作业72319_第2页
南开大学21秋学期数据科学导论在线作业72319_第3页
南开大学21秋学期数据科学导论在线作业72319_第4页
南开大学21秋学期数据科学导论在线作业72319_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

21秋学期(1709、1803、1809、1903、1909、2003、2009、2103)《数据科学导论》在线作业一、单选题1.通过变量标准化计算得到的回归方程称为()。A.标准化回归方程B.标准化偏回归方程C.标准化自回归方程D.标准化多回归方程答案:A.数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()A.普通值B.异常值C.不一致的值D.重复值答案:A.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()A.简单函数变换B.规范化C.属性构造D.连续属性离散化答案:B.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。A.1B.2C.3D.4答案:B.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。A.4B.5C.6D.7答案:C.BFR聚类是用于处理数据集()的k-means变体。A.大B.中C.小D.所有答案:A.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。A.减小,减小.减小,增大C.增大,减小D.增大,增大答案:B.变量之间的关系一般可以分为确定性关系与()。A.非确定性关系.线性关系C.函数关系D.相关关系答案:A以下哪一项不是特征选择常见的方法()A.过滤式B.封装式C.嵌入式D.开放式答案:D.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。A.最小化方差#最小化标准差B.最小化残差平方和C.最大化信息熵答案:C11.以下属于关联分析的是()A.CPU性能预测B.购物篮分析C.自动判断鸢尾花类别D.股票趋势建模答案:B.在一元线性回归模型中,残差项服从()分布。A.泊松B.正态C.线性D.非线性答案:B.通过构造新的指标-线损率,当超出线损率的正常范围,则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()A.简单函数变换B.规范化C.属性构造D.连续属性离散化答案:C.下面不是分类的常用方法的有()A.K近邻法B.朴素贝叶斯C.决策树D.条件随机场答案:D15.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A.关联规则发现B.聚类C.分类D.自然语言处理答案:A16.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。A.1,线性B.2,线性C.1,非线性D.2,非线性答案:A17.以下哪些不是缺失值的影响()A.数据建模将丢失大量有用信息B.数据建模的不确定性更加显著C.对整体总是不产生什么作用D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出答案:C18.BFR聚类用于在()欧氏空间中对数据进行聚类A.高维B.中维C.低维D.中高维答案:A19.对于k近邻法,下列说法错误的是()。A.不具有显式的学习过程B.适用于多分类任务C.k值越大,分类效果越好D.通常采用多数表决的分类决策规则答案:C20.考 虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()A.1,2,3,4B.1,2,3,5C.1,2,4,5D.1,3,4,5答案:C二、多选题.层次聚类的方法是()A.聚合方法B.分拆方法C.组合方法D.比较方法答案:AB.对于多层感知机,()层拥有激活函数的功能神经元。A.输入层B.隐含层C.输出层答案:BC.Apriori算法的计算复杂度受()影响。A.支持度阈值B.项数C.事务数D.事务平均宽度答案:ABCD.系统日志收集的基本特征有()A.高可用性B.高可靠性C.可扩展性D.高效率答案:ABC.聚类的主要方法有()。A.划分聚类B.层次聚类C.密度聚类D.距离聚类答案:ABC.下面例子属于分类的是()A.检测图像中是否有人脸出现B.对客户按照贷款风险大小进行分类C.识别手写的数字D.估计商场客流量答案:ABC.K-means聚类中K值选取的方法是()。A.密度分类法.手肘法C.大腿法D.随机选取答案:AB.数据科学具有哪些性质()A.有效性B.可用性C.未预料D.可理解答案:ABCD.什么情况下结点不用划分()A.当前结点所包含的样本全属于同一类别B.当前属性集为空,或是所有样本在所有属性上取值相同C.当前结点包含的样本集为空D.还有子集不能被基本正确分类答案:ABC.相关性的分类,按照相关的方向可以分为()。A.正相关B.负相关C.左相关D.右相关答案:AB三、判断题.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。正确.给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。错误.关联规则可以用枚举的方法产生。正确.具有双隐层的感知机足以用于解决任何复杂的分类问题。正确.在数据预处理时,无论什么情况,都可以直接将异常值删除错误.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。正确.支持度是衡量关联规则重要性的一个指标。正确.sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。错误.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。错误.K-means算法采用贪心策略,通过迭代优化来近似求解。正确.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。正确.K均值(K-Means)算法是密度聚类。错误.神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。正确.随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。正确.为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过少,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合错误.方差过小的特征对数据的区分能力强错误.可信度是对关联规则的准确度的衡量。正确.获取数据的方式有多种,可以从网页、测量、数据库、传统媒体、监控等等方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论