南开20春(1709、1803、1809、1903、1909、2003)《数据科学导论》作业答案_第1页
南开20春(1709、1803、1809、1903、1909、2003)《数据科学导论》作业答案_第2页
南开20春(1709、1803、1809、1903、1909、2003)《数据科学导论》作业答案_第3页
南开20春(1709、1803、1809、1903、1909、2003)《数据科学导论》作业答案_第4页
南开20春(1709、1803、1809、1903、1909、2003)《数据科学导论》作业答案_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、南开20春(1709、1803、1809、1903、1909、2003)数据科学导论作业答案实体识别的常见形式()A.同名异义B.异名同义C.单位不统一D.属性不同例如将工资收入属性值映射到-1,1或者0,1内属于数据变换中的()A.简单函数变换B.规范化C.属性构造D.连续属性离散化单层感知机模型属于()模型。A.二分类的线性分类模型B.二分类的非线性分类模型C.多分类的线性分类模型D.多分类的非线性分类模型通过变量标准化计算得到的回归方程称为()A.标准化回归方程B.标准化偏回归方程C.标准化自回归方程D.标准化多回归方程数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生

2、改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()A.异常值B.缺失值C.不一致的值D.重复值以下哪些不是缺失值的影响()A.数据建模将丢失大量有用信息B.数据建模的不确定性更加显著C.对整体总是不产生什么作用D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出层次聚类适合规模较()的数据集。A.大B.中C.小D.所有以下哪个不是处理缺失值的方法()A.删除记录B.按照一定原则补充C.不处理D.随意填写聚类的最简单最基本方法是()A.划分聚类B.层次聚类C.密度聚类D.距离聚类具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。A.1,线性B.

3、2,线性C.1,非线性D.2,非线性考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()A.1,2,3,4B.1,2,3,5C.1,2,4,5D.1,3,4,5在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()A.减小,减小B.减小,增大C.增大,减小D.增大,增大手肘法的核心指标是()A.SESB.SSEC.RMSED.MSE变量之间的关系一般可以分为确定性关系与()A.非确定性关系B.线性关系C.函数关系D.相关关系以下

4、哪一项不属于数据变换()A.简单函数变换B.规范化C.属性合并D.连续属性离散化以下哪一项不是特征选择常见的方法()A.过滤式B.封装式C.嵌入式D.开放式通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()A.简单函数变换B.规范化C.属性构造D.连续属性离散化比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()A.异常值B.不一致的值C.重复值D.缺失值某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为Y=100-1.2X,这说明()A.产量每增加一台,单位

5、成本增加100元B.产量每增加一台,单位成本减少1.2元C.产量每增加一台,单位成本平均减少1.2元D.产量每增加一台,单位平均增加100元层次聚类对给定的数据进行()的分解。A.聚合B.层次C.分拆D.复制K-means聚类中K值选取的方法是()A.密度分类法B.手肘法C.大腿法D.随机选取数据科学具有哪些性质()A.有效性B.可用性C.未预料D.可理解多层感知机的学习过程包含()A.信号的正向传播B.信号的反向传播C.误差的正向传播D.误差的反向传播系统日志收集的基本特征有()A.高可用性B.高可靠性C.可扩展性D.高效率层次聚类的方法是()A.聚合方法B.分拆方法C.组合方法D.比较方法

6、距离度量中的距离可以是()A.欧式距离B.曼哈顿距离C.Lp距离D.Minkowski距离聚类的主要方法有()A.划分聚类B.层次聚类C.密度聚类D.距离聚类相关性的分类,按照相关的方向可以分为()A.正相关B.负相关C.左相关D.右相关对于多层感知机,()层拥有激活函数的功能神经元。A.输入层B.隐含层C.输出层什么情况下结点不用划分()A.当前结点所包含的样本全属于同一类别B.当前属性集为空,或是所有样本在所有属性上取值相同C.当前结点包含的样本集为空D.还有子集不能被基本正确分类信息熵越大,数据信息的不确定性越小。()A.正确B.错误K-means算法采用贪心策略,通过迭代优化来近似求解

7、。()A.正确B.错误K-means聚类是发现给定数据集的K个簇的算法。()A.正确B.错误特征的信息增益越大,则其越不重要。()A.正确B.错误决策树的输入为训练集,输出为以node为根结点的一棵决策树。()A.正确B.错误探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。()A.正确B.错误sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。()A.正确B.错误在数据预处理时,无论什么情况,都可以直接将异常值删除。()A.正确B.错误一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。()A.正

8、确B.错误当特征为离散型时,可以使用信息增益作为评价统计量。()A.正确B.错误支持度是衡量关联规则重要性的一个指标。()A.正确B.错误交叉表被广泛用于调查研究,商业智能,工程和科学研究。()A.正确B.错误BFR聚类簇的坐标可以与空间的坐标保持一致。()A.正确B.错误在树的结构中,特征越重要,就越远离根节点。()A.正确B.错误神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。()A.正确B.错误多元线性回归模型中,标准化偏回归系数没有单位。()A.正确B.错误单层感知机对于线性不可分的数据,学习过程也可以收敛。()A.正确B.错误利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。()A.正确B.错误EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。()A.正确B.错误对于项集来说,置信度没有意义。()A.正确B.错误 参考答案:D参考答案:B参考答案:A参考答案:A参考答案:C参考答案:C参考答案:C参考答案:D参考答案:A参考答案:A参考答案:C参考答案:B参考答案:B参考答案:A参考答案:C参考答案:D参考答案:C参考答案:C参考答案:C参考答案:B参考答案:AB参考答案:ABCD参考答案:AD参考答案:ABC参考答案:AB参考答案:ABCD参考答案:ABC参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论