《数据科学导论》复习资料_第1页
《数据科学导论》复习资料_第2页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据科学课程期末复习资料数据科学课程期末复习资料数据科学课程讲稿章节目录:第一章导论第一节了解数据科学的基本概念第二节了解数据科学的应用第三节了解数据科学的过程第四节掌握数据科学的方法第二章数据获取及预处理第一节了解获取数据的途径和方法第二节掌握数据质量检验的方法第三节掌握数据清洗第四节掌握数据集成第五节掌握数据规约第六节掌握数据变换第三章数据分析第一节了解探索性数据分析的概念第二节掌握单变量分析方法第三节掌握多变量分析方法第四节掌握样本相似性与相异性分析的方法第四章特征工程第一节了解特征的介绍和创建过程第二节了解降维的基本概念第三节掌握主成分分析-PCA第四节掌握奇异值分解-SVD第五节了解

2、特征选择的基本概念第六节掌握过滤式方法第七节了解产生特征子集的搜索策略第八节了解封装式方法第九节了解嵌入式方法第五章关联规则算法第一节了解关联规则的基本概念第二节掌握频繁项集的产生过程第三节掌握 Apriori 算法第六章分类算法第一节了解分类问题基本概念第二节掌握 k 近邻算法第三节了解贝叶斯定理第四节掌握朴素贝叶斯第五节了解决策树的基本概念第六节了解决策树-特征选择第七节了解决策树-剪枝算法第七章线性回归算法第一节了解线性回归的基本概念第二节掌握一元线性回归第三节掌握多元线性回归第八章人工神经网络第一节了解神经网络的基本概念第二节掌握感知机的学习算法第三节掌握多层感知机-反向传播算法第九章

3、聚类算法第一节了解聚类问题的介绍第二节掌握层次聚类第三节掌握 K-means 聚类第四节了解 BFR 聚类一、客观部分:(单项选择、判断)(一)、选择部分1、通过构造新的指标-线损率,当超出线损率的正常范围,则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的(C)A. 简单函数变换B. 规范化C. 属性构造D. 连续属性离散化考核知识点考核知识点: :数据变换数据变换参见讲稿章节:参见讲稿章节:2-6附 1.1.1(考核知识点解释):数据变换是对数据进行规范化处理,将数据转换成“适当的”形式,更适用于任务及算法需要。包括简单函数变换、规范化、属性构造、连续属性离散化等。简单函数变

4、换:对原始数据进行某些数学函数变换,常用来将不具有正态分布的数据变换成具有正态分布的数据。比如个人年收入的取值范围为 10000 元到 10 亿元,区间太大使用对数变换对其进行压缩是常用的一种变换处理方法。规范化:不同评价指标具有不同的量纲,数值间的差别可能很大。为了消除量纲和差异的影响,需要进行标准化处理。将数据按照比例进行缩放,落入特定区域,便于进行综合分析。例如将工资收入属性值映射到-1,1或者0,1内属性构造:利用已有的属性集构造新的属性,加入到现有的属性集合,提高结果精度,挖掘更深层次模式。连续属性离散化:在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最

5、后用不同的符号或整数值代表落在每个子区间中的数据值。2、实体识别属于以下哪个过程(B)A. 数据清洗B. 数据集成C. 数据规约D. 数据变换考核知识点考核知识点: :数据集成数据集成参见讲稿章节:参见讲稿章节:2-4附 1.1.2(考核知识点解释):数据集成是将多个数据源合并,存放在一个一致的数据存储(如数据仓库)中。数据集成是数据预处理的一部分。数据预处理通常包括数据清洗、数据集成、数据规约和数据变换。其中:数据清洗一般包括缺失值处理和异常值处理。数据集成一般包括实体识别和冗余属性识别。数据规约一般包括属性规约和数值规约。数据变换一般包括简单函数变换、规范化、属性构造等。3、数据质量检验的

6、主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下(A)A. 普通值B. 异常值C. 不一致的值D. 重复值考核知识点考核知识点: :数据质量检验数据质量检验参见讲稿章节:参见讲稿章节:2-2附 1.1.3(考核知识点解释):对于数据分析而言,只有一份高质量的基础数据,才可能得到正确、有用的结论。期望数据完美是不现实的,因为会受到人的错误、测量设备的限制、数据收集过程的漏洞等因素影响。比如以下情况都可能导致问题:数据的值、整个数据对象都可能会丢失,可能有不真实的或重复的对象, 可能有不一致的对象。 数据质量检验的主要任务就是检查原始数据中是否存在以上的“脏数据”。概括性

7、来说,脏数据主要包括四点:缺失值、异常值、不一致的值、重复值。4、决策树在什么情况下结点需要划分(D)A.当前结点所包含的样本全属于同一类别B. 当前属性集为空,或是所有样本在所有属性上取值相同C. 当前结点包含的样本集为空D. 还有子集不能被基本正确分类考核知识点考核知识点: :决策树决策树参见讲稿章节:参见讲稿章节:6-5附 1.1.4(考核知识点解释):决策树学习算法流程1. 构建根结点 node,将所有的训练数据都放在根结点。2. 选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下的最好分类。3. 如果这些子集已经能够被基本正确分类,那么构建叶结点,并

8、将这些子集分到所对应的叶结点中。(1) 当前结点所包含的样本全属于同一类别 a_i, 无需划分; 结点类别标记为 a_i(2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;将当前结点标记为叶结点,将其类别设定为该结点所含样本最多的类别(3)当前结点包含的样本集为空,不能划分;将当前结点标记为叶结点,类别设定为其父节点所含样本最多的类别(4)如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割构建相应的结点, 如此递归地进行下去, 直至所有训练数据子集被基本正确分类或者没有合适的特征为止5、系统日志收集的基本特征不包括(D)A. 高可用性B. 高可靠性

9、C. 可扩展性D. 高效率考核知识点考核知识点: :获取数据获取数据参见讲稿章节:参见讲稿章节:2-1附 1.1.5(考核知识点解释):获取数据就是数据收集,按照确定的数据分析框架,为数据分析提供素材和依据,包括第一手数据(可直接获取的数据)和第二手数据(经过加工整理后得到的数据)。获取数据的途径有很多,我们可以通过系统日志采集、网络数据采集、数据库收集、公开出版物、开放数据平台和市场调查等。其中系统日志收集是公司业务平台每天产生大量日志数据,收集日志数据可以供公司分析系统使用研究,其具有以下基本特征:高可用性、高可靠性、可扩展性。“高可用性(HighAvailability)通常来描述一个系

10、统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。“高可靠性(highreliability)指的是运行时间能够满足预计时间的一个系统或组件。 可靠性可以用“100%可操作性”或者“从未失败”这两种标准来表示。 一个被广泛应用但却难以达到的标准是著名的“5 个 9 标准”,就是说工作的可靠性要达到99.999%。“可扩展性”可以通过软件框架来实现:动态加载的插件、顶端有抽象接口的认真设计的类层次结构、 有用的回调函数构造以及功能很有逻辑并且可塑性很强的代码结构。6、k 近邻法的基本要素不包括(C)。A. 距离度量B. k 值的选择C. 样本大小D. 分类决策规则考核知识点:考核知识

11、点:K K 近邻法近邻法参见讲稿章节:参见讲稿章节:6-2 附 1.1.6(考核知识点解释):K 近邻法是一种基于向量空间的分类方法, 输入为实例的特征向量, 对应于特征空间中的点。K 近邻法简单,直观,不具有显式的学习过程。它的基本思想是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 k 个实例,这 k个实例的多数属于某个类,就把该输入实例分为这个类。K 近邻法的三个基本要素包括:距离度量、k 值的选择、分类决策规则。1. 距离度量: 特征空间中两个实例点的距离是两个实例点的相似程度的反映 K 近邻模型的特征空间一般是 n 维实数向量空间 Rb 使用的距离是欧式距离,

12、但也可以是其他距离如更一般的厶卩距离(Lpdistance)或 Minkowski 距离(Minkowskidistance)。2. k 值的选择:选择较小的 k 值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小, “估计误差”会增大, 预测结果会对近邻的点实例点非常敏感。k 值减小意味着整体模型变得复杂,容易发生过拟合。选择较大的 k 值,学习的“近似误差”会增大,“估计误差”会减小,与输入实例较远(不相似)的训练实例也会对预测起作用。k 值增大意味着整体模型变得简单。在应用中,k 值一般取一个比较小的数值,通常采用交叉验证法来选取最优的 k值。3分类决策规则:k 近邻法

13、中的分类决策规则往往是多数表决,即由输入实例的k 个邻近的训练实例中的多数类决定输入实例的类。7、一元回归参数估计的参数求解方法不包括(D)。A. 最大似然法B. 距估计法C. 最小二乘法D. 欧式距离法考核知识点考核知识点: :一元线性回归参见讲稿章节:一元线性回归参见讲稿章节:7-1 附 1.1.7(考核知识点解释):分类问题主要关注于离散型变量,然而在客观世界中普遍存在着连续型变量因此需要考虑如何对连续型变量之间的关系进行分析。 变量之间的关系一般来说可以分为确定性关系与非确定性关系两种。 确定性关系是指变量之间的关系可以用函数关系来表达,而另一种非确定性的关系即为所谓的相关关系, 例如

14、身高与体重的关系, 身高越高通常情况下体重越重,但是同样高度的人,体重却未必相同,与此类似的还有体重、年龄与血压的关系,天气,住房面积,房价与用户用电量的关系等等。这些变量之间的关系是非确定性的, 而回归分析就是研究这种相关关系的工具, 它可以帮助我们从一个或一组变量取得的值去估计另一个变量的值。一元线性回归中,参数求解方法有以下三种:最大似然法、距估计法和最小二乘法。其中最小二乘法是线性回归问题中常用的参数求解方法,最小二乘法的目标是最小化残差平方和。首先将目标函数分别对和W求导并令导数等于 08、下列选项不是 BFR 的对象是(B)A. 废弃集B. 临时集C. 压缩集D. 留存集考核知识点

15、:考核知识点:BFRBFR 聚类聚类参见讲稿章节:参见讲稿章节:9-4附 1.1.8(考核知识点解释):BFR 聚类是用于处理数据集非常大的 k-means 变体, 用于在高维欧氏空间中对数据进行聚类。它对簇的形状做出了非常强烈的假设:必须正态分布在质心周围。BFR 算法的步骤流程:1簇初始化。 随机取 k 个点, 随机抽取一小部分样本并进行聚类, 选取一个样本,并随机抽取点,剩下的 k-1 个点尽可能远离先前选择的点。2.数据文件读入。数据文件中的点按组块方式读入:分布式文件系统中的组块、传统文件分割成的大小合适的组块、 每个组块必须包含足够少的点以便能在内存中进行处理。内存中除了输入组块之

16、外还包括其他三种对象:(1)废弃集:由簇本身的简单概要信息组成,簇概要本身没有被“废弃”,它们实际上不可或缺。 概要所代表的点已被废弃, 它们在内存中除了通过该概要之外已经没有其他表示信息。(2)压缩集:类似于簇概要信息,压缩集中存放概要信息。只存放那些相互接近的点集的概要,而不是接近任何簇的点集的概要。压缩集所代表的点也被废弃,它们也不会显式地出现在内存中。(3)留存集:留存集上的点不能分配给某个簇,留存集上的点不会和某个其他点充分接近而被放到压缩集中,这些点在内存中会与其在输入文件中一样显示存在。9、聚类的主要方法不包括(D)A. 划分聚类B. 层次聚类C. 密度聚类D. 距离聚类考核知识

17、点考核知识点: :聚类的方法聚类的方法参见讲稿章节:参见讲稿章节:9-1附 1.1.9(考核知识点解释):聚类是将数据集中的样本划分为若干个通常是不相交的子集,是一种无监督学习方法。给定一组点,使用点之间的距离概念,将点分组为若干簇,以便簇内的成员彼此接近/相似,不同簇的成员不同。通常点位于高维空间中,使用距离测量来定义相似性。聚类的主要方法有:划分聚类、层次聚类、密度聚类。10、以下哪一项不是特征选择常见的方法(D)A. 过滤式B. 封装式C. 嵌入式D. 开放式考核知识点考核知识点: :特征选择特征选择参见讲稿章节:参见讲稿章节:4-6附 1.1.10(考核知识点解释):从数据集的全部特征

18、中选取一个特征子集的过程被称为特征选择(featureselection)。特征选择常见的方法包括:过滤式方法、封装式方法、嵌入式方法。11、以下哪一项不是特征工程的子问题(D)A. 特征创建B. 特征提取C. 特征选择D. 特征识别考核知识点考核知识点: :特征的介绍和创建特征的介绍和创建参见讲稿章节:参见讲稿章节:4-1附 1.1.11(考核知识点解释):特征工程是使用领域知识来基于原始数据创建特征的过程,它是机器学习的基础,是困难且繁杂的。特征工程的子问题包括特征创建、特征提取和特征选择。12、比如一张表,从业务上讲,一个用户应该只会有一条记录,那么如果某个用户出现了超过一条的记录,这就

19、产生了(C)A. 异常值B. 不一致的值C. 重复值D. 缺失值考核知识点考核知识点: :数据质量检验数据质量检验参见讲稿章节:参见讲稿章节:2-2附 1.1.12(考核知识点解释):数据质量检验的主要任务就是检查原始数据中是否存在以上的“脏数据”,概括性来说,脏数据主要包括以下四点:缺失值、异常值、不一致的值、重复值。缺失值:记录的缺失,记录中某个字段信息的缺失。异常值:指样本中的个别值,其数值明显偏离其余观测值。也称离群点。不一致的值:数据不一致是指数据的矛盾性和不相容性,主要发生在数据集成的过程中。重复值;对于二维表形式的数据集来说,主要是关键字段出现重复记录,例如主索引字段出现重复。1

20、3、对于相似性与相异性的度量方法,基于距离的方法,以下哪一项不符合要求(D)A. 欧氏距离B. 曼哈顿距离C. 马氏距离D. 对角距离考核知识点考核知识点: :样本相似性与相异性分析样本相似性与相异性分析参见讲稿章节:参见讲稿章节:3-5附 1.1.13(考核知识点解释):两个对象之间的相似度(similarity)是两个对象相似程度的数值度量。因而,两个对象越相似,它们的相似度就越高。通常,相似度是非负的,并常常在 0(不相似)和 1(完全相似)之间取值。两个对象之间的相异度(dissimilarity)是这两个对象差异程度的数值度量。对象越相似, 他们的相异度就越低。通常,术语距离(dis

21、tance) 被用作相异度的同义词,常常用来表示特定类型的相异度。其中,相似性与相异性的度量方法中,基于距离的方法有欧氏距离、曼哈顿距离、明可夫斯基距离、马氏距离。14、通过变量标准化计算得到的回归方程称为(A)。A. 标准化回归方程B. 标准化偏回归方程C. 标准化自回归方程D. 标准化多回归方程考核知识点考核知识点: :多元线性回归多元线性回归参见讲稿章节:参见讲稿章节:7-2附 1.1.14(考核知识点解释):在实际问题中,各自变量都有各自的计量单位以及不同的变异程度,所以不能直接用普通的偏回归系数的大小来比较方程中各个自变量对因变量y的影响大小,可以利用标准化偏回归系数来衡量。通过变量

22、标准化计算得到的回归方程称为标准化回归方程,相应的回归系数即为标准化偏回归系数。15、一元线性回归中,真实值与预测值的差称为样本的(D)。A. 误差B. 方差C. 测差D. 残差考核知识点考核知识点: :一元线性回归一元线性回归参见讲稿章节:参见讲稿章节:7-1附 1.1.15(考核知识点解释):在一元线性回归中,输入只包含一个单独的特征,真实值与预测值的差称为样本的残差。其中残差项服从正态分布。16、在回归分析中,自变量为(),因变量为(D)。A. 离散型变量,离散型变量B. 连续型变量,离散型变量C. 离散型变量,连续型变量D. 连续型变量,连续型变量考核知识点考核知识点: :一元线性回归

23、参见讲稿章节:一元线性回归参见讲稿章节:7-1 附 1.1.16(考核知识点解释):设输入为d维自变量兀,输出因变量y为连续型,回归分析等价于寻找一个映射函数f,建立兀到y的映射关系。其中 x 和 y 都是连续型变量。17、为了解决任何复杂的分类问题,使用的感知机结构应至少包含(B)个隐含层。A.1B. 2C. 3D.4考核知识点考核知识点: :人工神经网络参见讲稿章节:人工神经网络参见讲稿章节:8-2 附 1.1.17(考核知识点解释):感知机只能解决线性可分的问题,多层感知机可以解决非线性可分的问题,输入层与输出层之间的一层神经元, 称为隐含层。 隐含层和输出层都是拥有激活函数的功能神经元

24、。随着隐含层层数的增多,凸域将可以形成任意的形状,可以解决任何复杂的分类问题。双隐层感知器就足以解决任何复杂的分类问题。18、BFR 聚类用于在(A)欧氏空间中对数据进行聚类A. 高维B. 中维C. 低维D. 中高维考核知识点:考核知识点:BFRBFR 聚类聚类参见讲稿章节:参见讲稿章节:9-4附 1.1.18(考核知识点解释):BFR 是用于处理数据集非常大的 k-means 变体, 用于在高维欧氏空间中对数据进行聚类。19、层次聚类对给定的数据进行(B)的分解。A. 聚合B. 层次C. 分拆D.复制考核知识点考核知识点: :层次聚类层次聚类参见讲稿章节:参见讲稿章节:9-2附 1.1.19

25、(考核知识点解释):层次聚类对给定的数据进行层次的分解,适用于规模较小的数据集。层次的方法包括聚合方法和分拆方法。(二)、判断部分1、当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稀疏。(V)考核知识点考核知识点: :降维的基本概念降维的基本概念参见讲稿章节:参见讲稿章节:4-2附 1.2.1(考核知识点解释):维数灾难:当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稀疏。例如:给定有 10 个样本, 假设每一维的特征空间都是一个长度为 5 的线段, 使用一维特征时,特征空间大小=5,样本密度=样本数/特征空间大小=10/5=2;使用二维特征时:特征空间大小=5*5=2

26、5,样本密度=样本数/特征空间大小=10/25=0.4;使用三维特征时:特征空间大小=5*5*5=125样本密度=样本数/特征空间大小=10/125=0.08。2、数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构。(X)考核知识点考核知识点: :数据科学的过程数据科学的过程参见讲稿章节:参见讲稿章节:1-3 附 1.2.2(考核知识点解释):一个分析师需要具备以下能力:1.提出正确的问题2.争论数据3.管理数据以便组织轻松访问4.探索数据以产生假设5.使用统计方法6.使用可视化,演示和产品表达结果数据分析师的任务:争论数据,管理数据,创建基本分析和可视化。数据建模师的任务:用模型

27、来回答具体问题,了解数据其来源和结构。 数据科学家的任务: 提问正确的问题, 寻找数据中的模式, 批判性的解释结果。3、探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。丁)考核知识点考核知识点: :探索性数据分析探索性数据分析参见讲稿章节:参见讲稿章节:3-1附 1.2.3(考核知识点解释):探索性数据分析:在尽量少的先验假定下,通过作图、制表、方程拟合、计算特征量等手段,探索数据的结构和规律。探索性数据分析可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。探索性数据分析的主要特点:1.研究从原始数据入手,完全以实际数据为依据2.分析

28、方法从实际出发,不以某种理论为依据3.分析工具简单直观,更易于普及4、特征的信息增益越大,则其越重要。(V)考核知识点考核知识点: :过滤式方法参见讲稿章节:过滤式方法参见讲稿章节:4-9附 1.2.4(考核知识点解释):特征:是一个客体或一组客体特性的抽象结果,是对数据建模有用的属性。好的特征可以降低模型的复杂度,提升模型的性能,提高模型的灵活性。信息熵主要用来描述数据信息的不确定性。信息熵越大,数据信息的不确定性越大。特征选择中,信息增益用来衡量系统包含某一个特征与不包含该特征时的信息量的差值。即反映某一特征对系统的重要性。当特征为离散型时,可以使用信息增益作为评价统计量。特征的信息增益越

29、大,则其越重要。5、随着特征维数的增加,样本间区分度提高。(X)考核知识点考核知识点: :降维的基本概念参见讲稿章节:降维的基本概念参见讲稿章节:4-2附 1.2.5(考核知识点解释):随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。随着特征维数的增加,样本间区分度降低。假设有一个二维特征空间,在矩形内部有一个内切的圆形,越接近圆心的样本越稀疏,相比于圆形内的样本,位于矩形四角的样本更加难以分类。 随着特征维数的增加, 将矩形和内切圆泛化为超立方体与超球体。随着特征数量的增加,超球体的体积逐渐减小直至趋向于 0,然而超立方体的体积却不变。高维特征空间中,大多数的训练样本位

30、于超立方体的角落。6、多层感知机的学习能力有限,只能处理线性可分的二分类问题。(X)考核知识点考核知识点: :人工神经网络人工神经网络参见讲稿章节:参见讲稿章节:8-2附 1.2.6(考核知识点解释):感知机只能解决线性可分的问题,但多层感知机可以解决非线性可分的问题输入层与输出层之间的一层神经元, 称为隐含层。 隐含层和输出层都是拥有激活函数的功能神经元。单层感知机:在输入空间形成一个超平面将实例划分为正负两类。单隐层的多层感知机:在输入空间形成开凸或闭凸区域。双隐层的多层感知机:在输入空间形成任意形状的划分区域。7、给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员不可以相同

31、。(V)考核知识点考核知识点: :聚类问题聚类问题参见讲稿章节:参见讲稿章节:9-1附 1.2.7(考核知识点解释):聚类是将数据集中的样本划分为若干个通常是不相交的子集,是一种无监督学习方法。给定一组点,使用点之间的距离概念,将点分组为若干簇,以便簇内的成员彼此接近/相似,不同簇的成员不同。通常点位于高维空间中,使用距离测量来定义相似性。8、给定关联规则 A-B,意味着:若 A 发生,B 也会发生。(X)考核知识点考核知识点: :关联规则关联规则参见讲稿章节:参见讲稿章节:5-1附 1.2.8(考核知识点解释):关联规则是形如 X-Y 的蕴涵式, 其中, X 和 Y 分别称为关联规则的先导

32、(antecedent或 left-hand-side,LHS)和后继(consequent 或 right-hand-side,RHS)。其中,关联规则 XY,存在支持度和信任度。给定关联规则 A-B,意味着:若 A 发生,B 有可能会发生,而不是一定会发生。9、Jaccard 系数只关心个体间共同具有的特征是否一致这个问题。(V)考核知考核知识点识点: :样本相似性与相异性分析样本相似性与相异性分析参见讲稿章节:参见讲稿章节:3-6附 1.2.9(考核知识点解释):Jaccard 系数,又称为 Jaccard 相似系数(Jaccardsimilaritycoefficient),用于比较有

33、限样本集之间的相似性与差异性。Jaccard 系数值越大,样本相似度越高。Jaccard 主要用于计算符号度量或布尔值度量的个体间的相似度, 因为个体的特征属性都是由符号度量或者布尔值标识, 因此无法衡量差异具体值的大小, 只能获得“是否相同”这个结果,所以 Jaccard 系数只关心个体间共同具有的特征是否一致这个问题。10、集中趋势能够表明在一定条件下数据的独特性质与差异。(X)考核知识点考核知识点: :单变量分析单变量分析参见讲稿章节:参见讲稿章节:3-2附 1.2.10(考核知识点解释):单变量分析主要关注于单变量的描述和统计推断两个方面,旨在用简单的概括形式反映出大量样本资料所容纳的

34、基本信息,描述样本数据中的集中或离散趋势。集中趋势又称“数据的中心位置”、“集中量数”等,是一组数据的代表值。集中趋势能够表明在一定条件下数据的共同性质和一般水平。 常用的有平均数、 中位数等。11、利用 K 近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。(X)考核知识点:考核知识点:K K 近邻法近邻法参见讲稿章节:参见讲稿章节:6-2附 1.2.11(考核知识点解释):K 近邻法是一种基于向量空间的分类方法, 输入为实例的特征向量, 对应于特征空间中的点,K 近邻法简单,直观,不具有显式的学习过程。由不同的距离度量所确定的最近邻点是不同的12、利用 K 近邻法进行分类时,

35、k 值过小容易发生过拟合现象。(V)考核知识点:考核知识点:K K 近邻法近邻法参见讲稿章节:参见讲稿章节:6-2附 1.2.12(考核知识点解释):K 值的选择:选择较小的 k 值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。k 值减小意味着整体模型变得复杂,容易发生过拟合。选择较大的 k 值,学习的“近似误差”会增大,“估计误差”会减小,与输入实例较远(不相似)的训练实例也会对预测起作用。k 值增大意味着整体模型变得简单。在应用中,k 值一般取一个比较小的数值,通常采用交叉验证法来选取最优的 k值。13、神经网络

36、中误差精度的提高可以通过增加隐含层中的神经元数目来实现。V)考核知识点考核知识点: :人工神经网络人工神经网络参见讲稿章节:参见讲稿章节:8-2附 1.2.13(考核知识点解释):通过增加其神经元个数,可以提高神经网络的训练精度。神经元数过少时,网络不能很好的学习,训练的迭代次数较多,训练精度不高;神经元数过多时,网络功能更强大,精确度更高,但训练的迭代次数也更大,并且可能会出现过拟合现象;由此,神经网络中,隐含层神经元个数的选取原则是:在能够解决问题的前提下,再增加 1 到 2 个神经元,以加快误差下降速度即可。14、单层感知机对于线性不可分的数据,学习过程也可以收敛。(X)考核知识点考核知

37、识点: :人工神经网络人工神经网络参见讲稿章节:参见讲稿章节:8-1附 1.2.14(考核知识点解释):单层感知机只拥有一层的功能神经元, 即只有输出层神经元进行激活函数的处理,学习能力有限。当二分类问题是线性可分的,即存在一个线性超平面将其分开,则感知机的学习过程会收敛,对于线性不可分的数据,算法不收敛。15、聚合方法是自底向上的方法。(V)考核知识点考核知识点: :层次聚类参见讲稿章节:层次聚类参见讲稿章节:9-2 附 1.2.15(考核知识点解释):聚合方法是自底向上的方法。具体思路如下:1.初始时每个数据都被看成是单独的一个簇2.通过逐步合并相近的数据点或簇,形成越来越大的簇3.直到所

38、有的数据点都在一个簇中,或者达到某个终止条件为止16、如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。(V)考核知识点考核知识点: :频繁项集的产生参见讲稿章节:频繁项集的产生参见讲稿章节:5-3附 1.2.16(考核知识点解释):Apriori 定律 1:如果一个项集是频繁的,则它的所有子集一定也是频繁的。Apriori 定律 2:如果一个集合不是频繁项集,则它的所有超集都不是频繁项集。如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。17、在 k 近邻方法中,k 值增大意味着整体模型变得复杂。(X)考

39、核知识点:考核知识点:K K 近邻法近邻法参见讲稿章节:参见讲稿章节:6-2附 1.2.17(考核知识点解释):选择较小的 k 值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。k 值减小意味着整体模型变得复杂,容易发生过拟合。选择较大的 k 值,学习的“近似误差”会增大,“估计误差”会减小,与输入实例较远(不相似)的训练实例也会对预测起作用。k 值增大意味着整体模型变得简单。在应用中,k 值一般取一个比较小的数值,通常采用交叉验证法来选取最优的 k值。18、朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降

40、低分类。(V)考核知识点考核知识点: :朴素贝叶斯参见讲稿章节:朴素贝叶斯参见讲稿章节:6-4 附 1.2.18(考核知识点解释):朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别;朴素贝叶斯分类器建立在一个类条件独立性假设基础之上:给定类节点(变量)后,各属性节点(变量)之间相互独立。朴素贝叶斯分类器一般具有以下特点:简单、高效、健壮。面对孤立的噪声点,朴素贝叶斯分类器是健壮的,因为在从数据中估计条件概率时,这些点被平均。相关属性可能会降低朴素贝叶斯分类器的性能,因为对这些属性,条件独立的假设已不成立。O二、主

41、观部分:(一)、填空部分1、二分类问题常用的评价指标是、。考核知识点:分类问题考核知识点:分类问题参见讲稿章节:参见讲稿章节:6-1附 2.1.1(考核知识点解释):分类:给定分类体系,将输入样本分到其中一个或者多个类别中的过程,是监督学习的一个核心问题。按类别数目可以分为二分类 VS 多分类。其中包括学习和分类两个过程。监督学习从数据中学习一个分类模型或决策函数称为分类器(classifier)。分类器对新的输入进行输出的预测,称为分类,输出变量 Y 取有限个离散值。分类常用的方法包括:朴素贝叶斯、决策树、支持向量机、感知机和 K 近邻对于二分类问题常用的评价指标是精确率(precision

42、)与召回率(recall)。2、朴素贝叶斯分类器建立在一个基础之上。考核知识点:朴素贝叶斯考核知识点:朴素贝叶斯参见讲稿章节:参见讲稿章节:6-4附 2.1.2(考核知识点解释):朴素贝叶斯分类是一种十分简单的分类算法。其思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别;朴素贝叶斯分类器建立在一个类条件独立性假设基础之上:给定类节点(变量)后,各属性节点(变量)之间相互独立。3、在决策树生成算法中,最关键的是如何在每一轮的迭代中选择。考核知识点:决策树考核知识点:决策树- -特征选择特征选择参见讲稿章节:参见讲稿章节:6-6

43、附 2.1.3(考核知识点解释):在决策树生成算法中,最关键的是如何在每一轮的迭代中选择最优特征,一般而言,随着划分过程的不断进行,我们希望决策树分支结点所包含的样本尽可能属于同一类别,即结点的“纯度(purity)越来越高。其中特征选择的准则是信息增益。4、一个关联规则同时满足最小支持度和最小置信度,我们称之为。考核知识点:关联规则的基本概念考核知识点:关联规则的基本概念参见讲稿章节:参见讲稿章节:5-1附 2.1.4(考核知识点解释):关联规则的两个重要的衡量指标是支持度和置信度。支持度:具体含义为关联规则被多少比例的数据所覆盖。置信度:用来衡量规则的可信程度。比如规则男性,尿布-啤酒的支

44、持度表示所有的购物记录中,有百分之多少的记录中,购物者为男性,且同时购买了啤酒和尿布。规则男性,尿布f啤酒的置信度表示,在购物者为男性且购买了尿布的记录中,有多少比例的记录同时也购买了啤酒。有了支持度和置信度两个指标,现在我们可以定量地描述我们所需要的规则给定数据集,找出所有不小于预先设置的支持度阈值 min_suppt(指用户指定的支持度的下限)和置信度阈值 min_conf(指用户指定的置信度的下限)规则的集合。我们感兴趣的规则要在支持度和置信度两个方面满足最小的条件,这样的规则被称为强关联规则(strongassociationrule)。5、数据科学的过程包括获取数据、数据探索、结果展

45、示。考核知识点考核知识点: :数据科学的过程参见讲稿章节:数据科学的过程参见讲稿章节:1-3附 2.1.5(考核知识点解释):数据科学的过程包括获取数据、数据预处理、数据探索、数据建模、结果展示。6、Pearson 线性相关系数要求连续变量的取值服从分布。考核知识点:多变量分析参见讲稿章节:考核知识点:多变量分析参见讲稿章节:3-4附 2.1.6(考核知识点解释):为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。在二元变量的相关分析过程中常用的有 Pearson 系数、Spearman 秩相关系数和判定系数。Pearson 线性相关系数要求连续变量的取值服从正态分

46、布。不服从正态分布的变量、分类或等级变量之间的关联性可采用 Spearman 秩相关系数,也称等级相关系数来描述。7、欧氏距离越小,两个点的相似度就越,欧氏距离越大,两个点的相似度就越。考核知识点:样本相似性与相异性参见讲稿章节:考核知识点:样本相似性与相异性参见讲稿章节:3-5附 2.1.7(考核知识点解释):欧几里得度量(也称欧氏距离)是一个通常采用的距离定义,指在 m 维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。欧氏距离是一种常见的相似度算法。欧氏距离越小,两个点的相似度就越大,欧氏距离越大,两个点的相似度就

47、越小。8、数据散度分析表示一组数据离数据中心的距离,多用标准差、以及进行衡量。考核知识点:单变量分析考核知识点:单变量分析参见讲稿章节:参见讲稿章节:3-2附 2.1.8(考核知识点解释):单变量分析主要关注于单变量的描述和统计推断两个方面,旨在用简单的概括形式反映出大量样本资料所容纳的基本信息,描述样本数据中的集中或离散趋势。数据散度分析表示一组数据离数据中心的距离,多用标准差、方差以及极差进行衡量。9、在 k 近邻法中,选择较大的 k 值时,学习的“近似误差”会,“估计误差”会。考核知识点:考核知识点:K K 近邻法近邻法参见讲稿章节:参见讲稿章节:6-2附 2.1.9(考核知识点解释):

48、选择较大的 k 值,学习的“近似误差”会增大,“估计误差”会减小,与输入实例较远(不相似)的训练实例也会对预测起作用。k 值增大意味着整体模型变得简单。10、在 k 近邻法中,通常采用来选取最优的 k 值。考核知识点:考核知识点:K K 近邻法近邻法参见讲稿章节:参见讲稿章节:6-2 附 2.1.10(考核知识点解释):在应用中,k 值一般取一个比较小的数值,通常采用交叉验证法来选取最优的 k值。11、划分聚类采取的划分,即每个对象必须恰好属于。考核知识点考核知识点: :聚类问题聚类问题参见讲稿章节:参见讲稿章节:9-1 附 2.1.11(考核知识点解释):划分聚类是聚类分析最简单最基本的方法

49、。采取互斥簇的划分,即每个对象必须恰好属于一个簇。经典的算法有 K 均值(K-Means)算法和 K 中心(K-Medoids)算法。12、在线性回归分析中,根据自变量的维度不同可以分为和。考核知识点:线性回归考核知识点:线性回归参见讲稿章节:参见讲稿章节:7-1附 2.1.12(考核知识点解释):在线性回归分析中,当输入特征的维度从一维增加到 d 维(dl),则从一元线性回归转换为多元线性回归问题。13、反向传播算法的基本思想为,通过输出层得到和的误差,间接调整的权值。考核知识点:人工神经网络考核知识点:人工神经网络参见讲稿章节:参见讲稿章节:8-2附 2.1.13(考核知识点解释):反向传

50、播算法的基本思想:通过输出层得到输出结果和期望输出的误差,间接调整隐含层的权值。学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时,神经网络的权值是固定的,输入样本从输入层传入,经过各隐含层逐层处理后,传向输出层。反向传播时,通过比较网络的输出和期望输出产生一个误差信号,并将误差信号进行反向传播,逐层计算隐含层各单元的误差,并以此修正各单元的权值。14、多层感知机中,和都是拥有激活函数的功能神经元。考核知识点考核知识点: :人工神经网络人工神经网络参见讲稿章节:参见讲稿章节:8-2附 2.1.14(考核知识点解释):多层感知机:可以解决非线性可分的问题。输入层与输出层之间的一层神

51、经元,称为隐含层。隐含层和输出层都是拥有激活函数的功能神经元15、神经网络中最基本的成分是模型。考核知识点:人工神经网络考核知识点:人工神经网络参见讲稿章节:参见讲稿章节:8-1附 2.1.15(考核知识点解释):神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。神经网络中最基本的成分是神经元模型。16、密度分类法中,单维的变量可以通过其的个数来确定 K 值。考核知识点:考核知识点:K-meansK-means 聚类参见讲稿章节:聚类参见讲稿章节:9-3附 2.1.16(考核知识点解释):密度分类法:单维的变量可以通过其分布峰

52、的个数来确定 K 值。二维的数据可以通过散点图来判断。17、在聚类中,使用测量来定义相似性考核知识点:聚类问题考核知识点:聚类问题参见讲稿章节:参见讲稿章节:9-1 附 2.1.17(考核知识点解释):聚类算法中,点通常位于高维空间中,使用距离测量来定义相似性,如Euclidean,Cosine,Jaccard,18、Apriori 核心算法有两个关键步骤为和。考核知识点:考核知识点:AprioriApriori 算法参见讲稿章节:算法参见讲稿章节:5-5附 2.1.18(考核知识点解释):Apriori 算法中有两个关键步骤为连接步和剪枝步。二)、简答 1、为什么需要标准化偏回归系数?标准化

53、偏回归系数与普通的偏回归系数之间的关系是什么?考核知识点考核知识点: :多元线性回归标准化偏回归系数参见讲稿章节:多元线性回归标准化偏回归系数参见讲稿章节:7-2附 2.2.1(考核知识点解释):在实际问题中,各自变量都有各自的计量单位以及不同的变异程度,所以不能直接用普通的偏回归系数的大小来比较方程中各个自变量对因变量y的影响大小,可以利用标准化偏回归系数来衡量。通过变量标准化计算得到的回归方程称为标准化回归方程,相应的回归系数即为标准化偏回归系数。标准化偏回归系数与普通的偏回归系数关系如下:2、简单介绍决策树算法流程考核知识点考核知识点: :决策树决策树- -特征选择参见讲稿章节:特征选择

54、参见讲稿章节:6-6附 2.2.2(考核知识点解释):决策树算法流程:1. 首先计算训练数据集的信息熵;2. 计算各特征对数据集的信息增益;3. 选取信息增益最大的特征为最优特征4. 将数据集按照最优特征进行划分;5. 循环 2,3,4 直到结点不能划分。3、一般的关联规则学习的步骤是什么?考核知识点考核知识点: :关联规则的基本概念参见讲稿章节关联规则的基本概念参见讲稿章节:5-1 附 2.2.3(考核知识点解释):关联规则学习的步骤:1.找出所有的频繁项集;2.根据频繁项集生成频繁规则;3.根据置信度等指标进一步过滤筛选规则4、请简述 K-means 聚类的优缺点。考核知识点:考核知识点:

55、K-meansK-means 聚类聚类参见讲稿章节:参见讲稿章节:9-3 附 2.2.4(考核知识点解释):优点:容易实现。缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。5、请简述在使用反向传播算法训练多层感知机时,应该如何设置学习的停止条件?考核知识点:人工神经网络考核知识点:人工神经网络参见讲稿章节:参见讲稿章节:8-2附 2.2.5(考核知识点解释):在使用反向传播算法训练多层感知机时,设置学习的停止条件常见的方法有两种。第一种为设置最大迭代次数,比如使用数据集迭代 100 次后停止训练;第二种为将数据分为训练集与验证集,当训练集的误差降低而验证集的误差升高,则停止训练。6、请简

56、述 k 近邻法中 k 的取值对模型的影响。考核知识点:考核知识点:K K 近邻法近邻法参见讲稿章节:参见讲稿章节:6-2附 2.2.6(考核知识点解释):对于 k 近邻法中 k 的取值:选择较小的 k 值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。k 值减小意味着整体模型变得复杂,容易发生过拟合。选择较大的 k 值,学习的“近似误差”会增大,“估计误差”会减小,与输入实例较远(不相似)的训练实例也会对预测起作用。k 值增大意味着整体模型变得简单。在应用中,k 值一般取一个比较小的数值,通常采用交叉验证法来选取最优的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论