数据挖掘 机器学习 考试简答题_第1页
数据挖掘 机器学习 考试简答题_第2页
数据挖掘 机器学习 考试简答题_第3页
数据挖掘 机器学习 考试简答题_第4页
数据挖掘 机器学习 考试简答题_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.何谓数据挖掘?它有哪些方面的功能?答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、 人们事先不知道的又是潜在有用的信息和知识的过程称为数据挖掘分) 数据挖掘的功能包括概念描述关联分析类与预测聚类分析趋势分析、 孤立点分析以及偏差分析等(3 分)2. 列举 4 种监督式学习算法?答:K-近邻算法(k-Nearest Neighbors (1 分)线性回归(Linear Regression) (1 分)逻辑回归(Logistic Regression) (1 分)支持向量机(1 分)(备注:列出任意 4 种即可得分)3. 过拟合问题产生的原因有哪些以及解决过拟合的办

2、法有哪些?答:产生的原因:(1)使用的模型比较复杂,学习能力过强。 (1 分)(2)有噪声存在 (1 分)(3)数据量有限 (1 分)解决过拟合的办法:(1)提前终止(当验证集上的效果变差的时候) (1 分)(2)数据集扩增 (1 分)(3)寻找最优参数 (1 分)4.支持向量机有哪些优缺点?答:优势:(1)在高维空间非常高效 (1 分)(2)即使在数据维度比样本大的情况下仍然有效 (1 分)(3)在决策函数中使用训练集的子集,因此它也是高效利用内存的 (1 分) 缺点:(1如果特征数量比样本数量大得多在选择核函数时要避免过拟合 (1 分) (2)支持向量机通过寻找支持向量找到最优分割平面,是

3、典型的二分类问题, 因此无法解决多分类问题。 (1 分)(3)不直接提供概率估计 (1 分)5、数据挖掘的两大目标分为预测和描述,监督学习和无监督学习分别对应哪类目标?监督 学习和无监督学习的定义是什么?分别从监督类学习和无监督类学习中找一类算法的实例 应用进行举例说明。答:1.监督学习对应预测,无监督学习对应描述2.监督学习:从标记的训练数据来推断一个功能的机器学习任务无监督学习:根据类别未知(没有标记)的训练样本解决模式识别中的各种 问题。3.监督学习举例:分类算法,利用分类算法进行垃圾电子邮件的分类。无监督学习举例:聚类算法。利用聚类算法,如网购平台,通过用户购物喜好等 进行聚类,即客户

4、群体的划分1.请谈谈 K 近邻算法的优缺点有哪些?答:优点:简单,易于理解,易于实现;只需保存训练样本和标记,无须估计参数,无须训练。不易受最小错误概率的影响。 (3 分)缺点:K 的选择不固定;预测结果容易受含噪声数据的影响;当样本不平衡时新样本的类别偏向于训练样本中数量占优的类别容易导致预 测错误;具有较高的计算复杂度和内存消耗因为对每一个未知样本都要计算它到全体 已知样本的距离,才能求得它的 K 个最近邻。 (3 分)2.何谓聚类?它与分类有什么异同?答:聚类是将物理或抽象对象的集合分组成为多个类或簇的过程得在同一个簇中 的对象之间具有较高的相似度,而不同簇中的对象差别较大 分)聚类与分

5、类的不同聚类要划分的类是未知的分类则是可按已知规则进行聚 类是一种无指导学习它不依赖预先定义的类和带类标号的训练实例属于观察 式学习,分类则属于有指导的学习,是示例式学习 分)3.请用伪代码的形式描述 K-Means 算法的过程?答:(1)从一系列数据 D 中任意选择 K 个对象作为初始簇的中心 (1 ) (2)根据数据到聚类中心的距离,对每个对象进行分配 (1 )(3)更新聚类中心位置,即计算每个簇中所有对象的质心,将聚类中心移动到 质心位置 (1 分)(4)重复过程(2) (1 分)(5)直到聚类中心不再发生变化 (2 分)4.什么是降维分析?以及常用的降维算法有哪些?答:降维分析是指从高

6、维数据空间到低维数据空间的变化过程目的是为了降低时 间复杂度和空间复杂度或者是去掉数据集中夹杂的噪声或者是为了使用较少 的特征进行解释,方便我们更好地解释数据以及实现数据的可视化 (3 分) 常用的降维算法有:主成分分析,因子分析,独立成分分析 (3 分)1、请描述下数据挖掘的工作流程和步骤一般包括哪些?答:问题设定-特征工程-模型选择-模型训练模型评测-模型应用2、请谈谈你对贝叶斯算法中先验概率、后验概率、条件概率的理解,以及怎么 利用后验概率计算条件概率(可用公式表达)?答:先验概率事件发生前的预判概率可以是基于历史数据的统计可以由背景 常识得出,也可以是人的主观观点给出。后验概率结果发生

7、后反推事件发生原因的概率或者说基于先验概率求得 的反向条件概率。条件概率一个事件发生后另一个事件发生的概率。一般的形式为 P(x|y)表 示 y 发生的条件下 x 发生的概率。可用贝叶斯公式把后验概率和条件概率、先验概率联系起来,相互推算:3、你对于人工智能的未来怎么看?请谈谈它可能对人类社会造成哪些利弊? 答:开放式回答,没有标准答案。主要看学生对知识的综合理解以及逻辑思维能力4、技术性元数据 MataData 一般包括哪些信息?答:数据源信息数据转换的描述数据仓库内对象和数据结构的定义数据清理和 数据更新时使用的规则源数据到目的数据的映射表以及用户访问权限数据 备份历史记录,数据导入历史记

8、录和信息发布历史记录3、数据仓库和数据集市有什么相同和区别之处? 答:对比内范围数据主题源其他特征数据仓应用独立集中式,企业级(可能) 规划的历史的,详细的和概括的 轻微不规范的多个主题多个内部和外部源 灵活的面向数据长期大单一的复杂结构数据集 特定的 DSS 应用用户域的离散化可能是临时组织的(无规划) 一些历史的、详细的和概括的 高度不规范用户关心的某一个中心主题 很少的内部和外部源严格的面向工程短期开始小,逐步变大多,半复杂性结构,合并复杂1、请说明 OLAP 和 OLTP 的区别? 答:OLTPOLAP用户功能操作人员,底层管理人员 日常操作型事务处理决策人员、高级管理人员 分析和决策

9、数据库设计目标数据特征存取规模工作单元用户数数据库大小面向应用当前的,最新的,细节的,二维的与分立的通常一次读或写数十条记录一个事务通常是成千上万个用户通常是在 GB 级(100MB1GB)面向主题历史的、聚集的、多维的、集 成的与统一的可能读取百万条以上记录一个复杂查询 可能只有几十个或上百个用户 通常在 TB 级(100G1TB 及以上)第 章 管规则与协同过滤1)简述 Apriori 算法原理。Apriori 性质:一个项集是频繁的,那么它的所有子集都是频繁的。一个项集 的支持度不会超过其任何子集的支持度。该算法采用逐层的方法找出频繁项集, 首先找出 1 频繁-项集通过迭代方法利用频繁

10、k-1-项集生成 k 候选项集扫描数 据库后从候选 集中指出频繁 k-项集,直到生成的候选项集为空。2)什么说强联规则一定都是有的,请例说之。并不是所有的强关联规则都是有效的例如一个谷类早餐的零售商对 5000 名学生的调查的案例。数据表明 60% 的学生打篮球, 学生吃这类早餐, 40%的学生即打篮球吃这类早餐假设支持度阈值 置信度阈值 基 于上面数据和假设我们可挖掘出强关联规 “(打篮球 吃早餐)” ,因为其 (打篮 ) ( 吃早餐 的支持度都大于支持度阈值,都是频繁项,而规则的置信度 c=40%/60%=66.6% 也大于置信度阈值。然而上的关联规则很容易产生误解吃早餐的比例为 66%。

11、 也就是说,打篮球与吃早餐实际上是负关联的。3)明频繁集所有非子集必须也频繁的 nl ) / n( 证明 1反证法。根据定义,如果项集I满足最小支持度阈值 ,则I不是频繁的,即p( I ) min_ 。如果项 添加到 I ,则结果项集间(即 I A )不可能比 I 频繁出现。因此I A 不是频繁的, ( I )min_sup。矛盾。 证明 2设 X 是一个项目集事务数据库 中支持 X 的元组数为 s对 X 的任一非空 子集为 Y,设 T 中支持 Y 的元组数为 s1。根据项目集支持数的定义容易知道支持 的元组一定支持 Y以 s1 s,即 support (Y support (X按假设:项目集

12、 X 是频繁项目集,即 support(X) minsupport,所以 support (Y ) X) minsupport因此 Y 是频繁项目集。4)Apriori 的一种变将事务据库 中事务划为若干个重叠的部分证明在 D 是频繁任何项集至在 D 中的一个部分中是频的。证明 :给定频繁项 l l 的子 s ,证明规则“l ”的置信度不可能大于“ (l ”的置信度。其中 s 子集。根据定义规则 B 的置信度为 A ) / ( ) n A表示项集A出 现 的 次 数规则l 的 置 信 度 为 : s ( (l ) / n s规则 (l 的置信度同理可得:因为 的子集,n( s ,所以规则“l ”的置信度不可能大于“ (l ”的置信度。5)词解释:立点、繁项集、支度、可度、联规则孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。 频繁项集:指

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论