《数据挖掘与数据分析(财会)》试卷答案_第1页
《数据挖掘与数据分析(财会)》试卷答案_第2页
《数据挖掘与数据分析(财会)》试卷答案_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

年第学期数据挖掘与数据分析(A)卷参考答案及评分标准选择题(20分,2分*10题)1-5DCDAA6-10BADAB判断题(20分,2分*10题,正确标记√,错误标记×)1-5√×√√√6-10×√√×√名词解释(20分,4分*5题)均方误差(MSE)其中:Y为实际值,Ŷ预测值,n为样本总量MSE表示误差平方和的平均值,计算模型的预测Ŷ与真实标签Y的接近程度支持度支持度表示项集{X,Y}在总项集里出现的概率,表示X和Y同时在总数N中发生的概率,公式为:S聚类聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距离最大化。关联规则关联规则描述在一个事务中物品之间同时出现的规律的知识模式,通过量化的形式描述物品A的对物品B的影响。关联规则的度量指标包括支持度和置信度,支持度是某一特定关联或项集在数据集中出现的概率,置信度是在数据集中已经出现A时,B发生的概率。5.数据标准化数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,数值间的差别可能很大,为了消除指标之间的量纲和大小不一的影响,需要进行数据标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,从而进行综合分析。例如将工资收入属性值映射到[-1,1]或者[0,1]之间。通常包括三种方法:最小-最大规范化、零-均值规范化、小数定标规范化。简答题(40分,8分*5题)数据挖掘基本任务数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习。聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法,聚类属于无监督的学习。关联规则描述在一个事务中物品之间同时出现的规律的知识模式,通过量化的形式描述物品A的对物品B的影响。2.Pearson相关系数及强度判断一般用于对定距变量的数据进行计算,即分析两个连续性变量之间的关系,其计算公式如下:(线性相关程度)|r|≤0.3极弱线性相关或不存在线性相关0.3<|r|≤0.5低度线性相关0.5<|r|≤0.8显著线性相关0.8<|r|高度线性相关数据预处理主要任务及内容数据预处理的主要任务包括数据清洗,数据集成,数据变换和数据规约。数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,处理缺失值、异常值等。数据清理还包括:去除空白数据域和知识背景上的白噪声,考虑时间的先后顺序和数据的相关变化等;进行重复数据处理和默认数据处理,进行数据类型转换等。在数据预处理时,异常值是否剔除,需视具体情况而定,因为有些异常值可能蕴含着有用的信息。数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程,在数据集成时,来自多个数据源的现实世界实体的表达形式是不一样的,不一定是匹配的,要考虑实体识别问题和属性冗余问题,从而把源数据在最低层上加以转换、提炼和集成。数据变换主要是对数据进行规范化的操作,将数据转换成“适当的”格式,以适用于挖掘任务及算法的需要。(1)聚集即对数据进行汇总。(2)数据概化。在数据挖掘中,有时并不需要细化到低层概念,可以用它的高层概念来替换。(3)规范化。将数据按比例缩放,使之落入一个特定的区域,如0.0-1.0。数据规约是将海量数据进行规约,规约之后的数据仍接近于保持原数据的完整性,但数据量小得多。通过数据规约,可以达到:降低无效、错误数据对建模的影响,提高建模的准确性少量且具代表性的数据将大幅缩减数据挖掘所需的时间降低储存数据的成本。分类原理及特点分类主要是预测分类标号(离散、无序的),而预测主要是建立连续值函数模型,预测给定自变量的条件下因变量的值。分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习。分类算法有两步过程:第一步是学习步,通过归纳分析训练样本集来建立分类模型得到分类规则;第二步是分类步,先用已知的检验样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集进行预测。分类是一种有监督学习,不同分类模型会受样本分布、数量以及模型特点而影响性能。5.k-means聚类算法原理、步骤和主要特点K-Means算法是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。K-Means聚类算法中,一般需要度量样本之间的距离、样本与簇之间的距离以及簇与簇之间的距离。K-Means算法过程:1)从N个样本数据中随机选取K个对象作为初始的聚类中心;2)分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中;3)所有对象分配完成后,重新计算K个聚类的中心;4)与前一次计算得到的K个聚类中心比较,如果聚类中心发生变化,转2),否则转5);5)当质心不发生变化时停止并输出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论