版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大学试卷学年第1学期;课号课程名称数据挖掘与数据分析(闭卷);适用班级(或年级、专业)(每位考生需要答题纸(8k)2张、草稿纸(16k)1张)考试时间120分钟班级学号姓名题号一二三四五六七八九十成绩满分20202040得分评卷人选择题(20分,2分*10题)关联模式挖掘旨在从大量的数据当中发现特征之间或数据之间的相互()关系A.聚集B.依赖C.结合D.独立时间序列基于事物发展的()和随机性预测事物未来的情况A.独立性B.延续性C.相关性D.逻辑性数据挖掘工作中脏数据通常不包括()A.缺失值B.异常值C.不一致和重复数据值D.时变数据数据特征分析不包括()A.分布分析B.对比分析C.相关性分析D.标准化分析数据预处理的主要任务不包括()A.数据清洗B.数据集成C.数据变换和规约D.数据可视化Python本身的数据分析常见库不包括()A.NumpyB.ScipyC.Pandas D.TensorflowK-means算法属于聚类分析的()A.划分方法 B.层次分析方法C.基于网格的方法 D.基于密度的方法数据变换不包括()A.聚集 B.数据概化C.规范化 D.数据压缩常见的连续属性离散化方法不包括()A.等宽法 B.基于聚类分析的方法C.等频法 D.基于统计分析的方法关联分析中将集合中同时出现频率高的元素组成子集,满足一定阈值条件,称为()A.项集B.频繁项集C.关联规则 D.频繁度判断题(20分,2分*10题,正确标记√,错误标记×)1.数据预处理阶段的主要工作包括数据筛选、数据转换、数据标准化、属性选择、数据规约等方面。()2.关联模式挖掘旨在从大量的数据当中发现特征之间或数据之间的相互依赖关系。()3随机性分析是数据特征分析方法。()4.聚类分析使得类别内数据的“差异性”尽可能小,类别间“差异性”尽可能大。()5.异常值是指样本中的个别值,其数值明显偏离其余的观测值。()6.数据集成就是将多个数据源合并存放在一个一致的数据存储中的过程。()7.零-均值规范化不是数据规范化方法。()8.为了消除指标之间的量纲和大小不一的影响,需要进行数据标准化处理。()9.精确度(Precision)表示分类模型正确分类的样本数(包括正例与反例)与样本总数的比值。()10.项集A、B同时发生的概率称为关联规则的支持度。()名词解释(20分,4分*5题)1.数据规约2.置信度3.分类4.关联规则5.相对误差简答题(40分,8分*5题)1.数据异常值分析2.分类与预测算法评价指标3.数据规范化及主要方法4.关联规则原理和主要特点5.回归分析及特点年第学期数据挖掘与数据分析(B)卷参考答案及评分标准适用:商学院财务管理专业2020级学生命题教师:黄宏军选择题(20分,2分*10题)1-5BBDDD6-10DADBB判断题(20分,2分*10题,正确标记√,错误标记×)1-5√√×√√6-10√×√×√名词解释(20分,4分*5题)1.数据规约数据规约是将海量数据进行规约,规约之后的数据仍接近于保持原数据的完整性,但数据量小得多。通过数据规约,可以达到降低无效、错误数据对建模的影响,提高建模的准确性少量且降低储存数据成本。数据规约包括属性规约和数值规约。属性规约通过属性合并创建新属性维数,或者通过直接删除不相关的属性来减少数据维数,数值规约通过选择替代的、较小的数据来减少数据量。2.置信度表示包含A的交易中也包含B的条件概率3.分类分类主要是预测分类标号(离散、无序的),而预测主要是建立连续值函数模型,预测给定自变量的条件下因变量的值。分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习。4.关联规则关联规则描述在一个事务中物品之间同时出现的规律的知识模式,通过量化的形式描述物品A的对物品B的影响。关联规则的度量指标包括支持度和置信度,支持度是某一特定关联或项集在数据集中出现的概率,置信度是在数据集中已经出现A时,B发生的概率。5.相对误差相对误差指的是测量所造成的绝对误差与被测量真值之比乘以100%所得的数值,以百分数表示,相对误差更能反映测量的可信程度。相对误差(RelativeError)=(原值-估计值)/原值。简答题(40分,8分*5题)1.数据异常值分析离群点(Outlier),也称为异常对象。通常,在数据的散布图中,离群点远离其他数据点。离群点检测的目的是发现有异于大部分对象的其他对象。离群点的主要成因有:数据来源于不同的类、自然变异、数据测量和收集误差。从整体来看,某些对象没有离群特征,但是从局部来看,却显示了一定的离群性。从属性的个数看包括一维离群点和多维离群点,从数据类型看包括数值型离群点和分类型离群点。异常值分析包括如下方法:(1)基于统计。大部分的基于统计的离群点检测方法是构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为离群点。(2)基于邻近度。通常可以在数据对象之间定义邻近性度量,把远离大部分点的对象视为离群点。(3)基于密度。考虑数据集可能存在不同密度区域这一事实,从基于密度的观点分析,离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。(4)基于聚类。一种是利用聚类检测离群点的方法是丢弃远离其他簇的小簇;另一种更系统的方法,首先聚类所有对象,然后评估对象属于簇的程度(离群点得分)。2.分类与预测算法评价指标分类与预测模型对训练集进行预测而得出的准确率并不能很好地反映预测模型未来的性能,为了有效判断一个预测模型的性能表现,需要一组没有参与预测模型建立的数据集,并在该数据集上评价预测模型的准确率,这组独立的数据集叫测试集。模型预测效果评价,通常用绝对误差与相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量绝对误差(AbsoluteError)=原值-估计值相对误差(RelativeError)=(原值-估计值)/原值平均绝对误差(MeanAbsoluteError,MAE)均方误差的平方根,代表了预测值的离散程度,也叫标准误差,跟方差一样,均方误差是预测误差平方之和的平均数分类器评价指标包括如下,(1)正确率(accuracy)正确率是我们最常见的评价指标,accuracy=(TP+TN)/(P+N),被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好;(2)错误率(errorrate)错误率则与正确率相反,描述被分类器错分的比例,errorrate=(FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以accuracy=1–errorrate;(3)灵敏度(sensitive)sensitive=TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力;(4)特效度(specificity)specificity=TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力;(5)精度(precision)精度是精确性的度量,表示被分为正例的示例中实际为正例的比例,precision=TP/(TP+FP);(6)召回率(recall)召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率与灵敏度是一样的。3.数据规范化及主要方法(1)最小-最大规范化:也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0,1]之间。转换函数如:(2)零-均值规范化:也叫标准差标准化,经过处理的数据的平均数为0,标准差为1。转化函数为:(3)小数定标规范化:通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值。转化函数为:4.关联规则原理和主要特点关联分析(associationanalysis)是一种在大规模数据集中寻找有趣关系的任务,这些关系可以有两种形式:频繁项集(frequentitemset)或者关联规则(associationrule)。频繁项集:假设有一系列集合,这些集合有些相同的元素,将集合中同时出现频率高的元素组成一个子集,满足一定阈值条件,就是频繁项集。关联规则(associationrules):描述在一个事务中物品之间同时出现的规律的知识模式,通过量化的形式描述物品A的对物品B的影响。关联规则度量方法包括:支持度(support)支持度是对关联规则重要性的衡量,反映关联是否是普遍存在的规律,体现这条规则在所有交易中有多大的代表性。记为:support(X→Y)置信度(confidence)置信度(或可信度、信任度)是对关联规则准确度的衡量,度量关联规则的强度。即在所有出现了X的活动中出现Y的频率,说明规则X→Y的必然性有多大。记为confidence(X→Y)。关联规则形成的基本过程找频繁项集:通过用户给定最小支持度阈值min_sup,寻找所有频繁项集,即仅保留大于或等于最小支持度阈值的项集。生成强关联规则:通过用户给定最小置信度阈值min_conf,在每个最大频繁项集中寻找关联规则,即删除不满足最小置信度阈值的规则。5.回归分析及特点回归分析是根据现象之间关系的特点,运用一定的方法,建立最适合于变量之间关系的回归方程,来反映变量之间数量的平均变动关系,回归分析得到自变量与因变量的条件期望之间的关系,通过分析可以知道自变量改变时因变量是如何改变的。回归分析建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。如果随机变量Y与(X1,X2,⋯,Xk,变量存在相关关系,则可建立模型:Y=f(X1,X2,⋯Xk)+ε式中,Y是因变量,亦称被解释变量;X1,X2,⋯Xk是自变量,亦称解释变量;f(X1,X2,⋯Xk)是回归函数;ε是随机误差,表示受随
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 身体护理用化妆制剂市场发展现状调查及供需格局分析预测报告
- 2024年度建筑工程爆破作业专用承包合同
- 茶包托市场发展预测和趋势分析
- 04版瓷砖铺贴工程项目管理合同
- 2024年度幼儿园环境布置合同
- 英式橄榄球市场发展现状调查及供需格局分析预测报告
- 2024年度大连二手房买卖合同(含物业费)
- 空气净化器用过滤器市场需求与消费特点分析
- 2024年度环保产业园区污水处理工程合同
- 2024年度原材料采购供应合同
- 职业暴露后处理流程图
- 血透患者的健康宣教ppt
- ul2464电线线径标准
- NB/T 11123-2023煤矿安全双重预防机制规范
- 国开学习网电大数据库应用技术第四次形考作业实验答案
- 哲学与人生PPT中职全套教学课件全套教学课件
- 区块链技术与应用学习通课后章节答案期末考试题库2023年
- 手术室专科护士培训计划范文(2篇)
- 教师教育科研培训总结(6篇)
- 大学生心理健康教育(高职)PPT全套完整教学课件
- 幼儿园卫生保健知识试题答案,幼儿园卫生保健知识测试题答案
评论
0/150
提交评论