下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
年第学期数据挖掘与数据分析(B)卷参考答案及评分标准适用:商学院财务管理专业2020级学生命题教师:黄宏军选择题(20分,2分*10题)1-5BBDDD6-10DADBB判断题(20分,2分*10题,正确标记√,错误标记×)1-5√√×√√6-10√×√×√名词解释(20分,4分*5题)1.数据规约数据规约是将海量数据进行规约,规约之后的数据仍接近于保持原数据的完整性,但数据量小得多。通过数据规约,可以达到降低无效、错误数据对建模的影响,提高建模的准确性少量且降低储存数据成本。数据规约包括属性规约和数值规约。属性规约通过属性合并创建新属性维数,或者通过直接删除不相关的属性来减少数据维数,数值规约通过选择替代的、较小的数据来减少数据量。2.置信度表示包含A的交易中也包含B的条件概率3.分类分类主要是预测分类标号(离散、无序的),而预测主要是建立连续值函数模型,预测给定自变量的条件下因变量的值。分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习。4.关联规则关联规则描述在一个事务中物品之间同时出现的规律的知识模式,通过量化的形式描述物品A的对物品B的影响。关联规则的度量指标包括支持度和置信度,支持度是某一特定关联或项集在数据集中出现的概率,置信度是在数据集中已经出现A时,B发生的概率。5.相对误差相对误差指的是测量所造成的绝对误差与被测量真值之比乘以100%所得的数值,以百分数表示,相对误差更能反映测量的可信程度。相对误差(RelativeError)=(原值-估计值)/原值。简答题(40分,8分*5题)1.数据异常值分析离群点(Outlier),也称为异常对象。通常,在数据的散布图中,离群点远离其他数据点。离群点检测的目的是发现有异于大部分对象的其他对象。离群点的主要成因有:数据来源于不同的类、自然变异、数据测量和收集误差。从整体来看,某些对象没有离群特征,但是从局部来看,却显示了一定的离群性。从属性的个数看包括一维离群点和多维离群点,从数据类型看包括数值型离群点和分类型离群点。异常值分析包括如下方法:(1)基于统计。大部分的基于统计的离群点检测方法是构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为离群点。(2)基于邻近度。通常可以在数据对象之间定义邻近性度量,把远离大部分点的对象视为离群点。(3)基于密度。考虑数据集可能存在不同密度区域这一事实,从基于密度的观点分析,离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。(4)基于聚类。一种是利用聚类检测离群点的方法是丢弃远离其他簇的小簇;另一种更系统的方法,首先聚类所有对象,然后评估对象属于簇的程度(离群点得分)。2.分类与预测算法评价指标分类与预测模型对训练集进行预测而得出的准确率并不能很好地反映预测模型未来的性能,为了有效判断一个预测模型的性能表现,需要一组没有参与预测模型建立的数据集,并在该数据集上评价预测模型的准确率,这组独立的数据集叫测试集。模型预测效果评价,通常用绝对误差与相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量绝对误差(AbsoluteError)=原值-估计值相对误差(RelativeError)=(原值-估计值)/原值平均绝对误差(MeanAbsoluteError,MAE)均方误差的平方根,代表了预测值的离散程度,也叫标准误差,跟方差一样,均方误差是预测误差平方之和的平均数分类器评价指标包括如下,(1)正确率(accuracy)正确率是我们最常见的评价指标,accuracy=(TP+TN)/(P+N),被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好;(2)错误率(errorrate)错误率则与正确率相反,描述被分类器错分的比例,errorrate=(FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以accuracy=1–errorrate;(3)灵敏度(sensitive)sensitive=TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力;(4)特效度(specificity)specificity=TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力;(5)精度(precision)精度是精确性的度量,表示被分为正例的示例中实际为正例的比例,precision=TP/(TP+FP);(6)召回率(recall)召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率与灵敏度是一样的。3.数据规范化及主要方法(1)最小-最大规范化:也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0,1]之间。转换函数如:(2)零-均值规范化:也叫标准差标准化,经过处理的数据的平均数为0,标准差为1。转化函数为:(3)小数定标规范化:通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值。转化函数为:4.关联规则原理和主要特点关联分析(associationanalysis)是一种在大规模数据集中寻找有趣关系的任务,这些关系可以有两种形式:频繁项集(frequentitemset)或者关联规则(associationrule)。频繁项集:假设有一系列集合,这些集合有些相同的元素,将集合中同时出现频率高的元素组成一个子集,满足一定阈值条件,就是频繁项集。关联规则(associationrules):描述在一个事务中物品之间同时出现的规律的知识模式,通过量化的形式描述物品A的对物品B的影响。关联规则度量方法包括:支持度(support)支持度是对关联规则重要性的衡量,反映关联是否是普遍存在的规律,体现这条规则在所有交易中有多大的代表性。记为:support(X→Y)置信度(confidence)置信度(或可信度、信任度)是对关联规则准确度的衡量,度量关联规则的强度。即在所有出现了X的活动中出现Y的频率,说明规则X→Y的必然性有多大。记为confidence(X→Y)。关联规则形成的基本过程找频繁项集:通过用户给定最小支持度阈值min_sup,寻找所有频繁项集,即仅保留大于或等于最小支持度阈值的项集。生成强关联规则:通过用户给定最小置信度阈值min_conf,在每个最大频繁项集中寻找关联规则,即删除不满足最小置信度阈值的规则。5.回归分析及特点回归分析是根据现象之间关系的特点,运用一定的方法,建立最适合于变量之间关系的回归方程,来反映变量之间数量的平均变动关系,回归分析得到自变量与因变量的条件期望之间的关系,通过分析可以知道自变量改变时因变量是如何改变的。回归分析建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。如果随机变量Y与(X1,X2,⋯,Xk,变量存在相关关系,则可建立模型:Y=f(X1,X2,⋯Xk)+ε式中,Y是因变量,亦称被解释变量;X1,X2,⋯Xk是自变量,亦称解释变量;f(X1,X2,⋯Xk)是回归函数;ε是随机误差,表示受随机因素影响而未能观察到的偶然因素。Y由自变量和随机误差共同决定,表达出了y与自变量间既有联系又有不确定性的特点。根据模型表达式是否为线性,可将回归模型分为线性回归模型和非
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河北农业大学现代科技学院《通信原理》2022-2023学年第一学期期末试卷
- 年度绿化养护服务合同2024
- 2024年度工程安全事故责任合同3篇
- 建造师聘用合同完整版2篇
- 托管接送安全协议书范本
- 2024汽车销售二手分期付款合同3篇
- 解除招标代理协议范本版2篇
- 员工信息安全保密协议全文
- 2024年度装修工程合同违约责任与赔偿协议3篇
- 《陈处士墓志铭》课件
- 踝关节不稳的康复治疗
- 2024-2025学年必修一《3.1伟大的改革开放》(说课稿)
- 产学研合同模板
- 2024-2030年中国云安全服务行业深度调查及投资模式分析报告
- 建筑工程施工现场安全管理处罚规定
- 安徽省合肥市2024年七年级上学期期中数学试卷【附答案】
- 4.1陆地水体间的相互关系课件高中地理人教版(2019)选择性必修一
- 国开学习网《幼儿园课程与活动设计》期末大作业答案(第3套)
- DB11T 854-2023 占道作业交通安全设施设置技术要求
- 浙教版2024-2025学年七年级数学上册第四章 代数式 单元测试(附答案)
- DB11T 585-2020 组织机构、职务职称英文译写通则
评论
0/150
提交评论