基于wine数据集的数据分析报告R语言

上传人：彤*** IP属地：江苏上传时间：2023-09-28 格式：DOC 页数：9 大小：106KB 积分：12 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

《数据仓库与数据挖掘》课程论文基于Wine数据集的数据分析汇报专业：计算机科学与技术五月二十五日

基于wine数据集的数据分析汇报摘要：数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。在大数据时代，怎样从海量数据中挖掘有用信息成为了信息产业的热门话题。作为数据挖掘课程内容的回忆与应用，本文对wine数据集进行了数据探索性分析，并将数据挖掘的决策树、支持向量机、聚类等常用措施应用于详细的数据挖掘任务，并获得了很好的效果。关键词：wine数据集、决策树、支持向量机、聚类引言数据挖掘（Datamining），又译为资料探勘、数据挖掘、数据采矿。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性（属于Associationrulelearning）的信息的过程。数据挖掘一般与计算机科学有关，并通过记录、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多措施来实现上述目的。在大数据时代，怎样从海量数据中挖掘有用信息成为了信息产业的热门话题。本文作为数据挖掘课程内容的回忆与应用，将数据挖掘的理论与措施运用于详细的数据挖掘任务中，并获得很好的效果。本次试验选择的数据集为wine数据集。本文首先对其进行了数据探索性分析，包括：数据概括、变量分布、离群点、缺失值、有关性等，并运用了合适的图形进行描述，然后在探索性分析的基础上，采用了决策树、支持向量机、聚类等措施进行了分类预测，并比较了不一样措施的分类效果。数据探索性分析数据概况本次试验选用的数据集为UCI的WineQuality数据集中whitewine的4898条数据，每条数据有12种属性，分别为：fixedacidity,volatileacidity,citricacid,residualsugar,chlorides,freesulfurdioxide,totalsulfurdioxide,density,pH,sulphates,alcohol,quality.其中，quality为输出，以0到10之间的数字来表达酒的品质。试验使用RStudio软件将数据集读入，并使用summary命令概括数据集概况。如图一所示，summary概括了数据集中各个变量的平均值、中位数、最大值、最小值等信息。图1数据概括变量分布使用hist()绘制各变量的直方图。如图二所示，直方图直观的展示了变量的分布状况。图2变量直方图直方图只能对变量进行直观的描述，而变量与否满足正态分布则需要正态性验证。使用shapirotest对各变量进行正态验证，通过查当作果中的p-value值就可以得到变量与否符合正态分布。假如p-value值不小于0.05即符合正态分布，而对所有变量进行shapirotest得到p-value均不不小于0.05，因此wine数据集各特性均不是正态分布。离群点分析箱形图（Box-plot）又称为盒须图、盒式图或箱线图，是一种用作显示一组数据分散状况资料的记录图。重要包括六个数据节点，将一组数据从大到小排列，分别计算出他的上边缘，上四分位数Q3，中位数，下四分位数Q1，下边缘，尚有一种异常值。箱形图的异常值就可以可视化的展示数据集中的离群点。图3展示了各变量的离群点分布状况，可以看出离群点较多，也许对预测产生影响。图3变量箱形图缺失值分析Wine数据集不具有缺失值。有关性分析数据集中各变量间的有关性关系可由cor()函数计算出的协方差矩阵来表达，如表4所示。表1协方差矩阵表ROW123456789101111.00-0.020.290.090.02-0.050.090.27-0.43-0.02-0.122-0.021.00-0.150.060.07-0.100.090.03-0.03-0.040.0730.29-0.151.000.090.110.090.120.15-0.160.06-0.0840.090.060.091.000.090.300.400.84-0.19-0.03-0.4550.020.070.110.091.000.100.200.26-0.090.02-0.366-0.05-0.100.090.300.101.000.620.290.000.06-0.2570.090.090.120.400.200.621.000.530.000.13-0.4580.270.030.150.840.260.290.531.00-0.090.07-0.789-0.43-0.03-0.16-0.19-0.090.000.00-0.091.000.160.1210-0.02-0.040.06-0.030.020.060.130.070.161.00-0.0211-0.120.07-0.08-0.45-0.36-0.25-0.45-0.780.12-0.021.00由表1可以看出wine数据集各变量之间有关度大部分都很低，不过residualsugar与density之间有关度较高。葡萄酒品质分类挖掘直接分类预测数据预处理在运用数据挖掘算法对数据集进行分类预测前，需要对数据集进行预处理。详细操作如下：将数据集的前11维变量用scale()函数原则化，并使用factor()函数把最终一位变量quality转化为因子；以7:3的比例将数据集划分为训练集与测试集，其中训练集为7，测试集为3.分类预测使用C50包中的C5.0决策树措施对数据集进行分类预测。在训练集上训练出决策树模型，计算出分类对的率，然后将模型应用于测试集，并计算对的率。此外，试验中还使用了Metrics包中的平均绝度误差MAE作为指标来描述模型对训练集与测试集的分类效果。使用支持向量机对数据集进行分类预测则使用了e1071包，操作方式与决策树措施基本一致。将两种措施的到得的成果进行比较，如表2所示。表2直接分类预测成果模型训练集测试集对的率MAE对的率MAE决策树0.830.20.570.51支持向量机0.610.440.570.48通过表二可以看出，两种模型的分类精度都比较低。再回忆数据探索性分析中有关离群点部分的内容可知，数据集中具有大量离群点。而决策树与支持向量机属于对离群点非常敏感的模型，这也许就是分类精度较低的原因。因此需要选用一种可以克服离群点影响的模型来对wine数据集进行预测，因此我们选用了class包中的1-近邻模型来进行分类预测，成果如表3所示，可以看出分类效果有提高。表3直接分类预测成果模型训练集测试集对的率MAE对的率MAE决策树0.830.20.570.51支持向量机0.610.440.570.481-近邻0.610.45离散化后分类预测数据预处理首先使用cut()函数将wine数据集中的quality按(-∞,5),[5,6],(6,+∞)，划分为[差、中、好]三类，为了以便将三类类标简化为[1,2,3].然后使用3.1.1中的环节进行预处理，得到试验数据集。分类预测Wine数据集quality离散化后的分类预测同样也可以参照3.1.2中的环节，使用决策树、支持向量机、1-近邻模型进行预测。成果如表4所示，可以看出在对输出离散化后，1-近邻得到了最优的分类效果。表4离散化后分类预测成果模型训练集测试集对的率MAE对的率MAE决策树0.850.150.760.24支持向量机0.810.190.780.211-近邻0.810.19聚类分类预测将wine数据集去掉quality变量使用cluster包pam()函数进行K-MEDOIDS聚类，聚类成果直方图如图4所示。图4聚类成果运用得到的成果与支持向量机得到的分类成果生成混淆矩阵，如表5所示。表5混淆矩阵123141642562115416311233414由于聚类的成果与分类成果的类标不一致，调整类标后得到新的混淆矩阵，如表6所示。表6调整类标后的混淆矩阵123111541562416426311233414通过混淆矩阵可以得出聚类成果与支持向量机的预测成果只有42%相似，成果重叠度较低。通过观测图4的聚类成果与图2中quality的直方图，以(-∞,6),[6],(6,+∞)，将quality重新划分为[差、中、好]三类，运用支持向量机进行预测并与聚类预测成果进行比较如表7所示。表7SVM与聚类成果模型wine数据集对的率MAE支持向量机0.650.46聚类0.440.64由表7可以看出，对按照新的划分重新离散化的数据集使用支持向量机进行拟合，得到的预测成果比原本的预测成果要差。同步，使用K-MEDOIDS聚类措施来预测数据的类标对的率只有44%，效果很差，并不合用于wine数据集的分类预测

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于wine数据集的数据分析报告R语言

文档简介

温馨提示

最新文档

评论

基于wine数据集的数据分析报告R语言

文档简介

温馨提示

最新文档

评论

相关文档