统计分析与数据挖掘作业指导书_第1页
统计分析与数据挖掘作业指导书_第2页
统计分析与数据挖掘作业指导书_第3页
统计分析与数据挖掘作业指导书_第4页
统计分析与数据挖掘作业指导书_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计分析与数据挖掘作业指导书TOC\o"1-2"\h\u11794第一章绪论 2165421.1统计分析与数据挖掘概述 2322141.2数据挖掘的基本任务与流程 219780第二章数据预处理 3226952.1数据清洗 3237252.2数据集成 4257242.3数据转换 4158942.4数据归一化与标准化 46184第三章数据摸索性分析 5265023.1数据可视化 5271683.2数据描述性统计 5132833.3数据分布特征分析 5140403.4数据相关性分析 620076第四章数据挖掘方法 688994.1监督学习 679894.2无监督学习 675304.3半监督学习 7267174.4强化学习 75696第五章决策树 85305.1决策树原理 8146225.2决策树算法 8214105.3决策树剪枝 8306025.4决策树应用实例 923083第六章支持向量机 933746.1支持向量机原理 9209006.2支持向量机算法 9248856.3核函数 10315746.4支持向量机应用实例 1029544第七章神经网络 1053777.1神经网络基本原理 10151607.1.1神经元模型 10282227.1.2学习算法 10205087.1.3误差函数 11137917.2前馈神经网络 11117617.2.1结构与特点 11100737.2.2学习算法 11156727.2.3应用领域 11165137.3循环神经网络 11180257.3.1结构与特点 11107797.3.2学习算法 11288507.3.3长短时记忆网络(LSTM) 1146327.4神经网络应用实例 12122507.4.1手写数字识别 12277547.4.2语音识别 12251267.4.3自然语言处理 12306837.4.4无人驾驶 129838第八章关联规则挖掘 1236658.1关联规则基本概念 12296338.2Apriori算法 12174978.3FPgrowth算法 1318668.4关联规则应用实例 1314840第九章聚类分析 1387979.1聚类分析基本概念 13202389.2Kmeans算法 1486519.3层次聚类算法 14163409.4聚类分析应用实例 14237第十章数据挖掘应用与评价 15466110.1数据挖掘在实际中的应用 151179110.2数据挖掘模型评估 151717910.3数据挖掘项目实施与管理 1679610.4数据挖掘发展趋势与展望 16第一章绪论1.1统计分析与数据挖掘概述统计分析与数据挖掘是当前信息化时代下,从海量数据中提取有价值信息的重要手段。统计分析是指运用数学方法对数据进行整理、分析、解释和预测的过程,旨在找出数据背后的规律和趋势。数据挖掘则是在统计分析的基础上,利用计算机技术自动发觉数据中的潜在模式、规律和关联性。统计分析主要包括描述性统计、推断性统计和预测性统计三个方面。描述性统计关注数据的分布、中心趋势和离散程度等基本特征;推断性统计通过样本数据推断总体数据的性质;预测性统计则根据历史数据预测未来的发展趋势。数据挖掘是从大量数据中提取隐藏的、未知的、有价值的信息和知识的过程。数据挖掘技术涉及多个学科,包括统计学、机器学习、数据库技术、人工智能等。数据挖掘方法主要包括分类、回归、聚类、关联规则挖掘等。1.2数据挖掘的基本任务与流程数据挖掘的基本任务包括以下几个方面:(1)分类:根据已知数据的特征,将其划分为不同的类别,以便对新数据进行分类预测。(2)回归:通过分析数据之间的相关性,建立回归模型,用于预测连续变量的值。(3)聚类:将相似的数据对象划分为同一类别,以发觉数据中的潜在模式。(4)关联规则挖掘:发觉数据中不同对象之间的关联性,例如购物篮分析。(5)异常检测:识别数据中的异常值,以便进一步分析原因。数据挖掘的基本流程如下:(1)数据准备:收集相关数据,并对数据进行预处理,包括数据清洗、数据集成、数据转换等。(2)数据选择:根据数据挖掘任务,选择合适的数据集进行分析。(3)数据预处理:对数据进行规范化、离散化、编码等操作,以便后续的数据挖掘算法处理。(4)模型构建:选择合适的数据挖掘算法,如决策树、支持向量机、神经网络等,建立数据挖掘模型。(5)模型评估:评估模型的效果,如准确率、召回率、F1值等。(6)模型优化:根据评估结果,对模型进行调整和优化,以提高预测效果。(7)结果解释:对挖掘结果进行解释和可视化,以便用户理解数据中的规律和模式。(8)应用与部署:将数据挖掘模型应用于实际场景,为决策提供依据。第二章数据预处理2.1数据清洗数据清洗是数据预处理过程中的关键环节,其目的是识别和修正(或删除)数据集中的错误或不一致的数据。数据清洗主要包括以下几个步骤:(1)缺失值处理:对数据集中的缺失值进行填充或删除,以避免对后续分析造成影响。常用的填充方法包括均值填充、中位数填充、众数填充等。(2)异常值处理:检测并处理数据集中的异常值,以保证数据的准确性和可靠性。异常值处理方法包括:删除异常值、用边界值替换、使用聚类等方法进行修正。(3)数据类型转换:将数据集中的数据类型转换为适合后续分析的类型,如将字符串类型转换为数值类型。(4)重复数据删除:识别并删除数据集中的重复记录,以减少数据冗余。2.2数据集成数据集成是将来自不同数据源的数据进行整合,形成一个统一的数据集,以便进行后续的数据分析。数据集成主要包括以下几个步骤:(1)数据源识别:识别并确定需要整合的数据源,包括内部和外部数据源。(2)数据抽取:从各个数据源中抽取所需的数据,并将其转换为统一的格式。(3)数据合并:将抽取的数据进行合并,形成完整的数据集。(4)数据一致性检查:检查合并后的数据集中是否存在数据不一致的现象,如数据类型、数据范围等。2.3数据转换数据转换是对数据集进行格式化和结构化处理,使其更适合数据分析的需求。数据转换主要包括以下几个步骤:(1)属性选择:根据分析目的,选择数据集中的相关属性进行分析。(2)属性分割:将一个属性拆分为多个属性,以降低数据的维度。(3)属性构造:根据现有属性,构造新的属性,以便更好地描述数据。(4)数据编码:将数据集中的符号、文本等非数值型数据转换为数值型数据。2.4数据归一化与标准化数据归一化与标准化是数据预处理过程中的重要环节,目的是使数据集具有统一的量纲和分布范围,以便进行有效的数据分析和建模。以下分别介绍这两种方法:(1)数据归一化:将数据集中的数值按照一定的比例进行缩放,使其落在0到1的范围内。常用的归一化方法包括最大最小归一化和Z分数归一化。(2)数据标准化:将数据集中的数值转化为均值为0,标准差为1的分布。常用的标准化方法包括Z分数标准化和标准化变换。通过以上数据预处理方法,可以有效地提高数据分析的质量和效率。在后续的数据挖掘过程中,这些预处理步骤将为模型训练和评估提供可靠的数据基础。第三章数据摸索性分析数据摸索性分析是统计分析与数据挖掘过程中的重要环节,通过对数据进行摸索,可以初步了解数据的特征、分布和潜在规律。以下是第三章的详细内容:3.1数据可视化数据可视化是将数据以图形或图像的形式展现出来,以便于更直观地观察和分析数据。在数据摸索性分析中,数据可视化主要包括以下几种方法:散点图:用于展示两个变量之间的关系,观察数据点的分布情况。折线图:用于展示数据随时间或其他变量变化的趋势。柱状图:用于展示不同类别数据的数量或比例。饼图:用于展示各部分数据占总数据的比例。盒形图:用于展示数据的分布情况,包括最大值、最小值、中位数、四分位数等。热力图:用于展示数据矩阵或表格中数值的大小关系。3.2数据描述性统计数据描述性统计是对数据进行量化描述,以揭示数据的基本特征。主要包括以下内容:频数:表示各个类别或数值出现的次数。百分比:表示各个类别或数值在总数据中所占的比例。平均数:表示所有数值的总和除以数据个数。中位数:表示将数据从小到大排序后,位于中间位置的数值。标准差:表示数据与平均数的偏离程度,用于衡量数据的离散程度。偏度:表示数据分布的对称程度,正值表示右偏,负值表示左偏。峰度:表示数据分布的尖峭程度,正值表示尖峭,负值表示平坦。3.3数据分布特征分析数据分布特征分析是研究数据在不同区间内的分布情况,主要包括以下内容:长度:表示数据区间的范围,即最大值与最小值之差。集中度:表示数据分布的紧密程度,常用平均数、中位数等指标衡量。离散程度:表示数据分布的分散程度,常用标准差、方差等指标衡量。对称性:表示数据分布的对称程度,如正态分布是对称的。尖峭程度:表示数据分布的尖峭程度,如正态分布的峰度为0。3.4数据相关性分析数据相关性分析是研究两个或多个变量之间的相互关系。主要包括以下内容:皮尔逊相关系数:用于衡量两个连续变量之间的线性相关程度,取值范围为1到1,绝对值越接近1表示相关性越强。斯皮尔曼等级相关系数:用于衡量两个有序变量之间的相关程度,取值范围为1到1。判定系数:用于衡量一个变量对另一个变量的解释程度,取值范围为0到1,越接近1表示解释程度越高。虚拟变量相关分析:用于研究分类变量之间的相关性,如卡方检验、Fisher精确检验等。通过对数据的相关性分析,可以初步判断变量之间的关联程度,为后续的数据挖掘和建模提供依据。第四章数据挖掘方法4.1监督学习监督学习是数据挖掘中的一种重要方法,其核心思想是通过已知的输入和输出关系,训练出一个模型,从而对新的数据进行预测。监督学习主要包括分类和回归两种任务。在分类任务中,监督学习旨在确定输入数据所属的类别。常见的分类算法有决策树、支持向量机、朴素贝叶斯等。决策树是一种基于树结构的分类方法,通过递归地将数据集划分为子集,直到满足停止条件。支持向量机是一种基于最大间隔的分类方法,旨在找到能够最大化各类别数据间隔的超平面。朴素贝叶斯则是一种基于贝叶斯理论的分类方法,通过计算后验概率来确定数据所属的类别。在回归任务中,监督学习旨在预测输入数据对应的连续值。常见的回归算法包括线性回归、岭回归、套索回归等。线性回归是一种基于线性关系的回归方法,通过最小化误差平方和来求解模型参数。岭回归和套索回归是线性回归的改进方法,通过引入正则化项来防止过拟合。4.2无监督学习无监督学习是另一种重要的数据挖掘方法,其特点是不依赖于已知的输入和输出关系。无监督学习主要包括聚类和降维两种任务。聚类任务旨在将数据集划分为若干个类别,使得同一类别中的数据尽可能相似,而不同类别中的数据尽可能不同。常见的聚类算法有Kmeans、层次聚类、DBSCAN等。Kmeans算法通过迭代地将数据分配到K个聚类中心,从而实现聚类。层次聚类算法则基于层次结构,通过逐步合并相似的类别来实现聚类。DBSCAN算法是一种基于密度的聚类方法,能够识别出任意形状的聚类。降维任务旨在将高维数据映射到低维空间,从而降低数据的复杂性。常见的降维方法包括主成分分析(PCA)、线性判别分析(LDA)、tSNE等。PCA通过线性变换将数据投影到方差最大的方向上,从而实现降维。LDA则是一种基于类别信息的降维方法,旨在找到能够最大化类别间差异的方向。tSNE是一种基于非线性的降维方法,能够较好地保持数据在原始空间中的局部结构。4.3半监督学习半监督学习是监督学习和无监督学习的一种结合,其特点是在训练过程中同时利用已标记和未标记的数据。半监督学习旨在提高模型的泛化能力,降低对大量标记数据的依赖。常见的半监督学习方法包括自编码器、对抗网络(GAN)、标签传播等。自编码器是一种基于自动编码的半监督学习方法,通过学习重构输入数据的过程来提取特征。对抗网络则是一种基于博弈理论的半监督学习方法,通过训练器和判别器来具有相似分布的数据。标签传播方法则利用已标记数据的信息,通过迭代地传播标签来预测未标记数据的类别。4.4强化学习强化学习是一种基于智能体与环境的交互来进行学习的方法。在强化学习中,智能体根据环境的状态选择动作,环境根据动作产生新的状态和奖励,智能体根据奖励来调整策略。强化学习的目标是找到一种最优策略,使得智能体在环境中获得最大的累计奖励。常见的强化学习算法包括Q学习、SARSA、深度Q网络(DQN)等。Q学习是一种基于值函数的强化学习算法,通过迭代地更新Q值来求解最优策略。SARSA则是一种基于策略的强化学习算法,通过更新策略来求解最优策略。深度Q网络是一种结合深度学习和强化学习的算法,通过训练一个深度神经网络来近似Q值函数。强化学习在游戏、推荐系统等领域取得了显著的成果,但目前仍面临许多挑战,如样本效率、稳定性、泛化能力等问题。第五章决策树5.1决策树原理决策树是一种常见的分类与回归算法,其原理是通过一系列规则对数据进行划分,从而实现对数据集的分类或回归预测。决策树的基本组成单元是节点,每个节点代表一个特征的判断条件,通过这些条件将数据集划分为子集。决策树的生长过程就是不断地选择最优特征进行划分,直到满足停止条件为止。5.2决策树算法决策树算法主要包括以下几种:(1)ID3算法:采用信息增益作为特征选择的依据,适用于处理离散型特征。(2)C4.5算法:在ID3算法的基础上,引入了增益率的概念,以克服ID3算法对具有大量值的特征的偏好。(3)CART算法:采用基尼指数作为特征选择的依据,适用于处理连续型特征。(4)决策树回归算法:将决策树应用于回归预测,通过最小化平方误差来选择最优特征。5.3决策树剪枝决策树剪枝是为了避免过拟合,提高模型的泛化能力。剪枝方法主要包括以下几种:(1)预剪枝:在决策树生长过程中,提前设定停止条件,如最小样本数、最大深度等。(2)后剪枝:在决策树完全生长后,通过剪枝算法删除部分节点,以减少模型的复杂度。(3)代价复杂度剪枝:在决策树生长过程中,引入一个惩罚项,以平衡模型的复杂度和预测精度。5.4决策树应用实例以下是一个决策树应用实例:假设有一个关于房屋价格的数据集,包含以下特征:房屋面积、卧室数量、卫生间数量、房屋类型等。我们需要通过决策树算法预测房屋价格。对数据集进行预处理,包括数据清洗、特征工程等。选择合适的决策树算法(如CART算法)对数据进行训练,决策树模型。通过这个实例,我们可以看到决策树算法在处理实际问题时具有较高的准确性和泛化能力。同时决策树的可解释性较强,有助于我们理解模型是如何进行决策的。第六章支持向量机6.1支持向量机原理支持向量机(SupportVectorMachine,SVM)是一种基于统计学习理论的机器学习算法,主要用于分类和回归分析。其基本原理是通过找到一个最优的超平面,将不同类别的数据样本分开,同时使得两类数据之间的间隔最大化。支持向量机的主要思想可以概括为以下几点:(1)数据空间中的最优超平面:通过寻找一个最优的超平面,使得两类数据样本之间的间隔最大化。(2)几何间隔与函数间隔:在数据空间中,两类数据样本之间的间隔可以用几何间隔和函数间隔表示。SVM的目标是最大化几何间隔。(3)软间隔与惩罚参数:在实际应用中,数据样本可能存在噪声或重叠,因此引入软间隔概念,通过调整惩罚参数来平衡分类精度和间隔大小。6.2支持向量机算法支持向量机算法主要包括以下几种:(1)线性支持向量机(LinearSVM):适用于线性可分的数据集,通过求解一个凸二次规划问题来找到最优超平面。(2)非线性支持向量机(NonlinearSVM):适用于非线性可分的数据集,通过引入核函数将数据映射到高维空间,然后在高维空间中求解最优超平面。(3)软间隔支持向量机(SoftMarginSVM):考虑到数据样本可能存在噪声或重叠,引入软间隔概念,通过调整惩罚参数来平衡分类精度和间隔大小。6.3核函数核函数是支持向量机算法中的关键组成部分,其主要作用是在非线性情况下将数据映射到高维空间。常用的核函数有以下几种:(1)线性核函数:适用于线性可分的数据集,直接使用原始空间的内积作为核函数。(2)多项式核函数:适用于多项式关系的数据集,将原始空间的内积进行多项式扩展。(3)径向基函数(RBF):适用于非线性且具有径向对称性的数据集,以高斯函数为核函数。(4)Sigmoid核函数:适用于神经网络类型的数据集,以Sigmoid函数为核函数。6.4支持向量机应用实例以下为几个支持向量机的应用实例:(1)文本分类:将文本数据表示为向量,利用支持向量机进行分类,从而实现文本分类任务。(2)图像识别:将图像数据表示为向量,利用支持向量机进行分类,从而实现图像识别任务。(3)生物信息学:利用支持向量机对生物序列进行分类,从而发觉生物学规律。(4)金融风险控制:利用支持向量机对金融数据进行分析,从而预测金融风险。第七章神经网络7.1神经网络基本原理7.1.1神经元模型神经网络的基本单元是神经元,它是模仿生物神经系统的基本处理单元。神经元模型通常包括输入、权重、激活函数和输出四个部分。输入信号经过权重加权求和后,通过激活函数处理,产生输出信号。7.1.2学习算法神经网络的学习算法主要包括监督学习、无监督学习和强化学习三种。其中,监督学习是最常用的学习方式,其核心思想是通过调整权重,使神经网络的输出接近期望输出。常见的学习算法有梯度下降法、共轭梯度法和LevenbergMarquardt算法等。7.1.3误差函数在神经网络训练过程中,误差函数用于衡量神经网络的输出与期望输出之间的差距。常用的误差函数有均方误差(MSE)和交叉熵误差(CrossEntropy)等。7.2前馈神经网络7.2.1结构与特点前馈神经网络(FeedforwardNeuralNetwork,FNN)是一种层次化的神经网络,其特点是输入信号单向传递,不存在反馈。FNN包括输入层、隐藏层和输出层,其中隐藏层可以有一个或多个。7.2.2学习算法前馈神经网络的学习算法主要有反向传播算法(Backpropagation,BP)和随机梯度下降法(StochasticGradientDescent,SGD)。反向传播算法通过计算输出误差对权重和偏置的梯度,不断调整权重和偏置,使网络输出接近期望输出。7.2.3应用领域前馈神经网络广泛应用于图像识别、语音识别、自然语言处理等领域,具有较好的泛化能力。7.3循环神经网络7.3.1结构与特点循环神经网络(RecurrentNeuralNetwork,RNN)是一种具有反馈结构的神经网络,其特点是输入信号在时间序列上具有连续性。RNN通过引入隐藏状态的循环连接,实现对历史信息的记忆和处理。7.3.2学习算法循环神经网络的学习算法主要有梯度下降法、共轭梯度法和LevenbergMarquardt算法等。其中,梯度下降法在处理长序列数据时,容易出现梯度消失或梯度爆炸的问题。7.3.3长短时记忆网络(LSTM)长短时记忆网络(LongShortTermMemory,LSTM)是循环神经网络的一种改进形式,通过引入门控机制,有效解决了梯度消失和梯度爆炸的问题。LSTM在自然语言处理、语音识别等领域取得了显著的成果。7.4神经网络应用实例7.4.1手写数字识别手写数字识别是神经网络在图像识别领域的经典应用。通过将输入图像转化为像素矩阵,利用前馈神经网络进行训练和识别,可以实现较高的识别准确率。7.4.2语音识别语音识别是神经网络在语音处理领域的应用。利用循环神经网络处理语音信号,可以实现对连续语音的端到端识别。7.4.3自然语言处理自然语言处理(NaturalLanguageProcessing,NLP)是神经网络在自然语言处理领域的应用。例如,利用神经网络进行情感分析、文本分类和机器翻译等任务,取得了显著的成果。7.4.4无人驾驶无人驾驶是神经网络在自动驾驶领域的应用。通过神经网络处理传感器数据,实现对车辆周围环境的感知和决策。第八章关联规则挖掘8.1关联规则基本概念关联规则挖掘是一种在大量数据集中发觉项集之间潜在关系的数据挖掘技术。关联规则反映了数据集中各项之间的相互依赖性,其基本概念包括项集、支持度、置信度等。项集:指数据集中的元素组合,如{A,B,C}。支持度:指项集在数据集中出现的频率,通常用百分比表示。支持度越高,说明项集在数据集中出现的可能性越大。置信度:指关联规则的可信度,即在前提条件发生的条件下,结论发生的概率。置信度越高,说明规则越可靠。8.2Apriori算法Apriori算法是关联规则挖掘中的一种经典算法,其核心思想是找出数据集中的频繁项集。算法步骤如下:(1)扫描数据集,计算各单项的支持度,保留大于最小支持度阈值的支持度。(2)频繁1项集,并计算频繁1项集的支持度。(3)对频繁1项集进行组合,频繁2项集,并计算支持度。(4)重复步骤3,直至找出所有频繁k项集。(5)根据频繁项集关联规则,并计算规则置信度。(6)保留大于最小置信度阈值的关联规则。8.3FPgrowth算法FPgrowth算法是一种基于频繁模式树(FPtree)的关联规则挖掘算法。算法步骤如下:(1)扫描数据集,计算各单项的支持度,并构建FPtree。(2)从FPtree的叶节点开始,递归地频繁项集。(3)根据频繁项集关联规则,并计算规则置信度。(4)保留大于最小置信度阈值的关联规则。与Apriori算法相比,FPgrowth算法在处理大规模数据集时具有更高的效率。8.4关联规则应用实例以下是一个关联规则挖掘的应用实例:假设有一个超市的购物篮数据集,包含顾客购买的商品信息。通过关联规则挖掘,我们可以发觉以下规律:(1)当顾客购买牛奶时,有80%的概率购买面包。(2)当顾客购买啤酒时,有70%的概率购买尿不湿。(3)当顾客购买水果时,有60%的概率购买蔬菜。这些关联规则可以帮助超市制定促销策略,如将牛奶和面包放在相邻的货架上,或对购买啤酒的顾客提供尿不湿的折扣。通过这种方式,超市可以提高销售额并满足顾客需求。第九章聚类分析9.1聚类分析基本概念聚类分析(ClusterAnalysis)是统计学中的一种无监督学习方法,旨在根据数据对象的相似性将数据集划分为若干个类别。聚类分析的核心目的是将相似的对象归为一组,使得组内的对象具有较高的相似性,而组间的对象具有较大的差异性。聚类分析在模式识别、数据挖掘、图像处理等领域具有广泛的应用。9.2Kmeans算法Kmeans算法是聚类分析中的一种经典算法,其基本思想是将数据集划分为K个类别,每个类别由一个中心点表示。算法步骤如下:(1)随机选择K个数据点作为初始中心点。(2)计算每个数据点到各个中心点的距离,将数据点分配到距离最近的中心点所属的类别。(3)更新每个类别的中心点,计算类别内所有数据点的平均值作为新的中心点。(4)重复步骤2和3,直至中心点不再发生变化或达到预设的迭代次数。Kmeans算法具有实现简单、计算效率高等优点,但容易受到初始中心点的影响,可能导致局部最优解。9.3层次聚类算法层次聚类算法(HierarchicalClustering)是将数据集按照相似度逐步合并成树状结构的聚类方法。层次聚类算法可分为凝聚的层次聚类和分裂的层次聚类两种类型。(1)凝聚的层次聚类:从每个数据点作为一个类别开始,逐步合并相似度较高的类别,直至合并成一个类别。(2)分裂的层次聚类:从所有数据点作为一个类别开始,逐步分裂成相似度较低的类别,直至达到预设的类别数。层次聚类算法的关键是计算数据点之间的相似度,常用的相似度计算方法有欧几里得距离、曼哈顿距离等。层次聚类算法的优点是能够层次化的类别结构,便于分析数据对象的层次关系,但计算量较大。9.4聚类分析应用实例以下是一个聚类分析的应用实例:某电商公司拥有大量用户购买记录,为了更好地了解用户需求,提高服务质量,该公司决定使用聚类分析对用户进行分类。收集用户的基本信息、购买记录等数据,构建用户特征矩阵。采用Kmeans算法对用户进行聚类,将用户分为几个类别。通过分析不同类别的用户特征,该公司发觉以下规律:(1)类别A:用户年龄较小,购买力较低,偏好购买低价商品。(2)类别B:用户年龄较大,购买力较高,偏好购买高品质商品。(3)类别C:用户年龄适中,购买力一般,偏好购买性价比高的商品。根据这些规律,该公司可以针对性地为不同类别的用户提供个性化服务,提高用户满意度。例如,为类别A的用户推荐低价商品,为类别B的用户推荐高品质商品,为类别C的用户推荐性价比高的商品。第十章数据挖掘应用与评价10.1数据挖掘在实际中的应用数据挖掘作为一种从大量数据中发觉潜在模式、关系和知识的技术,已广泛应用于众多领域。以下列举几个数据挖掘在实际中的应用案例:(1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论