《数据挖掘与机器学习》 课件5.1.2 数据降维、处理玻璃成分数据_第1页
《数据挖掘与机器学习》 课件5.1.2 数据降维、处理玻璃成分数据_第2页
《数据挖掘与机器学习》 课件5.1.2 数据降维、处理玻璃成分数据_第3页
《数据挖掘与机器学习》 课件5.1.2 数据降维、处理玻璃成分数据_第4页
《数据挖掘与机器学习》 课件5.1.2 数据降维、处理玻璃成分数据_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

处理玻璃成分数据加工厂玻璃类别识别——决策树、随机森林任务描述数据预处理是数据分析的基础,基础不牢,地动山摇,因此,数据预处理是关键一步。打好坚实的基础才能为之后的腾飞做好准备。数据预处理的具体目标是将不同格式和单位的数据,整合为同一形式,便于之后的数据分析。本任务将主要对加工厂生产的玻璃进行数据的预处理,包括数据集的划分、数据的标准化,以及通过PCA降维,提取数据集的主要特征。任务要求利用sklearn库进行标准差标准化。利用sklearn库进行PCA降维。数据标准化数据降维数据降维数据降维是一种数据预处理技术,它通过减少数据中的冗余信息,来降低数据的维度,同时尽量保留原始数据的重要特征。什么是数据降维?1减少计算成本。在大规模数据集上进行计算是一项非常耗时的任务,通过降低数据维度,可以减少计算成本,并且加快算法的执行速度。2去除冗余信息。数据通常包含很多冗余信息,这些信息可能对分析和建模没有任何帮助。通过降维,可以去除这些冗余信息,提高数据的效率和准确性。易于可视化。通过将数据降低到较低的维度,可以更容易地可视化和理解数据。数据降维的意义3数据降维将高维数据映射到低维空间,并尽可能保留原始数据的信息将数据投影到一个新的低维空间,同时最大化类间距离,最小化类内距离主成分分析(PCA)线性判别分析(LDA)常见的数据降维方法数据降维线性判别分析是一种经典的线性降维技术,也是一种常用的分类方法。用于在多类分类问题中寻找一个线性判别函数,能够最大程度地区分不同类别之间的差异。线性判别分析的基本思想是,将数据投影到一条直线或一个超平面上,使得同一类别的数据点尽量靠近,不同类别的数据点尽量远离。投影后,根据每个数据点在这条直线上的位置进行分类。什么是线性判别分析?线性判别分析对于给定的数据集,LDA的目标是找到一个线性判别函数,通过将数据点投影到一维或多维的超平面,使得同一类内的数据点尽可能地接近,不同类之间的数据点尽可能地分开。投影向量偏置该线性判别函数可以表示为:

线性判别分析LDA的目标是最大化类间方差,最小化类内方差。类间散度矩阵类内散度矩阵线性判别分析其中,、

可以通过计算各类的均值向量和协方差矩阵得到。通过求解上述优化问题,可以得到最优的投影向量w,并将数据点投影到该向量上进行分类。线性判别分析使用sklearn库中的LinearDiscriminantAnalysis类实现线性判别分析,其基本使用格式如下。classsklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver=’svd’,shrinkage=None,priors=None,n_components=None,store_covariance=False,tol=0.0001)线性判别分析LinearDiscriminantAnalysis类常用参数及其说明如下。参数名称说明solver接收str,表示指定求解的算法。取值“svd”时,表示奇异值分解;取值“lsqr”时,表示最小平方差算法;取值“eigen”时,表示特征值分解算法。默认为“svd”shrinkage接收“auto”或者float,该参数通常在训练样本数量小于特征数量的场合下使用。该参数只有在solver=“lsqr”或“eigen”下才有意义。接收“auto”时,表示自动决定该参数大小;接收float时,表示指定该参数大小;接收None时,表示不使用该参数。默认为Nonepriors接收array,表示数组中的元素依次指定了每个类别的先验概率。如果为None,则认为每个类的先验概率相等。默认为Nonen_components接收int,表示指定数据降维后的维度。默认为Nonestore_covariance接收boolean,表示是否计算每个类别的协方差矩阵。默认为False线性判别分析什么是主成分分析法?PCA降维可以提高计算效率,同时提高模型效果和泛化能力,从而在实际应用中具有重要的意义和应用价值。PCA降维的基本思想是找到一个新的坐标系,使得数据在新的坐标系下具有最大的方差。换句话说,PCA降维通过线性变换将原始数据映射到新的坐标系中,使得数据在新的坐标系下的方差最大化,从而找到数据中最重要的方向(即主成分)。主成分分析在主成分分析中,先对原始数据进行标准化,再计算协方差矩阵,协方差矩阵反映了数据中各个变量之间的相关性。如何计算协方差矩阵?主成分分析其中,

表示第i个样本的特征向量,

表示第j个样本的特征向量。设有

的p维的随机向量,协方差矩阵计算方法如下。通过对协方差矩阵进行特征值分解,可以得到一组新的坐标系和相应的特征向量。这些特征向量代表了原始数据在新的坐标系中的方向。主成分是按照特征值大小排序的特征向量,也就是说,第一主成分是方差最大的方向,第二主成分是在第一主成分方向上与其不相关的方向,如图所示。第i个主成分第i个特征向量以此类推,则第i个主成分可以表示为主成分分析使用sklearn库中的PCA类实现标准差标准化,其基本使用格式如下。classsklearn.decomposition.PCA(n_components=None,copy=True,whiten=False,svd_solver='auto',tol=0.0,iterated_power='auto',random_state=None)主成分分析PCA类常用参数及其说明如下。参数名称说明n_components接收int或str,表示所要保留的主成分个数n,即保留下来的特征个数n,赋值为int时,表示降维的维度,如n_components=1,将把原始数据降到一个维度。赋值为str时,表示降维的模式,如取值为'mle'时,将自动选取特征个数n,使得满足所要求的方差百分比。默认为Nonecopy接收bool,表示是否在运行算法时,将原始训练数据复制一份。若为True,则运行后,原始训练数据的值不会有任何改变,因为是在原始数据的副本上进行运算;若为False,则运行后,原始训练数据的值会发生改变。默认为Truewhiten接收bool,表示是否白化,使得每个特征具有相同的方差。默认为False主成分分析某销售公司想要对不同的客户进行分析,客户的信息储存在客户信心数据集中。数据集包括客户的能力、品格、担保、资源、教育5个输入特征,以及客户类型1个类别标签,如下表所示。能力品格担保资源教育客户类型6972607184059946677981486060879116183699581269706977872为了对客户的类型进行判定,需要对数据集进行降维。请分别使用线性判别分析和主成分分析法对数据集进行降维。0、1、2分别代表重要客户、优质客户和普通客户数据降维读取玻璃类别数据使用标准差标准化数据使用PCA进行数据降维读取玻璃类别数据读取玻璃类别数据主要通过以下4个步骤实现。查看玻璃类别数据使用import和from导入pandas、NumPy、StandardScaler、PCA等开发类库使用pandas库中read_csv函数读取玻璃类别数据集使用iloc()方法提取自变量和因变量查看玻璃类别数据某加工厂采购了一批玻璃,玻璃的特性及元素成分储存于玻璃类别数据集中。数据集包括折射率、钠含量、镁含量、铝含量等9个输入特征和1个类别标签,类别标签包括(1、2、3、4)4种玻璃,共192条数据。玻璃类别数据集的部分数据如下表所示。折射率/%钠含量/%镁含量/%铝含量/%硅含量/%钾含量/%钙含量/%钡含量/%铁含量/%类别1.5210113.644.491.171.780.068.750011.5176113.893.61.3672.730.487.830011.5161813.533.551.5472.990.397.780011.5176613.213.691.2972.610.578.220011.5174213.273.621.2473.080.558.07001使用标准差标准化数据通过观察数据集可以发现,原始数据的尺度差异较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论