




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
彭辉94031097(QQ)机器学习MachineLearning降维任务目标素质目标团队协作学会学习实践创新BP神经网络背景如果拿到的数据特征过于庞大,不仅会使得计算任务变得繁重;另外,在数据特征还有问题情况下,可能会对结果造成不利的影响。降维是机器学习领域中经常使用的数据处理方法,它通过某种线性或非线性映射方法,将原始高维空间中的数据点映射到低维度的空间中。如何在保证数据基本特征不变的情况下,减少数据维度,提高运算效率呢?降维降维基本概念
降维(DimensionalityReduction,DR)是指采用线性或者非线性的映射方法将高维空间的样本映射到低维空间中。降维获得低维空间下的数据等价表示,实现高维数据的可视化呈现。等价的低维数据更方便存储、处理、计算和使用。降维能够去除数据噪声、降低算法开销。降维可以得到原始数据的简化表示以加速后续处理或者改进输出结果降维降维基本概念两种经典的降维算法——线性判别分析和主成分分析。主成分分析(PrincipalComponentAnalysis,PCA)。线性判别分析(LinearDiscriminantAnalysis,LDA)。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。PCA认为一个随机信号最有用的信息体包含在方差里。LDA是一种监督学习的降维技术,即数据集的每个样本是有类别输出的。它将数据在低维度上进行投影,希望投影后的同一类别数据的投影点尽可能靠近,而不同类别数据的类别中心之间距离尽可能大。降维-线性判别线性判别分析-LDA线性判别式分析(LinearDiscriminantAnalysis,LDA),也叫作Fisher线性判别(FisherLinearDiscriminant,FLD)。它是一种有监督的学习算法,也就是数据中必须要有明确的类别标签,它不仅能用来降维,还可以处理分类任务,不过,更多用于降维。投影游戏需要通过不断地寻找最合适的投影面,来观察原始物体的形状通过找到最合适的投影方向,使得原始数据更容易被计算机理解并利用降维-线性判别线性判别降维任务及目标任务:就是要找到最合适的投影方向,这个方向可以是多维的降维目标:对于不同类别的数据点,希望其经过投影后能离得越远越好,也就是两类数据点区别得越明显越好,不要混在一起。对于同类别的数据点,希望它们能更集中,离组织的中心越近越好。线性判别分析的核心优化目标,降维任务就是找到能同时满足这两个目标的投影方向。降维-线性判别降维的目标投影就是通过矩阵变换的方式把数据映射到最适合做分类的方向上:x表示当前数据所在空间,也就是原始数据;y表示降维后的数据。最终的目标也很明显,就是找到最合适的变换方向,即求解出参数W。降维-线性判别优化的方式同一类别样本集中程度高,呈现“扎堆”情况,即每个样本点离中心点很近。中心点位置表示:因为线性判别是有监督的问题,故可以计算不同类别的中心点在降维算法中,比较看重降维后的结果。即投影后的不同中心点的位置离得越远越好。投影后中心点位置:对于一个二分类(或多分类)任务来说,应当使得这两类数据点的中心离得越远越好降维-线性判别优化的方式(续)现在可以把当作目标函数,目标是希望其值能够越大越好,但是只让不同类别投影后的中心点越远可以达到我们期望的结果吗?假设只能在x1和x2两方向进行投影,若值考虑类间距离最大化,显然x1方向更合适,但是投影后两类数据点依旧有很多重合在一起,而x2方向上的投影结果是两类数据点重合较少;x2方向更好。降维-线性判别优化的方式散列值(scatter),表示同类数据样本点的离散程度的指标:y表示经过投影后的数据点,散列值表示样本点的密集程度,其值越大,表示越分散;反之,则越集中。定义好要优化的两个目标后,接下来就是求解了。降维-线性判别求解目标函数目标函数既然要最大化不同类别之间的距离,那就把它当作分子;最小化同类样本之间的离散程度,那就把它当作分母,最终整体的J(W)依旧求其极大值即可目标函数分子降维-线性判别求解目标函数(续)散列值公式展开为方便化简计算,令散布矩阵在散步矩阵的基础上定义类内散布矩阵为Sw:目标函数分母降维-线性判别求解目标函数(续)目标函数分子目标函数分母目标函数如何求解最终的结果呢?如果对分子和分母同时求解,就会有无穷多解。通用的解决方案是先固定分母,经过放缩变换后,将其值限定为1,对于散列矩阵SB和SW,只要有数据和标签即可求解令:在此条件下求WTSBW的极大值点降维-线性判别求解目标函数(续)利用拉格朗日乘子法可得:要求解W,上式左右两边同时乘以Sw-1Sw-1
和SB
可以通过数据和标签值求出。把Sw-1SB
看成一个整体,那么w就是其特征向量,问题到此迎刃而解(求其特征向量)降维-线性判别Sklearn中的线性判别应用class
sklearn.discriminant_analysis.LinearDiscriminantAnalysis(
*,
solver='svd’,
shrinkage=None,
priors=None,
n_components=None,
store_covariance=False,
tol=0.0001)
solver:一个字符串,指定了求解最优化问题的算法,可以为如下的值。'svd':奇异值分解。对于有大规模特征的数据,推荐用这种算法。'lsqr':最小平方差,可以结合skrinkage参数。'eigen':特征分解算法,可以结合shrinkage参数。skrinkage:字符串‘auto’或者浮点数活者None。n_components:一个整数。指定了数组降维后的维度(该值必须小于n_classes-1)。store_covariance:一个布尔值。如果为True,则需要额外计算每个类别的协方差矩阵。warm_start:一个布尔值。如果为True,那么使用前一次训练结果继续训练,否则从头开始训练。tol:一个浮点数。它指定了用于SVD算法中评判迭代收敛的阈值。降维-线性判别利用Sklearn线性判别函数LinearDiscriminantAnalysis对鸢尾花数据分类(1)数据集:利用iris.target_names可以查看获取分类名字,取分类为setosa,versicolor的样本(2)原始特征可视化:取类别为setosa,versicolor的样本,利用前2个特征进行可视化样本显示(3)降维与可视化:将前2个特征降维压缩到1维,并展示1维图(4)使用判别函数建立分类模型,将2个特征压缩到1维进行模型训练,并进行预测(训练与测试比为4:1)降维-主成分分析
主成分分析降维时,不像线性判别分析,必须要有数据标签,只要拿到数据,没有标签也可以用主成分分析进行降维。是一种无监督的学习算法。主成分分析-PCA降维-主成分分析算法思想每个特征的均值降维-主成分分析主成分分析实现scikit-learn提供了主成分分析相关的类sklearn.decomposition,其函数原型如下:classsklearn.decomposition.PCA(n_components=None,copy=True,whiten=False,svd_solver=’auto’,tol=0.0,iterated_power=’auto’,random_state=None)主要参数如下:n_components:保留的主成分个数,亦即保留下来的特征个数n。小数表示降维后保留的方差百分比copy:默认参数值为False。在原始数据上进行降维计算,运行PCA算法后原始训练数据的值会改变。
若为True,将原始训练数据复制一份,算法运行后原始训练数据的值不会有任何改变;whiten:布尔值类型,默认参数值为False
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 溃疡病说课课件
- 湘教版地理中国地形课件
- 小学生课件跳舞视频
- 小学生课件肺结核
- 游泳健康课件图片
- 小学生课件片头设计
- 供应链管理师安全教育培训手册
- 地毯设计师安全教育培训手册
- 电机嵌线工安全技术操作规程
- 城市轨道交通服务员理论学习手册练习试题及答案
- 云南省保山市2024-2025学年高一上学期期末考试 地理 含解析
- 人教版六年级上册数学课件《位置与方向》
- 《关于进一步强化食品安全全链条监管的意见》解读学习课件(2025年3月颁发)
- 外科手术安全与质量提升计划
- GB/T 45133-2025气体分析混合气体组成的测定基于单点和两点校准的比较法
- 经典名方小陷胸汤的古今文献考证
- 2025届湖北省路桥集团限公司校园招聘190人易考易错模拟试题(共500题)试卷后附参考答案
- 《经络与腧穴》课件-特定穴
- 2025年美发师高级工理论知识模拟试题库及答案(共400题)
- 电气监理工程师岗位职责
- 《护理安全及管理》课件
评论
0/150
提交评论