红外与近红外光谱常用数据处理算法_第1页
红外与近红外光谱常用数据处理算法_第2页
红外与近红外光谱常用数据处理算法_第3页
红外与近红外光谱常用数据处理算法_第4页
红外与近红外光谱常用数据处理算法_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、 数据预处理(1) 中心化变换(2) 归一化处理(3) 正规化处理(4) 标准正态变量校正(标准化处理)(Standard Normal Variate,SNV)(5) 数字平滑与滤波(Smooth)(6) 导数处理(Derivative)(7) 多元散射校正(Multiplicative Scatter Correction,MSC)(8) 正交信号校正(OSC)二、 特征的提取与压缩(1) 主成分分析(PCA)(2) 马氏距离三、 模式识别(定性分类)(1) 基于fisher意义下的线性判别分析(LDA)(2) K-最邻近法(KNN)(3) 模型分类方法(SIMCA)(4) 支持向量机

2、(SVM)(5) 自适应boosting方法(Adaboost)四、 回归分析(定量分析)(1) 主成分回归(PCR)(2) 偏最小二乘法回归(PLS)(3) 支持向量机回归(SVR)一、 数据预处理(1) 中心化变换中心化变换的目的是在于改变数据相对于坐标轴的位置。一般都是希望数据集的均值与坐标轴的原点重合。若xik表示第i个样本的第k个测量数据,很明显这个数据处在数据矩阵中的第i行第k列。中心化变换就是从数据矩阵中的每一个元素中减去该元素所在元素所在列的均值的运算: ,其中是n个样本的均值。 (2) 归一化处理 归一化处理的目的是是数据集中各数据向量具有相同的长度,一般为单位长度。其公式为

3、:归一化处理能有效去除由于测量值大小不同所导致的数据集的方差,但是也可能会丢失重要的方差。(3)正规化处理正规化处理是数据点布满数据空间,常用的正规化处理为区间正规化处理。其处理方法是以原始数据集中的各元素减去所在列的最小值,再除以该列的极差。该方法可以将量纲不同,范围不同的各种变量表达为值均在01范围内的数据。但这种方法对界外值很敏感,若存在界外值,则处理后的所有数据近乎相等。(4) 标准化处理(SNV)也称标准正态变量校正该处理能去除由单位不同所引起的不引人注意的权重,但这种方法对界外点不像区间正规化那样的敏感。标准化处理也称方差归一化。它是将原始数据集各个元素减去该元素所在列的元素的均值

4、再除以该列元素的标准差。(5) 数字平滑与滤波数字平滑与滤波的目的在于消除随机误差与仪器的噪声,它是一种最简单的滤波方法。平滑的实质是略去数据中较小的偏离,而保留具有较大偏离的部分。设滤波值为,原始信号值为,两者间的关系如下:式中,k为原始数据点的序号,2m+1表示窗口(滤波带宽)的大小,m为调节滤波带宽的参数。随着窗口的移动,即得到经过滤波后的7一系列信号值。滤波使数据的噪声减小,但在实际应用过程中应慎重选择滤波带宽,否则会扭曲数据结构。(6) 导数处理(7) 多元散射校正(msc)由于样品的不均匀性(粒度分布)常导致所测的样品光谱具有很大的差异性,不同批号的同一样品所测的光谱从表面看,也可

5、能有很大的差异。在许多情况下,散射引起的光谱变化可能要大于样品成分引起光谱的变化。散射的程度与光的波长、颗粒度和样品的折射指数等有关,因此在整个光谱范围内,散射的强度是不同的,通常表现为基线的平移、旋转、二次和高次曲线。MSC是由Geladi等人提出的,目的是校正每个光谱的散射并获得较理想的光谱。MSC法假定与波长有关的散射对光谱的贡献和成分的贡献是不同的,理论上,通过光谱上许多点的数据分析,可以把这两部分分开。MSC方法认为每一条光谱都应该与“理想”光谱成线性关系,而真正的“理想”光谱无法得到,可以用校正集的平均光谱来近似。因此每个样品的任意波长点下反射吸光度值与其平均光谱的相应吸光度的光谱

6、是近似线性关系,直线的截距和斜率可由光谱集线性回归获得,并用以校正每条光谱,截距(即附加效应)大小反映样品独特反射作用,而斜率大小则反映样品的均匀性。二、特征的提取与压缩(1)主成分分析(PCA)又称抽象因子分析,主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。思想:利用降维的思想,把多指标转化为少数几个综合指标。在研究多变量问题时,变量太多会增大计算量和增加分析问题的复杂性,人们自然希望在进行定量分析的过程中涉及的变量较少,而得到的信息量又较多。主成分分析是解决这一问题的理想工具。(主要分析众多变量之间的相关性)1.1主成分分析计算步骤

7、 计算相关系数矩阵 (1)在()式中,rij(i,j=1,2,p)为原变量的xi与xj之间的相关系数,其计算公式为 (2)因为R是实对称矩阵(即rij=rji),所以只需计算上三角元素或下三角元素即可。 计算特征值与特征向量首先解特征方程,通常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列,即;然后分别求出对应于特征值的特征向量。这里要求=1,即,其中表示向量的第j个分量。 计算主成分贡献率及累计贡献率主成分的贡献率为累计贡献率为一般取累计贡献率达8595%的特征值所对应的第一、第二,第m(mp)个主成分。 计算主成分载荷其计算公式为 (3)得到各主成分的载荷以后,还可以按照()式

8、进一步计算,得到各主成分的得分 (4)1.2 matlab中主成分分析的函数:百思博客6hl Y#i m*D1.princomp.kd#irs9g0  功能:主成分分析百思博客 U4tGc Vy  格式:PC=princomp(X)百思博客"YOvgaw0v y(e5n             PC,SCORE,latent,tsquare=princomp(X)百思博客xpVSEg  说明:PC,SCOR

9、E,latent,tsquare=princomp(X)对数据矩阵X进行主成分分析,给出各主成分(PC)、所谓的Z-得分   (SCORE)、X的方差矩阵的特征值(latent)和每个数据点的HotellingT2统计量(tsquare)。 2.pcacov  功能:运用协方差矩阵进行主成分分析  格式:PC=pcacov(X)            PC,latent,explained=pca

10、cov(X)  说明:PC,latent,explained=pcacov(X)通过协方差矩阵X进行主成分分析,返回主成分(PC)、协方差矩阵X的特征值(latent)和每个特征向量表征在观测量总方差中所占的百分数(explained)。 3.pcares  功能:主成分分析的残差  格式:residuals=pcares(X,ndim)  说明:pcares(X,ndim)返回保留X的ndim个主成分所获的残差。注意,ndim是一个标量,必须小于X的列数。而且,X是数据矩阵,而不是协方差矩阵。 

11、;4.barttest  功能:主成分的巴特力特检验  格式:ndim=barttest(X,alpha)            ndim,prob,chisquare=barttest(X,alpha)  说明:巴特力特检验是一种等方差性检验。ndim=barttest(X,alpha)是在显著性水平alpha下,给出满足数据矩阵X的非随机变量的n维模型,ndim即模型维数,它由一系列假设检验所确定,ndim=1表

12、明数据X对应于每个主成分的方差是相同的;ndim=2表明数据X对应于第二成分及其余成分的方差是相同的。(2) 马氏距离主成分分析(PCA)的目的就是将数据降维,以消除众多信息共存中相互重叠的信息部分PCA方法得到光谱的主成分和得分,得分为压缩后的光谱数据使用得分数据代替原始光谱数据计算马氏距离,不仅能反映全谱数据信息,而且也能压缩参加计算马氏距离的变量数,并能保证肼矩阵不存在共线问题具体方法如下:在MATLAB中有函数mahal可以调用求解马氏距离。三、 模式识别(定性分类)(1) 基于fisher意义下的线性判别分析(LDA)一、 相关知识已知个维样本数据集合其中,个属于类,个属于类。Fis

13、her线性判别的基本原理是:把维空间的样本投影到一条直线上,形成一维空间。找到某个最好的、最易于分类的投影方向,使在这个方向的直线上,样本的投影能分开得最好。这就是Fisher法所要解决的基本问题。对的分量作线性组合 (F2.1)从几何意义上看,若,则每个就是相对应的到方向为的直线上的投影。的方向不同,将使样本投影后的可分离程度不同,从而直接影响识别效果。寻找最好投影方向,Fisher准则函数为 (F2.2)式中,为样本类间离散度矩阵,为样本总类内离散度矩阵。使取极大值时的即为维空间到一维空间的最好投影方向: (F2.3)式中,为在维空间的两类样本的均值向量。利用先验知识选定分界阈值点,例如选

14、择 (F2.4) (F2.5) (F2.6)式中,为投影到一维空间的两类样本的均值,为两类样本的先验概率。对于任意未知类别的样本,计算它的投影点: (F2.7)决策规则为,MATLAB中有函数fisheriris、classify可以调用(2) K-最邻近法(KNN)MATLAB里面的函数knnclassify可以调用(3) 模型分类方法(Soft independent modelling of class analogy ,SIMCA)(4) 支持向量机(SVM)一、 相关知识已知数据其中,表示个维样本集,或标记两类样本。对于一个新的数据,判别属于哪一类,即判断中的是还是。支撑向量机可表示

15、为如下的二次规划问题: (F6.1)而相应的判别函数式为 (F6.2)其中:,。不同的核函数表现为不同的支撑向量机算法,常用的内积函数有以下几类:(1) 阶非齐次多项式核函数和阶齐次多项式核函数 与 (F6.3)(2) 高斯径向基核函数 (F6.4)(3) S型核函数 (F6.5)(4) 指数型径向基核函数 (F6.6)(5) 线性核函数 (F6.7)线性核函数是核函数的一个特例。(5) 自适应boosting方法(Adaboost)四、 回归分析(定量分析)(1) 主成分回归(PCR)(2) 偏最小二乘法回归(PLS)MATLAB中有plsregress函数可以调用 MLR虽然计算简单,但限

16、制变量数必须小于样品数,无法处理存在多重相关的系统,而且只是单纯地对X和y进行回归,没有考虑数据中的噪声,X和y之间是否相关,并且在变量多重相关的情况下无法估计回归系数,因此不适合近红外光谱的建模; PCR和PLS都采用了成分提取的方式建模,PCR在光谱中提取出一系列对光谱数据有最佳解释能力并且彼此独立的成分,但在对X中的信息做综合提取时,只注重尽可能多地概括X的信息,而完全没有考虑对浓度y的解释性。这样提取得到的综合信息往往鱼目混珠,涵括了许多无用的噪声,因此,对y来说并不是最好的解释变量,而且没有从根本上解决多重相关性问题; PLS也采用了成分提取的方式建模,但思路有了很大的改变。PLS提取的成分不但考虑了最好地概括X的信息,而且所提取的成分对y有最强的解释性。经过这样的信息筛

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论