SIMCA-P_115_指南(中文)_第1页
SIMCA-P_115_指南(中文)_第2页
SIMCA-P_115_指南(中文)_第3页
SIMCA-P_115_指南(中文)_第4页
SIMCA-P_115_指南(中文)_第5页
已阅读5页,还剩210页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SIMCA-P,SIMCA-P+指南 11.0版本 Umetrics AB1992-2005 Umetrics AB本篇文章诣在告诉本软件使用者一些该软件的注意事项,并且该文件并不能作为Umetrics AB 公司承担义务的一部分。该软件中的信息(包括所包含的所有数据库)均需要得到已公布或未公布的许可协议方可使用,并且必须在获得许可协议的前提下方可以使用或拷贝,在未得到已公布或未公布的许可协议下擅自的进行软件的拷贝是一种违法行为,在未得到Umetrics AB公司书面许可的前提下,该产品的任何部分不可以再次安装或以任何形式、任何传播方式(包括电子传播方式、机械传播方式)进行软件的传播。SIMC

2、A是Umetrics 公司的注册商标,Windows是Microsoft 公司的注册商标。包括以下商品:SIMCA-P,SIMCA-P+编辑日期:2005年5月16日目录SIMCA软件的启动基本操作规程 基础信息SIMCA-P软件是以工程(projects)的形式来进行数据的建模处理。一个工程就是一个包含着主要的数据集(dataset)分析结果(没有模型数量的限制)的集合。你可以通过输入数据(主要是数据集)来进行一个新的工程的建立。当你选择活动模型类型(Active Model Type)并列举一个新的工作集或一个已经存在的工作集时,SIMCA-P软件将自主建立不合适的模型。在一个工程建立的最

3、初,系统默认的工作集包含所有的数据,包含所有的居中变量及方差的变化范围,并将其视作变量X,并且模型是变量X的重要组成部分。一个工程窗口可以显示每一个模型的分析结果,每一行数据及时对一个模型的分析结果进行总结。活动模型(即所需要进行建模处理的模型),也可以在灰色区域(status bar)左边的显示框中显示,即在命令菜单的下方。如果你想打开一个模型,在工程窗口中双击该模型,将打开一个包含模型结果所有信息(一行一个分类)的模型窗口。另外一种激活模型的方法(如果部分模型已经提供)是从显示框中(左上方)选中该模型的名字。数据分析流程1、 数据的预处理及数据的选择(数据集和工作集菜单)2、 数据集菜单将

4、允许你进行数据的拟合、修改,产生新的变量,并且将对原数据进行筛选及压缩。系统默认的工作集一旦被打开,里面将包含所有作为自变量X及其方差范围的数据集。新的工作集也将包含这些内容。工作集菜单允许你对最初的工作集进行修改。3、 指定模型,并对模型进行拟合(分析菜单)。4、 对结果进行核实并执行诊断(分析菜单)。5、 使用模型进行预测(预测菜单)。基本数据的录入及新工程的建立文档:新文档从文档或数据库中选择所需要录入的数据。SIMCA-P软件可以录入以下格式的文档数据:DIF:数据互换模式(许多应用程序可以输出DIF格式的数据文档)。TXT:标准被限定的text文档(一行一个数据)TXT:任意形式的t

5、ext文档(有无数据头均可)MAT:Matlab 4.0版本文档(二进制)XLS:EXCEL文档的所有形式LOTUS 123:*.wkl 格式的文档JCAMP-DX:*.jcm,*.dx,*.jdx 格式的文档ANDI:色谱工作站AIA 格式文档NSAS:数据文档GRAM:Galactic *.spc 格式文档其他格式(参考第四章):包括旧版SIMCA-P数据文档。文档资源的选择资源目录:包含数据文档的目录名称:将资源文档,例如:ENVIRO.DIF双击该资源文档的名称。目标目录:该目录用于储存工程,例如:C/SIMDATA/ENVIRO如果你愿意,你可以修改工程目录(目标目录)的位置。SIM

6、CA-P软件默认资源目录作为目标目录。文档内容的表示为自变量和观察对象指定主要的和尽可能多的次要的检识符。第二数据集可能一会你还会录入一些额外的数据(第二数据集)以用于预测。你可以在菜单File/Import Secondary Dataset中完成该操作。显示按照你习惯的方式进行软件显示格局的建立并保持工程水平选项及基本信息的选项处于醒目位置。数据的预处理(数据集菜单)从数据集中进行变量及观测值的绘图将你想要进行绘图的变量或观测值进行标记,右键点击标记的项目上,然后选择想绘制的图像类型。将所有的X的观测值绘制一个线形图,只需要右键点击这个数据集并选择Plot/Xobs.可以按如下步骤使用数据

7、集菜单对一个SIMCA-P数据集进行观察或修改:Quick Info将数据集中显示的变量或观测值按时间或频数的相互作用形式进行绘图。Trimming/Winsorizing 单个或所有的变量Edit dataset基本的编辑命令。Generate new variables产生一个同已存在变量或模型结果中所获取变量组成相同的变量。数据集。使用以下命令进行数据光谱滤波:Orthogonal Signal Correction (OSC)Multiple Scatter Correction (MSC)Standard Normal Variates (SNV)1st and 2nd Deriva

8、tivesWavelet transform and compressionPLS wavelet transform of time seriesDecimation of time series数据的准备(工作集菜单)在工程开始之初,系统默认的工作集是包括在录入过程中定义为X自变量和Y自变量的所有的数据集以及计算出的方差值。关联的模型(不合适的)在活动区域显示。当你已经准备好了一个包含数据集所有基本数据的PLS模型(系统默认),或者PC的X模型或Y模型。如果这正是所想要进行运算的,你可以直接进入分析菜单。如果想要获得一个包含被排除的变量或转化之后的变量或不同水平的变量的模型,这就需要首先对

9、工作集进行修正。当你指定一个工作集(选择 starting Workset New or As Model)时,SIMCA-P系统将自动产生一个不合适的模型。工作集新工作集使用在录入数据过程中被定义为X和Y的所有基本原始数据集。新模型使用一个已经被选择的模型的工作集作为起始点。按照如下步骤进行工作集的修改:观测值对观测值进行筛选(排除/留下),或者将它们分成不同的类别以进行分类。变量对X/Y变量进行定义、转换、计算等运算。转换转换变量值。延迟建立延迟变量(仅SIMCA-P有该项功能)变量/变量组选择变量,并指定类型。选择所需的变量作为X变量、Y变量或排除,对X变量、Y变量或者需排除的变量进行标

10、记并且点击“Set”按钮。扩展通过进行加和、平方、立方运算对X自变量容量进行扩展。运算标准选择一个基本的运算标准(UV=10页)选项指定模型水平的选项。处理模型(分析菜单)选择模型类型如果你的所有自变量均定义为X自变量,那么软件将默认将模型定义为PCX模型;或者你在录入数据的过程中将自变量均定义为X自变量和Y自变量,那么系统将默认将模型定义为PLS模型。当工作集规范允许你进行修改时,你可以对模型的类型进行修改,你可以将模型的类型修改成以下种类:PCX仅含有X变量的PC模型。PCY仅含有Y变量的PC模型。PC All既含有X变量,又含有Y变量的PC模型。PC Class当你的观测值分成了多个数据

11、类时,你所选择的一个数据类的PC。PLS含有X变量和Y变量的偏最小二乘法回归数据处理。PLS Class当你的观测值分成了多个数据类时,对所选择的一个数据类进行偏最小二乘法回归处理。PLSDA当你的观测值分成了多个数据类时,进行区别性的偏最小二乘法数据回归处理。模型拟合自动拟合由软件自动进行模型数据的拟合。二主要分类直接对两个主要分类进行数据处理,通常可用于对数据进行快速描述。单一分类每次仅对一个分类进行数据处理,这样无论该分类是否具有显著性意义,均可以使每一个分类均进行数据处理运算。移除分类将最末分类移除。自动拟合数据类模型自动拟合或者将所有指定数据类模型中所有分类进行数据处理。指定水平模型

12、指定一个模型作为基础水平或者最高水平标准。拟合复查(分析菜单)数据拟合结束后,所有的谱图及数据表均会在模型描述中体现出来。拟合概要1. 模型复查。2. X变量、Y变量复查,将所有的变量进行累积拟合(PLS中仅对Y变量进行拟合)。3. X变量、Y变量排序:通过分类对一个变量进行拟合。4. 分类的贡献值:模型中一个分类对拟合结果的贡献程度。5. 主成分:t1 vs t2,t1 vs u1,等。6. 荷载系数:p1 vs p2,w*c1 vs W*c2,等。7. 系数(PLS)8. 对工程影响最大的变量(PLS)9. DMod(X变量或Y变量)与模型(X变量或Y变量)之间的距离。10. 观测值vs预

13、测值(PLS)。11. 剩余图像:正态图(选择Y自变量)12. 观测值风险注意:在分析菜单中,系统默认的所有图像及数据表为最后一个分类的相关数据。如果你想选择不同的分类进行显示或选择一个不同的变量进行显示,点击鼠标的右键并选择相关选项。选择一个新的模型类型在模型拟合完成后,你可以选择一个新的模型类型。SIMCA-P软件将会分局你所选择的模型类型生成一个新的未拟合的模型。例如,如果你已经将你的工作集定义为X变量和Y变量,你可以先进行PCY拟合,然后将模型的类型改为PLS,并且可以获得一个和原数据一样的PLS拟合模型(另一个模型)。预测值(预测菜单)建立预测数据集使用预测菜单/Specify Pr

14、ediction set命令从主要数据集或任何一个次要数据集建立一个预测数据集。你可以将预测数据集作为一个电子数据报表或图形或数据表结果来显示。当你没有指定一个预测数据集时,系统默认的预测数据集为首要数据集中的所有数据。你可以通过首要数据集中或者任何一个你所录入的次要数据集中的观测值建立一个预测数据集。当你在电子数据报表中建立预测数据集时,你还可以通过键盘向预测数据集中录入数据。预测值显示所有的预测值结果(主成分、Y值等),均是以图形或数据表的形式进行显示。图形、数据表在这个菜单下,你可以找到常规的图形和数据表程序。通过这个菜单你几乎可以对任何数据和分析得出的结果进行绘图或制作数据表。这个菜单

15、可以为你提供:散点图(scatter)、线形图(line)、柱形图(column)、3D散点图(3d scatter)、柱状图(histogram)、等值图(contour)、3维等值图(response surface)、正态概率图(normal probability plots)、小波处理图(wavelets plots)、控制图(control charts)和batch control charts。注意:点击鼠标右键可以显示一个活动的图形或数据表。你可以通过图形获得数据表,也可以通过数据表得到图形。SIMCA-P分析流程图1、建立工程,导入数据,指定行列标识。2、数据显示,了解数据

16、信息,做预处理。3、建立工作集,选择数据,定义变量类型。4、拟合模型,选择拟合模型。5、图示结果。6、识别特异点、检测特异点、建立新工作集。7、深入分析无特异点,深入挖掘信息。8、预测分析指定预测数据集,进行拟合分析。批次工程(SIMCA-P+ 10)基本信息一个SIMCA-P的批次工程是由两个或两个以上相互关联的工程所组成的。在工程批次的变换过程中,工程水平的观测值包括每个批次的观测值及变量值均被衡量,并且批次的水平有已完成批次所决定。批次水平工程的变量是主成分,或者每个时间点观测值水平的最初的变量具有重要意义。批次可能会被划分为数个阶段。观测值水平工程依照批次信息,你首先录入观测值水平信息

17、并建立一个观测值水平工程。在这些信息中,你必须有一个批次的标示符,指出起始批次和终止批次。如果存在批次阶段,进而存在阶段标示符。你可能还要有一个用于指出批次或阶段变化进展及终点的变量,这个变量可以是时间或者成熟度。在不同的批次阶段你可以拥有不同的成熟度变量。当批次被划分为阶段时,SIMCA-P软件将秘密的产生一个未拟合的批次模型,即以时间或成熟度作为每一个阶段Y变量的PLS数据类模型。软件默认一个阶段中的所有变量均为方差值。对于每一个模型,模型的结果在工程窗口中以线形图的形式表现。当批次值出现阶段值时,PLS批次数据类模型将被聚类并以MBxx进行命名,xx是一串连续的数字。你可以在控制图中显示

18、数据分析结果,要么作为主成分点、DModX、预测时间值或成熟度值,或者作为个别变量。次要数据集可以录入新的批次,这些可以通过相同的方法在控制图中得到展现。批次水平工程批次水平工程是以完成批次的主成分点或起始变量为基础,从观测值水平工程中获得的。批次水平工程师SIMCA-P软件的一个常规工程,当批次最初条件及质量变量存在时,软件将自动将其加入到批次水平数据集中。你可以将系统默认的模型类型(PCA)改变成只要是工作集说明允许条件下任何你所想到的类型。分析周期观测值水平工程13、预处理并选择数据(数据集和工作集菜单)6、数据集菜单允许你trim/Winsorize你的数据,产生新的变量并且进行数据的

19、光谱滤波(spectral filtering)或者小波压缩(wavelet compression)。模型由软件默认的工作集发展而来,系统默认的工作集由PLS批次数据类模型组成。7、对观测值水平模型进行拟合(分析菜单)。8、对结果和诊断操作进行复核(分析菜单)。9、批次控制图用于批次值的设置(分析菜单)。10、录入一个具有新批次的次要数据集并且使用该模型在控制图中显示这个新的批次(预测菜单/Batch Control Chart)。批次水平工程11、建立一个批次水平工程(文件菜单/Create Batch Level project)。12、对批次水平工程进行数据拟合。13、使用主成分图(s

20、core plots)、载荷图(loading plots)、DModX、贡献值图(contribution plots)等进行结果阐述。14、预测并阐述新的批次数据处理结果。介绍基本信息这篇引文仅仅是SIMCA-P软件的一个大致介绍。建议使用者阅读相关章节(包括模型的建立、数据的录入、PC和PLS模型建立、数据处理结果的阅读), 从而获得一个更加详细的该软件的使用说明,同时为了使使用者更好的使用 该软件,建议使用者使用USERS GUIDE 和 ON-LINE HELP系统。在这篇引文中为使用者列举了以下5个时例。第一个例子是关于食品数据的模型处理。第二个例子是从一个矿物整理车间所选取的一个

21、真实数据处理过程。第三个例子是分析化学中经常遇到的多变量校准的数据处理。第四个例子是解释分级模型建立。第五个例子是说明光谱滤波的使用。第六个和第七个例子是展示如何进行有阶段和没有阶段批次型数据的模型处理。作为一篇指南,在这儿给使用者提供的仅仅是SIMCA-P软件的一些主要的常用功能和图表。我们建议你继续使用你自己的数据,参照这篇指南获得相应的数据分析结果。帮助系统包含和指南相同的信息,只是排版的方式不同。图形与数据表你可以使用大量的图形和数据表来展示SIMCA-P软件处理结果。分析菜单和预测菜单中的结果均是通过图形和数据表的形式进行展示。通过图表菜单,你可以根据每一个模型中的数据和计算值进行图

22、形及数据表的绘制。你甚至可以将不同模型中的矢量进行绘图。所有的矢量数据均可以进行Auto、Cross Correlation plot 和Power Spectrum 处理。数据集中,你可以通过trimming and winsorizing 操作对数据进行预处理。显示变量图(Quick info plot)均提供全部的显示数据表(spreadsheet)。食品数据数据的收集通常是以表格的形式来进行开展的,但是如果不能获取有用的信息,数据表格是一点用处都没有的。图解可以使数据表格中的数据更好的表达。下面的例子将阐明工程的要素。这个例子中的数据来自欧洲多个国家不同的食物消费情况。变量所选择的变量

23、反映了国家之间不同的传统和文化。观测值选取了16个欧洲国家。数据表见EXCEL FOOD。目的这项研究的目的是为了调查工业化国家之间的食品消费的差异与文化和传统之间的联系,并且因此发现这些国家之间的相似处和不同处。因此这些数据收集了20个变量和16个国家。这些数据显示了这20种食品在日常家居生活中的储备的百分比。分析概要SIMCA-P分析的步骤如下:·录入数据集·数据准备(工作集菜单)。·PC模型拟合、拟合过程复核(分析菜单)。·结果说明(分析菜单)。 工程定义启动SIMCA-P软件并建立一个新的工程,点击FILE/NEW。 选择数据类型(XLS)或AL

24、L Supported Files(系统默认),并找到所需的数据集(FOODS.XLS)。数据可以从你的硬盘或者网络驱动中被录入,数据可以以不同的格式被录入,所以选择最合适的格式或者ALL Supported Files 格式。在这个例子中所选的数据是通过EXCEL所建立的一个XLS格式文档。 如果你的数据在一张软盘上,我们建议你首先将数据拷贝到硬盘上。 如果你想关闭正打开的工程,点击Close Current Project. 注意:所需录入的数据集可以被放置在一个可以获得的目录内的任何地方。无需将它放置在你所定义的目的目录中。 当你点击Open,SIMCA-P软件将打开Import Wiz

25、ard界面。 SIMCA-P软件已经识别出这个例子具有观测值的数量和名称以及变量的名称,并将它们使用不同颜色进行了正确的标记。 当你点击“Next”后,工程说明界面将打开。你可以修改工程的名称和储存目录。 勾选“Use workset Wizard”项,并点击“Finish” Workset Wizard “Workset wizard”界面打开后,将引导使用者进行工作集的建立和模型的拟合。 选择变量界面,可以获得哪些变量是X变量,哪些变量是Y变量以及哪些变量需要被排除。如果你对变量进行了标记并点击了“转换(Transform)”,软件将进行检查并提供相应的转换公式(Log转换)。本例中,所有

26、的变量均为X变量且无需进行转换,点击“Next”在这个界面中,你可以选择你所需要的观测值(排除你不需要的观测值)或将观测值分为数据类。数据类设置通过观测值的ID(使用一个选择的任何一个观测值ID)自动进行数据类的设置。本例通过使用主成分分析(PCA)得到一个数据表的综述,所有的观测值均被包含在内并未进行数据类的指定。点击“Next”打开一个简要说明界面,点击“Finish”进行模型的拟合。分析简要的模型拟合图形以R2X(cum)形式和Q2(cum)形式进行展示。双击“model summary line”,简要的拟合模型就以R2X(cum)和累积R2X(cum)、Q2和Q2(cum)及固有值的

27、形式进行展示。食物的变量按照预期计划的已经被三个新变量相互关联并进行了平行的简化,分数说明解释说明65%的变化。主成分和荷载值主成分选择“Analysis/Scores/Scatter Polt”选项或快捷键进行t1 vs. t2 主成分图形的展示(系统默认)。在“Label Types”界面,一定要选择第二检识符“Onam”。椭圆区域代表95%的置信区间。主成分t1和t2(代表着分类1和分类2的矢量)是通过对最初所有变量进行线性回顾拟合所得到的两个新变量,以提供一个更佳的概况信息。最初变量的权重(weight)称作荷载值(p1和p2),见下文。主成分图展示出三组国家类型。一组是斯堪的纳维亚人

28、国家(北面),第二组是欧洲南部的国家,第三组是分布更加广泛的欧洲中部国家。通过变量值对不同的观测值(国家)进行着色,点击右键,打开“properties”窗口,依次选择“color”“by categories”,并且在“variable”下拉菜单下选择变量(本例中选择蒜头garlic)。在“split range”窗口,输入4。如果想要按照需要进行“split range”的修改,点击右侧的文本框。南北方的欧洲国家蒜头的食用量存在着明显的区别。荷载值选择“Analysis/Loading/Scatter Plot”来显示荷载值p1 vs. p2。荷载值是结合了X变量主成分(t)的X变量的权重

29、值。这个图形体现了哪些变量描述国家之间的相似处和不同处。斯堪的纳维亚人国家主要吃脆面包(crisp bread)、冻鱼(frozen fish)和蔬菜(vegetables),而南方的欧洲国家主要吃蒜头(garlic)和橄榄油(olive oil),中部的欧洲国家(尤其是法国)消费大量的酸奶酪(yogurt)。第三分类主成分图(t1 vs. t3)和荷载图(p1 vs. p3)。第三分类解释数据中13.8%的变化,并且主要体现英国和爱尔兰两国茶叶(tea)、果酱(jam)、罐头汤(canned soup)的高消费情况。小结总而言之,一个拥有三个主要的潜在变量数据的三分类模型描述了所要调查的欧洲

30、国家之前主要的食品消费的差异。这个例子展示了通过一个简单的PC模型拟合可以得到了原始数据表的一个概要信息。使用者应该使用自己的数据信息进行更多的尝试。LKAB车间矿物分类介绍 下面的例子来源于瑞典的一个矿物分类车间。是由LKAB公司调研工程师Kent Tano负责这项调查。 在这个过程中,原铁矿将通过多项研磨措施分为优质材料(<100mm,50%Fe)。研磨结束后,这些材料将通过磁性分离器经多个步骤进行分类并集中。分离流程被分为多条平行的流水线,并且这里还有着反馈系统,以获得高含量铁。被集中的材料将被分为两个部分,一个部分(PAR)用于送往进行浮动处理,另一个部分(FAR,优质)以铁矿石

31、形式进行出售。所有的这些产品均需要含有很高的铁含量。 十二项工序因素被指定。这些因素里,有三个重要因素被用于建立统计学设计(RSM)。每个实验的结果均由6个反应变量进行衡量,每个设计点均收集了许多观测值。 这个工序配备了一个带有SuperView 900 数据处理系统的ABB Master系统。从ABB系统中将数据先转移至个人电脑中,并使用SIMCA-P软件进行模型数据处理。建立的模型再转移回SuperView系统中并对工序进行在线监测(预测值、主成分和荷载图)。这项调查开展于1992年。该工序的多变量在线控制方法至今仍在使用,并能取得十分好的产品质量结果。数据描述 以下是变量和观测值的描述。

32、 变量 18个变量的信息均被收集。 工序变量(X) ExplanationAbbr.RSM1Total loadTON INDesign2Load of grinder 30KR30 IN3Load of grinder 40KR40 IN4PARmullPARM5Velocity of separator 1HS 1Design6Velocity of separator 2HS 2Design7Effect grinder 30PKR 308Effect grinder 40PKR 409Ore wasteGBA10Load of separator 3TON S311Waste from

33、 grindingKRAV F12Total wasteTOTAVF因变量(Y)ExplanationAbbr.13Amount of concentrate type 1PAR14Amount of concentrate type 2FAR15Distribution of type 1 and 2r-Fe FAR16Iron (Fe) in FAR%Fe FAR17Phosphor (P) in FAR%P FAR18Iron (Fe) in raw ore%Fe malm观测值一个包含231个观测值的小集合用于模型的建立。每一个观测值均有一个和数据采集时间相关的名称。数据表收集的数据见

34、表1(略)。这项研究的目的是为了调查工序变量与描述最终产品质量的6个输出变量之间的联系。离线分析因变量概述一个因变量PC模型的建立是为了了解:·因变量之间及因变量与观测值之间存在何种联系。·观测值之间的相似处和不同处及是否有异常值。·变量的阐述能力。工序条件与因变量之间的联系·了解并阐述工序变量与因变量之间的联系。·预测新的工序条件的输出值。SIMCA-P操作步骤·工程定义:录入最初的数据集·数据准备(工作集菜单)。指定哪些变量是是X变量(自变量)和哪些变量是Y变量(因变量)。扩展X变量范围(通过对三个设计变量进行平方和“c

35、ross terms”运算)。·模型拟合,首先进行PC-Y模型拟合,再进行PLS模型拟合,并对拟合过程进行复核(分析菜单)。·精化模型(通过移除异常值)(工作集菜单)。·使用PLS模型进行预测(预测菜单)。工程建立 启动SIMCA-P软件,并通过点击“FILE/NEW”录入数据。 找到数据集(SOVR.XLS)如果你有SIMCA-P+软件,选择“radio button”去建立一个正态SIMCA-P工程并点击“Next”。点击“commands”键,建立变量索引来产生变量数字,并将他们用第二ID进行标记。对柱形数据(变量)PAR进行标记,直至最后一个数据,使用箭头

36、指示变量中的一个,然后从下拉菜单中将它们选择作为Y变量。这个选择作为系统默认的工作集。点击“Next”。“Import wizard”菜单打开。在工程说明界面中,你可以改变工程的名称和保存目录的位置。确认勾选“use workset wizard”并点击“Finish”键,“workset wizard”界面打开。数据准备工作集向导SINCA-P默认的工作集由前一个数据集的所有的观测值和所有的变量组成,以录入数据过程中指定的X变量和Y变量及方差进行衡量。点击“Use Advanced Mode”和“Expand”键进行X变量的扩展(平方及cross terms)。因统计设计支持一个完整的二次模

37、型,因此TON IN、HS 1和HS 2这三个变量均进行了转化。我们将通过对这三个变量值进行平方及“cross terms”运算来扩展X变量的内容。标记TON IN、HS 1、HS 2这三个变量,点击“Sq & Cross”键,这三个变量的”平方”及“cross terms”转化值均在“expand”栏中列出。点击“OK”离开工作集菜单。数据分析通过对Y变量进行PC模型拟合处理(PCY),首先得到一个因变量(Y变量)的概述。Y变量PC模型拟合当你退出工作集菜单后,一个未拟合的模型(M1)以PLS模型的形式被建立(系统默认的工作集包含X变量和Y变量)。点击“Analysis/Active

38、 Model Type”选择“PCY”。模型的类型即改变为PC-Y。点击“Analysis/2 First Components”来进行2个分类的Y变量PC模型拟合操作。模型概述图打开。点击“model summary”行,打开一个带有拟合模型概述的表格。这个表格显示有R2X(每个分类所说明数据变化的部分)、累积R2X(cum)以及固有值和Q2、Q2(cum)。6个Y变量均被相互关联,并使用两个新变量进行概述,即主成分t1和t2,说明70.9%的数据变化。主成分和荷载值主成分选择“Analysis/Scores/Line Plot”打开一个通过线将点与点相连的主成分图t1 vs.t2图。在“L

39、abel Types”菜单中标记“Use identifier Obs ID”。主成分t1和t2是根据六个因变量的线性组合计算而来的并用于对Y变量进行概述。主成分图显示不同组别的观测值集合。每个组代表一种实验设计调整。这些调整(设计点)程序均需运行一段时间以达到稳定状态。程序数据的测量(主成分图中的观测值)每分钟进行记录。未出现显著的异常值。荷载值选择“Analysis/Loading/Scatter Plot”来显示荷载值p1 vs. p2。在“Lable Type”菜单中点击“Use Identifier/Var ID(Primary)”并点击“Save AS Default”,从而可以一

40、直显示变量名称。荷载值是包含了主成分t的变量的权重值。荷载值p(被选择的PC分类)代表了变量对该分类的贡献值,并显示出变量之间的关联结构(本例中为Y变量)。在这个图中我们可以看出PAR、FAR、%P FAR之间存在正相关性,并与%Fe FAR之间的负相关性。r FAR支配第二分类,与PAR呈负相关并与第二分类中的其他变量仅存在一点相关性。%Fe Malm与前两个分类中的所有变量均没有相关性。点击“Analysis/Next Component”,运算出第三个分类。显示荷载值p1 vs. p3。第三个分类(说明22%数据的变化)由%Fe Malm支配。在第三个分类中%Fe Malm变量与%Fe

41、FAR、r FAR和FAR三个变量存在较弱的正相关性,与其他的变量几乎没有相关性。因变量简要概述为探测到异常值。所有的因变量均参加到模型处理过程中,并且彼此之间存在着相关性,除了%Fe Malm(与其他三个变量仅存在一点相关性)。PLS模型主要目的是建立一个自变量X对输出因变量Y影响的预测模型。实验设计以三个程序变量说明对因变量Y变化的重要影响。新模型类型点击“Analysis/Active Model type”选择“PLS”。另一个未拟合的模型M2被建立,并且你以完成PLS模型拟合前的准备工作。自动拟合点击“Analysis/Autofit”或点击快捷键,进行具有交叉验证的PLS模型拟合。

42、模型概述图中显示有:R2Y(cum),模型每次进行分类后对所有因变量Y变化进行说明部分;Q2(cum),可以通过模型的交叉验证进行预测因变量Y变化的部分。R2Y(cum)和Q2(cum)接近1.0说明模型建立完美。双击“模型概述”来打开一个包含每一种分类的模型数据表。目前这个模型建立十分好,可以说明80%Y变量的变化并拥有76%的预测能力(Q2)。X/Y概述点击“Analysis/Summary/X/Y Overview/Plot ”,显示每一个变量的累积R2Y和Q2Y值。除了%Fe FAR和%P FAR,所有的变量均有个不错的R2和Q2值。主成分t1 vs. t2点击“Scores/Scat

43、ter plot/t1 vs. t2”。使用键标识远离中心的观测值。观测值208在第一分类中位置较远。主成分t1 vs. u1点击右键,在“properties”菜单中选择“t1 vs u1”,并在“Label Types”菜单中标记“ObsID(Primary)”。排除观察值208,可以得到一个很好的X自变量(t1)和Y自变量(ul)关系。贡献图为了了解在第一个主成分(t1)中为什么观测值208远离其他的观测值,在“t1 vs. u1”图中双击“观测值208”。贡献图显示了不同之处。衡量的单位:该模型中所有时间段,异常观察值208和正常(平均)观察值均以w1*(在分类1中X变量的重要性)作为

44、权重。原始铁矿(TON IN)、研磨负载(load on grinder)及其他变量均远远小于平均值。检查数据发现,异常观察值208的TON IN和研磨负载变量为0,明显导致在14:27分出现一次程序紊乱(一个异常值)。模型精制我们将移除观测值208,留下一些观测值作为试验集(test set),并重新进行PLS模型的拟合。使用“interactive tool box”移除观测值208在主成分图t1 vs. u1中,标记观测值208,并点击红色箭头。SIMCA-P软件将把观测值208从工作集中移除并提示是否需要建立一个新的未拟合模型M3。点击“Yes”。含有M3模型工作集的工作集界面打开,观

45、测值208已经被排除。当你打开“Dockable”窗口时,观测值208被标记“排除”。移动一些观测值作为试验集在工作集窗口的“Observation”项下中,按住“Ctrl”键并标记观测值140-146、173-179、350-379、551-555,然后点击右侧的“Exclude”。被删除的观测值任然标记在图中。自动拟合点击“Analysis/Autofit”或快捷键,对PLS模型进行重新拟合。因模型被拟合,概述及模型概述图均被升级。注意R2Y(cum)和Q2(cum)值均得到了提高。X/Y概述点击“Analysis/Summary/X/Y Overview/Plot”来显示每一个因变量的累

46、积R2Y和Q2Y值。 ·PAR、FAR和%FE的因变量均被很好的说明(90%或更佳)且其他的因变量也得到了较好的说明。t1 vs. t2 主成分图点击“Analysis/Scores/Scatter t1 vs. t2”并显示t1 vs. t2图。我们将看到观测值被分为多个组群,每个组代表一个实验设计的调整。t1 vs. u1主成分图点击“Properties”,将主成分改为“t1 vs. u1”我们现在即可以得到一个很好的没有异常值的t1和u1的关系信息。荷载值 w*c1 vs. w*c2w*s是从主成分t中获得的联合了原始X变量(并不是用于和w对比的残留变量)的权重。在第一次分类

47、中,w*等同于w。w*s与X变量与Y主成分u相关性有关。具有较大值的w*(正值或负值)均会与u(Y变量)产生较大的相关。cs是用于从主成分u中结合Ys(线性)的权重。cs表达Ys和ts(X变量主成分)之间的联系。在前两个分类中,PAR和PAR均与其他的荷载变量表现出正相关,与r PAR、%Fe FaR和%Fe Malm表现出负相关。除了HS 2外,该模型基本呈线性关系并且它的平方形式支配着第二分类。剩余变量的正态概率图点击“Analysis/Residuals/Normal Probability Plot”,显示剩余变量的正态概率图。从图中看出,剩余变量基本呈现正态分布并没有异常值。点击右键

48、,在“Properties”界面中将不同的Y变量进行替换或改变选项。参数点击“Analysis/Coefficients/Plot”显示PAR的PLS回归参数(衡量单位和数据)和置信区间(系统默认是95%)。支配因素是具有正效应的TON IN,KR30 in,KR40 in和Ton S3。使用“Property”界面改变因变量或分类。变量重要性点击“Analysis/Variable Importance”。这个图将显示模型中因素的重要性,以它们和Y值(所有因变量)的相关性和X自变量的近似值。至模型距离(Distance to the Model)点击“Analysis/Distance to

49、 the Model/X Block”,显示在X变量空间内的至模型距离(观测值与超平面(hyper-plane)之间的距离)。这些距离均处于标准化的单元且与“row residual standard deviation”相同。观测值风险点击“Analysis/Observation Risk”。这个图显示了每一个Y变量和Ys的观测值的风险值。对具有巨大观测值风险的观测值349使用“图形伸缩(zoomer)”,可以得到以下图形。Y Far的观测值349在未包含训练集(training set)时比包含观测值在内的模型具有一个更大的Y残差;因此说明它的预测不准确,存在风险。以下的数据表显示观测值

50、349在和不在模型中Y(Far)的残差。预测我们可以使用模型对试验集观测值的输出值进行预测。点击“Prediction/Specify Prediction set/Specify”。从预测集(Prediction set)中移除所有的观测值。在左边的窗口中选择“Workset Complement”,点击“Select All”并使用箭头将所有的观测值移入左边的窗口中。对观测值208进行标记,并点击“Remove”将其移出预测集。点击“Apply”并关闭该对话框。点击“Predictions/Y Predicted/Scatter plot”。PAR的观测值与预测指表(Observed vs

51、. Predicted)即表示出来。对于PAR和FAR(从“properties”菜单中选取)变量,我们可以得到一个很好的预测值,其他的因变量可以得到一个较好的预测值。见图DModX(预测菜单项下)小结这个例子显示出:在数统设计中可以给出高质量数据的主要工艺变量可用于建立很好的预测工艺模型。通过多变量分析,我们可以将这些信息以数据的形式进行输出和展示。NIR介绍下面的这个例子来源于瑞典的一个关于泥炭的研究项目。泥炭是由微生物对植物进行缓慢厌氧分解而得来的。瑞典的泥炭(主要指北半球)主要是由泥炭藓和苔草属的草类所组成的。两大类的植物中又存在着许多的种系,由于地点、气候等因素的影响,还有一些其他的

52、植物参与到泥炭的形成过程。在这个项目中,使用了许多不同种类的化学分析方法来获得关于泥炭材料的具体信息,并且还对不同品种泥炭之间的区别进行了调查。化学分析法采用传统的分析方法(GC、HPLC等),这些方法通常较为艰难且消耗时间。为了加快样本的分析速度,近红外光谱(NIR)和许多多变量标定方法得到了引进。这个平台最后发现运行的十分好,在标定阶段后,样本的分析时间由原来的数星期变成了数分钟。在这篇引文中,我们选择了一个代表瑞典传统泥潭变化的样本的子集。数据变量变量1-19代表了近红外光谱仪的光谱数据,在本次项目中使用的是19个管道过滤器的仪器。光谱数据均以Log(吸光度)的形式进行记录,然后通过MS

53、C程序进行正确的分散。变量20-46代表来了不同的化学分析结果,这些结果可与近红外光谱数据进行校对。Var.No.TypeNameExplanation1-19XNIRLog Absorbance20YRhamnosMono saccharide21YFucosMono saccharide22YArabinosMono saccharide23YXylosMono saccharide24YMannosMono saccharide25YGalaktosMono saccharide26YGlukosMono saccharide27YKlason 1Klason Lignine28YBit

54、umenBitumen29YAsparginAmino acid30YThreoninAmino acid31YSerinAmino acid32YGlutaminAmino acid33YProlinAmino acid34YGlycinAmino acid35YAlaninAmino acid36YValinAmino acid37YMethioninAmino acid38YIsoleucinAmino acid39YIeucinAmino acid40YTyrosinAmino acid41YFenylalaninAmino acid42YHistidinAmino acid43YLysinAmino acid44YAgininAmino acid45YGlucose-aminAmino sugar46YGalactos-aminAmino sugar变量27(Klason)是克拉松木素(水解后产物)。变量28是沥青,代表着丙酮中可溶性碳水化合物。观测值从大量的泥炭样本中选出了能代表瑞典泥炭主要变化的4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论