多元统计与异常分析_第1页
多元统计与异常分析_第2页
多元统计与异常分析_第3页
多元统计与异常分析_第4页
多元统计与异常分析_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计与异常分析第1页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心多元统计分析多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和对个指标互相关联的情况下分析它们的统计规律。在地学数据处理与应用中,主要是针对地球化学数据的特点,分析元素的统计规律和元素间的关系,从而研究其地质成因。主要内容包括分布检验、、相关回归分析、因子分析与聚类分析分析等。第2页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心多元统计分析选择当前应用工程运行数据处理与分析模块在GeoExpl和GeoMDIS多元统计分析均在数据处理分析模块中实现。第3页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心多元统计分析分布检验:是检验数据是否符合正态分布,分析数据来源是单一母体,还是多重母体。可获得数据集均值、中位数、标准差、偏度、峰度等参数值。▲操作“分布检验”▲选择数据表,如

“表层湖泊”

▲选择检验的变量,如“Ba”

▲确定数据集是否取对数▲确定分组值:起始值、分组间隔、分组数▲操作“分析计算”结果显示直方图,和参数结果

通过调整分组参数或剔除异点设置,可重新计算▲操作“保存结果”,可将检验结果保存到文本文件中。第4页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心多元统计分析因子分析:在大多数情况下,许多变量之间存在一定的相关关系,用较少的综合指标分析存在于各变量中的各类信息,这些综合指标即为因子。▲操作“因子分析”▲选择数据表,如

“表层土壤”

▲确定坐标项,如,“工作横坐标”,“工作纵坐标”▲选择因子分析变量▲给定因子得分结果保存表数据表,如

“fact”▲给定特征值计算结果保存文件,如

“E:\temp\因子分析.ftr”▲操作“因子分析”第5页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心多元统计分析因子分析▲确定因子数,根据特征根累计百分比,一般在“85%”左右对应的因子数,如本例特征根累计百分比对应的因子数为“7”,因此,确定因子数为“7”▲操作“确定”即开始进行因子分析计算

▲计算结束,因子得分和特征值分别保存在给定的数据表和文本文件中。▲分析计算结果▲通过特征值分析因子所代表元素的组合关系和地质解释第6页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心多元统计分析因子分析▲特征值数据文件包含:相关矩阵、特征向量、初始因子矩阵和旋转因子矩阵▲分析因子组合关系,通常选择旋转因子矩阵,根据研究区域的元素分布特征和,地质因素综合,确定元素组合因子得分低限值,一般因子得分绝对值>0.5,按值的高低排列。第7页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心多元统计分析因子分析▲因子1:F-Sb-As-Ni-Sc-Li-Mn-Pb-N-Se-Th▲因子2:Ba-Ce-La-Ti-Ga

▲因子3:S-Br…

…▲推断解释▲利用因子得分表结果,本例中

“fact_FI”-初始因子得分,“fact_FR”-旋转因子得分,制作二维因子得分图。▲作图方法参照离散数据网格化制作等值区或等值线图第8页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心因子分析因子1因子3因子2第9页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心

应用实例:(1)依青海省水系沉积物(39元素)、17个主因子特征及其属性推断。主要依青海省F1、F2、F5因子对断裂构造(F)、绿岩套(A)、碱性火成岩(B)和含碳酸岩建造的地层(C)进行推定,并给予图面上的表达。

F1因子正高值域

主要反映省内含放射性稀有稀土的高钾碱性岩和钾长花岗岩及局部矿化。

F2因子正高值域

主要反映省内含基性火成岩—绿岩套或板块缝合带。

F5因子负低值域主要反映省内含碳酸岩建造和局部碳酸盐化。(2)参照了17元素高信息量分布及其排列趋势对次级断裂做了推定。第10页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心第11页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心地球化学推断地质构造图第12页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心多元统计分析聚类分析:是统计学中研究“物以类聚”问题的一种有效方法,根据观察值或变量之间的亲疏程度,将最相似的对象结合在一起。分为R型聚类-对研究对象的观察变量进行分类,称为R型聚类和Q型聚类-对样本(个案)进行分类.▲操作“聚类分析”▲选择数据表,如

“表层土壤”

▲选择参与聚类分析的变量▲确定“R型分析”或”Q型分析”计算▲选择数据是否需要作对数变换▲选择对数据是否需要正则变换、标准化变换或不变换▲选择计算方法相关系数、欧拉距离或相似系数▲给定聚类分析结果文件,如

“E:\temp\聚类.clt”▲操作“聚类分析”第13页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心聚类分析▲操作“聚类图”,显示聚类图▲划分分类相关性聚类限值,如>0.5,并对元素分组

如:Ag-As-Sb…▲操作“保存图”保存聚类图为图片▲Q型聚类分析,可采用工程中

“Q型聚类24_39”数据表测试练习第14页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心多元统计分析回归分析:是研究变量之间关系的一种统计方法,也就是要建立一个变量和另一个变量或几个变量之间的数据表达式。在实际运用中,回归分析根据变量的数目划分为二元变量回归和多元变量回归,回归的形式包括线性回归和非线性回归等。回归分析对化探中研究指示元素的关系、推断解释具有实用意义;主要解决以下几个问题:

a确定几个特定变量之间是否存在相关分析,若存在则要求得它们之间合适的数据表达式;

b根据一个或几个变量值,预测或空值另一个变量的去职,并且要知道这种预测可达到的精度;

c从影响这某一个量的许多变量中,找出那些变量的影响是显著的,哪些是不显著的。第15页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心多元统计分析回归分析:本系统包括:一元线性回归、多元线性回归、正交回归、逐步回归、岭回归

一元线性回归分析是在排除其它影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一个事物(因变量)的过程。

多元线性回归是一元线性回归的扩展,其基本原理与一元线性回归模型类似,研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系。

正交化回归分析是在多元回归基础上发展起来的一种多元统计方法。建立回归方程,逐次对自变量因子进行正交化变换,排除自变量之间的相互影响,得到一组新的正交化因子,引入与因变量相关系数大的自变量作为选入因子而剔除与因变量相关系数小的自变量。

岭回归分析是近年来在多元回归基础上发展起来的一种新的多元统计方法。它与回归分析的不同之处是一种线性有偏估计。而我们目前采用的回归分析都是线性无偏估计,当自变量中存在对因变量有干扰因素时便会导致回归方程出现病态而不稳定,有时这种干扰因素很小,也会导致回归分析失败。岭回归分析通过对参数K值的选择来改善正规方程组,增强矩阵的稳定性,避免病态方程出现。第16页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心回归分析▲操作“回归分析”▲选择数据表,如

“表层湖泊”

▲选择计算方法,一元回归、多元线性回归、正交回归、逐步回归或岭回归不同计算方法要求不同的模式和参数选择或输入▲选择因变量▲选择自变量(一个或多个)▲操作“分析计算”计算结果将显示在文本窗,包括回归方程、回归系数和相关参数▲操作“结果另存为”将计算结果另存为文本文件第17页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心回归分析▲操作“散点图”在图示窗显示“散点图”▲选择数据表,如

“表层湖泊”

▲选择计算方法,一元回归、多元线性回归、正交回归、逐步回归或岭回归不同计算方法要求不同的模式和参数选择或输入▲选择因变量▲选择自变量(一个或多个)▲操作“分析计算”计算结果将显示在文本窗,包括回归方程、回归系数和相关参数▲操作“结果另存为”将计算结果另存为文本文件▲操作“散点图”在图示窗显示“散点图”第18页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心回归分析▲选择“正交回归测试”数据作正交回归操作练习▲选择“岭回归测试”数据作岭回归操作练习

第19页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心分类统计及校正

按区域(如景观区、构造单元等)对数据进行特征统计,并可多分区系统误差校正。

▲操作“分类统计及校正”

▲选择数据表,如“表层土壤”

▲选择分类项与数据项

▲确定保存统计结构名及剔除离差系数

▲操作《统计计算》

▲按照统计结果设置校正系数,校正结果数据项名

▲操作《校正计算》注:此功能对数据表需有一项分类项(可以整型数,也可以是字符型),分类项可在图形操作中建立。第20页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心异常分析异常下限与特征值采用常规处理方法确定数据集的异常下限,及特征值。▲操作“异常下限与特征值”▲选择数据表,如“表层土壤”

▲选择要分析处理的数据项▲选择处理方法及相关参数▲操作《执行处理》

计算结果列于文本框▲操作“保存结果”将计算结果保存于文本文件第21页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心异常分析邻域数据分析基于离散数据,以计算数据点为中心,以及外域为背景计算各类参数,如“衬值异常”、“变异系数”等。▲操作“邻域数据分析”▲选择数据表,如“表层土壤”▲选择坐标项▲选择要分析处理的变量▲确定单域或双域处理▲选择处理方法及相关参数▲确定数据搜索方式与范围▲给定处理结果保存数据表名▲操作《数据处理》第22页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心异常分析多变量叠加分析针对数据表,数据项作常数、替换与叠加计算▲操作“多变量叠加分析”▲选择数据表,如“表层土壤”

▲选择要作处理的数据项▲给定替换参数,操作《替换》▲确定计算常数与方法,操作《运算》▲给定多变量叠加表达式与新的结果数据项,操作《运算》

第23页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心异常分析数据正则化处理针对数据表,数据项作规一化处理。▲操作“数据正则化处理”▲选择数据表,如“表层土壤”

▲选择要作处理的数据项▲选择处理方法及参数▲给定处理结果数据项名▲操作《运算》

第24页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心异常分析网格化数据衬值异常采用网格化数据计算衬值异常。▲操作“离散数据网格化”选择数据表“表层土壤”元素“Ag”▲操作“网格数据圆滑处理”

选择处理方法,及几何参数结果数据保存于“Ags”

▲操作“网格数据叠置处理”▲利用叠置处理结果制作衬值异常图

第25页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心异常分析网格化数据衬值异常第26页,共30页,2023年,2月20日,星期四中国地质调查局发展研究中心第27页,共30页,2023年,2月20日,星期四中国地质调查局发展

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论