地球化学数据处理培训_第1页
地球化学数据处理培训_第2页
地球化学数据处理培训_第3页
地球化学数据处理培训_第4页
地球化学数据处理培训_第5页
已阅读5页,还剩141页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 地球化学数据处理地球化学数据处理提 纲n地球化学信息的采集与资料收集n地球化学数据处理基本概念n地球化学数据初步处理n背景值和异常值的确定n常用的统计分析方法n图件数据处理n地球化学推断解译一、地球化学信息的采集一、地球化学信息的采集与资料收集与资料收集 地球化学数据的误差分析地球化学数据的误差分析1 1取样产生误差取样产生误差 取样产生的误差是影响地球化学数据质量的最重要的也是最不易被发现的误差。产生这种误差的途径可能有:1)错误地将同一空间产出的不同单元作为同一单元。2)不能准确区分蚀变与原岩的界线。3)判别风化岩石和新鲜岩石的界线不准确。4)没有查明污染层的广度与深度。5)土壤剖面分层

2、不准确。6)采集水样的时间或季节不当。7)对矿化与非矿石岩石的区分不当。8)未能消除因断层等构造对原岩中元素活化迁移的影响。9)取样工具、器具及取样方法不当。n2制备样品产生误差制备样品产生误差 1)没有将整个样品全部粉碎过筛,而仅粉碎了其易碎部分,难碎部分弃掉而造成粉碎的样品不代表整个样品。 2)样品分选不彻底。 3)筛网的原料不当,如不少样品不能用铜网或铁网筛。 4)碎样工具和筛具清理不净,造成样品污染。 5)样品缩分方法不当,未按缩分样品程序进行缩分而随意分取一部分样品。n3分析测试产生误差分析测试产生误差 1)分析方法本身的原因,即分析的精度和灵敏度; 2)分析测试人员因操作的原因而产

3、生误差; 3)所用器具清洗不净产生误差; 4)仪器设备的精密度和分析结果的再现性达不到有关要求而产生误差; 5)化学试剂达不到分析要求或试剂选取不当产生误差; 6)标准达不到要求产生误差; 7)分析测试环境产生误差。地球化学数据质量的控制地球化学数据质量的控制 1 1、内、内 检检 2 2、外、外 检检 3 3、双样品分析、双样品分析二、地球化学数据处理二、地球化学数据处理基本概念基本概念1 1、基本概念、基本概念 总体、个体、样本总体、个体、样本 总体总体是指我们要研究的对象的全体; 个体个体(或叫样品)是指总体中的一个单位; 样本样本(或叫子样)是指总体中取出的一部分个体。 样本所包含的个

4、体数目。叫做样本的大小(或 叫样本容量样本容量)。1、基本概念、基本概念均均 值值 (1)算术平均值 (2)加权平均值 (3)几何平均值 x n1( x1 + x2 + + xn) = niixn11 x n1(1y1 + 2y2 + + kyk) kiiiyn11 kiiiy1n kiiiy1f xGnnxxx21(niix1) (xi0) 1、基本概念、基本概念极值与方差极值与方差 (1)数据的极小值与极大值 极小值 A min x1,x2,xn 极大值 B maxx1,x2,xn (2)方差、标准差n4变异系数s2 11n( x1-x)2 + ( x2-x)2 + + ( xn-x)2

5、= 11n21)(niixx s )(211xxin Cv xs 100 Cv100%很大起伏。一、基本概念一、基本概念真值、中位数真值、中位数准确度和精密度准确度和精密度 准确度:表示分析结果与真实值接近的程度。 精密度:表示各次分析结果相互接近的程度。 常用重复性和再现性表示不同情况下 的精密度。误差和偏差误差和偏差 误差:测定结果与真实值之间的差值。 偏差:测定结果与平均结果之间的差值。检出限检出限 某一分析方法或分析仪器能可靠测试出样品中某一元素的最小质量。灵敏度(检出下限)灵敏度(检出下限) 一定条件下,某一分析方法能可靠测出的相对最低含量。 地球化学标样地球化学标样一、基本概念一、

6、基本概念2 2、元素异常浓度特征、元素异常浓度特征 异常浓度特征是指形成异常的指标在异常区域范围内的数值特征,主要包括异常下限、异常特征值、异常强度、异常衬度、富集系数、异常浓度分带等特征参数。 异常下限异常下限 区域地球化学异常是相对于区域地球化学背景而言的。区域地球化学背景不是一个确定的含量值,而是一个含量范围,将背景含量范围的最大值称为背景上限,当元素含量(或其他指标数据)超过区域背景上限时称其为异常,因此异常下限就等于背景上限。 异常特征值异常特征值 异常特征值是异常区域内数据的描绘统计参数量,主要包括中位数、算术平均值与标准离差或几何均值与几何标准离差。 2 2、元素异常浓度特征、元

7、素异常浓度特征 变异系数变异系数 反映区域内数据的变化程度,区域内标准差/平均值。 异常强度异常强度 异常含量的高低或异常含量超过背景值的程度。可以用异常的峰值、平均值、衬度等表示。 异常元素分带特征异常元素分带特征 异常分带指地球化学异常在空间上存在的指标之间或同一指标在量值上有规律的演变的现象。 2 2、元素异常浓度特征、元素异常浓度特征 浓度梯度浓度梯度 在地球化学分散晕中,元素含量(由高到低)对距离的变化率。在地球化学分散晕中,元素含量(由高到低)对距离的变化率。 异常衬度异常衬度 异常内元素平均含量与背景值之比异常内元素平均含量与背景值之比 。 富集系数富集系数 各种风化产物中元素含

8、量与其在母岩中含量的比值。各种风化产物中元素含量与其在母岩中含量的比值。 异常浓度分带异常浓度分带 根据异常元素含量变化,在空间上划分的若干连续的浓度区间。根据异常元素含量变化,在空间上划分的若干连续的浓度区间。 3、箱图、箱图上中下三条线分别表示变量值的第上中下三条线分别表示变量值的第7575、5050、2525百分位数;百分位数;异常值所用的标记为异常值所用的标记为“0 0”。箱体上方。箱体上方的标记,其变量超过了第的标记,其变量超过了第7575百位数加百位数加第第7575百位分数减第百位分数减第2525百位分数差值的百位分数差值的1.51.5倍。下方标记,其值小于第倍。下方标记,其值小于

9、第2525百百分位数减第分位数减第7575百位分数与第百位分数与第2525百位分百位分数差值的数差值的1.51.5倍;倍;标记为标记为“* *”。上极值点的变量值超。上极值点的变量值超过了第过了第7575百分位数加第百分位数加第7575百位数与第百位数与第2525百分位数差值的百分位数差值的3 3倍,下极值点的倍,下极值点的变量值小于第变量值小于第2525百分位数减第百分位数减第7575百分百分位数差值的位数差值的3 3倍。倍。三、地球化学数据初步分析三、地球化学数据初步分析l数据处理的目的数据处理的目的 使数据集尽可能地满足某种分布(如正态分布),便使数据集尽可能地满足某种分布(如正态分布)

10、,便于解释其分布规律;于解释其分布规律; 统一不同元素量纲和数据水平,便于叠加分析或累加统一不同元素量纲和数据水平,便于叠加分析或累加等运算;等运算; 元素间的非线性关系变为线性关系;元素间的非线性关系变为线性关系; 突出综合变量,化减变量数;突出综合变量,化减变量数; 突出地质、矿产特征信息;突出地质、矿产特征信息; 1、数据的统计分组、列表与作图、数据的统计分组、列表与作图n 对观察数据分组、列表与作图使我们对数值和频率分布、数值集中位置和离散程度等性质有了一个直观了解。 CD.69.63.56.50.44.38.31.25.19.13CDFrequency100806040200Std.

11、 Dev = .10 Mean = .21N = 168.00CR140.0130.0120.0110.0100.090.080.070.060.050.040.030.020.0CRFrequency50403020100Std. Dev = 13.37 Mean = 79.5N = 168.00土壤中元素分布频率图AS26.024.022.020.018.016.014.012.010.08.06.0ASFrequency3020100Std. Dev = 5.08 Mean = 13.2N = 168.00PB320.0300.0280.0260.0240.0220.0200.0180.

12、0160.0140.0120.0100.080.060.040.020.0PBFrequency140120100806040200Std. Dev = 33.28 Mean = 50.8N = 168.00土壤中元素分布频率图2、频数分布、频数分布Analyze Descriptive Statistics Frequencies选择输出统计量对话框选择输出统计量对话框Quartiles:输出四位数,显示第25、50、75百位数值;Cut points for equal groups:输出等份点的百位数;Percentile(s):自定义百分位数图形参数选择对话框图形参数选择对话框选择图形

13、类型None:不输出图形; Bar charts:条形图;Pie charts:输出饼图;Histogram:直方图Statistics1514151037.524-.168.063.063-.786.710.126.12632.0012.0041.0012.0060.0015.00(4) Valid(5) Missing(3) N(6) Skewness(7) Std. Error of Skewness(8) Kurtosis(9) Std. Error of Kurtosis255075(10) Percentiles(1) Age ofRespondent(2) Highest Yea

14、rof SchoolCompleted(6)Age的偏度统计量为0.524,说明age左偏,有一个较长的右尾,变量educ偏度值为0.168,右偏;(8)峰度值,变量age的峰低值为负,低于标准正态分布的峰,变量educ有一个高于标准正态的峰。在正态分布数据中,68的观测数据量落在均数周围1个标准差的范围内,95的观测量落在均数周围2个标准差范围内。age变量的直方图变量的直方图educ变量直方图变量直方图Descriptive Statistics5014.80.5015.30342.906.85803.84805032.403.6036.00780.8015.61607.348250436

15、.806.50443.305075.50101.510091.193450272.0021.00293.006771.00135.420068.1697501467.00286.001753.0046540.00930.8000361.0498502856.00694.003550.0097182.001943.6400709.829350800.0078.00878.0018393.00367.8600199.609550MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTOTHEFTValid N (listwise)NRangeMinimumMaximum

16、SumMeanStd.Deviation数据描述统计数据描述统计Descriptive Statistics305103.94104.20104.0650.0592130530.5630.7530.6604.04598305.153.59.5380.36364305.1720.804.33101.8705430515.30178.8041.888521.5286630519.00647.10111.981664001327.00372.1115158.9801030595.001020.00240.0066111.10308305258.0013700.001077.

17、6721030.9182730530.701830.0081.7111127.028983053.8412.449.41951.086983055.4616.058.95301.561883051.00105.005.23539.276883055.0016.727.40921.29261305.942.811.4678.266113051.213.281.7497.31190305110.006289.00741.9377369.17525305.054.211.3486.335973051067.0010301.002159.498769.459913056906.00106045.059

18、521.1916421.8106830525.9450.8134.93563.737303052737.009160.004145.413567.58006305-9.30237.2051.332531.14579305.9712.404.50031.62583305XYHGCDASCRPBCUZNNIAL2O3CAOCOTFE2O3K2OMGOMNNA2OPSSIO2TIVSEValid N (listwise)NMinimumMaximumMeanStd. DeviationS St ta at ti is st ti ic cs s3092973042942972863102638314

19、138492528.611.63232.9427280. 98110. 3831.83535. 3640.7001.12405.1850455. 50177. 2042.72966. 0042.9501.31205.7375511. 75200. 0046.001103. 90V al i dM i ssi ngNM ean9095Percent i l esA sHgCdPbCrNiZn: :指实际上能测量到的数字指实际上能测量到的数字。(1 1)表示数目表示数目( (非测量值非测量值):):如测定次数如测定次数;倍数倍数;系数系数;分分数数(2 2)测量值或计算值测量值或计算值。数据的位数

20、与测定的准确度有关数据的位数与测定的准确度有关。 记录的数字不仅表示数量的大小记录的数字不仅表示数量的大小,还要正确地反映还要正确地反映测量的精确程度测量的精确程度。 结果 绝对误差 相对误差 有效数字位数 0.32400 0.00001 0.002% 5 0.3240 0.0001 0.002% 4 0.324 0.001 0.2% 32 2数字零在数据中具有双重作用:数字零在数据中具有双重作用:(1 1)若作为普通数定使用,是有效数字)若作为普通数定使用,是有效数字 如如 0.3180 4 0.3180 4位有效数字位有效数字 3.180 3.180 10 10 -1-1 (2 2)若只起

21、定位作用,不是有效数字。)若只起定位作用,不是有效数字。 如如 0.0318 3 0.0318 3位有效数字位有效数字 3.18 3.18 10 10 -2-2 3 3改变单位不改变有效数字的位数:改变单位不改变有效数字的位数: 如如 19.02mL 19.02mL为为19.0219.02 10 10 -3-3 L L 几个数据相加或相减时,它们的和或差的有效数字的保留,应依小数点后位数最少的数据为根据,即取决于绝对误差最大的那个数据。 0.0122 0.0001 25.64 0.01 1.051 0.001 25.7032 0.0121+25.64+1.057 = 25.70 几个数据的乘除

22、运算中,所得结果的有效数字的位数取决于有效数字位数最少的那个数,即相对误差最大的那个数。:(:( 0.0325 0.0325 5.103 5.103 )/ 139.8 = 0.00119/ 139.8 = 0.00119 :0.0325 0.0325 0.0001/0.0325 0.0001/0.0325 100% = 100% =0.3% 0.3% 5.103 5.103 0.001 /5.103 0.001 /5.103 100% = 100% =0.02% 0.02% 9.8 9.8 0.1 /139.8 0.1 /139.8 100% = 100% =0.07%0.07%3、异常值的检

23、验、异常值的检验n异常值是指分析数据中特别高或特别低的含量值。n特异值产生的原因:n(1)异常值:与特殊地质背景、土壤类型或用地类型相关,往往有一定的分布规律;n(2)分析数据错误:常呈单点出现,特高或特低。3、异常值的检验、异常值的检验n可以使用Excel的数据分析功能绘制直方图、累计频率图等图件,由直方图可以较清晰的分辨出母体的多重性,以及离群值的分布状况。直方图的绘制与简要读图直方图的绘制与简要读图4、 质量分析质量分析n项目收到成果资料后,应将重复样品的分析成果筛选出来,并按样品类型进行排列,即第一次采样第一次分析、第一次采样第二次分析,第二次采样第一次分析、第二次采样第二次分析,分别

24、计算分析的偏差。计算公式为:%100)(21)(%BABARE1)重复样品分析成果处理)重复样品分析成果处理4、 质量分析质量分析n设因素A具有n个不同的水平,如有n个不同的采样点A1,A2An。因素B具有m个不同的水平,如每个采样点重复采样m次或每个样重复分析m次,或有m个单位各分析一次等,即B1,B2Bm。n两因素方差分析的数学模型为:nXij=+i+j+ij (i=1,2,n),(j=1,2,m)n式中Xij第i个采样点第j次分析结果(或第j次采样);某元素含量的总平均值(即数学期望值);i第i个采样点的真值与实测平均值之差; j第j次分析(或第j次采样)间的系统误差;ij第i个采样点第

25、j次分析(或第j次重复采样)的偶然误差。2 2)两因素方差分析)两因素方差分析(1)首先计算各离差平方和)首先计算各离差平方和nSS总 称为总离差平方和,其自由度f总 = nm1nSSA称为A因素离差平方和(如采样点间的离差平方和,它反映的是元素的自然变化,即与重复采样和样品多次分析无关,其自由度fA = n1nSSB称为B因素离差平方和(如多次重复采样的离差平方和或多次重复分析的离差平方和或多个分析单位间离差平方和等,它与采样的具体地点无关)。其自由度 fB=m1nSSE称为剩余离差平方和(常常反映偶然误差平方和或分析及偶然误差离差平方和,即除A和B两个因素之外的因素)。其自由度 fE =

26、f总fAfB =(n1)(m1) SS总 mjijnixx121)(mjmjijniijnixnmx1211211 SSA nimjijnimjijniixnmxmxxm11211212.)(1)(1)( SSB nimjijmjniijmjjxnmxnxxn11211212.)(1)(1)( SSEBA总12.1SSSSSS)(nijiijmjxxxx 计算步骤计算步骤(2)计算样本方差)计算样本方差 1nSSfSSSMSAAA2AA1mSSfSSSMSBBB2BB1)1)(m(nSSfSSSMSEEE2EE (3)作)作F检验检验)f ,(fFSSMSMSF)f ,(fFSSMSMSFEB

27、2E2BEB2EA2E2AEA1(1)作统计量F1,F2对于给定信度,设 1)1)(m(n1,nFF01, 1)1)(m(n1,mFF02 4、 质量分析质量分析3 3)三因素方差分析)三因素方差分析计计算算步步骤骤l常规地球化学数据处理常规地球化学数据处理 数据变换数据变换 在地球化学综合解释中,由于数据的分布与量纲的不一致,对数据的处理、分析、综合将会有很大的影响。因此往往需要首先对数据进行变换处理,通常采用对原始数据进行标准化、极差化、或均匀化的变换。对于偏态分布的原始数据通过对数变换、平方根变换、反余弦变换、或反正弦变换可使其近于正态分布。对非线性相关数据,可通过作散点图、分布趋势图、

28、拟合趋势曲线,然后采用相关的拟合方程作适当变换,使变换后的数据集大致成线性关系。 l常规地球化学数据处理常规地球化学数据处理 数据变换数据变换 1.1.标准化变换标准化变换 式中Xij为原始观察值。为第j变量的算术平均值,Sj为第j变量的标准差。i=1,2,n为标本数,j=1,2p为变量数。 变换后的变量其平均数为0,方差为1。各变量处于同一量纲,两个变量在变换前后的相关程度不变。从几何意义上,标准化变换相当于将坐标原点移至重心(平均数)位置。这种变换适合于量纲和数量大小不一的连续型原始数据,如品位数据,岩石化学分析数据等。 l常规地球化学数据处理常规地球化学数据处理 数据变换数据变换 2.2

29、.极差化极差化 (正规化变换(正规化变换 ) 式中Xij为原始数据;Xjmin为第j变量的最小值;X-jmax为第j变量的最大值。i=1,2n为标本数;j=1,2, p为变量数。 变换后数据处于统一量纲,其最大值为1,最小值为0,所有数据变化在01之间。变换前后变量间相关程度不变,其几何意义相当于把坐标轴原点移至变量最小值的位置。适合于量纲和数量大小不一的连续型原始数据的变换。 l常规地球化学数据处理常规地球化学数据处理 数据变换数据变换 3.3.均匀化均匀化 式中Xij为原始数据,为第j变量的平均数。所以,均匀化变换亦是为了统一量纲,将原始数据变换为都在1附近的相对数值。变换后的某一变量的数

30、学期望为1,而变量与平均数之差的期望为0。此变换适合于比例变量,如长度 、体积、质量等数据。 l常规地球化学数据处理常规地球化学数据处理 数据变换数据变换 4.4.对数变换对数变换 其中c为常数。 变换适用于服从对数正态分布的数据,由于这类数据分布是最偏斜的,很肯能出现近零的值,当取对数时,这些值可能呈大的负值,为了避免这个缺点,故在取对数前首先对所有数据加上一个常数c。 l常规地球化学数据处理常规地球化学数据处理 数据变换数据变换 5.5.阈值化阈值化 其中:i=0,1,2,n 划分的级次数,ki为阈值。 将原始的观测数据xi按照给定的阈值ki转化为0至n的多元状态;转化后的f(xi)为0,

31、1,2,n的分级,并且无量纲表示,常用于变化范围较大的数据和图形化。l常规地球化学数据处理常规地球化学数据处理 数据变换数据变换 6.6.其他变换其他变换 反正弦和反余弦变换;平方根变换; 双曲变换;幂函数变换;指数函数变换;四、背景值和异常下限值的确定四、背景值和异常下限值的确定背景值和异常下限值的确定背景值和异常下限值的确定n一、图解法一、图解法1剖面图解法背景值和异常下限值的确定背景值和异常下限值的确定一一 图解法图解法 2 直方图法Mo的横坐标值,即为所求的背景值c。(或背景值的对数值)。由频率(或频数)的极大值的0.6倍处,作一平行横坐标的直线,与曲线一侧相交,其横坐标长度即为均方差

32、Sx。 由Mo向右量取23倍的Sx,该处所指示的含量(或其对数值)即为异常下限值(或其对数值)。背景值和异常下限值的确定背景值和异常下限值的确定一一 图解法图解法3概率格纸图解法概率格纸图解法也是建立在元素在地质体中呈正态分布(或对数正态分布)的基础上的。 直线的斜率即为均方差 累计频率50处与频率曲线交点的横坐标(中位数Me)即为背景值C0(或背景值的对数值lgC0)。累计频率84.1或15.9与频率曲线的交点的横坐标与中位数的差值即为Sx(或其对数值),以累计频率97.7处在横坐标上的对应值为异常下限(或异常下限的对数值)。 异常下限的确定异常下限的确定 (1)累频方式 将数据从小到大排序

33、,取85%频数的值作为异常下限值。采用90%、95%频数值将异常划分为弱、中、强3级浓度分带。 (2)均值标准差方式 对于近似正态分布的数据,采用平均值3倍标准差的界限循环剔除离异数据点后,采用平均值+2倍标准差来确定异常下限值。采用平均值+2-3倍标准差和平均值+2.7倍标准差值将异常划分为弱、中、强3级浓度分带。 在省域范围内依据局部区域内定值异常下限值以及异常浓度分带值分别建立异常下限趋势面、中异常值趋势面和强异常值趋势面。 l 地球化学异常分析地球化学异常分析 分形法分形法确定异常下限确定异常下限 地球化学数据应用分形的方法 适用于以下模型:含量-个数、含量-频数含量-面积、含量-周长

34、 等模型 作用:1、检验地球化学场元素的分布类型正态与对数正态;分形与多重分形2、确定元素的异常下限 分形法分形法确定异常下限确定异常下限 1101001000C (mg/kg)110100100010000100000Nsc126W110100100010000C (mg/kg)110100100010000100000621Sn10100100010000C (mg/kg)110100100010000100000Nsc916Pb10100100010000100000C (ng/kg)1101001000100001000003366Ag1101001000C (mg/kg)110100

35、100010000Nsc26Ni1001000C (mg/kg)110100100010000287Ba异常下限异常下限分界点明显前端呈直线1.01.21.41.61.82.0Theoretical Quantiles1.01.21.41.61.82.0log A sNorm al Q-Q Plot of AsThreshold-1.0-0.50.00.5log Hg-1.0-0.50.00.5Theoretical QuantilesNorm al Q-Q Plot of HgThreshold-0.250.000.250.500.751.001.25Log Cd-0.20.00.20.40

36、.60.81.01.2Theoretical QuantilesNorm al Q-Q Plot of CdThreshold1.41.61.82.02.22.42.62.8log Cr1.41.61.82.02.22.42.62.8Theoretical QuantilesNorm al Q-Q Plot of CrThreshold2.02.53.0log Pb2.02.53.0Theoretical QuantilesNorm al Q-Q Plot of PbThreshold1.01.21.41.61.82.0log Ni1.21.41.61.8Theoretical Quantil

37、esNorm al Q-Q Plot of NiThreshold五、常用的统计分析方法五、常用的统计分析方法1、 回归分析研究变量(指标)之间关系的一种统计方法,也就是要建立一个变量和另一个变量(或几个变量)之间的数学表达式。一元线性回归一元线性回归bSEbt aSEat 对斜率检验的假设是,总体回归系数对斜率检验的假设是,总体回归系数b=0。检验该假设的。检验该假设的t值计算公式是:值计算公式是: 对截距检验的假设是,总体回归方程截距对截距检验的假设是,总体回归方程截距a=0。检验该假设的。检验该假设的t值计算公式是:值计算公式是:在两公式中,在两公式中,SEb是回归系数的标准误。是回归系

38、数的标准误。SEa是截距的标准误。是截距的标准误。1 一元线性回归方程一元线性回归方程最优线性回归方程:bxay常用的方法是最小二乘法,也就是使直线与各点的纵向距离最小,即使实测值y与 之差的平方和 达到最小,因此,求回归方程问题,归根结底就是求 最小时a和b的问题。A称为截距,b为回归直线的斜率,它们又称为回归系数。y 2) (yy2) (yy2 一元回归方程的检验一元回归方程的检验(1 1)回归系数的显著性检验)回归系数的显著性检验一元线性回归一元线性回归(2 2)R R2 2判定系数判定系数 22)()(2yyyyRii(3 3)方差分析)方差分析 )1/()(/)(22pnyypyyF

39、残差均方回归均方 表明判定系数等于回归平方和在总平方和中所占的比率,体现了回归模型所解释的因变量变异的百分比。如果R2 0.775,说明变异中又77.5是由变量x引起的。 R2 1表明因变量与自变量为函数关系。 R2 0,表示自变量与因变量无线性关系。 (a) (b) (c) (d)(e) (f) (g)一元线性回归一元线性回归各种残差与预测值关系示意图各种残差与预测值关系示意图以预测值为横轴,测定值与预测值之间的误差(残差)为纵轴,绘制残差的散点图n例:例:在某铂矿氧化带的探槽中,采集了18个样品,分析其中铂与砷含量,其结果见表n由图可见,它们之间呈现线性关系nY=a+bX n若用则实测值Y

40、与Yi间,就会有误差:最小二乘法原理:误差平方和达到最小的回归直线是最好的。-0.500.000.501.001.50X0.001.002.003.00YC Co oe ef ff fi ic ci ie en nt ts sa a.433.2291.888.0772.146.388.8105.527.000(Constant)XModel1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: Ya. 回归方程:Y=0.433+2.146X n回归分析是研究随机变量对其

41、它变量(可以是随机变量,也可以回归分析是研究随机变量对其它变量(可以是随机变量,也可以是确定性变量)的依赖关系的一种统计分折方法。虽然回归分析是确定性变量)的依赖关系的一种统计分折方法。虽然回归分析与相关分析之间有微小的区别,人们常常把它们统称为回归分析与相关分析之间有微小的区别,人们常常把它们统称为回归分析或相关分析。或相关分析。n回归分析主要解决以下几方面的问题:回归分析主要解决以下几方面的问题: (1 1)建立回归方程)建立回归方程 b b0 0b b1 1X X1 1b b2 2X X2 2b bp pX Xp p (2 2)讨论回归方程中各自变量的作用,或者说检验)讨论回归方程中各自

42、变量的作用,或者说检验 每个自变量对回归的贡献大小。每个自变量对回归的贡献大小。 (3 3)最优回归方程的选择。)最优回归方程的选择。 (4 4)对因变量)对因变量y y的预测或控制。的预测或控制。多元回归分析多元回归分析多元线性回归的概念多元线性回归的概念1 1 多元回归分析的模型多元回归分析的模型 nnxbxbxbby22110(1 1)校正)校正R R2 2判定系数的公式判定系数的公式 1/) 1/() (1 Adjusted222nyyknyyR其中其中k k为自变量的个数,为自变量的个数,n n为观测量数目为观测量数目 偏回归系数和常数项的偏回归系数和常数项的t t检验的公式检验的公

43、式 偏回归系数的标准误偏回归系数t常数项的标准误常数项t2 多元线性回归分析中的统计指标多元线性回归分析中的统计指标(2)ZeroOrder(3)Part Correlation(4) Partial Correlation回归菜单回归菜单线性回归主对话框线性回归主对话框Dependent:因变量Independent:自变量Enter:强行进入法,候选自变量全部纳入模型,不作任何筛选。Stepwise:逐步法Remove:强制剔除法Backward:向后法Forward:向前法WLS Weight:加权最小二乘法的回归分析设定运算规则对话框设定运算规则对话框选入一个筛选变量,并利用右选入一个

44、筛选变量,并利用右侧的侧的RulesRules钮建立一个选择条钮建立一个选择条件,这样,满足该条件的记录件,这样,满足该条件的记录才会进入回归分析。才会进入回归分析。当然,也可以通过当然,也可以通过DataData菜单中菜单中的的Select CaseSelect Case过程来选择记过程来选择记录,两者功能是等价的。录,两者功能是等价的。$0$20,000$40,000$60,000$80,000$100,000$120,000$140,000Current Salary$0$20,000$40,000$60,000$80,000Beginning Salary散点图示例散点图示例n例:例:

45、 四川某铂族元素矿区,该矿区内的基性、超基性岩浆岩具有明显的铂族元素矿化特征,请用逐步回归分析方法,求出Pt含量与其它元素的回归方程。Cu Ni S FeOT MgO H2O+ CO2 Au Ag Pd Pt 109 200 50 11.07 10.83 3.3 0.58 1.39 57 7 20.4 84 54 20 11.43 9.43 7.52 0.21 2.59 146 7.32 54.9 134 93 20 9.08 6.86 6.74 4.09 1.27 265 9.86 24.5 43 33 40 10.7 7.84 7.14 0.13 0.38 72 0.43 10 382 9

46、69 640 11.42 20 6.17 4.3 12.9 239 105 139 2316 2964 40 12.05 13.91 8.4 5.97 18.4 463 73 97.1 154 873 3540 10.97 19.61 5.48 5.44 6.54 80 13.7 44.9 295 1857 50 11.42 16.94 8.3 5.91 4.55 538 32.9 57.8 233 980 110 11.69 20.98 7.78 1.34 4.67 128 47.3 62.9 203 1029 40 10.93 16.86 7.45 5.8 5.95 259 28.2 40

47、 142 332 20 10.79 11.07 7.4 4.01 1.71 110 7.51 70.5 113 200 8190 10.7 11.37 0.68 0.24 1.73 85 6.06 310 147 900 1400 10.79 24.8 5.12 0.45 4.68 105 5.83 73.6 6088 9922 41200 16.28 24.2 4.58 0.27 179 2336 162 512 290 298 130 12.06 9.32 4.72 0.22 1.02 64 1.28 136 61 37 70 11.15 7.44 4.86 0.2 0.83 55 2.26 25.8 43 14 80 10.44 7.92 2.58 0.21 0.51 37 6.47 133 350 121 800 15.21 5.48 1.48 0.54 4.24 154 9.33 86.8 210 52 1150 12.05 4.59 1.85 1.02 3.66 149 13.54 266 单位:ppm 单位:% 单位:ppb 回归系数 未标准化系数 标准化系数 模型 系数b Std. Error 系数 T值 P值 常数 80.294 16

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论