三-常用的统计分析方法课件_第1页
三-常用的统计分析方法课件_第2页
三-常用的统计分析方法课件_第3页
三-常用的统计分析方法课件_第4页
三-常用的统计分析方法课件_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、常用的统计分析方法一 回归分析研究变量(指标)之间关系的一种统计方法,也就是要建立一个变量和另一个变量(或几个变量)之间的数学表达式。一元线性回归 对斜率检验的假设是,总体回归系数b=0。检验该假设的t值计算公式是: 对截距检验的假设是,总体回归方程截距a=0。检验该假设的t值计算公式是:在两公式中,SEb是回归系数的标准误。SEa是截距的标准误。1 一元线性回归方程最优线性回归方程:常用的方法是最小二乘法,也就是使直线与各点的纵向距离最小,即使实测值y与 之差的平方和 达到最小,因此,求回归方程问题,归根结底就是求 最小时a和b的问题。A称为截距,b为回归直线的斜率,它们又称为回归系数。2

2、一元回归方程的检验(1)回归系数的显著性检验一元线性回归(2)R2判定系数 (3)方差分析 表明判定系数等于回归平方和在总平方和中所占的比率,体现了回归模型所解释的因变量变异的百分比。如果R2 0.775,说明变异中又77.5是由变量x引起的。 R2 1表明因变量与自变量为函数关系。 R2 0,表示自变量与因变量无线性关系。 (a) (b) (c) (d)(e) (f) (g)一元线性回归各种残差与预测值关系示意图以预测值为横轴,测定值与预测值之间的误差(残差)为纵轴,绘制残差的散点图例:在某铂矿氧化带的探槽中,采集了18个样品,分析其中铂与砷含量,其结果见表12345678910111213

3、1415161718Y1.591.691.811.891.491.893.132.312.660.852.281.152.220.30.780.30.30.3X0.40.780.540.540.540.651.0410.70.30.600.7800.540.540-0.03由图可见,它们之间呈现线性关系Y=a+bX 若用则实测值Y与Yi间,就会有误差:最小二乘法原理:误差平方和达到最小的回归直线是最好的。回归方程:Y=0.433+2.146X 回归分析是研究随机变量对其它变量(可以是随机变量,也可以是确定性变量)的依赖关系的一种统计分折方法。虽然回归分析与相关分析之间有微小的区别,人们常常把它

4、们统称为回归分析或相关分析。回归分析主要解决以下几方面的问题: (1)建立回归方程 b0b1X1b2X2bpXp (2)讨论回归方程中各自变量的作用,或者说检验 每个自变量对回归的贡献大小。 (3)最优回归方程的选择。 (4)对因变量y的预测或控制。二 多元回归分析多元线性回归的概念1 多元回归分析的模型 (1)校正R2判定系数的公式 其中k为自变量的个数,n为观测量数目 偏回归系数和常数项的t检验的公式 2 多元线性回归分析中的统计指标(2)ZeroOrder(3)Part Correlation(4) Partial Correlation回归菜单线性回归主对话框Dependent:因变量

5、Independent:自变量Enter:强行进入法,候选自变量全部纳入模型,不作任何筛选。Stepwise:逐步法Remove:强制剔除法Backward:向后法Forward:向前法WLS Weight:加权最小二乘法的回归分析设定运算规则对话框选入一个筛选变量,并利用右侧的Rules钮建立一个选择条件,这样,满足该条件的记录才会进入回归分析。当然,也可以通过Data菜单中的Select Case过程来选择记录,两者功能是等价的。输出统计量对话框Estimates:可输出回归系数及其标准误,t值、p值,还有标准化回归系数Beta;Confidence intervals:输出每个回归系数的

6、95%的可信区间;Covariance Matrix:输出各个自变量的相关矩阵和方差、协方差矩阵。Model fit:模型拟和过程中进入、退出的变量的列表,以及有关拟和优度的检验。选择对话框Use probability of F采用F检验的概率值作为判据,图中为系统默认值。档一个变量的Sig值Entry值时,该变量被引入回归方程,当Sig值Removal值时,该变量从回归方程剔除。注意:Entry值要小于Removal值,且必须大于0简单散点图对话框图散点图示例例: 四川某铂族元素矿区,该矿区内的基性、超基性岩浆岩具有明显的铂族元素矿化特征,请用逐步回归分析方法,求出Pt含量与其它元素的回归

7、方程。线性回归方程: y=0.010X1-16.154X2+168.944自变量: Pt 例:某钨矿床矿石定量分析结果及WO3预报值 统计分析得线性回归方程:y 49.21795.709X24.732X7独立变量 WO3二 相 关 分 析 Correlations 相关分析的概念与相关分析过程基本概念:Pearson积矩相关 Spearman相关系数 式中Ri是第i个x值的秩,Si是第i个y值的秩。分别是Ri和Si的平均值。相关系数是描述线性相关关系强弱程度和方向的统计量。1 正态分布的等间隔测度的变量X和y间相关系数2 数据分布不满足正态分布的条件是Pearson相关系数的非参数形式,是根据

8、数据的秩而不是根据实际值计算的基本概念:Kendalls tau-b :其中 ti(或ui)是x(或y)的第i 组结点x(或y)值的数目,n为观测量数。*如果数据不满足正态分布的条件,应使用Spearman和Kendall相关分析方法基本概念:关于相关系数统计意义的检验 式中r是相关系数,n是样本观测量数,n2是自由度。当tt0.05(n-2)时,pt0.05(n-k-2)时,p0.05拒绝原假设 偏相关分析的主对话框偏相关的选择项对话框偏相关应用实例输出1 四川绵阳地区3年生中山柏的数据,分析月生长量与月平均气温、月降雨量、月平均日照时数、月平均湿度这四个气候因素哪个因素有关。数据来源于袁佳

9、祖编著灰色系统理论,数据编号data10-03。 各变量的描述统计量生长量与各变量间Pearson相关分析结果距 离 分 析Distance 距离分析的主对话框图不相似性距离测度选择项对话框 相似性测度选择项对话框 距离分析实例 观测量间的欧氏距离 变量间不相似性分析例题输出变量间的不相似性测度 标准化后的欧氏距离变量间的相似性测度例题相关系数矩阵注意使用辅助方法GraphScatter三 聚类分析 定义:根据研究对象(样品或变量)的多种特征在数值上可能存在着的相似性程度,将它们聚合为不同的点群的一种多元统计分析方法。 分类:聚类分析按其研究对象的不同可分为两类:一类是对样品分类,称Q型分析;

10、另一类是对变量分类,称R型分析。 距离尺度(1)距离系数Z 把n个研究对象(个体)表示为m维坐标空间中的n个点,很自然这些点之间的欧氏距离可用来度量两两点之间的亲疏关系,即两点之间的空间距离愈近,它们就愈相似。(2)相关系数rij 相关系数rij是第i个样品与第j个样品的相关程度的一种度量 聚类分析一般步骤:(1)选择描述事物对象的变量(或指标)。要求选取的变量既要能够全面反映对象性质的各个方面,又要使不同变量反映的对象性质有所差别。(2)形成数据文件,建立样品资料矩阵。(3)确定数据是否需要标准化。(4)确定表示对象距离或相似程度的统计量。(5)选择适当的事物对象聚类方法,进行聚类。例5.3

11、 由图可见,SiO2、Mo、Cu、Ag属于一类;CaO、MgO属于一类。前一类为矿化作用带进围岩中的组分,并富集形成铜钼矿。后一类CaO、MgO为围岩成分 。 各种聚类分析过程的位置 1 TwoStep Cluster两步聚类,可以分析大数据文件;2 KMeans Cluster快速聚类分析过程,仅对现测量进行快速聚类;3 Hierarchical Cluster进行样本聚类和变量聚类的过程;4 Discriminate进行判别分析的过程。两 步 聚 类Two Step Cluster两步聚类分析主对话框 要求模型中的变量是独立的,分变量是多项式分布,连续变量是正态分布。Categoreica

12、l:分类变量Continuous Variables:连续型变量Distance Measure:计算两类间相似程度的算法。快 速 样 本 聚 类 K-Means Cluster QUICK CLUSTER过程 K-Means Cluster Analysis主对话框 分 层 聚 类 Hierarchical Cluster 尺度变量距离计算方法举例Euclidean distance(欧氏距离) Squared Euclidean distance(欧氏距离平方) Pearson correlation(皮尔逊相关) 计数变量对的不相似性测度的方法举例 Chi-square measure(

13、2测度) Phi-square measure(两组频数间的2测度) 二值变量的距离或不相似性测度的约定 首先应该明确,对二值变量,系统默认用1表示某特性的出现(或发生、存在等),用0表示某特性不出现(或不发生、不存在)。(2) 对二值变量的相似性或不相似性测度都基于一个四格表。第二特性第一特性发生不发生发生ab不发生cd二值变量的距离或不相似性测度方法举例 Euclidean distance,二值欧氏距离 根据四格表计算SQRT(b+c) Squared Euclidean distance,二值欧氏距离平方 Size difference,不对称指数,其值范围在01之间 Pattern

14、difference 根据四格表计算bc/n2 Variance,方差不相似性测度 根据四格表计算(b+c)/4n Dispersion,是一个相似性指数 分层聚类分析主对话框 分层聚类分析的方法选择对话框 聚类方法选择”下拉菜单测度连续变量距离的方法 测度二值变量距离和相似性的方法 对数值进行标准化的方法选择菜单选择输出统计量的对话框 选择统计图表的对话框 四 因子分析与对应分析 FACTOR 主成分分析与因子分析概述 身高体重数据 变量观测量i身高h体重w1h1w12h2w23h3w34h4w4nhnwn主成分概念示意图 用p1一个指标来代替原始变量h、w研究n个观测对象的差异。p1、p2

15、可以用原始变量h、w的线性组合来表示: 主成分分析与因子分析概述 变量j观测量ix1x2x3x4x5xm1x11x12x13x14x15x1m2x21x22x23x24x25x2m3x31x32x33X34x35x3m4x41x42x43X44x45x4m5x51x52x53x54x55x5mnxn1xn2xn3xn4xn5xnm参与因子分析的观测量与变量数据 推广到一般情况,实测变量X1-Xm,共测得n个观测数据主成分分析中的主要统计量 主成分分析与因子分析概述第i个特征值 关于特征方程的根 主成分分析与因子分析概述第i个成分的贡献率:前k个成分的累计贡献率 主成分分析与因子分析概述为第i个成分和第j个变量的相关系数载荷(loading)因子分析的概念设有原始变量:x1,x2,x3,xm。它们与潜在因子之间的关系可以表示为 其中z1zm为m个潜在因子,共性因子 ; e1em为个性因子 因子分析的概念公因子数为k,初始因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论