第二章环境数据统计与分析课件_第1页
第二章环境数据统计与分析课件_第2页
第二章环境数据统计与分析课件_第3页
第二章环境数据统计与分析课件_第4页
第二章环境数据统计与分析课件_第5页
已阅读5页,还剩157页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章环境数据统计与分析2023/1/4第二章环境数据统计与分析第二章环境数据统计与分析2022/12/14第二章环境数据统12环境数据统计与分析2.1数据统计与分析的基本范畴2.2常用的统计指标2.3环境样本特征推断2.4参数估计2.5显著性检验2.6直线相关与直线回归2.7环境数据统计与分析的计算机处理2.8可疑值的取舍第二章环境数据统计与分析2环境数据统计与分析2.1数据统计与分析的基本范畴第22.1数据统计与分析的基本范畴2.1.1总体与样本

统计学中,把性质相同的研究对象的所有观测结果的集合称为总体(population)。总体又分为无限总体和有限总体。 在实际工作中,常常是从被研究的总体中随机抽取部分观测结果进行研究。每个部分观测结果的集合称为样本。 从总体中随机抽取样本用以推断总体的方法称为抽样研究。

第二章环境数据统计与分析2.1数据统计与分析的基本范畴2.1.1总体与样本第32.1.2参数与统计量统计指标 统计学中,把根据规定的函数关系计算出的描述总体或样本特征的函数值称为统计指标(index)。参数 由总体资料计算出的统计指标称为参数(parameter),用于描述总体特征。统计量 由样本资料计算出的统计指标称为统计量(statistic),用于描述样本特征。第二章环境数据统计与分析2.1.2参数与统计量统计指标第二章环境数据统计与分析42.1.3变异与误差变异(variation) 变异指观测结果之间实际存在的差异。误差(error) 误差指观测结果与真实值之差及统计量与参数之差。过失误差(grosserror)——过失误差可以避免;系统误差(systematicerror)——系统误差可以减少;随机误差(randomerror)——随机误差无法消除。第二章环境数据统计与分析2.1.3变异与误差变异(variation)第二章环境52.2常用的统计指标2.2.1平均数2.2.2变异数2.2.3相对数第二章环境数据统计与分析2.2常用的统计指标2.2.1平均数第二章环境数据统62.2.1平均数定义 平均数(average)是表示观测值的平均水平的统计指标,常用的有算术平均数、几何均数及中位数。第二章环境数据统计与分析2.2.1平均数定义第二章环境数据统计与分析72.2.1.1算术均数定义 算术均数(arithmeticmean),简称均数,常用、希腊字母μ表示,表示样本均数,μ表示总体均数。均数适用于正态分布资料统计。计算方法直接计算法频数-加权计算法第二章环境数据统计与分析2.2.1.1算术均数定义第二章环境数据统计与分析8直接计算法 当观察值的个数不多时,将所有观察值x1,x2,x3,…,xn直接相加,其和除以观察值的个数n,即为均数。 计算公式: 式中, 算术平均数 x1,…,xn 各观察值 ∑ 求和符号 ∑x 观察值总和 n 观察值的个数第二章环境数据统计与分析直接计算法第二章环境数据统计与分析9频数-加权计算法

对一个随机事件作重复观察,其中某观察值出现的次数称频数; 各观察值对应的频数称为频数分布;显示各观察值对应的频数的表格称为频数分布表,简称频数表。第二章环境数据统计与分析频数-加权计算法第二章环境数据统计与分析10

频数-加权计算法计算步骤

①计算全距 找出观察值中的最大值、最小值,并计算全距(range),全距=最大值-最小值。 ②定组段数 一般取8~15个为宜,多取10个,组段数太多,计算较繁,组段数过少则误差较大。 ③定组距(classinterval) 相邻两组段下限值之差为组距(classinterval)。各组段的组距可以相等,也可以不等。若拟定为相等组距,则组距=全距/组段数,为便于观察值归组,组距常取整数。第二章环境数据统计与分析频数-加权计算法计算步骤第二章环境数据统计与分析11

④定组段(classrange) 即定各组数据的上下限,俗称“封口”。通常,某组段的最小值为下限(lowerlimit),相邻较大组段的下限即本组段的上限(upperlimit)。第一组段应包括最小值,最末组段应包括最大值。

⑤计数(fi) 划分组段后,将原始数据以适当方式划记计数(常用“正”字法)归组。得频数分布表。

⑥计算组中值(Classmid-value)(xi) 组中值= ⑦计算均数

将各组段的频数与组中值之积相加求和,再除以总频数即得均数。

第二章环境数据统计与分析第二章环境数据统计与分析122.2.1.2几何均数定义

几何均数(geometricmean,G),也叫倍数均数,当观察值相差较大甚至成倍数关系时,如用算术均数表示其平均水平时受少数特大或特小值影响较大,则用几何均数来表示其平均水平。计算步骤

先对观察值取数值,计算对数值的均数后,再查反对数,即得几何均数。计算方法直接计算法频数表法第二章环境数据统计与分析2.2.1.2几何均数定义第二章环境数据统计与分析13直接计算法第二章环境数据统计与分析直接计算法第二章环境数据统计与分析14频数表法 当观察值较多时,可先编频数表,再按频数表计算几何均数。第二章环境数据统计与分析频数表法第二章环境数据统计与分析152.2.1.3中位数定义

中位数(median,M,Md)指全部观察值按大小顺序排列,居于中间位置的数值。 偏态分布资料,一端或两端有不确定数值分布的资料,分布情况不清的资料,适宜用中位数统计。计算方法直接计算法频数表法第二章环境数据统计与分析2.2.1.3中位数定义第二章环境数据统计与分析16直接计算法

样本含量n较少时,先将观察值按大小顺序排列,再进行计算。

第二章环境数据统计与分析直接计算法第二章环境数据统计与分析17频数表法 中位数是一个特定的百分位数,在全部观察值中有一半比它大,一半比它小。当例数较多时,先将观察值编制频数表,再按公式计算。

第二章环境数据统计与分析频数表法第二章环境数据统计与分析182.2.2变异数定义

变异数是表示观察值变异水平的统计指标,常用指标有极差、方差、标准差和变异系数等。

第二章环境数据统计与分析2.2.2变异数定义第二章环境数据统计与分析192.2.2.1极差定义

亦称全距(rangc,R),即一组观察值中最大值与最小值之差。R=Xmax-Xmin特点

全距反映了变异的范围,极差大,变异度大;极差小,变异度小。缺点

用极差表示变异程度的大小简单明了,但它仅考虑了观察值的最大值和最小值,而没有考虑其他数值,因此是不够全面的。

第二章环境数据统计与分析2.2.2.1极差定义第二章环境数据统计与分析202.2.2.2方差

要克服全距的缺点,必须全面考虑到每个观察值。 首先考虑用每一个观察值与均数之差的和即离均差总和Σ(x-)来描述。 再考虑用离均差平方和∑(x-)2来描述。 最终考虑用离均差平方和的均数即方差S2来描述。

第二章环境数据统计与分析2.2.2.2方差 要克服全距的缺点,必须全面考虑到每212.2.2.3标准差定义

为了保持与原观察值及其均数的单位一致,将方差开平方,即得标准差,以S表示。特点

标准差直接表示观察值分布的离散程度,间接反映样本的代表性。 在观察单位数相同,均数相近条件下,标准差较大,表明观察值的变异程度较大,即观察值围绕均数的分布较离散,因而样本的代表性较差;反之,标准差较小,表明观察值的变异程度较小,观察值围绕均数的分布较密集,样本的代表性好。第二章环境数据统计与分析2.2.2.3标准差定义第二章环境数据统计与分析222.2.2.4变异系数定义 对均数相差较大或性质不同的资料,不能直接用标准差比较变异程度的大小,要用变异系数作比较。特点

与标准差一样,变异系数愈大,表明观察值的变异程度愈大,变异系数愈小,表明变异程度愈小。

第二章环境数据统计与分析2.2.2.4变异系数定义第二章环境数据统计与分析232.2.3相对数定义

环境研究直接观测到的数据称为绝对数,绝对数虽然能反映调查中所发现的某种现象的绝对水平,但作深入分析时,仅看绝对数是不够的,必须考虑使用相对数(relativenumber),即两个有联系的指标之比。 常用相对数有率、比等。

第二章环境数据统计与分析2.2.3相对数定义第二章环境数据统计与分析242.2.3.1率定义

率(rate)是某一现象发生的频度(频繁程度)或强度,通常指在一定条件下某种现象实际发生的次数与可能发生该现象的总次数之比。率=

率的比例基数可用100、1000、10,000、100,000等分别称为百分率,千分率,万分率,或十万分率。环境监测常用的率有:

检出率= 回收率= 最高浓度出现率= 残留率= 超标率=

第二章环境数据统计与分析2.2.3.1率定义第二章环境数据统计与分析252.2.3.2构成比定义

构成比(constitutionratio)是事物内部某种构成部分对总体之比。说明部分在总体中所占的比重,是一种用来表示事物内部各构成情况的指标。 构成比=

第二章环境数据统计与分析2.2.3.2构成比定义第二章环境数据统计与分析262.2.3.3相对比定义

相对比(relativeratio)指两个有关联的同类指标的比。以倍数或百分数(%)来表示,其计算式: 相对比=常用的相对比有倍数、指数、系数等。

第二章环境数据统计与分析2.2.3.3相对比定义第二章环境数据统计与分析27倍数 在大气监测中,经常用测定值与国家卫生标准值的比较来评价车间、工厂或大气的污染程度。指数(index) 环境保护研究中,指数是环境污染物的实测浓度对该污染物在环境中的容许浓度的比值,是环境质量评价的常用手段。

I=

I:环境质量指数 C:污染物实测平均浓度 S:污染物容许标准。系数 如排毒系数,环境污染物的排放浓度对该污染物的排放标准的比值,用于表示各种污染物和污染源对环境的毒害的潜在能力。第二章环境数据统计与分析倍数第二章环境数据统计与分析282.3环境样本特征推断环境样本特征 主要指环境样本的分布形式和环境样本的正常值范围等,可以利用获得的统计量进行统计处理,完成上述推断工作。第二章环境数据统计与分析2.3环境样本特征推断环境样本特征第二章环境数据统计与分292.3.1样本特征推断的理论基础--正态分布定义 正态分布(normaldistribution)又称高斯分布(GaussianDistribution),是以均数为中心的对称钟型分布。 正态曲线是一条高峰位于中央,两侧完全对称并逐渐下降但永远不与横轴相交的钟形曲线 正态曲线由和两个参数决定,为总体均数,为总体标准差。决定正态曲线的位置,决定正态曲线形状。第二章环境数据统计与分析2.3.1样本特征推断的理论基础--正态分布定义第二章302.3.2样本特征推断样本分布形式的判定确定正常值范围确定样本所代表总体的理论频数分布第二章环境数据统计与分析2.3.2样本特征推断样本分布形式的判定第二章环境数据统312.4参数估计定义 探知研究对象的总体特征是环境研究的主要目标,由于总体庞大的原因,直接计算参数是极其困难的,因此,往往用样本统计量来估计总体参数,这个过程称为参数估计(estimationofparameter)。 本节主要讨论总体均数估计的基本问题。总体均数估计分为点估计和区间估计。 点估计(pointestimation)是根据一个样本求出总体参数的具体数值,常用根据极大似然法原理导出的公式计算极大似然估计量。 由于存在变异和抽样的随机性,用不同的样本推断总体时,可能得到不同的参数估计值。因此更稳妥的办法是采用区间估计。第二章环境数据统计与分析2.4参数估计定义第二章环境数据统计与分析322.4.1总体均数区间估计的理论基础――t分布

2.4.1.1抽样误差定义 对样本的统计结果与总体的“真实”之间必然存在差异,这种由于抽样而引起的样本与总体之间的差异称为抽样误差。标准误差

样本均数的标准差称为标准误差,。计算公式为:

在实际工作中,总体标准差常属未知,只能用样本标准差S代替作为最佳的无偏估计,于是标准误的计算公式变为:第二章环境数据统计与分析2.4.1总体均数区间估计的理论基础――t分布2.4.332.4.1.2描述样本均数的分布――t分布

从一个均数为,标准差为的正态总体中,随机抽取含量为n的样本,可计算样本均数,样本标准误,则将样本均数与总体均数的离差以样本标准误为单位,得正态(离)差t=,若干样本的t值就构成统计上著名的t分布。 实际工作中总体标准差往往是不知道的,只能用样本标准差S来代替,于是得 t==

第二章环境数据统计与分析2.4.1.2描述样本均数的分布――t分布 从一个均数342.4.2总体均数的区间估计区间估计(intervalestimation) 按预先给定的概率,由一个样本均数及其标准误求出总体均数数值范围的过程。“预先给定的概率” 也称为可信度、可信水平、可信系数,符号为1-α,常取0.99或0.95。“总体均数数值范围” 也称为可信区间,符号为CI。其含义是:由一个样本均数及其标准误求出的被估计参数值有0.99或0.95的可能在此数值范围内,或由若干个样本均数及其标准误求出的若干个被估计参数值中,有99%或95%的个数可能在此数值范围内。

第二章环境数据统计与分析2.4.2总体均数的区间估计区间估计(interval352.4.3总体率的区间估计 可仿照总体均数的可信区间估计的方法来估计总体率的所在范围,即求总体率的可信区间,我们介绍两种方法。正态近似法

当n足够大,且p和(1-p)不接近零,有np和n(1-p)均大于5时,总体率的可信区间为: 式中uα为可信度1-α时的标准正态离差,由u界值得知,如99%可信区间时,α=0.01,uα=2.58,95%可信区间时,α=0.05,uα=1.96。

查表法

当n≤1000,p≥l%时,可查附表3(百分率的可信限表),得到总体率的可信区间。

第二章环境数据统计与分析2.4.3总体率的区间估计 可仿照总体均数的可信区间估362.5显著性检验两均数差异显著性检验样本均数与总体均数的差异显著性检验两样本均数的差异显著性检验两个几何级数样本均数的差异显著性检验配对资料的差异显著性检验两个大样本均数的显著性检验——u检验方差不齐的两样本均数差异的显著性检验——tˊ检验第二章环境数据统计与分析2.5显著性检验两均数差异显著性检验第二章环境数据统计与372.5.1显著性检验的含义与一般步骤含义 在回答样本与总体是否有本质差异或差异是否有显著时,必须考虑:样本与总体差异无显著性和样本与总体差异有显著性2种情况。究竟属于那种情况,需通过差异显著性检验来回答。显著性检验的步骤建立“检验假设”确定检验水准选择检验方法和计算统计量确定概率做出推断结论第二章环境数据统计与分析2.5.1显著性检验的含义与一般步骤含义第二章环境数据统382.5.2两均数差异显著性检验2.5.2.1两均数差异显著性检验的基本思路 t检验是检验两均数间差异显著性的基本方法。 按式(2.20)计算统计量t值后,与根据相应自由度查附表2(t值表)所得的t界值进行比较,判断均数间差异的显著性。 ∣t∣﹤t0.05(v)P﹥0.05差异无显著性 若t0.05(v)≤∣t∣﹤t0.01(v)则0.05≥P﹥0.01即差异有显著性 ∣t∣≥t0.01(v)P≤0.01差异有极显著性 当v(自由度)﹥50时,可直接采用正态分布临界值1.96或2.58来判断P大于还是小于0.05或0.01。第二章环境数据统计与分析2.5.2两均数差异显著性检验2.5.2.1两均数392.5.2.2样本均数与总体均数的差异显著性检验【例2.17】解题步骤:建立检验假设计算t值确定p值结果判断第二章环境数据统计与分析2.5.2.2样本均数与总体均数的差异显著性检验【例402.5.2.3两样本均数的差异显著性检验

两样本均数比较是最常见的统计比较研究,又称成组比较,其目的是推断两样本分别代表的总体均数μ1与μ2是否相等。

采用下面的公式来检验两均数的差异是否有显著性。第二章环境数据统计与分析2.5.2.3两样本均数的差异显著性检验 两样本均数412.5.2.4两个几何级数样本均数的差异显著性检验 检验两个几何均数的差别是否有显著性,所采用的方法,仍然是t检验法,只是将所有数值全部转换为对数值进行计算。第二章环境数据统计与分析2.5.2.4两个几何级数样本均数的差异显著性检验 422.5.2.5配对资料的差异显著性检验 在实验研究中,常采用配对比较的方法。配对研究的目的是比较两种处理方法或实验前后的结果有无差异。 配对资料的实验设计有两种:①同体配对,实验对象自身对比;②非同体配对。

第二章环境数据统计与分析2.5.2.5配对资料的差异显著性检验 在实验研究中432.5.2.6两个大样本均数的显著性检验—u检验 当两个样本的观察单位数较多时(每组n﹥50),资料分布基本近似于正态分布,可以用u检验。 计算出u值后,直接根据表2.13u检验的检验水准表作出结果判断。第二章环境数据统计与分析2.5.2.6两个大样本均数的显著性检验—u检验 442.5.2.7方差不齐的两样本均数差异的显著性检验——tˊ检验 使用t检验的前提条件是两个总体的方差相等,。 事实上,即使两个总体方差相等,样本方差也会因为抽样而出现波动,因此必需对两组样本进行方差齐性检验。如果方差齐性检验显示方差不齐时,则不能直接采用t检验,需要用校正t检验法(tˊ检验)。方差齐性检验计算F统计量查附表4(方差齐性F界值表)做出两总体方差是否相等的推断tˊ检验

计算均数标准误平方计算两样本均数差数的标准误计算tˊ值求tˊ显著性界限的近似值第二章环境数据统计与分析2.5.2.7方差不齐的两样本均数差异的显著性检验——t452.5.3

多均数差异的显著性检验——F检验

在环境研究工作中,经常有两个以上的均数需要同时进行比较,这时,若应用上述的t检验法,则必须对每两个均数进行t检验,比较繁琐。而应用F检验法(即方差分析法)可使显著性检验大为简化。 方差分析又称变异数分析,其基本思想是把全部观察值之间总变异,按设计和需要分为二个或多个组成部分进行分析。总变异的分类在单因素的完全随机设计的实验资料中,总变异可分为组内变异和组间变异。在配伍组设计的资料中,总变异可分为处理组间变异、配伍组间变异及误差三部分。在2×2析因设计资料中,总变异可分为两个因素的两个组间变异、两因素交互作用及误差四部分。第二章环境数据统计与分析2.5.3

多均数差异的显著性检验——F检验 462.5.3.1单因素多个样本均数比较比较步骤检验假设计算校正数确定P值结果判断第二章环境数据统计与分析2.5.3.1单因素多个样本均数比较比较步骤第二章环境数472.5.3.2两因素多个样本均数比较比较步骤列计算表计算校正数(C)计算离均差平方和(SS)计算自由度计算均方(MS)计算F值确定P值并判断结果第二章环境数据统计与分析2.5.3.2两因素多个样本均数比较比较步骤第二章环境数据482.5.3.3多组均数间两两比较 资料经F检验后,各组均数间的差异为无显著性,则不须作进一步的统计处理;如果各组均数间的差异有显著意义,则须作进一步的分析,以检验两两均数间的差异哪些是有显著性的。比较步骤检验假设计算q值求处理数(a)根据误差的自由度及处理数(a)查附表6(q值表),得q的显著界值。确定P值与判断结果第二章环境数据统计与分析2.5.3.3多组均数间两两比较 资料经F检验后,各组492.5.4两率差异的显著性检验2.5.4.1率的抽样误差定义 样本率与总体率间的差异情况是由于抽样造成的,称为率的抽样误差。公式 率的抽样误差可用率的标准误来表示。第二章环境数据统计与分析2.5.4两率差异的显著性检验2.5.4.1率的抽502.5.4.2大样本率与总体率差异的显著性检验——u检验 通常,样本率与总体率之间进行比较时,如样本含量较大(一般大于50),可采用u检验。 再依据表作判断。第二章环境数据统计与分析2.5.4.2大样本率与总体率差异的显著性检验——u检验512.5.4.3两大样本率的差异显著性检验——u检验公式 检验两个样本率的差异是否显著时,可用公式:第二章环境数据统计与分析2.5.4.3两大样本率的差异显著性检验——u检验公式522.5.4.4两大样本率的差异显著性检验——四格表检验检验范围 检验(卡方检验)常用以检验两个率或多个率之间的差别,两组或多组资料内部构成之间的差别,理论分布数列与实际观察分布数列之间的差别,两个观察数列之间的差别是否有显著性等。公式 检验的基本公式:X2= 式中A实际数 T理论数

检验步骤:(1)检验假设(2)计算值(3)确定概率,做出判断

第二章环境数据统计与分析2.5.4.4两大样本率的差异显著性检验——四格表53四格表专用公式法 四格表专用公式是从基本公式推导出来的,故两者计算的结果是相同的。四格表的形式:四格表专用公式:第二章环境数据统计与分析四格表专用公式法第二章环境数据统计与分析542.5.4.5n>40且有一个理论数小于5的两率差异显著性检验——四格表校正值检验

公式

= = 第二章环境数据统计与分析2.5.4.5n>40且有一个理论数小于5的两率差异显著552.5.4.6n<40且有一个理论数小于5的两率差异显著性检验——精确检验法

四格表中有实际值为零时,计算概率的公式为: P= 式中!阶乘,规定0!=1。四格表中无实际值为零时 【例2.31】第二章环境数据统计与分析2.5.4.6n<40且有一个理论数小于5的两率差异显著562.5.5多率的差异显著性检验——行×列的检验定义 当资料的组数或处理方法超过两组(即行数或列数超过两组)时,通称为行×列表或称R×C表,其检验方法,可用的基本公式法,也可采用行×列表专用公式法。公式 行×列表专用公式为:第二章环境数据统计与分析2.5.5多率的差异显著性检验——行×列的检验定572.5.6配对计数资料的差异显著性检验——检验通过配对的方法进行实验,如每一对实验对象分别给予不同的处理,或同一实验对象,先后给予不同的处理,既可获得计量资料,也可获得计数资料,这类计数资料的率的差别显著性检验,采用配对的检验法。公式 计算公式: = 当b+c<40时,则改用校正公式: =第二章环境数据统计与分析2.5.6配对计数资料的差异显著性检验——检验582.6直线相关与直线回归相关(correlation)

相关指两事物或两变量之间呈现某种相依变动关系。 相关有直线相关、曲线相关、多元线性相关,直线相关是最简单的相关。回归(regression)

回归原指样本统计量向总体参数靠拢或回归的现象,现指利用方程描述变量变化的数量关系。 回归有直线回归、曲线拟合、多元线性回归,直线回归是最简单的回归。

第二章环境数据统计与分析2.6直线相关与直线回归相关(correlation)592.6.1直线相关定义

如果相关散点图显示一个变量X由小到大变化,另一个变量Y亦相应地呈直线由小到大(或由大到小)变化,则这两个变量间有直线关系;散点图显示的相关性质和密切程度,由直线相关系数描述。这种直线关系以及分析这种直线关系的理论和方法,统称直线相关(linearcorrelation)。

第二章环境数据统计与分析2.6.1直线相关定义第二章环境数据统计与分析602.6.1.1相关散点图与相关系数相关 以横轴(X)代表汽车辆数,以纵轴(Y)代表NO2浓度,绘制相关散点图,见下图。

从图中可见,随着汽车辆数的增加,大气中NO2的浓度也随之增高,呈现从左下到右上的变化趋势。我们称这种“从左下到右上的变化趋势”为正相关。

第二章环境数据统计与分析2.6.1.1相关散点图与相关系数相关第二章环境数据统61事实上,除正相关外,相关散点图的散点分布还有多种情形,见下图。

第二章环境数据统计与分析事实上,除正相关外,相关散点图的散点分布还有多种情形62相关系数定量地表示变量间的线性相关程度及相关方向。相关系数没有单位,其值在-1至+1之间。正相关: 散点的Y值随X值增加而上升,0<r≤1,如图2.7(a);如果散点完全在一条直线上,则为完全正相关,r=1,如上图(b)。负相关: 散点的Y值随X值增加而减少,-l≤r<0,如上图(c);如果散点完全在一条直线上,则为完全负相关,r=-1,如上图(d)。零相关: 散点的X与Y的数值增减无一定规律,或Y值的变化不受X变化的影响,r=0,如上图(e、f、g)。无线性相关: 散点的X与Y的数值增减服从非直线规律,r=0,如上图(h)。第二章环境数据统计与分析相关系数第二章环境数据统计与分析632.6.1.2相关系数的计算计算公式

r==第二章环境数据统计与分析2.6.1.2相关系数的计算计算公式第二章环境数据统计与642.6.2相关系数的显著性检验定义

由于抽样误差的影响,从相关系数为零的总体中随机抽取的样本的相关系数不一定为零,检验样本相关系数不等于零的可能性,即称为相关系数的差异显著性检验。常用方法为检验。第二章环境数据统计与分析2.6.2相关系数的显著性检验定义第二章环境数据统计与652.6.2.1计算法计算步骤(1)检验假设

X与Y没有相关关系,即总体相关系数=0,样本相关系数r是从中抽取,r与的差别是由于抽样误差而引起。

(2)计算

(3)确定P值与判断结果第二章环境数据统计与分析2.6.2.1计算法计算步骤第二章环境数据统计与分析662.6.2.2查表法椐自由度n′=n-2查附表8(相关系数r界值表),据界值与计算相关系数的比较结果判定。第二章环境数据统计与分析2.6.2.2查表法椐自由度n′=n-2查附表8(相关672.6.3直线回归2.6.3.1直线回归概述 环境研究中,常需由一个变量(自变量,X)推算另一个变量(因变量,Y)的估计值,称为回归分析。 直线回归(linearregression)分析的任务是,按照各点到直线的距离的平方和最小的要求,确定一条最接近于各点的直线(回归直线),并建立这条直线的方程(回归方程,regressionequation),以描述两变量的变化规律或进行变量推算。第二章环境数据统计与分析2.6.3直线回归2.6.3.1直线回归概述第二章环682.6.3.2回归方程的建立 【例2.37】解题步骤:计算基本数据:、、、、。相关系数r及其显著性检验。按(2.51)式计算回归系数。按(2.53)式计算截距a。按(2.54)建立回归方程=a+bX。显示回归线。第二章环境数据统计与分析2.6.3.2回归方程的建立 【例2.37】第二章环境数692.6.3.3 回归方程的显著性检验(1)单样本回归系数的显著性检验 回归系数的显著性检验也用t检验。 ①检验假设 ②计算标准估计误差 ③计算、值 ④确定P值及结果判断第二章环境数据统计与分析2.6.3.3 回归方程的显著性检验(1)单样本回归系数70(2)两样本回归系数的差异显著性检验 若通过两个样本,获得两个回归系数b1和b2,回归系数的标准误分别为Sb1和Sb2,需对两样本之间的差异进行显著性检验。 ①检验假设 ②按公式计算t值 ③确定P值及结果判断第二章环境数据统计与分析(2)两样本回归系数的差异显著性检验第二章环境数据统计与分析712.7环境数据统计与分析的计算机处理 2.7.1均数2.7.1.1算术均数直接计算法频数-加权计算法2.7.1.2几何均数直接计算法频数表计算法

第二章环境数据统计与分析2.7环境数据统计与分析的计算机处理 2.7.1均数722.7.2中位数直接计算法频数表计算法2.7.3变异数标准差变异系数第二章环境数据统计与分析2.7.2中位数第二章环境数据统计与分析732.7.4样本特征推断2.7.4.1样本分布形式的判定输入原始数据计算均值、标准差计算频数并制作统计图判定结果第二章环境数据统计与分析2.7.4样本特征推断第二章环境数据统计与分析742.7.4.2抽样误差输入原始数据计算标注误2.7.4.3总体均数的区间估计输入原始数据计算可信区间2.7.4.4总体率的区间估计输入原始数据计算可信区间第二章环境数据统计与分析2.7.4.2抽样误差第二章环境数据统计与分析752.7.5显著性检验2.7.5.1样本均数与总体均数的差异显著性检验输入原始数据计算标准误、t值、自由度等参数判断显著性2.7.5.2两样本均数的差异显著性检验输入原始数据t检验判断差异显著性第二章环境数据统计与分析2.7.5显著性检验2.7.5.1样本均数与总体均数的762.7.5.3两几何级数的差异显著性检验2.7.5.4配对资料的差异显著性检验输入原始数据,计算、计算差数的均数、标准差、标准误、t值等判定结果2.7.5.5两个大样本均数的显著性检验——u检验输入原始数据计算u值判定结果第二章环境数据统计与分析2.7.5.3两几何级数的差异显著性检验第二章环境数据统772.7.5.6方差不齐的两样本均数差异的显著性检验--检验输入原始数据方差齐性检验检验2.7.5.7单因素多个样本均数比较输入原始数据计算和、均值、平方和、校正数、1/n、和的平方计算F值查表并判定结果第二章环境数据统计与分析2.7.5.6方差不齐的两样本均数差异的显著性检验--782.7.5.8两因素多个样本均数比较2.7.5.9大样本率与总体率差异的显著性检验――u检验2.7.5.10两大样本率的差异显著性检验――u检验2.7.5.11两大样本率的差异显著性检验――四格表检验2.7.5.12n>40且有一个理论数小于5的两率差异显著性检验――四格表校正值检验2.7.5.13n<40且有一个理论数小于5的两率差异显著性检验――精确检验法2.7.5.14多率的差异显著性检验――行×列的检验2.7.5.15配对计数资料的差异显著性检验――检验第二章环境数据统计与分析2.7.5.8两因素多个样本均数比较第二章环境数据统计与792.7.6直线相关与直线回归2.7.6.1散点图2.7.6.2相关系数计算2.7.6.3回归方程的建立2.7.6.4回归方程的显著性检验第二章环境数据统计与分析2.7.6直线相关与直线回归2.7.6.1散点图第二章80演讲完毕,谢谢听讲!再见,seeyouagain3rew2023/1/4第二章环境数据统计与分析演讲完毕,谢谢听讲!再见,seeyouagain3rew81第二章环境数据统计与分析2023/1/4第二章环境数据统计与分析第二章环境数据统计与分析2022/12/14第二章环境数据统822环境数据统计与分析2.1数据统计与分析的基本范畴2.2常用的统计指标2.3环境样本特征推断2.4参数估计2.5显著性检验2.6直线相关与直线回归2.7环境数据统计与分析的计算机处理2.8可疑值的取舍第二章环境数据统计与分析2环境数据统计与分析2.1数据统计与分析的基本范畴第832.1数据统计与分析的基本范畴2.1.1总体与样本

统计学中,把性质相同的研究对象的所有观测结果的集合称为总体(population)。总体又分为无限总体和有限总体。 在实际工作中,常常是从被研究的总体中随机抽取部分观测结果进行研究。每个部分观测结果的集合称为样本。 从总体中随机抽取样本用以推断总体的方法称为抽样研究。

第二章环境数据统计与分析2.1数据统计与分析的基本范畴2.1.1总体与样本第842.1.2参数与统计量统计指标 统计学中,把根据规定的函数关系计算出的描述总体或样本特征的函数值称为统计指标(index)。参数 由总体资料计算出的统计指标称为参数(parameter),用于描述总体特征。统计量 由样本资料计算出的统计指标称为统计量(statistic),用于描述样本特征。第二章环境数据统计与分析2.1.2参数与统计量统计指标第二章环境数据统计与分析852.1.3变异与误差变异(variation) 变异指观测结果之间实际存在的差异。误差(error) 误差指观测结果与真实值之差及统计量与参数之差。过失误差(grosserror)——过失误差可以避免;系统误差(systematicerror)——系统误差可以减少;随机误差(randomerror)——随机误差无法消除。第二章环境数据统计与分析2.1.3变异与误差变异(variation)第二章环境862.2常用的统计指标2.2.1平均数2.2.2变异数2.2.3相对数第二章环境数据统计与分析2.2常用的统计指标2.2.1平均数第二章环境数据统872.2.1平均数定义 平均数(average)是表示观测值的平均水平的统计指标,常用的有算术平均数、几何均数及中位数。第二章环境数据统计与分析2.2.1平均数定义第二章环境数据统计与分析882.2.1.1算术均数定义 算术均数(arithmeticmean),简称均数,常用、希腊字母μ表示,表示样本均数,μ表示总体均数。均数适用于正态分布资料统计。计算方法直接计算法频数-加权计算法第二章环境数据统计与分析2.2.1.1算术均数定义第二章环境数据统计与分析89直接计算法 当观察值的个数不多时,将所有观察值x1,x2,x3,…,xn直接相加,其和除以观察值的个数n,即为均数。 计算公式: 式中, 算术平均数 x1,…,xn 各观察值 ∑ 求和符号 ∑x 观察值总和 n 观察值的个数第二章环境数据统计与分析直接计算法第二章环境数据统计与分析90频数-加权计算法

对一个随机事件作重复观察,其中某观察值出现的次数称频数; 各观察值对应的频数称为频数分布;显示各观察值对应的频数的表格称为频数分布表,简称频数表。第二章环境数据统计与分析频数-加权计算法第二章环境数据统计与分析91

频数-加权计算法计算步骤

①计算全距 找出观察值中的最大值、最小值,并计算全距(range),全距=最大值-最小值。 ②定组段数 一般取8~15个为宜,多取10个,组段数太多,计算较繁,组段数过少则误差较大。 ③定组距(classinterval) 相邻两组段下限值之差为组距(classinterval)。各组段的组距可以相等,也可以不等。若拟定为相等组距,则组距=全距/组段数,为便于观察值归组,组距常取整数。第二章环境数据统计与分析频数-加权计算法计算步骤第二章环境数据统计与分析92

④定组段(classrange) 即定各组数据的上下限,俗称“封口”。通常,某组段的最小值为下限(lowerlimit),相邻较大组段的下限即本组段的上限(upperlimit)。第一组段应包括最小值,最末组段应包括最大值。

⑤计数(fi) 划分组段后,将原始数据以适当方式划记计数(常用“正”字法)归组。得频数分布表。

⑥计算组中值(Classmid-value)(xi) 组中值= ⑦计算均数

将各组段的频数与组中值之积相加求和,再除以总频数即得均数。

第二章环境数据统计与分析第二章环境数据统计与分析932.2.1.2几何均数定义

几何均数(geometricmean,G),也叫倍数均数,当观察值相差较大甚至成倍数关系时,如用算术均数表示其平均水平时受少数特大或特小值影响较大,则用几何均数来表示其平均水平。计算步骤

先对观察值取数值,计算对数值的均数后,再查反对数,即得几何均数。计算方法直接计算法频数表法第二章环境数据统计与分析2.2.1.2几何均数定义第二章环境数据统计与分析94直接计算法第二章环境数据统计与分析直接计算法第二章环境数据统计与分析95频数表法 当观察值较多时,可先编频数表,再按频数表计算几何均数。第二章环境数据统计与分析频数表法第二章环境数据统计与分析962.2.1.3中位数定义

中位数(median,M,Md)指全部观察值按大小顺序排列,居于中间位置的数值。 偏态分布资料,一端或两端有不确定数值分布的资料,分布情况不清的资料,适宜用中位数统计。计算方法直接计算法频数表法第二章环境数据统计与分析2.2.1.3中位数定义第二章环境数据统计与分析97直接计算法

样本含量n较少时,先将观察值按大小顺序排列,再进行计算。

第二章环境数据统计与分析直接计算法第二章环境数据统计与分析98频数表法 中位数是一个特定的百分位数,在全部观察值中有一半比它大,一半比它小。当例数较多时,先将观察值编制频数表,再按公式计算。

第二章环境数据统计与分析频数表法第二章环境数据统计与分析992.2.2变异数定义

变异数是表示观察值变异水平的统计指标,常用指标有极差、方差、标准差和变异系数等。

第二章环境数据统计与分析2.2.2变异数定义第二章环境数据统计与分析1002.2.2.1极差定义

亦称全距(rangc,R),即一组观察值中最大值与最小值之差。R=Xmax-Xmin特点

全距反映了变异的范围,极差大,变异度大;极差小,变异度小。缺点

用极差表示变异程度的大小简单明了,但它仅考虑了观察值的最大值和最小值,而没有考虑其他数值,因此是不够全面的。

第二章环境数据统计与分析2.2.2.1极差定义第二章环境数据统计与分析1012.2.2.2方差

要克服全距的缺点,必须全面考虑到每个观察值。 首先考虑用每一个观察值与均数之差的和即离均差总和Σ(x-)来描述。 再考虑用离均差平方和∑(x-)2来描述。 最终考虑用离均差平方和的均数即方差S2来描述。

第二章环境数据统计与分析2.2.2.2方差 要克服全距的缺点,必须全面考虑到每1022.2.2.3标准差定义

为了保持与原观察值及其均数的单位一致,将方差开平方,即得标准差,以S表示。特点

标准差直接表示观察值分布的离散程度,间接反映样本的代表性。 在观察单位数相同,均数相近条件下,标准差较大,表明观察值的变异程度较大,即观察值围绕均数的分布较离散,因而样本的代表性较差;反之,标准差较小,表明观察值的变异程度较小,观察值围绕均数的分布较密集,样本的代表性好。第二章环境数据统计与分析2.2.2.3标准差定义第二章环境数据统计与分析1032.2.2.4变异系数定义 对均数相差较大或性质不同的资料,不能直接用标准差比较变异程度的大小,要用变异系数作比较。特点

与标准差一样,变异系数愈大,表明观察值的变异程度愈大,变异系数愈小,表明变异程度愈小。

第二章环境数据统计与分析2.2.2.4变异系数定义第二章环境数据统计与分析1042.2.3相对数定义

环境研究直接观测到的数据称为绝对数,绝对数虽然能反映调查中所发现的某种现象的绝对水平,但作深入分析时,仅看绝对数是不够的,必须考虑使用相对数(relativenumber),即两个有联系的指标之比。 常用相对数有率、比等。

第二章环境数据统计与分析2.2.3相对数定义第二章环境数据统计与分析1052.2.3.1率定义

率(rate)是某一现象发生的频度(频繁程度)或强度,通常指在一定条件下某种现象实际发生的次数与可能发生该现象的总次数之比。率=

率的比例基数可用100、1000、10,000、100,000等分别称为百分率,千分率,万分率,或十万分率。环境监测常用的率有:

检出率= 回收率= 最高浓度出现率= 残留率= 超标率=

第二章环境数据统计与分析2.2.3.1率定义第二章环境数据统计与分析1062.2.3.2构成比定义

构成比(constitutionratio)是事物内部某种构成部分对总体之比。说明部分在总体中所占的比重,是一种用来表示事物内部各构成情况的指标。 构成比=

第二章环境数据统计与分析2.2.3.2构成比定义第二章环境数据统计与分析1072.2.3.3相对比定义

相对比(relativeratio)指两个有关联的同类指标的比。以倍数或百分数(%)来表示,其计算式: 相对比=常用的相对比有倍数、指数、系数等。

第二章环境数据统计与分析2.2.3.3相对比定义第二章环境数据统计与分析108倍数 在大气监测中,经常用测定值与国家卫生标准值的比较来评价车间、工厂或大气的污染程度。指数(index) 环境保护研究中,指数是环境污染物的实测浓度对该污染物在环境中的容许浓度的比值,是环境质量评价的常用手段。

I=

I:环境质量指数 C:污染物实测平均浓度 S:污染物容许标准。系数 如排毒系数,环境污染物的排放浓度对该污染物的排放标准的比值,用于表示各种污染物和污染源对环境的毒害的潜在能力。第二章环境数据统计与分析倍数第二章环境数据统计与分析1092.3环境样本特征推断环境样本特征 主要指环境样本的分布形式和环境样本的正常值范围等,可以利用获得的统计量进行统计处理,完成上述推断工作。第二章环境数据统计与分析2.3环境样本特征推断环境样本特征第二章环境数据统计与分1102.3.1样本特征推断的理论基础--正态分布定义 正态分布(normaldistribution)又称高斯分布(GaussianDistribution),是以均数为中心的对称钟型分布。 正态曲线是一条高峰位于中央,两侧完全对称并逐渐下降但永远不与横轴相交的钟形曲线 正态曲线由和两个参数决定,为总体均数,为总体标准差。决定正态曲线的位置,决定正态曲线形状。第二章环境数据统计与分析2.3.1样本特征推断的理论基础--正态分布定义第二章1112.3.2样本特征推断样本分布形式的判定确定正常值范围确定样本所代表总体的理论频数分布第二章环境数据统计与分析2.3.2样本特征推断样本分布形式的判定第二章环境数据统1122.4参数估计定义 探知研究对象的总体特征是环境研究的主要目标,由于总体庞大的原因,直接计算参数是极其困难的,因此,往往用样本统计量来估计总体参数,这个过程称为参数估计(estimationofparameter)。 本节主要讨论总体均数估计的基本问题。总体均数估计分为点估计和区间估计。 点估计(pointestimation)是根据一个样本求出总体参数的具体数值,常用根据极大似然法原理导出的公式计算极大似然估计量。 由于存在变异和抽样的随机性,用不同的样本推断总体时,可能得到不同的参数估计值。因此更稳妥的办法是采用区间估计。第二章环境数据统计与分析2.4参数估计定义第二章环境数据统计与分析1132.4.1总体均数区间估计的理论基础――t分布

2.4.1.1抽样误差定义 对样本的统计结果与总体的“真实”之间必然存在差异,这种由于抽样而引起的样本与总体之间的差异称为抽样误差。标准误差

样本均数的标准差称为标准误差,。计算公式为:

在实际工作中,总体标准差常属未知,只能用样本标准差S代替作为最佳的无偏估计,于是标准误的计算公式变为:第二章环境数据统计与分析2.4.1总体均数区间估计的理论基础――t分布2.4.1142.4.1.2描述样本均数的分布――t分布

从一个均数为,标准差为的正态总体中,随机抽取含量为n的样本,可计算样本均数,样本标准误,则将样本均数与总体均数的离差以样本标准误为单位,得正态(离)差t=,若干样本的t值就构成统计上著名的t分布。 实际工作中总体标准差往往是不知道的,只能用样本标准差S来代替,于是得 t==

第二章环境数据统计与分析2.4.1.2描述样本均数的分布――t分布 从一个均数1152.4.2总体均数的区间估计区间估计(intervalestimation) 按预先给定的概率,由一个样本均数及其标准误求出总体均数数值范围的过程。“预先给定的概率” 也称为可信度、可信水平、可信系数,符号为1-α,常取0.99或0.95。“总体均数数值范围” 也称为可信区间,符号为CI。其含义是:由一个样本均数及其标准误求出的被估计参数值有0.99或0.95的可能在此数值范围内,或由若干个样本均数及其标准误求出的若干个被估计参数值中,有99%或95%的个数可能在此数值范围内。

第二章环境数据统计与分析2.4.2总体均数的区间估计区间估计(interval1162.4.3总体率的区间估计 可仿照总体均数的可信区间估计的方法来估计总体率的所在范围,即求总体率的可信区间,我们介绍两种方法。正态近似法

当n足够大,且p和(1-p)不接近零,有np和n(1-p)均大于5时,总体率的可信区间为: 式中uα为可信度1-α时的标准正态离差,由u界值得知,如99%可信区间时,α=0.01,uα=2.58,95%可信区间时,α=0.05,uα=1.96。

查表法

当n≤1000,p≥l%时,可查附表3(百分率的可信限表),得到总体率的可信区间。

第二章环境数据统计与分析2.4.3总体率的区间估计 可仿照总体均数的可信区间估1172.5显著性检验两均数差异显著性检验样本均数与总体均数的差异显著性检验两样本均数的差异显著性检验两个几何级数样本均数的差异显著性检验配对资料的差异显著性检验两个大样本均数的显著性检验——u检验方差不齐的两样本均数差异的显著性检验——tˊ检验第二章环境数据统计与分析2.5显著性检验两均数差异显著性检验第二章环境数据统计与1182.5.1显著性检验的含义与一般步骤含义 在回答样本与总体是否有本质差异或差异是否有显著时,必须考虑:样本与总体差异无显著性和样本与总体差异有显著性2种情况。究竟属于那种情况,需通过差异显著性检验来回答。显著性检验的步骤建立“检验假设”确定检验水准选择检验方法和计算统计量确定概率做出推断结论第二章环境数据统计与分析2.5.1显著性检验的含义与一般步骤含义第二章环境数据统1192.5.2两均数差异显著性检验2.5.2.1两均数差异显著性检验的基本思路 t检验是检验两均数间差异显著性的基本方法。 按式(2.20)计算统计量t值后,与根据相应自由度查附表2(t值表)所得的t界值进行比较,判断均数间差异的显著性。 ∣t∣﹤t0.05(v)P﹥0.05差异无显著性 若t0.05(v)≤∣t∣﹤t0.01(v)则0.05≥P﹥0.01即差异有显著性 ∣t∣≥t0.01(v)P≤0.01差异有极显著性 当v(自由度)﹥50时,可直接采用正态分布临界值1.96或2.58来判断P大于还是小于0.05或0.01。第二章环境数据统计与分析2.5.2两均数差异显著性检验2.5.2.1两均数1202.5.2.2样本均数与总体均数的差异显著性检验【例2.17】解题步骤:建立检验假设计算t值确定p值结果判断第二章环境数据统计与分析2.5.2.2样本均数与总体均数的差异显著性检验【例1212.5.2.3两样本均数的差异显著性检验

两样本均数比较是最常见的统计比较研究,又称成组比较,其目的是推断两样本分别代表的总体均数μ1与μ2是否相等。

采用下面的公式来检验两均数的差异是否有显著性。第二章环境数据统计与分析2.5.2.3两样本均数的差异显著性检验 两样本均数1222.5.2.4两个几何级数样本均数的差异显著性检验 检验两个几何均数的差别是否有显著性,所采用的方法,仍然是t检验法,只是将所有数值全部转换为对数值进行计算。第二章环境数据统计与分析2.5.2.4两个几何级数样本均数的差异显著性检验 1232.5.2.5配对资料的差异显著性检验 在实验研究中,常采用配对比较的方法。配对研究的目的是比较两种处理方法或实验前后的结果有无差异。 配对资料的实验设计有两种:①同体配对,实验对象自身对比;②非同体配对。

第二章环境数据统计与分析2.5.2.5配对资料的差异显著性检验 在实验研究中1242.5.2.6两个大样本均数的显著性检验—u检验 当两个样本的观察单位数较多时(每组n﹥50),资料分布基本近似于正态分布,可以用u检验。 计算出u值后,直接根据表2.13u检验的检验水准表作出结果判断。第二章环境数据统计与分析2.5.2.6两个大样本均数的显著性检验—u检验 1252.5.2.7方差不齐的两样本均数差异的显著性检验——tˊ检验 使用t检验的前提条件是两个总体的方差相等,。 事实上,即使两个总体方差相等,样本方差也会因为抽样而出现波动,因此必需对两组样本进行方差齐性检验。如果方差齐性检验显示方差不齐时,则不能直接采用t检验,需要用校正t检验法(tˊ检验)。方差齐性检验计算F统计量查附表4(方差齐性F界值表)做出两总体方差是否相等的推断tˊ检验

计算均数标准误平方计算两样本均数差数的标准误计算tˊ值求tˊ显著性界限的近似值第二章环境数据统计与分析2.5.2.7方差不齐的两样本均数差异的显著性检验——t1262.5.3

多均数差异的显著性检验——F检验

在环境研究工作中,经常有两个以上的均数需要同时进行比较,这时,若应用上述的t检验法,则必须对每两个均数进行t检验,比较繁琐。而应用F检验法(即方差分析法)可使显著性检验大为简化。 方差分析又称变异数分析,其基本思想是把全部观察值之间总变异,按设计和需要分为二个或多个组成部分进行分析。总变异的分类在单因素的完全随机设计的实验资料中,总变异可分为组内变异和组间变异。在配伍组设计的资料中,总变异可分为处理组间变异、配伍组间变异及误差三部分。在2×2析因设计资料中,总变异可分为两个因素的两个组间变异、两因素交互作用及误差四部分。第二章环境数据统计与分析2.5.3

多均数差异的显著性检验——F检验 1272.5.3.1单因素多个样本均数比较比较步骤检验假设计算校正数确定P值结果判断第二章环境数据统计与分析2.5.3.1单因素多个样本均数比较比较步骤第二章环境数1282.5.3.2两因素多个样本均数比较比较步骤列计算表计算校正数(C)计算离均差平方和(SS)计算自由度计算均方(MS)计算F值确定P值并判断结果第二章环境数据统计与分析2.5.3.2两因素多个样本均数比较比较步骤第二章环境数据1292.5.3.3多组均数间两两比较 资料经F检验后,各组均数间的差异为无显著性,则不须作进一步的统计处理;如果各组均数间的差异有显著意义,则须作进一步的分析,以检验两两均数间的差异哪些是有显著性的。比较步骤检验假设计算q值求处理数(a)根据误差的自由度及处理数(a)查附表6(q值表),得q的显著界值。确定P值与判断结果第二章环境数据统计与分析2.5.3.3多组均数间两两比较 资料经F检验后,各组1302.5.4两率差异的显著性检验2.5.4.1率的抽样误差定义 样本率与总体率间的差异情况是由于抽样造成的,称为率的抽样误差。公式 率的抽样误差可用率的标准误来表示。第二章环境数据统计与分析2.5.4两率差异的显著性检验2.5.4.1率的抽1312.5.4.2大样本率与总体率差异的显著性检验——u检验 通常,样本率与总体率之间进行比较时,如样本含量较大(一般大于50),可采用u检验。 再依据表作判断。第二章环境数据统计与分析2.5.4.2大样本率与总体率差异的显著性检验——u检验1322.5.4.3两大样本率的差异显著性检验——u检验公式 检验两个样本率的差异是否显著时,可用公式:第二章环境数据统计与分析2.5.4.3两大样本率的差异显著性检验——u检验公式1332.5.4.4两大样本率的差异显著性检验——四格表检验检验范围 检验(卡方检验)常用以检验两个率或多个率之间的差别,两组或多组资料内部构成之间的差别,理论分布数列与实际观察分布数列之间的差别,两个观察数列之间的差别是否有显著性等。公式 检验的基本公式:X2= 式中A实际数 T理论数

检验步骤:(1)检验假设(2)计算值(3)确定概率,做出判断

第二章环境数据统计与分析2.5.4.4两大样本率的差异显著性检验——四格表134四格表专用公式法 四格表专用公式是从基本公式推导出来的,故两者计算的结果是相同的。四格表的形式:四格表专用公式:第二章环境数据统计与分析四格表专用公式法第二章环境数据统计与分析1352.5.4.5n>40且有一个理论数小于5的两率差异显著性检验——四格表校正值检验

公式

= = 第二章环境数据统计与分析2.5.4.5n>40且有一个理论数小于5的两率差异显著1362.5.4.6n<40且有一个理论数小于5的两率差异显著性检验——精确检验法

四格表中有实际值为零时,计算概率的公式为: P= 式中!阶乘,规定0!=1。四格表中无实际值为零时 【例2.31】第二章环境数据统计与分析2.5.4.6n<40且有一个理论数小于5的两率差异显著1372.5.5多率的差异显著性检验——行×列的检验定义 当资料的组数或处理方法超过两组(即行数或列数超过两组)时,通称为行×列表或称R×C表,其检验方法,可用的基本公式法,也可采用行×列表专用公式法。公式 行×列表专用公式为:第二章环境数据统计与分析2.5.5多率的差异显著性检验——行×列的检验定1382.5.6配对计数资料的差异显著性检验——检验通过配对的方法进行实验,如每一对实验对象分别给予不同的处理,或同一实验对象,先后给予不同的处理,既可获得计量资料,也可获得计数资料,这类计数资料的率的差别显著性检验,采用配对的检验法。公式 计算公式: = 当b+c<40时,则改用校正公式: =第二章环境数据统计与分析2.5.6配对计数资料的差异显著性检验——检验1392.6直线相关与直线回归相关(correlation)

相关指两事物或两变量之间呈现某种相依变动关系。 相关有直线相关、曲线相关、多元线性相关,直线相关是最简单的相关。回归(regression)

回归原指样本统计量向总体参数靠拢或回归的现象,现指利用方程描述变量变化的数量关系。 回归有直线回归、曲线拟合、多元线性回归,直线回归是最简单的回归。

第二章环境数据统计与分析2.6直线相关与直线回归相关(correlation)1402.6.1直线相关定义

如果相关散点图显示一个变量X由小到大变化,另一个变量Y亦相应地呈直线由小到大(或由大到小)变化,则这两个变量间有直线关系;散点图显示的相关性质和密切程度,由直线相关系数描述。这种直线关系以及分析这种直线关系的理论和方法,统称直线相关(linearcorrelation)。

第二章环境数据统计与分析2.6.1直线相关定义第二章环境数据统计与分析1412.6.1.1相关散点图与相关系数相关 以横轴(X)代表汽车辆数,以纵轴(Y)代表NO2浓度,绘制相关散点图,见下图。

从图中可见,随着汽车辆数的增加,大气中NO2的浓度也随之增高,呈现从左下到右上的变化趋势。我们称这种“从左下到右上的变化趋势”为正相关。

第二章环境数据统计与分析2.6.1.1相关散点图与相关系数相关第二章环境数据统142事实上,除正相关外,相关散点图的散点分布还有多种情形,见下图。

第二章环境数据统计与分析事实上,除正相关外,相关散点图的散点分布还有多种情形143相关系数定量地表示变量间的线性相关程度及相关方向。相关系数没有单位,其值在-1至+1之间。正相关: 散点的Y值随X值增加而上升,0<r≤1,如图2.7(a);如果散点完全在一条直线上,则为完全正相关,r=1,如上图(b)。负相关: 散点的Y值随X值增加而减少,-l≤r<0,如上图(c);如果散点完全在一条直线上,则为完全负相关,r=-1,如上图(d)。零相关: 散点的X与Y的数值增

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论