第二章 环境数据统计与分析ppt课件_第1页
第二章 环境数据统计与分析ppt课件_第2页
第二章 环境数据统计与分析ppt课件_第3页
第二章 环境数据统计与分析ppt课件_第4页
第二章 环境数据统计与分析ppt课件_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 环境数据统计与分析2 环境数据统计与分析2.1 数据统计与分析的根本范畴2.2 常用的统计目的2.3 环境样本特征推断2.4 参数估计2.5 显著性检验2.6 直线相关与直线回归2.7 环境数据统计与分析的计算机处置2.8 可疑值的取舍2.1 数据统计与分析的根本范畴2.1.1 总体与样本 统计学中,把性质一样的研讨对象的一切观测结果的集合称为总体(population)。总体又分为无限总体和有限总体。 在实践任务中,经常是从被研讨的总体中随机抽取部分观测结果进展研讨。每个部分观测结果的集合称为样本。 从总体中随机抽取样本用以推断总体的方法称为抽样研讨。 2.1.2 参数与统计量统计目

2、的 统计学中,把根据规定的函数关系计算出的描画总体或样本特征的函数值称为统计目的index。参数 由总体资料计算出的统计目的称为参数parameter,用于描画总体特征。统计量 由样本资料计算出的统计目的称为统计量statistic,用于描画样本特征 。2.1.3 变异与误差变异variation 变异指观测结果之间实践存在的差别。误差error 误差指观测结果与真实值之差及统计量与参数之差。过失误差gross error过失误差可以防止;系统误差systematic error系统误差可以减少;随机误差random error随机误差无法消除。 2.2 常用的统计目的2.2.1 平均数2.2

3、.2 变异数2.2.3 相对数2.2.1 平均数定义 平均数average是表示观测值的平均程度的统计目的,常用的有算术平均数、几何均数及中位数。 2.2.1.1 算术均数定义 算术均数arithmetic mean,简称均数,常用、希腊字母表示,表示样本均数,表示总体均数。均数适用于正态分布资料统计。计算方法直接计算法频数-加权计算法直接计算法 当察看值的个数不多时,将一切察看值x1,x2,x3,xn直接相加,其和除以察看值的个数n,即为均数。 计算公式:式中, 算术平均数 x1,xn 各察看值 求和符号 x 察看值总和 n 察看值的个数 频数-加权计算法 对一个随机事件作反复察看,其中某察

4、看值出现的次数称频数; 各察看值对应的频数称为频数分布;显示各察看值对应的频数的表格称为频数分布表,简称频数表。 频数-加权计算法计算步骤 计算全距找出察看值中的最大值、最小值,并计算全距range,全距最大值最小值。 定组段数普通取815个为宜,多取10个,组段数太多,计算较繁,组段数过少那么误差较大。 定组距class interval相邻两组段下限值之差为组距class interval。各组段的组距可以相等,也可以不等。假设拟定为相等组距,那么组距全距/组段数,为便于察看值归组,组距常取整数。 定组段class range即定各组数据的上下限,俗称“封口。通常,某组段的最小值为下限(l

5、ower limit),相邻较大组段的下限即本组段的上限(upper limit)。第一组段应包括最小值,最末组段应包括最大值。 计数fi划分组段后,将原始数据以适当方式划记计数常用“正字法归组。得频数分布表。 计算组中值(Class mid-value)xi组中值 计算均数 将各组段的频数与组中值之积相加求和,再除以总频数即得均数。 2.2.1.2 几何均数定义几何均数geometric mean,G,也叫倍数均数,当察看值相差较大甚至成倍数关系时,如用算术均数表示其平均程度时受少数特大或特小值影响较大,那么用几何均数来表示其平均程度。计算步骤先对察看值取数值,计算对数值的均数后,再查反对数

6、,即得几何均数。计算方法直接计算法频数表法直接计算法频数表法 当察看值较多时,可先编频数表,再按频数表计算几何均数。2.2.1.3 中位数定义中位数median,M,Md指全部察看值按大小顺序陈列,居于中间位置的数值。 偏态分布资料,一端或两端有不确定数值分布的资料,分布情况不清的资料,适宜用中位数统计。计算方法直接计算法频数表法 直接计算法样本含量n较少时,先将察看值按大小顺序陈列,再进展计算。 频数表法中位数是一个特定的百分位数,在全部察看值中有一半比它大,一半比它小。当例数较多时,先将察看值编制频数表,再按公式计算。 2.2.2 变异数定义 变异数是表示察看值变异程度的统计目的,常用目的

7、有极差、方差、规范差和变异系数等。 2.2.2.1 极差定义 亦称全距rangc,R,即一组察看值中最大值与最小值之差。RXmaxXmin特点 全距反映了变异的范围,极差大,变异度大;极差小,变异度小。缺陷 用极差表示变异程度的大小简单明了,但它仅思索了察看值的最大值和最小值,而没有思索其他数值,因此是不够全面的。 2.2.2.2 方差要抑制全距的缺陷,必需全面思索到每个察看值。首先思索用每一个察看值与均数之差的和即离均差总和x 来描画。 再思索用离均差平方和x 2来描画。最终思索用离均差平方和的均数即方差S2来描画。 2.2.2.3 规范差定义为了坚持与原察看值及其均数的单位一致,将方差开平

8、方,即得规范差,以S表示。特点 规范差直接表示察看值分布的离散程度,间接反映样本的代表性。 在察看单位数一样,均数相近条件下,规范差较大,阐明察看值的变异程度较大,即察看值围绕均数的分布较离散,因此样本的代表性较差;反之,规范差较小,阐明察看值的变异程度较小,察看值围绕均数的分布较密集,样本的代表性好。2.2.2.4 变异系数定义对均数相差较大或性质不同的资料,不能直接用规范差比较变异程度的大小,要用变异系数作比较。特点与规范差一样,变异系数愈大,阐明察看值的变异程度愈大,变异系数愈小,阐明变异程度愈小。 2.2.3 相对数定义 环境研讨直接观测到的数据称为绝对数,绝对数虽然能反映调查中所发现

9、的某种景象的绝对程度,但作深化分析时,仅看绝对数是不够的,必需思索运用相对数relative number,即两个有联络的目的之比。 常用相对数有率、比等。 2.2.3.1 率定义率rate是某一景象发生的频度频繁程度或强度,通常指在一定条件下某种景象实践发生的次数与能够发生该景象的总次数之比。 率= 率的比例基数可用100、1000、10,000、100,000等分别称为百分率,千分率,万分率,或十万分率。环境监测常用的率有:检出率 回收率 最高浓度出现率 残留率 超标率 2.2.3.2 构成比定义构成比constitution ratio是事物内部某种构成部分对总体之比。阐明部分在总体中所

10、占的比重,是一种用来表示事物内部各构成情况的目的。 构成比 2.2.3.3 相对比定义相对比relative ratio指两个有关联的同类目的的比。以倍数或百分数()来表示,其计算式:相对比=常用的相对比有倍数、指数、系数等。 倍数 在大气监测中,经常用测定值与国家卫生规范值的比较来评价车间、工厂或大气的污染程度。 指数index 环境维护研讨中,指数是环境污染物的实测浓度对该污染物在环境中的允许浓度的比值,是环境质量评价的常用手段。 I I :环境质量指数C:污染物实测平均浓度S:污染物允许规范。系数 如排毒系数,环境污染物的排放浓度对该污染物的排放规范的比值,用于表示各种污染物和污染源对环

11、境的毒害的潜在才干。2.3 环境样本特征推断环境样本特征 主要指环境样本的分布方式和环境样本的正常值范围等,可以利用获得的统计量进展统计处置,完成上述推断任务。2.3.1 样本特征推断的实际根底正态分布 定义正态分布normal distribution又称高斯分布(Gaussian Distribution),是以均数为中心的对称钟型分布。正态曲线是一条顶峰位于中央,两侧完全对称并逐渐下降但永远不与横轴相交的钟形曲线 正态曲线由和两个参数决议,为总体均数,为总体规范差。决议正态曲线的位置,决议正态曲线外形 。2.3.2 样本特征推断样本分布方式的断定确定正常值范围确定样本所代表总体的实际频数

12、分布2.4 参数估计定义探知研讨对象的总体特征是环境研讨的主要目的,由于总体庞大的缘由,直接计算参数是极其困难的,因此,往往用样本统计量来估计总体参数,这个过程称为参数估计estimation of parameter。 本节主要讨论总体均数估计的根本问题。 总体均数估计分为点估计和区间估计。点估计point estimation是根据一个样本求出总体参数的详细数值,常用根据极大似然法原理导出的公式计算极大似然估计量。 由于存在变异和抽样的随机性,用不同的样本推断总体时,能够得到不同的参数估计值。因此更稳妥的方法是采用区间估计。 2.4.1 总体均数区间估计的实际根底t分布 2.4.1.1 抽

13、样误差定义 对样本的统计结果与总体的“真实之间必然存在差别,这种由于抽样而引起的样本与总体之间的差别称为抽样误差。规范误差样本均数的规范差称为规范误差, 。计算公式为:在实践任务中,总体规范差 常属未知,只能用样本规范差S替代 作为最正确的无偏估计,于是规范误的计算公式变为:2.4.1.2 描画样本均数的分布t分布 从一个均数为,规范差为的正态总体中,随机抽取含量为n的样本,可计算样本均数 ,样本规范误 ,那么将样本均数与总体均数的离差以样本规范误 为单位,得正态离差 t ,假设干样本的t值就构成统计上著名的t分布。实践任务中总体规范差 往往是不知道的,只能用样本规范差S来替代,于是得t 2.

14、4.2 总体均数的区间估计区间估计interval estimation 按预先给定的概率,由一个样本均数及其规范误求出总体均数数值范围的过程。“预先给定的概率 也称为可信度、可信程度、可信系数,符号为1-,常取0.99或0.95。“总体均数数值范围 也称为可信区间,符号为CI。其含义是:由一个样本均数及其规范误求出的被估计参数值有0.99或0.95的能够在此数值范围内,或由假设干个样本均数及其规范误求出的假设干个被估计参数值中,有99或95的个数能够在此数值范围内。 2.4.3 总体率的区间估计可仿照总体均数的可信区间估计的方法来估计总体率的所在范围,即求总体率的可信区间,我们引见两种方法。

15、 正态近似法 当n足够大,且p和1-p不接近零,有np和n1-p均大于5时,总体率的可信区间为: 式中u为可信度1-时的规范正态离差,由u界值得知,如99可信区间时,0.01,u2.58,95可信区间时,0.05,u1.96。 查表法 当n1000,pl时,可查附表3百分率的可信限表,得到总体率的可信区间。 2.5 显著性检验两均数差别显著性检验样本均数与总体均数的差别显著性检验两样本均数的差别显著性检验两个几何级数样本均数的差别显著性检验配对资料的差别显著性检验两个大样本均数的显著性检验u 检验方差不齐的两样本均数差别的显著性检验t检验2.5.1 显著性检验的含义与普通步骤含义在回答样本与总

16、体能否有本质差别或差别能否有显著时,必需思索:样本与总体差别无显著性和样本与总体差别有显著性2种情况。终究属于那种情况,需经过差别显著性检验来回答。显著性检验的步骤建立“检验假设确定检验水准选择检验方法和计算统计量确定概率做出推断结论2.5.2 两均数差别显著性检验 2.5.2.1 两均数差别显著性检验的根本思绪 t检验是检验两均数间差别显著性的根本方法。按式2.20计算统计量t值后,与根据相应自在度查附表2t值表所得的t界值进展比较,判别均数间差别的显著性。 tt0.05v P0.05 差别无显著性假设t0.05vtt0.01v 那么 0.05P0.01 即 差别有显著性 tt0.01v P

17、0.01 差别有极显著性 当v自在度50时,可直接采用正态分布临界值1.96或2.58来判别P大于还是小于0.05或0.01。 2.5.2.2 样本均数与总体均数的差别显著性检验 【例 2.17】解题步骤:建立检验假设计算t值确定p值结果判别2.5.2.3 两样本均数的差别显著性检验 两样本均数比较是最常见的统计比较研讨,又称成组比较,其目的是推断两样本分别代表的总体均数1与2能否相等。采用下面的公式来检验两均数的差别能否有显著性。 2.5.2.4 两个几何级数样本均数的差别显著性检验 检验两个几何均数的差别能否有显著性,所采用的方法,依然是t检验法,只是将一切数值全部转换为对数值进展计算。

18、2.5.2.5 配对资料的差别显著性检验 在实验研讨中,常采用配对比较的方法。配对研讨的目的是比较两种处置方法或实验前后的结果有无差别。配对资料的实验设计有两种:同体配对,实验对象本身对比;非同体配对。2.5.2.6 两个大样本均数的显著性检验u 检验 当两个样本的察看单位数较多时每组n50,资料分布根本近似于正态分布,可以用u检验。计算出u值后,直接根据表2.13 u检验的检验水准表作出结果判别。 2.5.2.7 方差不齐的两样本均数差别的显著性检验t检验 运用t检验的前提条件是两个总体的方差相等, 。现实上,即使两个总体方差相等,样本方差也会由于抽样而出现动摇,因此必需对两组样本进展方差齐

19、性检验。假设方差齐性检验显示方差不齐时,那么不能直接采用t检验,需求用校正t检验法t检验。 方差齐性检验 计算F统计量 查附表4方差齐性F界值表 做出两总体方差能否相等的推断 t检验 计算均数规范误平方 计算两样本均数差数的规范误 计算t值 求t显著性界限的近似值 2.5.3多均数差别的显著性检验F检验 在环境研讨任务中,经常有两个以上的均数需求同时进展比较,这时,假设运用上述的t检验法,那么必需对每两个均数进展t检验,比较繁琐。而运用F检验法即方差分析法可使显著性检验大为简化。 方差分析又称变异数分析,其根本思想是把全部察看值之间总变异,按设计和需求分为二个或多个组成部分进展分析。 总变异的

20、分类在单要素的完全随机设计的实验资料中,总变异可分为组内变异和组间变异。在配伍组设计的资料中,总变异可分为处置组间变异、配伍组间变异及误差三部分。在22析因设计资料中,总变异可分为两个要素的两个组间变异、两要素交互作用及误差四部分。 2.5.3.1 单要素多个样本均数比较 比较步骤检验假设计算校正数确定P值结果判别2.5.3.2 两要素多个样本均数比较比较步骤列计算表计算校正数C计算离均差平方和SS计算自在度计算均方MS计算F值确定P值并判别结果2.5.3.3 多组均数间两两比较 资料经F检验后,各组均数间的差别为无显著性,那么不须作进一步的统计处置;假设各组均数间的差别有显著意义,那么须作进

21、一步的分析,以检验两两均数间的差别哪些是有显著性的。比较步骤检验假设计算q值求处置数a根据误差的自在度及处置数a查附表6q值表,得q的显著界值。 确定P值与判别结果2.5.4 两率差别的显著性检验 2.5.4.1 率的抽样误差 定义样本率与总体率间的差别情况是由于抽样呵斥的,称为率的抽样误差。 公式率的抽样误差可用率的规范误来表示 。2.5.4.2 大样本率与总体率差别的显著性检验u检验 通常,样本率与总体率之间进展比较时,如样本含量较大普通大于50,可采用u检验。再根据表作判别。 2.5.4.3 两大样本率的差别显著性检验u检验 公式检验两个样本率的差别能否显著时,可用公式: 2.5.4.4

22、 两大样本率的差别显著性检验四格表 检验 检验范围 检验卡方检验常用以检验两个率或多个率之间的差别,两组或多组资料内部构成之间的差别,实际分布数列与实践察看分布数列之间的差别,两个察看数列之间的差别能否有显著性等。公式检验的根本公式:X2 式中 A 实践数 T 实际数 检验步骤:1检验假设2计算 值3确定概率,做出判别 四格表公用公式法四格表公用公式是从 根本公式推导出来的,故两者计算的结果是一样的。 四格表的方式: 四格表公用公式:2.5.4.5 n40且有一个实际数小于5的两率差别显著性检验四格表校正 值检验 公式=2.5.4.6 n40且有一个实际数小于5的两率差别显著性检验准确检验法

23、四格表中有实践值为零时,计算概率的公式为: P 式中! 阶乘,规定0!1。 四格表中无实践值为零时 【例 2.31】2.5.5 多率的差别显著性检验行列的 检验 定义当资料的组数或处置方法超越两组即行数或列数超越两组时,通称为行列表或称RC表,其检验方法,可用 的根本公式法,也可采用行列表公用公式法。公式行列表公用公式为: 2.5.6 配对计数资料的差别显著性检验 检验 经过配对的方法进展实验,如每一对实验对象分别给予不同的处置,或同一实验对象,先后给予不同的处置,既可获得计量资料,也可获得计数资料,这类计数资料的率的差别显著性检验,采用配对的检验法。 公式计算公式:=当 b + c 40时,

24、那么改用校正公式:= 2.6 直线相关与直线回归 相关correlation 相关指两事物或两变量之间呈现某种相依变动关系。相关有直线相关、曲线相关、多元线性相关,直线相关是最简单的相关。回归regression 回归原指样本统计量向总体参数靠拢或回归的景象,现指利用方程描画变量变化的数量关系。回归有直线回归、曲线拟合、多元线性回归,直线回归是最简单的回归。 2.6.1 直线相关定义 假设相关散点图显示一个变量X由小到大变化,另一个变量Y亦相应地呈直线由小到大或由大到小变化,那么这两个变量间有直线关系;散点图显示的相关性质和亲密程度,由直线相关系数描画。这种直线关系以及分析这种直线关系的实际和

25、方法,统称直线相关linear correlation。 2.6.1.1 相关散点图与相关系数 相关以横轴(X)代表汽车辆数,以纵轴(Y)代表NO2浓度,绘制相关散点图,见以下图。从图中可见,随着汽车辆数的添加,大气中NO2的浓度也随之增高,呈现从左下到右上的变化趋势。我们称这种“从左下到右上的变化趋势为正相关。 现实上,除正相关外,相关散点图的散点分布还有多种情形,见以下图。 相关系数 定量地表示变量间的线性相关程度及相关方向。 相关系数没有单位,其值在1至+1之间。 正相关: 散点的Y值随X值添加而上升,0r1,如图2.7(a);假设散点完全在一条直线上,那么为完全正相关,r1,如上图 (

26、b)。 负相关: 散点的Y值随X值添加而减少,lr0,如上图 (c);假设散点完全在一条直线上,那么为完全负相关,r1,如上图 (d)。零相关: 散点的X与Y的数值增减无一定规律,或Y值的变化不受X变化的影响, r0,如上图 (e、f、g)。无线性相关:散点的X与Y的数值增减服从非直线规律,r0,如上图 (h)。 2.6.1.2 相关系数的计算计算公式r = = 2.6.2 相关系数的显著性检验 定义 由于抽样误差的影响,从相关系数为零的总体中随机抽取的样本的相关系数不一定为零,检验样本相关系数不等于零的能够性,即称为相关系数的差别显著性检验。常用方法为 检验。 2.6.2.1 计算法计算步骤

27、1检验假设 X与Y没有相关关系,即总体相关系数 0,样本相关系数r是从 中抽取,r与 的差别是由于抽样误差而引起。 2计算 3确定P值与判别结果2.6.2.2 查表法椐自在度nn2查附表8 (相关系数r界值表),据界值与计算相关系数的比较结果断定。 2.6.3 直线回归2.6.3.1 直线回归概述环境研讨中,常需由一个变量自变量,X推算另一个变量因变量,Y的估计值,称为回归分析。直线回归linear regression分析的义务是,按照各点到直线的间隔的平方和最小的要求,确定一条最接近于各点的直线回归直线,并建立这条直线的方程回归方程,regression equation,以描画两变量的变

28、化规律或进展变量推算。2.6.3.2 回归方程的建立【例2.37】解题步骤:计算根本数据: 、 、 、 、 。相关系数r及其显著性检验。按2.51式计算回归系数 。 按2.53式计算截距a 。按2.54建立回归方程 a+bX 。显示回归线。 2.6.3.3 回归方程的显著性检验1单样本回归系数的显著性检验回归系数的显著性检验也用t检验。检验假设计算规范估计误差计算 、 值确定P值及结果判别2两样本回归系数的差别显著性检验 假设经过两个样本,获得两个回归系数b1和b2,回归系数的规范误分别为Sb1和Sb2,需对两样本之间的差别进展显著性检验。检验假设按公式计算t值确定P值及结果判别2.7 环境数据统计与分析的计算机处置2.7.1 均数2.7.1.1 算术均数直接计算法频数加权计算法2.7.1.2 几何均数直接计算法频数表计算法2.7.2 中位数直接计算法频数表计算法2.7.3 变异数规范差变异系数2.7.4 样本特征推断2.7.4.1 样本分布方式的断定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论