第3章 数据处理的基本知识_第1页
第3章 数据处理的基本知识_第2页
第3章 数据处理的基本知识_第3页
第3章 数据处理的基本知识_第4页
第3章 数据处理的基本知识_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第3章章 数据处理的基本知识数据处理的基本知识n3.1误差及其表示方法误差及其表示方法n3.2 准确度和精密度准确度和精密度n3.3误差和偏差误差和偏差n3.4系统误差的检测系统误差的检测n3.5偶然误差的正态分布偶然误差的正态分布n3.6 统计假设检验和参数估计统计假设检验和参数估计3.1误差及其表示方法误差及其表示方法n分析结果应具有一定的准确度,分析过程中的误差是客观存在的.n不准确的分析结果会得出错误的结论,导致产品报废、资料浪费。n分析工作应该做到既快速又准确。但是,两者同时达到是不太现实的。n快速与准确两者之间谁是主要方面,则需视实际需要才能确定。n 在定量分析中,对于各种原因导

2、致的误差,根据其性质的不同,可以区分为系统误差和偶然误差两大类。3.1.1系统误差系统误差n系统误差是由某种确定的因素造成的,使测定结果系统偏高或偏低;当造成误差的因素不存在时,系统误差自然会消失。当进行重复测量时,它会重复出现。n系统误差的大小,正负是可以测定的,至少在理论上说是可以测定的,所以是可测误差。系统误差的最重要特性是它具有“单向性”。n 根据系统误差的性质和产生的原因,可将其分为如下几种。n 方法误差 :这种误差是由分析方法本身造成的。n 仪器和实际误差 : 仪器误差来源于仪器本身不够精确,如砝码质量、容量器皿刻度和仪表刻度不准确等。n 操作误差: 操作误差是由分析人员所掌握的分

3、析操作与正确的分析操作有差别引起的。n 主观误差 主观误差又称个人误差。主观误差有时列入操作误差中。3.1.2偶然误差偶然误差n偶然误差又称随机误差,它是由一些随机的、偶然的原因造成的。n例如测量时环境温度、湿度和气压的微小波动,仪器的微小变化,分析人员对各份试样处理时的微小差别等,这些不可避免的偶然原因,都将使分析结果在一定范围内波动,引起偶然误差。 3.1.3过失误差过失误差n 除系统误差和偶然误差外,还有一类“过失误差”。n过失误差是工作中的差错,是由于工作粗心马虎,不按操作规程办事等原因造成的。例如读错刻度、记录和计算错误及加错试剂等。n在分析工作中,当出现很大误差时,应分析其原因,如

4、是过失所引起,则在计算平均值时舍去。通常,只要加强责任感,对工作认真细致,过失是完全可以避免的。过失误差一般归于系统误差。3.2 准确度和精密度准确度和精密度n准确度:准确度:分析结果和真实值之间的差值叫误差。误差越小,分析结果的准确度越高,就是说,准确度表示分析结果与真实值接近的程度。n精密度:精密度:在实际工作中,分析人员在同一条件下平行测定几次,如果几次分析结果的数值比较接近,表示分析结果的精密度高。也就是说,精密度表示各次分析结果相互接近的程度。 分析者甲乙丙测量序号l234平均54.3054.3054.2854.2754.2954.4054.3054.2554.2354.3054.3

5、654.3554.3454.3354.35一铁矿石中的铁含量(真实含量5436),各分析四次,测定结果() 如下:3.3误差和偏差误差和偏差n测定结果(X)与真实值(m0)之间的差值称为误差(E),即n n误差越小,表示测定结果与真实值越接近,准确度越高;反之,误差越大,准确度越低。当测定结果大于真实值时,误差为正值,表示测定结果偏高,反之误差为负值,表示测定结果偏低。 0EXmn 误差可用绝对误差和相对误差表示。误差可用绝对误差和相对误差表示。 n例如测定某食品中蛋白的含量,测定结果为30.45,已知真实值(期望值)为30.35,则:n绝对误差绝对误差(E) :n相对误差相对误差(Er):0

6、30.4530.350.10EXm000.10100%100%3.295%30.35rXEmmn偏差偏差(d): 表示测定结果(X)与平均结果( )之间的差值,即: XdXX12111()nniiXXXXXnn1niin XX1122 nndXXdXXdXX111()nnniiiiiidXXXnX10niidnXnX12nddddnrddX相对平均偏差: 平均偏差: n当测定次数无限增多时,所得平均值即为总体平均值mn 若没有系统误差,则总体平均值m 就是真值m0。此时,单次测量的平均偏差d为11limniniXnm 11niiXndm211()niiXnm21()1niiXXsnn 在数理统

7、计学课程中,对于前面两式的关系,通常都给与详细的证明和讨论。在后式中,引入n-1的目的,主要是为了校正以 代替m 所引起的误差。很明显,当测量次数非常多时,测量次数n与n-1的区别就很小,此时 m ,即n 2211()()limlim1nniiiinnXXXnnm这时sXXn单次测量结果的相对标准偏差(CV,又称变异系数)为 00100sCVXn 例 用重量法测定钢铁中Ni的百分含量,得到下列结果:10.48,10.37,10.47,10.43,10.40。计算单次分析结果的平均偏差、相对平均偏差、标准偏差和相对标准偏差。Ni含量10.4810.3710.4710.4310.40O05O06O

8、04O00O03O0025O0036O0016O0000O0009平均10.432id id0.18id 20.0086id 数据计算列表0.180.0365iddn0000000.03610003.510.43rddX210.00860.04614niidsn0000000.04610004.410.43sCVX则平均偏差: 相对平均差 : 样本标准差: 相对标准差: I+0.3-0.2-0.40.20.10.40.0-0.30.2-0.3II00.1-0.70.2-0.1-0.20.5-0.20.30.11d2d第一批数据的 为0.24,第二批数据的 亦为024,两批数据的平均偏差相同。但

9、明显看出,第二批数据较为分散,因其中有两个较大的偏差。所以,用平均偏差反映不出这两批数据的好坏。但如果用标准偏差来表示,情况便很清楚了。它们的标准偏差分别为22221I0.3( 0.2)( 0.3)0.28110 1niidsn 22221II0.0(0.1)(0.1)0.38110 1niidsn可见,第一批数据的精密度较好。n用统计学方法可以证明,当测定次数非常多时,标准偏差与平均偏差有下列关系 0.79790.8dd当测定次数较少时, (d)与s之间的关系就可能与此相差很大了。 3.4系统误差的检测系统误差的检测n残差观察法 :n 设某变量的真值为m(未知),x1,x2,xn。为它的一列

10、测得值,任何一个测量值xi有该次测量的系统误差xi与随机误差di,可表示为:n则测量值的平均值为:n测量次数 时,由于 ,故:iiixmxd111111nnniiiiiixxnnnmxdn 10niidxmxn任一个测量值与均值之差称为该测量值的残差,即:n上式表明,当系统误差较为显著时,残差的大小和符号的变化是由变值系统误差xi的值来确定的,这个原则就是残差观察法计算的理论基础。 ()()iiiiivxxmxdmxxxn在等精度测量中,将测量值的残差按观测的先后次序排列,观察残差的数值和符号变化规律。若残差大小向着一个方向递增或递减,且正负始末相反,则可认为测量数列中含有线性规律变化系统误差

11、,如图所示;若残差的大小和符号发生周期性的循环变化,则存在周期性变化系统误差,如图所示;若残差按图所示的规律变化,则可认为存在线性系统误差和周期性变化系统误差;如果残差大小和符号变化无明显规律,且大致正负相同,则可认为系统不存在系统误差,如图所示。3.5偶然误差的正态分布偶然误差的正态分布n3.5.1 频数分布频数分布n例如有一矿石试样,在相同条件下用吸光光度法测定其中铜的百分含量,共有100个测量值如表所示。这些测量值彼此独立,属随机变量。n 1.36 1.41 1.44 1.37 1.39 1.46 1.37 1.35 1.42 1.42 1.49 1.36 1.42 1.34 1.46

12、1.45 1.46 1.36 1.40 1.34 1.43 1.40 1.39 1.37 1.39 L 50 1.39 1.39 1.40 1.43 1.41 1.34 1.42 1.46 1.53 1.43 1.45 1.40 1.37 1.42 1.37 1.42 1.42 l.44 1.36 1.45 1.31 1.38 1.36 1.41 1.40 1.42 1.30 1.45 1.48 1.43 1.41 1.35 1.46 1.41 1.32 1.45 1.34 1.32 1.40 1.41 1.44 1.42 l.37 1.44 1.42 1.34 1.42 1.48 1.39

13、1.48 1.44 1.43 1.27 1.48 1.47 l.42 1.37 1.40 1.38 1.39 1.42 1.42 1.47 1.55 1.39 1.39 1.36 1.45 1.40 1.45 1.47 1.42 1.38 1.37 分组 频数 相对频数 1.2651.295 1.2951.325 1.3251.355 1.3551.385 l.3851.415 1.4151.445 1.4451.475 1.4751.505 1.5051.535 1.5351.565 1 4 7 17 24 24 15 6 1 1 0.01 0.04 0.07 0.17 0.24 0.24

14、0.25 0.06 0.01 0.01 总和 100 1OO相对频数分布直方图3.5.2分布函数分布函数n偶然误差一般可按正态分布规律进行,正态分布曲线的数学表达式是:22()21( )2xf xem22()21( )12xPf x dxdxemn测量值出现在某一范围内的概率,就等于概率密度函数在该范围内的积分数值,即: 22()21( )2xbbaaPf x dxdxemxum若令: 221( )2ubbaaPf x dxdue221( )2f uem即得到“标准正态分布” 函数:积分面积积分面积积分面积积分面积OOO1O2O3O405O607O0000O0398O0793O11790155

15、4O1995O2258O2580O8O910111213141502881O3159O3413O3643O3849O4032O4192O4332 1617181920212223O4452O4554O4641O4713O4773O4821O4361O48932425262728293O31O491804938O4953O4965O4973O4981O4987O4990正态分布概率积分表 uuuu() 1,12 0,10.6826P xPPm(1.96 ) 1.96,1.960.9500(2 ) 2,20.9550(2.58 )0.9900(3 )0.9974PPPPPPmmmm3.6 统计假设

16、检验和参数估计统计假设检验和参数估计n从理论上讲,测量中的系统误差、随机误差与过失误差性质各异,不难分辨。n但在实际过程中,例如定量分析过程中,这几种误差总是纠缠在一起,难以区分。n统计检验就是利用数理统计方法对误差进行分析,从而正确地评价测量数据,并对如何有效改进试验提供有用的信息。 3.6.1离群值检验(离群值检验(4 法)法)n 一组测量值总不相同,这是误差所引起的正常现象。n通常在一组测量值中总会有个别值明显偏大或偏小,这样的测量值称为离群值或可疑值。n离群值虽离群但并未超出随机误差的限度,属正常值,应保留;如果超出随机误差的限度,应舍去。n那么,出现异常值的原因是什么?如何判断测量值

17、应舍弃还是保留?n离群值检验的目的就在于区分两类不同性质的误差,即随机误差和系统误差。在试验中,如果已经知道存在过失误差,那么有关数据就应舍弃。如果不知道离群值是否存在过失或系统误差,则不应任意取舍,必须进行统计检验。dn根据测量值的正态概率分布可知,偏差大于3 的测量值出现的概率约为0.26,此为小概率事件,而小概率事件在有限次试验中是不可能发生的,如果发生了,则是不正常的。即偏差大于3 的测量值在有限次检验中是不可能的,如果出现,则为异常值,为过失所致,应舍弃。n 由于 ,所以 ,若用 代替d,即为“离群值偏差大于4 者舍去”。由于 ,所以 代替d 会产生误差。但因4 法比较简便,不用查表

18、,因此仍常被采用。 0.8d34ddddddd如果离群值与 之差的绝对值大于4 ,即n则离群值为异常值,应舍去。否则为正常值,应保留。xd4xxdn例3-1 测定碱灰的总碱量(Na20),得到5个数据:40.02,40.13,40.15,40.16,40.20。试问40.02是否应舍去?n解: 除去40.02后,其余数据的平均值和平均偏差为n因为 n所以,40.02应舍去。40.16, 0.02, 40.08xdd40.0240.160.140.08 1/7(1.10+1.11+1.12+1.12+1.14+1.15+1.16)=1.13X 12345678, 1.101.130.031.11

19、 1.130.02, 1.121.130.011.121.130.01, 1.141.130.01, 1.03 1.130.101.15 1.130.021.16 1.130.03dddddddd 821/71/7(0.030.020.010.010.010.020.03)0.019iidd44 0.0190.076d 110.100.076xd 是离群值23456781.101.130.03, 1.11 1.130.021.121.130.01, 1.121.130.011.141.130.01, 1.15 1.130.021.16 1.130.03ddddddd 1/6(1.11+1.12

20、+1.12+1.14+1.15+1.16)=1.13X 831/61/6(0.020.010.010.010.020.03)0.0167iidd44 0.01670.0668d 220.030.0668xd 不是离群值884 ddd不是离群值3.6.2 精密度检验(精密度检验(F- 检验)检验)nF 检验用于比较两个样本的精密度有无显著性差异,其原理如下:假设两个样本n来自同一总体,即 n设:211111222222,(,),(,)n x sNn x sNm m 12mm22122122()sFfFs2212Fss随着测定次数的增多,统计量 将趋近于1。在有限次测定中,虽不可能等于1,但应接近

21、于1,在有限的范围内波动。 1121211112212222()2()()()(1)() ()22fffffffff FFFfffffn如果求得的F值大某一临界值 ,说明波动超出有限范围,原假设不成立, ,两个样本精密度存在显著性差异。n否则,如果 ,原假设成立 ,两个样本的精密度不存在显著性差异。n其中,f1为大方差的自由度,f2为小方差的自由度,计算F值时均以大方差为分子,小方差为分母。221212,(,)ffFF12,(,)ffFF2212n一分析人员用新方法和标准方法测定了某试样中的含铁量,得到如下结果()。新方法:23.28,23.36,23.43,23.3823.30标准方法:23

22、.44,23.41,23.39,23.35试问新方法与标准方法的精密度之间有无显著性差异(置信度95)。n解 : n查附录得, n 说明新方法与标准方法的精密度之间不存在显著性差异。22120.0037, 0.0014ss21220.00372.640.0014sFs0.05,(4,3)9.12FFn用原子吸收法和比色法同时测定某试样中的铜,各进行了8次测定。比色法 ,原子吸收法 。问两种方法的精密度是否存在显著性差异(置信度95)? n解: n查附录得, n 故两种方法的精密度不存在显著性差异。2418.0 10s2426.5 10s2412428.0 101.236.5 10sFs0.02

23、5,(7,7)4.99FFn两例情况不同,在前例中,只存在新方法精密度不如标准方法一种情况。而在后例中,可能原子吸收法显著地优于比色法,也可能比色法精度显著地优于原子吸收法。不管是哪种情况,都说明二者的精密度之间存在显著性差异,故属于双侧检验。附录中列出的为单侧检验的F临界值。对于双侧检验,若给定显著性水平,要在表中查 2值。所以本例中 =1- 0.95 = 0.05,要在表中查F0.025的值。 3.6.3准确度检验(平均值检验或准确度检验(平均值检验或t- 检验)检验)n(1)基本原理n 对于正态总体N(m,2)的子样,n次测定结果的平均值为,则有:n符合正态N(0,1)。n 因为P-1.

24、96,1.96=0.9500n 所以 P(-,-1.96+P1.96,)=0.0500n 即 的概率,这称为小概率事件。对于少数几次测量,出现这种情况的可能性很小。若这种事件发生了,则有95的把握断定测值有问题。xxxunmm 1.96u n(2)u-检验法,即正态检验法n由 n可知,进行“检验的先决条件是必须已知总体标准偏差 。方法是用求得的u值与一定概率(若未指明,则取95)对应的u值比较。若求得的“偏大,则说明测值存在系统误差。否则,在该概率下无系统误差。xumxxxxunnmmmn某工厂实验室经过常年的例行分析,得知一种原材料中含铁量符合正态N(4.55,0.112)。一天,某试验员对

25、这种原材料测定5次,结果为4.38,4.50,4.52,4.45,4.49。试问此测定结果是否存在系统误差?n 解 m =4.55, =0.11 =4.47n 即结果可靠,无系统误差。x0.954.774.5551.631.960.11xunumn(3)t - 检验n众所周知,在有限次测定中,由于 未知,用s代替,测值不符合正态分布而符合t - 分布。t - 分布的统计量为n 根据已知条件不同,可以进行不同的t - 检验。xxxxxtnssssnmmmm 平均值与标准值的比较。 n为了判断一种方法、一种分析仪器、一种试剂以及某实验室或某人的操作是否可靠,即是否存在系统误差,可以将所得样本的平均

26、值与标准值m 进行比较,进行t - 检验。n如果样本(x1, , xi , ,xn)来自正态总体N(m,2),假设无系统误差,那么样本均值与标准值m 之间的偏离为随机误差所致(过失误差的数据已舍去)。 n可见,随机误差所引起的平均值的波动范围为: 即随机误差引起的 对m的偏差最大不超过 。n如果由下式n求得的t值大于表中所列值t ,f ,说明对产的偏离已超出随机误差的范围,原假设不成立,必存在系统误差,称 与m 之间存在显著性差异。反之,如果求得的nt ta ,f ,原假设无系统误差成立,即 与m 之间无显著性差异。基于这一原理,统计检验常被称为假设检验。, ftsxnm, ftsxnm, f

27、ftstsnnmmx, ftsn xtnsmxxn用一种方法测定标准试样中的二氧化硅含量(),得以下8个数据:34.30,34.32,34.26,34.35,34.38,34.28,34.29,34.23。标准值为34.33。问这种新方法是否可靠(P=95)?n解 =34.30,s =0.048x 34.3034.3381.770.48 8 17, 0.05, xtnsfm 0.05, 40.05, 42.365, ttt故新方法不存在系统误差,可靠。n某药厂生产复合维生素丸,要求每50g维生素丸中含铁2400mg。现从一批产品中进行随机抽样检查,5次测定结果分别为2372,2409,2395

28、,2399,2411。产品含铁量是否合格(P=95)?n 解 =2397,s =16n即这批复合维生素丸的含量合格。x 2397240050.4216 5 14, 0.05, xtnsfm 0.05, 70.05, 42.776, ttt 两个平均值的比较 n在定量分析中,常发现即使同一操作者同一操作者用同一方法同一方法测定由同一总体同一总体抽取的样本,所得各种样本的平均值也不相等。n如果是不同不同实验室,不同操作者,用不同方法进行测定,样本平均值的差别也许更大差别也许更大些。n这种不相等或者差别,可能可能实际上并无显著性差异无显著性差异,只是由于在有限次测定中,随机误差不可能完全消除,致使样

29、本平均值之间有些波动;也可能也可能各平均值之间确有显著差异有显著差异,即各平均值之间的差别已超出随机误差的范围,有系统误差存在。n那么究竟属于哪一种情况呢?在直观上常常难以判断,这就需要通过需要通过t-检验检验对两个平均值进行比较。 12121222121122(2)() (1)(1)n nnntxxnnnsns, a ftt, a ftt两平均值间无显著性差异两平均值间有显著性差异221nnfn一分析人员用新方法和标准方法测定了某试样中的含铁量,得到如下结果()。n新方法:23.28, 23.36, 23.43, 23.38, 23.30n标准方法:23.44, 23.41, 23.39,

30、23.35n试问新方法与标准方法的精密度之间有无显著性差异(置信度95)。n解 : 211115, 23.35, 0.061, 0.0037nxss222224, 23.40, 0.038, 0.0014nxss125 4 (542)23.3523.401.43(54)(5 1) 0.0037(4 1) 0.001425427 11 0.950.05tfnnP 0.05,72.365, tt无显著性差异 nF- 检验的目的是比较两样本的精密度,精密度仅取决于随机误差,与系统误差无关,因此进行F-检验之前,不需进行t-检验。nt-检验的目的在于说明样本平均值的准确度,因准确度同时取决于精密度和系统误差,只有在精密度基本一致的前提下方可检验是否存在系统误差,n故在t-检验之前必须首先进行F-检验。3.6.4 参数估计参数估计n对于一个正态总体,虽然分布函数形式已知,但由于m 、 两个基本参数未知,所以其值分布也是未知的。在通常情况下,分析工作者最感兴趣的就是m 、这两个未知参数。n同时由于人力、物力、时间等各方面的限制,不可能通过测定无限多次去求得m 、,常常只能进行有限次的测定,或者说只能得到总体的一个样本。由于样本来自总体,它必带有总体的特征,因此可以用样本的统计量去估计m 和。 一、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论