定量中的数据处理_第1页
定量中的数据处理_第2页
定量中的数据处理_第3页
定量中的数据处理_第4页
定量中的数据处理_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2-2定量分析中的数据处理

及评价1、数据处理中的几个术语及其意义在实际的分析测试工作中,测试所得的数据总是参差不齐,误差是客观存在的。如何对所得的数据进行处理和评价,找出其规律,判断分析结果的可靠性,并用于指导实践。数理统计法是处理与评价数据的科学方法。先介绍有关的的几个术语:(1)总体、样本和个体(2)平均值和中位数(3)精密度的表示方法

(1)总体、样本、个体和样本容量总体:研究对象的全体称为总体(或母体);样本:(或子样):自总体中随机抽出的一部分样品称为样本(或子样);个体:组成总体的每一个单元称之为个体;样本容量:样本中所含个体的数目称为样本大小(或样本容量)举例说明对某一批软锰矿中二氧化锰含量的测定。分析人员按分析标准规定,对物料进行处理(取样、粉碎、过筛和缩分等前处理的过程),最后得到约500g供分析用的试样,这就是总体。从500g的试样(总体)中取12份软锰矿样品来进行分析,得到12个测定值,这一组测定值(12个数据)称为本软锰矿试样总体的随机样本,样本容量为12。由于不可能对总体中的每一个个体都进行研究,应用统计学的方法对样本(有限的个体)的研究来研究总体。如上例中,通过12次的测定的数值,来确定该批软锰矿中二氧化锰的含量。(2)平均值和中位数平均值总体平均值:当测量次数和测量数据无限多时,其平均值称为总体平均值或均值,即为真值μ。真值:样本算术平均值(也称平均值、均值,测定有限次,在分析测试工作中一般n<20),将所得数据的总和除于测定次数而得:中位数中位数:位于一系列按递增或递减排列数据中间的数据称为中位数。(1)数据的数目n为奇数时,居于中间的数值仅一个;(2)数据的数目n为偶数时,居于中间的数值有两个,此时中位数为它们的平均值;(3)采用中位数的优点是:计算简便,它与两端极值的变化无关,当测量次数较少、而且又有大误差出现,数据处理有困难时,采用中位数较好。小结:平均值和中位数表示数据的集中趋势,即数据集中在平均值或中位数附近。(3)精密度的表示法在误差概念的讨论中己知,可用误差和偏差来表示测定数据的准确度和精密度。而精密度是对有限次测定数据的离散程度。d、、、R(极差)和公差来表示。根据对数据处理的要求不同,数据的精密度还常用以下几种方法表示。方差总体方差:测定值与真值的差的平方和除以测定次数n。样本方差:标准差标准差:方差的平方根为标准偏差。总体的标准差也称标准误差,对真值言。由于真值不知道,所以标准误差少用。样本标准差(标准偏差)与变异系数样本标准差也称为标准偏差:对平均值而言。

-相对标准偏差也称变异系数。在要求较严格的测定数据时,一般用变异系数来表示误差。标准误差与标准偏差的特点标准误差相对真值而言,测定次数为n→∞标准偏差相对平均值而言,计算公式中的n-1称为自由度(通俗的理解可为:做了n次实验,有n-1次可以做对比)。精密度表示法小结测定结果数据精密度的表示法有:偏差(d)平均偏差()相对平均偏差(即精密度)标准偏差(s)相对标准偏差(即:变异系数)工业生产中还常用极差和公差来表示,具体采用哪一种表示法、由分析结果的要求决定。另外:表示误差的数值时,用1-2位有效数字即可。例用标准偏差比用平均偏差更能显示数据的离散性,因而更科学更准确。例:有两位分析人员对同一样品进行分析,都平行做了8次,得到以下两组数据,计算两组数据的平均偏差()与标准偏差(s):

1.:0.11,-0.73,0.24,0.51,

-0.14,

0.00,0.30,-0.21,

n=8=0.28s1=0.382

:0.18,

0.26,-0.25,-0.37,

0.32,

-0.28,0.31,-0.27

n=8

=0.28

s2=0.29

=

,

s1>s22.随机误差的分布随机误差(偶然误差)是由一些偶然因素造成的误差,它的大小和方向难以估计,似乎没有什么规律,但如果用统计学方法处理,就会发现它服从一定的统计规律。为了弄清随机误差的统计规律,下面我们来讨论以下两个问题。

(1)频数分布(2)正态分布测定数据表

有一矿石试样,在相同条件下用吸光光度法测定其中铜的百分含量,共有100个测量值。这些测量值属随机变量1.361.491.431.411.371.401.321.421.471.391.411.361.401.341.421.421.451.351.421.391.441.421.391.421.421.301.341.421.371.361.371.341.371.461.441.451.321.481.401.451.391.461.391.531.361.481.401.391.381.401.461.451.501.431.451.431.411.481.391.451.371.461.391.451.311.411.441.441.421.471.351.361.391.401.381.351.421.431.421.421.421.401.411.371.461.361.371.271.471.381.421.341.431.421.411.411.441.481.551.37频数分布对上表100个数据的分析:有两个极值,最小为1.27,最大为1.55。R(极值)=1.55-1.27=0.28≈0.30(方便处理)把数据分为10组则组距为0.03,将各测量值对号编入。制频数分布表。

分组频数相对频数1.265~1.29510.011.295~1.32540.041.325~1.35570.071.355~1.385170.171.385~1.415240.241.415~1.445240.241.445~1.475150.151.475~1.50560.061.505~1.53510.011.535~1.56510.011001频数分布表(图表)数据频数分布规律由以上数据,我们可以发现位于中间数值1.36~1.44之间的数据多一些,其他范围的数据少一些,小于1.27或大于1.55的数据更少一些。这就是说测量数据中有明显的集中趋势。测量数据的这种既分散又集中的特性,就是其规律性。频数分布图在位于中间数值1.36~1.44之间的数据多一些,其他范围的数据少一些,小于1.27或大于1.55的数据更少一些。测量数据有明显的集中趋势。2.随机误差的正态分布定量分析的随机测量值或偶然误差的分布都符合正态分布规律,正态分布就是数学上的高斯分布,可用高斯方程描述:

X是随机测量值,y称为概率密度。高斯方程曲线(1)分析测定中的随机误差都遵从正态分布,从曲线中可以看到:偏差大小相等,符号相反的测定值出现的概率大致相等;偏差小的测定值比偏差大的测定值出现的概率多、偏差很大的测定值出现的概率极小;曲线呈两头小,中间大的势态。高斯方程曲线(2)曲线中的两个参数:μ(真值)和σ(标准差),当μ确定后,则:σ越小,落在μ附近的概率越大,测定值的精密度越好,曲线半宽度越小;相反,则数据离散性更大;高斯方程曲线(3)由于正态分布方程中µ和σ都是变量,计算不便,采用变量转换的办法将平均值的偏差(x-µ

)以σ为单位,令:则原高斯方程转换成只有一个变量µ的方程,即此时变为:µ=0和σ=1的正态分布曲线,称为标准正态分布曲线,以N(0,1)表示,其概率就容易求出。人们经过计算并制成了各种形式的正态分布概率表供使用者查阅。3.少量数据的统计处理分析化学中通过样本研究总体,由于测量次数有限,σ和μ无从知道。如何处理和评价有限次数测定结果的数据?而对多次测定的结果平均值又如何评价?在前面己讨论的基础上,讨论下面的问题:3.少量数据的统计处理分析化学中通过样本研究总体,由于测量次数有限,σ和μ无从知道。英国化学家Gosset提出用t分布解决了这一问题。

(1)t分布和t分布曲线统计量t,定义为:

称为平均值的标准偏差,

与样本容量n有关,即:图115页图平均值标准偏差与测量次数的关系3.少量数据的统计处理t分布曲线与横坐标t某区间所夹面积,与正态分布曲线一样,表示测量值落在该区间的概率。显然,若选定某一概率和一定的自由度f,则t值也就一定。表2-2是最常用的t值,表中的P称为置信度,表示随机测定值落在(μ±ts)区间内的概率,称为显著性水准,用a表示,即a=1-P。应用表时须加脚注,注明显著性水准和自由度,例如:t0.05,9是指置信度为95%(显著性水准为0.05),自由度为9时的t值。3.表2-2值(双边)f=n-1置信度P,显著性水准α

f=n-1置信度P,显著性水准αP=0.90α=0.10P=0.95α=0.05P=0.99α=0.01P=0.90α=0.10P=0.95α=0.05P=0.99α=0.0116.3112.1763.6671.902.363.5022.924.309.9281.862.313.3632.353.185.8491.832.263.2542.132.784.60101.812.233.1752.022.574.03201.722.092.8461.942.453.71∞1.641.962.58(2)平均值的置信区间用样本研究总体时,样本均值x并不等于总体均值μ,但可以肯定,只要消除了系统误差,在某一置信度下,一定存在着一个以样本均值x为中心,包括总体均值μ在内的某一范围,称为平均值的置信区间.由t的定义式得:

式中称为置信区间,其大小取决于测定的标准偏差测定次数和置信度的选择,置信区间愈小,平均值x愈接近总体平均值.3.少量数据的统计处理(3)可疑数据的取舍一组数据中,可能有个别数据于其他数据差异较大,称为可疑值.除确定是由于过失所造成的可疑值可以舍弃外,可疑值还是要保留,应用统计学的方法来判断,不能任凭主观意愿决定取舍.常用的可疑值取舍方法有:4法Q检验法格鲁布斯法4法若一总体服从正态分布,x-μ大于的测量值出现的概率很小,其误差往往不是随机误差所致,应舍去,当然,其条件是在校正了系统误差之后.又总体的标准偏差σ于总体平均偏差δ

两者的关系是

,用样本平均偏差代替δ,则,这样,便可将可疑值与之差是否大于作为可疑值取舍的根据.

应用法时,可先把可疑值处外,求出余下测量值的和,若可疑值与之差的绝对值大于,可疑值舍弃,否则保留.Q检验法此法是将数据从小到大排列,如设为可疑值,按下式求统计量Q,Q称为舍弃商.

上式的分母是极差,分子是可疑值与最临近值之差,把Q与值比较,若,可疑值应舍弃,否则保留,若是可疑值,Q从下式求出:

值与置信度和测量次数有关,如表2-3所示Q检验法(表2-3)

表2-3Q值表

测定次数,n345678910置信度90%()0.940.760.640.560.510.470.440.4196%()0.980.850.730.640.590.540.510.4899%()0.990.930.820.740.680.630.600.57格鲁布斯法该法用到正态分布中反映测量值集中与波动的两数和S,因而可靠性较高.应用此法时,在计算了和S后,将测量值从小到大排列,同Q检验法一样,应按测量次数多少,确定检验或,若两个都做检验,设x为可疑值,由下式求统计量T:

把T与表值比较,若,可疑值舍弃,否则保留,若为可疑值,T由下式求出:

值与测定次数和显著性水准有关,如表2-4格鲁布斯法(表2-4)

表2-4值表测定次数,n显著性水准α测定次数,n显著性水准α0.050.0250.010.050.0250.0131.151.151.1582.032.132.2241.461.481.4992.112.212.3251.671.711.75102.182.292.4161.821.891.94152.412.552.7171.942.022.10202.562.712.884.数据的评价---显著性检验分析工作者常常用标准方法与自己所用的分析方法进行对照试验,然后用统计学方法检验两种结果是否存在显著性差异.若存在显著性差异而又肯定测定过程中没有错误,可以认定自己所用的方法有不完善之处,即存在较大的系统误差.

因此结果的差异需进行统计检验或显著性检验.

显著性检验的一般步骤是:1,做一个假设,即假设不存在显著性差异,或所有样本来源于同一体.2,确定一个显著性水准,通常=0.1,0.05,0.01等值,分析工作中则多取0.05的显著性水准.3,统计量计算何作出判断.

下面介绍F检验法和t检验法.F检验法和t检验法(1)(1)F检验法该法用于检验两组数据的精密度,即标准偏差s存在显著性差异.F检验是将两组数据的s求得方差,把方差大的记为,方差小的记为,按下式求出统计量F:

把F值于表2-5的F表比较,若FF标值,则两组数据的精密度不存在显著性差异,若大小相反,则存在显著性差异.F检验法和t检验法(2)(2)t检验法t检验法用于判断样本平均值是否存在系统误差,以计算所得的t统计量和选定的置信度与表2-2的值比较,若存在显著性差异,则被检验方存在较大的系统误差.分析化学中的置信度常用95%.a,平均值与置信度的比较.b,两组数据平均值的比较.c,配对比较试验.5.误差的传递分析过程各个步骤产生大或小,或正或负的误差,它们分散于各个步骤的物理量测量值中,并最终集合于这些物理量计算的结果上,这就是误差的传递.

分析结果计算式多数是加减式和乘除式,另外是指数式.误差传递包括系统误差的传递和偶然误差的传递1,系统误差的传递

2,偶然误差的传递(1)系统误差的传递a.加减运算计算结果的绝对误差等于各个测量值的绝对误差的代数和或差,若算式是R=A+B-C,则:b,乘除运算在乘法运算中,计算结果的相对误差是各个测量值的相对误差的和,而除法则是它们的差.如计算式是R=A*B/C,则:

(2)偶然误差的传递a.加减运算计算结果的方差(标准偏差的平方)是各测量值方差的和,如R=A+B-C,则:b.乘除运算计算结果的想的偏差的平方是各测量值相对平均偏差平方的和,对于算式R=A*B/C,则c.指数运算对于,结果的相对偏差是测量值相对偏差的n倍,即6.提高分析结果准确度的方法要提高分析结果准确度,首先要发现和消除系统误差,然后尽量减少偶然误差.(1)消除与校正系统误差系统误差来源于确定因素,为发现并消除或校正系统误差,可选用下面几种方法

a.对照实验b.回收实验

c.空白实验d.仪器校正(2)减少偶然误差---------增加测定次数在消除或校正了系统误差前提下,减少偶然误差可以提高测定的准确度,这从平均值置信的区间可以说明.a.对照实验要检查一个分析方法是否存在误差可以这样做:(1)称取一定纯试剂进行测定,看测定结果与理论计算值是否相符.(2)对于实际的样品(比较复杂,除了被测定组分,还存有其他组分),则采用已知含量的标准试样(试样中的各组分含量已知)进行对照实验更合理.b.回收实验多用于确定低含量测定的方法或条件是否存在系统误差.实验方法是在被测试样中加入已知的被测组分,与原试样同时进行平行测定,按下式计算回收率:

一般来说,回收率在95%~105%之间认为不存在系统误差,即方法可靠.c.空白实验由于试剂,蒸馏水或实验器皿含有被测组分或干扰物质,致使测定时观测值增加(如滴定分析中多消耗标准溶液)导致系统误差时,常用空白实验进行校正.进行空白实验时一般用蒸馏水代替试样溶液,进行相同条件步骤的测定,所得结果称为空白值.在试样测定中抠除空白值,可消除此类系统误差.d.仪器校正在严格的测定中,仪器读数刻度,量器刻度,砝码等标出值与实际值的细小差异也会影响测定的准确度,应进行校正并求出校正值,在测定值中加入校正值,可消除此类系统误差.2-3工作曲线与回归分析法在许多仪器分析方法中,常利用浓度(或含量)与一可测物理量的线形关系来测定组分含量.测定时,先配制准确已知但浓度不同的一组溶液,在直角坐标上绘出工作曲线.应用时,用试样测定值在工作曲线上可直接查出组分含量.

由此,利用已知浓度与该物理量测量值,用回归分析法求得回归方程,就可从回归方程求得浓度.在分析测定中两个变量的一元线形回归方程用的最为普遍.a.一元线形回归方程

以X表示浓度,Y表示物理量测量值,若两变量存在线性相关关系,则一元线性回归方程为:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论