第七章分析化学中的数据处理

上传人：w*** IP属地：湖北上传时间：2024-03-12 格式：PPT 页数：56 大小：440.01KB 积分：30 举报 版权申诉

已阅读5页，还剩51页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第7章分析化学中的数据处理1.总体与样本总体：在统计学中，对于所考察的对象的全体，称为总体（或母体）。个体：组成总体的每个单元。样本（子样）：自总体中随机抽取的一组测量值（自总体中随机抽取的一部分个体）。样本容量：样品中所包含个体的数目，用n表示。

例如：分析延河水总硬度，依照取样规则，从延河中取来供分析用2000ml样品水，这2000ml样品水是供分析用的总体，如果从样品水中取出20个试样进行平行分析，得到20个分析结果，则这组分析结果就是延河样品水的一个随机样本，样本容量为20。2．随机变量来自同一总体的无限多个测量值都是随机出现的，叫随机变量。

设样本容量为n,则其平均值为：当测定次数无限增多时，所得平均值即为总体平均值μ：若没有系统误差，则总体平均值μ就是真值

此时，单次测量的平均偏差δ为7.1标准偏差

1总体标准偏差2样本标准偏差相对标准偏差标准偏差与平均偏差平均值的标准偏差7.1.1总体标准偏差

当测定次数为无限多次时，各测量值对总体平均值μ的偏离，用总体标准偏差σ表示：计算标准偏差时，对单次测量加以平方，这样做不仅能避免单次测量偏差相加时正负抵消，更重要的是大偏差能显著地反应出来，因而可以更好地说明数据的分散程度。7.1.2样本标准偏差

当测量值不多，总体平均值又不知道时，用样本的标准偏差s来衡量该组数据的分散程度。样本标准偏差的数学表达式为：式中（n-1）称为自由度，以f表示，是指独立偏差的个数。当测量次数非常多时，测量次数n与自由度（n-1）的区别就很小了，此时,同时7.1.3相对标准偏差单次测量结果的相对标准偏差(又称变异系数)为用标准偏差比用平均偏差更科学更准确.

例:两组数据

：0.11,-0.73,0.24,0.51,-0.14,0.00,0.30,-0.21

n=8d1=0.28Ｓ1=0.38

2x-：0.18，0.26，-0.25，-0.37,0.32，-0.28，0.31,-0.27

n=8d2=0.28Ｓ2=0.29

d1=d2,

Ｓ1>Ｓ27.1.4标准偏差与平均偏差用统计学方法可以证明，当测定次数非常多（例如大于20）时，标准偏差与平均偏差有下列关系：δ=0.979σ≈0.80σ，但应当指出：当测定次数较少时，与S之间的关系就可能与此式相差颇大了。7.15平均值的标准偏差样本平均值是非常重要的统计量，通常以它来估计总体平均值μ。一组样本的平均值的标准偏差与单次测量结果的标准偏差之间有下列关系：无限次测量为

由此可见:平均值的标准偏差与测定次数的平方根成反比。有限次测量为7.2随机误差的正态分布1频数分布（frequencydistribution）2正态分布（normaldistribution

）3随机误差的区间概率

7.2.1频数分布

测定某样品100次，因有偶然误差存在，故分析结果有高有低，有两头小、中间大的变化趋势，即在平均值附近的数据出现机会最多。

7.2.2正态分布：测量数据一般符合正态分布规律，即高斯分布，正态分布曲线数学表达式为：

y：概率密度；x：测量值μ：总体平均值，即无限次测定数据的平均值，无系统误差时即为真值；反映测量值分布的集中趋势。σ：标准偏差，反映测量值分布的分散程度；x-μ：随机误差正态分布曲线规律：*x=μ时，y值最大，体现了测量值的集中趋势。大多数测量值集中在算术平均值的附近，算术平均值是最可信赖值，能很好反映测量值的集中趋势。μ反映测量值分布集中趋势。*曲线以x=μ这一直线为其对称轴，说明正误差和负误差出现的概率相等。*当x趋于－∞或＋∞时，曲线以ｘ轴为渐近线。即小误差出现概率大，大误差出现概率小，出现很大误差概率极小，趋于零。*σ越大，测量值落在μ附近的概率越小。即精密度越差时，测量值的分布就越分散，正态分布曲线也就越平坦。反之，σ越小，测量值的分散程度就越小，正态分布曲线也就越尖锐。σ反映测量值分布分散程度。标准正态分布曲线横坐标改为u，纵坐标为概率密度，此时曲线的形状与σ大小无关，不同σ的曲线合为一条。

X-μ

u=-------------

7.2.3随机误差的区间概率正态分布曲线与横坐标-∞到+∞之间所夹的面积，代表所有数据出现概率的总和，其值应为1，即概率P为：

随机误差出现的区间测量值出现的区间概率(以σ为单位)u=±1x=μ±1σ68.3%u=±1.96x=μ±1.96σ95.0%u=±2x=μ±2σ95.5%u=±2.58x=μ±2.58σ99.0%u=±3x=μ±3σ99.7%例1已知某试样中山质量分数的标准值为1.75%，σ=0.10%，又已知测量时没有系统误差，求分析结果落在(1.75±0.15)%范围内的概率。解：例2同上例，求分析结果大于2.00%的概率。解：属于单边检验问题。

阴影部分的概率为0.4938。整个正态分布曲线右侧的概率为1/2，即为0.5000，故阴影部分以外的概率为0.5000－0.4938=0.62%，即分析结果大于2.00%的概率为0.62%。7.3少量数据的统计处理1t分布曲线2平均值的置信区间3显著性检验4异常值的取舍

7.3.1t分布曲线正态分布是无限次测量数据的分布规律，而对有限次测量数据则用t分布曲线处理。用s代替σ，纵坐标仍为概率密度，但横坐标则为统计量t。t定义为：→自由度f—degreeoffreedom

（

f=n-1）

t分布曲线与正态分布曲线相似，只是t分布曲线随自由度f而改变。当f趋近∞时，t分布就趋近正态分布。→置信度P—confidencedegree

在某一t值时，测定值落在(μ+ts)范围内的概率。→置信水平α—confidencelevel在某一t值时，测定值落在(μ+ts)范围以外的概率(l－P)→ta，f

：t值与置信度P及自由度f关系。

例：t0·05，10表示置信度为95%，自由度为10时的t值。

t0·01，5表示置信度为99%，自由度为5时的t值。7.3.2平均值的置信区间（confidenceinterval）→当n趋近∞时：单次测量结果以样本平均值来估计总体平均值可能存在的区间：→对于少量测量数据，即当n有限时，必须根据t分布进行统计处理：它表示在一定置信度下，以平均值为中心，包括总体平均值的范围。这就叫平均值的置信区间。

例对其未知试样中Cl-的质量分数进行测定，4次结果为47.64%，47.69%，47.52%，47.55%。计算置信度为90%，95%和99%时，总体平均值μ的置信区间。解：7.3.3显著性检验—Significancetest1.F检验法—Ftest

比较两组数据的方差s22.t检验法—ttest*平均值与标准值的比较*两组平均值的比较

1.F检验法

→比较两组数据的方差s2，以确定它们的精密度是否有显著性差异的方法。统计量F定义为两组数据的方差的比值，分子为大的方差，分母为小的方差。

→两组数据的精密度相差不大，则F值趋近于1；若两者之间存在显著性差异，F值就较大。→在一定的P(置信度95%)及f时，F计算>F表，存在显著性差异，否则，不存在显著性差异。例1在吸光光度分析中，用一台旧仪器测定溶液的吸光度6次，得标准偏差s1=0.055;再用一台性能稍好的新仪器测定4次，得标准偏差s2=0.022。试问新仪器的精密度是否显著地优于旧仪器的精密度?解已知新仪器的性能较好，它的精密度不会比旧仪器的差，因此，这是属于单边检验问题。已知n1=6，s1=0.055n2=4，s2=0.022

查表，f大=6-1=5，f小=4-1=3，F表=9·01，F<F表，故两种仪器的精密度之间不存在显著性差异，即不能做出新仪器显著地优于旧仪器的结论。做出这种判断的可靠性达95%。例2采用两种不同的方法分析某种试样，用第一种方法分析11次，得标准偏差s1=0.21%；用第二种方法分析9次，得标准偏差s2=0.60%。试判断两种分析方法的精密度之间是否有显著性差异?解不论是第一种方法的精密度显著地优于或劣于第二种方法的精密度，都认为它们之间有显著性差异，因此，这是属于双边检验问题。已知n1=11，s1=0·21%n2=9，s2=0·60%

查表，f大=9－1=8，f小=11－1=10，F表=3.07，F>F表，故认为两种方法的精密度之间存在显著性差异。作出此种判断的置信度为90%。

2.t检验法

→平均值与标准值的比较为了检查分析数据是否存在较大的系统误差，可对标准试样进行若干次分析，再利用t检验法比较分析结果的平均值与标准试样的标准值之间是否存在显著性差异。进行t检验时，首先按下式计算出t值

若t计算>tα,f，存在显著性差异，否则不存在显著性差异。通常以95%的置信度为检验标准，即显著性水准为5%。例采用某种新方法测定基准明矾中铝的质量分数，得到下列9个分析结果：10.74%，10.77%，10.77%，10.77%，10.81%，10.82%，10.73%，10.86%，10.81%。已知明矾中铝含量的标准值(以理论值代)为10.77%。试问采用该新方法后，是否引起系统误差(置信度95%)?

解n=9,f=9－1=8

查表,P=0.95,f=8时，t0.05，8=2.31。t<t0.05，8，故x与μ之间不存在显著性差异，即采用新方法后，没有引起明显的系统误差。→两组平均值的比较设两组分析数据为:n1s1x1n2s2x2

在一定置信度时，查出表值(总自由度f=n1+n2－2)，若t>t表两组平均值存在显著性差异。t<t表，则不存在显著性差异。例用两种方法测定合金中铝的质量分数，所得结果如下:

第一法1.26%1.25%1.22%

第二法1.35%1.31%1.33%

试问两种方法之间是否有显著性差异(置信度90%)?解

n1=3，x1=1.24%s1=0.021%

n2=4，x2=1.33%s2=0.017%f大=2f小=3F表=9·55F<F表→说明两组数据的标准偏差没有显著性差异.→当P=0.90，f=n1+n2－2=5时，t0·10，5=2.02。t>t0·10，5，故两种分析方法之间存在显著性差异.

7.3.4异常值（cutlier）的取舍在实验中得到一组数据，个别数据离群较远，这一数据称为异常值、可疑值或极端值。若是过失造成的，则这一数据必须舍去。否则异常值不能随意取舍，特别是当测量数据较少时。

处理方法有4d法、格鲁布斯(Grubbs)法和Q检验法。

1.4d法根据正态分布规律，偏差超过3σ的个别测定值的概率小于0.3%，故这一测量值通常可以舍去。而δ=0.80σ,3σ≈4δ,即偏差超过4δ的个别测定值可以舍去。用4d法判断异常值的取舍时，首先求出除异常值外的其余数据的平均值和平均偏差d，然后将异常值与平均值进行比较，如绝对差值大于4d，则将可疑值舍去，否则保留。当4d法与其他检验法矛盾时，以其他法则为准。例测定某药物中钴的含量如(μg/g),得结果如下：1.25，1.27，1.31，1.40。试问1.40这个数据是否应保留?解首先不计异常值1.40，求得其余数据的平均值x和平均偏差d为异常值与平均值的差的绝对值为

|1.40一1.28|=0.12＞4d(0.092)故1.40这一数据应舍去。

2.格鲁布斯(Grubbs)法有一组数据，从小到大排列为:

x1,x2,……,xn-1,xn

其中x1或xn可能是异常值。用格鲁布斯法判断时，首先计算出该组数据的平均值及标准偏差，再根据统计量T进行判断。若T>Ta,n，则异常值应舍去，否则应保留例前一例中的实验数据，用格鲁布斯法判断时，1.40这个数据应保留否(置信度95%)?

解平均值x=1.31，s=0.066

查表T0·05，4=1.46，T<T0·05，4，故1.40这个数据应该保留。

格鲁布斯法优点，引人了正态分布中的两个最重要的样本参数x及s，故方法的准确性较好。缺点是需要计算x和s,手续稍麻烦。

3.Q检验法设一组数据，从小到大排列为:

x1,x2,……,xn-1,xn

设x1、xn为异常值，则统计量Q为：

式中分子为异常值与其相邻的一个数值的差值，分母为整组数据的极差。Q值越大，说明xn离群越远。Q称为“舍弃商”。当Q计算>Q表时，异常值应舍去，否则应予保留。

7.4误差的传递分析结果通常是经过一系列测量步骤之后获得的，其中每一步骤的测量误差都会反映到分析结果中去。设分析结果Y由测量值A、B、C计算获得，测量值的系统误差分别为A、B、C，标准偏差分别为SA、SB、SC。ki为常数。

7.4.1系统误差的传递1.加减法2.乘除法

3.指数关系4.对数关系

7.4.2随机误差的传递

1.加减法

2.乘除法3.指数关系

4.对数关系

7.4.3极值误差

7.5回归分析法7.5.1一元线性回归方程(linearregression)式中x，y分别为x和y的平均值，a为直线的截矩，b为直线的斜率，它们的值确定之后，一元线性回归方程及回归直线就定了。

7.5.2相关系数-correlationcoefficient

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第七章分析化学中的数据处理

文档简介

温馨提示

最新文档

评论

第七章分析化学中的数据处理

文档简介

温馨提示

最新文档

评论

相关文档