数据处理及统计分析简介

上传人：c*** IP属地：湖北上传时间：2024-03-01 格式：PPT 页数：166 大小：4.54MB 积分：30 举报 版权申诉

已阅读5页，还剩161页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据处理及统计分析简介张良安中国医学科学院放射医学研究所

1、观测值的数据处理方法

2、不同实验组间独立性检验

3、线性回归分析4、常用文字编辑规范1、观测值的数据处理方法测量是人类认识和改造世界的一种重要手段。在人们埘客观事物的认识过程中。需要进行定性、定量的分析。定量分折就需要进行测量，测量是通过实验方法对客观事物取得定量数据的过程，通过大量的观察和测量，人们逐步准确地认识各种客观事物，建立起各种定理和定律。例如，牛顿的三大定律，没有大量测量验证，就不可能得出这样的科学结论；又如，在一个新的放免试剂研究中，没有大量实验观测测验证，就不可能得到好的放免试剂。门捷列夫在论述测量的意义时说过一句名言“没有测量，就没有科学”。

早期的误差理论是以统计学为基础以静态测量时误差服从正态分布为主的随机误差估计和数据处理的理论为特征成为经典误差理论。多年来，误差和误差分析已成为评价测量结果质量的重要方法，但由于真值是未知的，从而大多数测量结果的误差也是未知的，因此用误差来定量表示测量结果的质量存在许多争论。

为能统一地评价测量结果的质量，1963年原美国标准局（NBS）的数理统计专家埃森哈特在研究“仪器校准系统的精密度和准确度估计”时就提出了采用测量不确定度的概念，并受到国际上的普遍关注。20世纪70年代NBS在研究和推广测量保证方案（MAP）时对测量不确定度的定量表示又有了新的发展。“不确定度”一词源于英语“uncertainty”，原意为不确定，不稳定，疑惑等，是一定性表示的名词。不确定度概念的提出和应用受到了国际社会的普遍重视。鉴于国际间表示不确定度的不一致。世界计量界最高权力机构国际计量委员会（CIPM）于1978年要求国际计量局（BIPM）向各国标准计量研究院征询意见，并提出建议。1993年．由国际标准化组织(ISO)等7个国际组织联名共同发表了《测量不确定度表示指南》（简称《指南》），而后ISO的各成员国广泛执行和应用了该《指南》，依据现代误差理论-测量不确定度来评价测量结果的质量。①GB/T27025-2008，检测与校准实验室能力的通用要求;②CNAL/AR11:2003,测量不确定度政策;③CNAL/AG06:2003,测量不确定度政策实施指南;④JJF1059,测量不确定度评定与表示。主要依据1.1有效数及其修约实验中我们得到的测量数据都是含有误差的数值，对这些数值不能随意取舍，应反映出测量值的准确度，因此记录测量数据、计算及表示测量结果时，对所记数据的位数有严格的要求，应能大致反映出测量误差或不确定度的大小。通常称有实际意义的数据为有效数字。

例如，用300mm长的毫米分度钢直尺测量某长度，正确的读法除了确切地读出有刻线的位数之外，还应估读一位，即读到1/l0mm。如测得某长度为34.7mm，这表明34是根据直尺刻度读出的，是可靠的准确数字，称之为“可靠位”。而最后的7是估读数字，因而是可疑的、有误差的，但它又是有意义的，不能舍去，我们也称之为“可疑位”。所以，该长度的测量结果34.7mm为三位有效数字。若记为34.70mm则是错误的，数字“0”这一位是无法观测的，不符合测量仪器实际的准确度。整个数字=有效数位(字)+无效数位(字)有效数位=可靠数位+可疑数位无效数位=取舍数位+无用数位

1.39423可靠位可疑数位取舍位有效数字1.394修约值无用数位四位有效的情况：2024/3/1A.Prof.Dr.W.N.Pangpangwn@13.有效数字的特点1)位数与小数点的位置无关23.56cm=0.2356m=0.0002356km2）注意0的位置0.0003576，3.005，3.000

都是四位14实验数据的有效位数确定

有效位数的确定，是为了保证测量结果的准确度基本不会因位数取舍而受影响，同时避免因读取或保留一些无意义的多余位数而做无用功。有效位数能在一定程度上反映量值的不确定度。

取一位有效（例如，3），不确定度>10%取二位有效（例如，3.4），不确定度>1%取三位有效（例如，3.40），不确定度>0.1%取四位有效（例如，3.405），不确定度>0.01%…测量结果的特征量

任何的测量结果，应当有两个特征量，一是测量均值，二是均值的可信程度（称为不确定度）。只有两个量都计算出来，并将他们给在报告，才能算是一个完善的测量结果报告。缺了任何一个特征量的结果，都不是完善的结果。2024/3/1A.Prof.Dr.W.N.Pangpangwn@16运算过程中的有效位数

在当今计算机时代，对参与运算的数和中间运算结果都可不作修约，也可比传统方法估计的位数适当多取几位，只在最后结果表示前再作修约，这样可能更有利于实验效率的提高。2024/3/1171）一般来说，均值的最后一位是可疑位，应当与不确定度的末位对其。因此，测量不确定度的有效数字最多不超过2位。当不确定度的首位>＝3时，一般取1位；首位为1、2时，一般取2位。例如，计算的不确定度为3.245则只能取为3；若计算的不确定度是2.074，则可以取为2.1。2）被测量值有效位数的确定

被测量值的可疑位要与不确定度的末位对齐。测量结果最终表达式中的有效位数2.3有效数字与不确定度关系均值有效数位与不确定度有效数位关系均值有效数字不确定度有效数字合理不合理末位高于可疑位(有效数位应少取一位)末位低于可疑位(有效数位应多取一位)24.60.33.00.034.2E-34E-44E-34E-51.23E52E52E42E6

对不确定度超过100%的，可疑位可以是两位，但应做适当的说明。例如，测量均值为10，不确定度为35.3，这是的相对不确定度就为350%，若仅取一位，此时的不确定度为3E1，其相对不确定度就变为300%，这与实际结果不同，因此不确定度应当取2位。

通常情况下，若已经计算出了均值和不确定度，首先取不确定度的有效位，计算出相对不确定度，这样就可推出均值的有效位数例1：如一个测量值的均值为23.13,相对不确定度为10%,写出均值的有效数①求出不确定度的绝对值23.13×10%=2.313②按不确定度首位为2取两位的原则:

不确定度取为:2.3③按有效数位的可疑位首位应与不确定度末位对齐的原则确定均值有效数字:23.12

2.3

有效数字中，十位是可靠，个位和十分位是可疑位

23.1例2，测量值1.39423,测量值的不确定度为0.002，写出其有效数位。

按有效数位的可疑位应与误差首位对齐的原则确定有效数字:

1.39423

0.002

有效数字中，个位，十分位和百分位可靠；

千分位可疑1.394测量均值的取舍原则测量均值的有效数字，是根据测量均值的最后一位和不确定度的末位对齐的原则确定的。多余的数字，按“四舍六入”规则修约。例如：由测量的长度和直径值及影响测量结果的因素，计算出的圆柱体体积为V=5836.240lmm3，不确定度U=4.2mm3。将V的均值末位与不确定度末位对齐，按“四舍六入”修约后，可得V=5836.2mm3。2.4数字修约规则（三位有效数为例）规则修约前修约后四舍6.04416.04六入6.04616.05五后非零前进一6.04516.05五后为零看前方五前为奇数要进一6.03506.04五前为偶数要舍去6.04506.04“0”视数偶数6.00506.00必须一次修约完工6.054566.05

在处理实验数据的时候，我们常常会遇到个别数据偏离预期或大量统计数据结果的情况，如果我们把这些数据和正常数据放在一起进行统计，可能会影响实验结果的正确性，如果把这些数据简单地剔除，又可能忽略了重要的实验信息。这里重要的问题是如何判断异常数据，然后将其剔除。

1.2、

异常数据取舍

目前人们对异常数据的判别与剔除主要采用物理判别法和统计判别法两种方法。物理判别法：就是根据人们对客观事物已有的认识，判别由于仪器工作状态不正常、明显的外界干扰和人为误差等原因造成实测数据偏离正常结果，在实验过程中随时判断，随时剔除。统计判别法：是给定一个置信概率，并确定一个置信限，凡超过此限的误差，就认为它不属于随机误差范围，将其视为异常数据剔除。对剩下的n-1个继续上述检验，当直到无坏值为止。检测流程拉依达准则（要求n>9)对某物体进行15次测量，测值为：11.4211.4411.4011.4311.4211.4311.4011.3911.3011.4311.4211.4111.3911.3911.40检测是否有坏值。例计算:所以11.30为坏值，应剔除。余下的数据继续检验：在最小和最大的两个数中从与均值差最大的那个数开始判断3σ=0.0543σ=3×0.034=0.102格拉布斯（Ｇｒｕｂｂｓ）准则

采用格拉布斯方法判定异常数据的过程如下：1.选定危险率αα是一个较小的百分数，例如1%，2.5%，5%，它是采用格拉布斯方法判定异常数据出现误判的几率。2.计算和判断过程

T0（n,α)

称为格拉布斯系数，其值与测量次数n和误判几率α有关。T0(n,α)值表

（1）、测量误差的概念测量误差就是测量结果(测量值)与被测量真值的差。可用下式表示：误差：测量值一真值。例如，在电压测量中，真实电压5V，测量的电压为5.3V，则误差：5.3V-5V=+0.3V误差在测量过程中是难以避免的。因为被测量的真值虽然是客观存在的，但却又难以获得，所以实际上人们允许有一定误差的存在。1.3、测量准确度、精度和误差国家标准(GB/T6592—1987)中定义真值为“表征某量在所处的条件下完善地确定的量值”。可见，“真值”只是个理想的概念，按其本性是不可确定的，因此测量误差也是一个理想概念。

在实际测量中，常用“约定真值(某量的多次测量结果来确定)”代替真值，从而得到的误差往往只是个近似值；而当强调一定是与真值之差时，则往往采用“真误差”一词。需要说明的是，按照传统误差理论的定义，误差的符号可正可负。测量数据处理时观测方程可写为：测量结果=测得值±测量误差。而在JJFlO59—1999中，“误差”的定义是测量结果减去被观测量的真值，所以在这里误差特指真误差，并且其符号是唯一的。在计量工作中，仅限于取得测量值是无意义的，必须同时对测量值可能含有的误差的大小或范围做出估计，这样的测量结果才完整而有意义。1993年《测量不确定度表示指南》GuidetotheExpressionofUncertaintyinMeasurement（以下简称GUM）GUM二版(修改,1995)测量不确定度评定与表示

JJF1059-1999测量不确定度政策(CNAL/AR11:2003)测量不确定度政策实施指南(CNAL/AG06:2003)（3）不确定度评定方法测量不确定度的概念

测量不确定度，从词义上理解，意味着对测量结果有效性的可疑程度或不肯定程度。从传统上理解，它是被测量真值所处范围的估计值。但是，真值只是个理想的概念，实际往往难以测量，而可以具体操作的则是变化的测量结果。因此，现代的测量不确定度被定义为“不确定度是与测量结果相联系的一种参数，用于表征被测量之值可能的分散性程度。”这种测量不确定度的定义表明，一个完整的测量结果应包括被测量值的估计与分散性两部分。A类不确定度

通过对观测列的统计分析方法，对标准不确定度的进行的评定，所得到的相应标准不确定度称为A类不确定度分量，用符号uA表示。

这里的统计分析方法，是指根据随机取出的测量样本中所获得的信息，来推断关于总体性质的方法。例如：在重复性条件或复现性条件下的任何一个测量结果，可以看作是无限多次测量结果（总体）的一个样本，通过有限次数的测量结果（有限的随机样本）所获得的信息（诸如平均值

、实验标准差s），来推断总体的平均值（即总体均值µ或分布的期望值）以及总体标准[偏]差σ，就是所谓的统计分析方法之一。A类标准不确定度用实验标准[偏]差表征。B类不确定度用不同于对观测列进行统计分析的方法来评定标准不确定度，称为不确定度的B类评定，有时也称B类不确定度评定。

这是用不同于对测量样本统计分析的其他方法，进行的标准不确定度的评定，所得到的相应的标准不确定度称为B类标准不确定度分量，用符号uB表示。它用根据经验或资料及假设的概率分布估计的标准[偏]差表征，也就是说其原始数据并非来自观测列的数据处理，而是基于实验或其他信息来估计，含有主观鉴别的成分。

A类和B类标准不确定度仅是估算方法不同，不存在本质差异，它们都是基于统计规律的概率分布，都可用标准[偏]差来定量表达，合成时同等对待。只不过A类是通过一组与观测得到的频率分布近似的概率密度函数求得。而B类是由基于事件发生的信任度（主观概率或称为经验概率）的假定概率密度函数求得。对某一项不确定度分量究竟用A类方法评定，还是用B类方法评定，应由测量人员根据具体情况选择。特别应当指出：A类、B类与随机、系统在性质上并无对应关系，为避免混淆，不应再使用随机不确定度和系统不确定度。逐项评定不确定度

单次测量结果的实验标准差为：也称为单次测量的不确定度用于不确定度B类评定的信息来源一般有：

①以前的观测数据；

②对有关技术资料和测量仪器特性的了解和经验；

③生产部门提供的技术说明文件；

④校准证书、检定证书或其他文件提供的数据、准确度的等别或级别，包括目前仍在使用的极限误差、最大允许误差等；

⑤手册或某些资料给出的参考数据及其不确定度；

⑥规定实验方法的国家标准或类似技术文件中给出的重复性限r或复现性限R。B类评定的通用计算公式如下:为了方便，在个人和场所剂量检测时，其B类标准不确定度的分布可以假设为直角（矩行）概率密度分布，由某一原因（i）引起的B类标准不确定度可用以下方法计算。

a通常称为允许误差限的绝对值，是某一影响参数时相应变异值的一半。几种常见情况下a的确定方法：

a)仪器示值误差，已知的情况：

表盘式仪表取其最小分度值的一半为仪器示值误差；数字式仪表，误差示值取其末位数最小分度的一个单位。

b)能测量或已知B类来源的变异范围：例如，TLD元件的能量响应为±10%，a=均值×10%。c)分布能预计时，可将其方差的平方根（标准差）付给a。在uB计算中a的信息来源有：☞以前的测量数据和文献报道的测量数据;☞影响因素的实验研究结果;☞经验和一般知识;☞技术说明书;☞校准证书，检定证书测试报告及其他材料;☞手册参考资。等合成标准不确定度的计算

A类和B类不确定度评定结束后，应将这两类不不确定度合成起来，其具体方法是：

当被测量只有一个影响因素时，则有：

当被测量有N个影响因素时，则有：

扩展不确定度U的计算合成不确定度仍有标准偏差的特性。此外，若它是服从高斯（或正太）几率密度分布，这样，均值一个标准差的每一边相应的置信限大约是67%，因此，要得到更高置信限水平的不确定度，就必须将合成标准不确定度乘上一个适当的因子k，得到的不确定度通常称为扩展不确定度（也称为总不确定度），因子k称为包含因子，其典型值为2或3，分别相应于95%或99%置信限水平的不确定度。

如果合成不确定中A类评定的分量占的比重较大如，而且作A类评定时重复测量次数n较少，则包含因子k必须用查t分布表获得。测量不确定度是合理评定获得的出具的扩展不确定度的有效数字，一般取2位。

测量结果的报告

除非采用国际上广泛公认的检测方法，可以按该方法规定的方式表示检测结果及其不确定度外。对一般的检测和校准项目，测量结果报告中应有测量均值和不确定度这两个测量属性的特征量。

这里的不确定度指的是扩展不确定度，它是由合成标准不确定度uc(y)乘以包含因子k，而得到的。

在有些检测和校准领域，扩展不确定度也可以相对形式Urel

报告。直接测量量不确定度评定的步骤

①

首先检查有效数的表述，并用统计方法剔除实验数据中的坏值，建议用格拉布斯（Grubbs）方法。

②计算A类不确定度:

③计算B类不确定度④计算合成标准不确定度⑤计算扩展不确定度直接测量量数据处理举例例1当归挥发油对阿魏酸透皮渗透的影响表1均值和标准差计算

研究对象渗透系数P×10-3(cm/h)P1P2P3P4P±SD0%当归挥发油20.022.623.522.822.2±1.551%当归挥发油62.461.655.958.059.5±3.072%当归挥发油175178185201185±11.53%当归挥发油10211310598.2105±6.36表1均值及标准差研究对象渗透系数P×10-3(cm/h)P1P2P3P4SDuA0%当归挥发油20.022.623.522.822.21.550.781%当归挥发油62.461.655.958.059.53.071.52%当归挥发油17517818520118511.55.83%当归挥发油10211310598.21056.363.2表2A类不确定度计算B类不确定度主要来源渗透系数的生物个体差异:≤30%测量方法和校正引如的:≤10%实验人员技术差异:≤5%环境因素的变化:≤5%实验条件:≤5%计算0%当归挥发油的a

(均值为22.2）生物个体差异:≤30%a1

=22.2×30%=6.66测量方法和校正引如的:≤10%a2

=22.2×10%=2.22实验人员技术差异:≤5%a3=22.2×5%=1.11环境因素的变化:≤5%a4=22.2×5%=1.11实验条件:≤5%a5=22.2×5%=1.11求出总的uB计算合成不确定度:计算95%置信水平(κ=2)的扩展不确定度:计算1%当归挥发油的a(均值为:59.5)

生物个体差异:≤30%a1

=59.5×30%=17.9

测量方法和校正引如的:≤10%a2=59.5×10%=5.97

实验人员技术差异:≤5%a3

=59.5×5%=2.98

环境因素的变化:≤5%a4

=59.5×5%=2.98

实验条件:≤5%a5=59.5×5%=2.98求出总的uB：计算合成不确定度:

计算95%可信水平(κ=2)的扩展不确定度:计算2%当归挥发油的a(均值为:185)

生物个体差异:≤30%a1=185×30%=55.5

测量方法和校正引如的:≤10%a2=185×10%=18.5

实验人员技术差异:≤5%a3=185×5%=9.2

环境因素的变化:≤5%a4=185×5%=9.2

实验条件:≤5%a5=185×5%=9.2将上面的uB合成，求出总的uB

计算合成不确定度:

计算95%可信水平(κ=2)的扩展不确定度:

计算3%当归挥发油的a(均值为:105)

生物个体差异:≤30%a1

=105×30%=31.5

测量方法和校正引如的:≤10%a2

=105×10%=10.5

实验人员技术差异:≤5%a3=105×5%=5.17

环境因素的变化:≤5%a4=105×5%=5.17

实验条件:≤5%a5=105×5%=5.17将上面的uB合成，求出总的uB

计算合成不确定度:

计算95%可信水平(κ=2)的扩展不确定度:总结本次实验的计算结果，列在下表中。研究对象渗透系数P×10-3(cm/h)

均值uAuBUUrel(%)均值的范围0%当归挥发油22.20.784.108.338（13.9,30.5）或22.2±8.31%当归挥发油59.51.5411.32339（36.5,78.9）或

59.5±232%当归挥发油1845.7535.07139（114,256）或

185±713%当归挥发油1053.1519.94038（65,145）或

105±40

从以上的结果可以看出，2%当归挥发油组的渗透系数增加最明显。由于四组实验的可信度基本一致，所以进行效果比较的结论也应当是可信的。2、不同实验组间独立性检验

(读作卡方)检验

2检验

2检验主要有三种用途:一个样本方差的同质性检验、适合性检验和独立性检验。后两者都适用于离散型资料的假设检验，其基本原理是通过

2值的大小来检验实际观测值与理论值之间的偏离程度。适合性检验是比较观测值与理论值是否符合的假设检验，而独立性性检验是判断两个或两个以上因素之间是否具有关联关系的假设检验。1)、

2统计量

2统计量的意义

2是度量实际观察次数与理论次数偏离程度的一个统计量，

2越小，表明实际观察次数与理论次数越接近；

2=0，表示两者完全吻合；

2越大，表示两者相差越大。★现结合一实例说明

2(读作卡方)

统计量的意义。根据遗传学理论，动物的性别比例是1:1。统计某羊场一年所产的876只羔羊中，有公羔428只，母羔448只。按1:1的性别比例计算，公、母羔均应为438只。以O表示实际观察次数，E表示理论次数，可将上述情况列成表1。表1羔羊性别实际观察次数与理论次数性别实际观察次数O理论次数EO-E（O-E）2/E公428（O1）438（E1）-100.2283母448（O2）438（E2）100.2283合计87687600.4566

从表1看到，实际观察次数与理论次数存在一定的差异，这里公、母各相差10只。这个差异是属于抽样误差(把对该羊场一年所生羔羊的性别统计当作是一次抽样调查)、还是羔羊性别比例发生了实质性的变化?要回答这个问题，首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度；然后判断这一偏离程度是否属于抽样误差，即进行显著性检验。为了度量实际观察次数与理论次数偏离的程度，最简单的办法是求出实际观察次数与理论次数的差数。为了避免正、负抵消，可将两个差数O1-E1、O2-E2平方后再相加，即计算∑(O-E)2，其值越大，实际观察次数与理论次数相差亦越大，反之则越小。但利用∑(O-E)2表示实际观察次数与理论次数的偏离程度尚有不足。未考虑观察次数（与理论次数）的大小对偏离程度的影响。为了弥补这一不足，可先将各差数平方除以相应的理论次数后再相加（转化为相对比值）并记之为，即:（三）、

2的连续性矫正

由公式计算的

2只是近似地服从连续型随机变量

2分布。在对次数资料进行

2检验利用连续型随机变量

2分布计算概率时，常常偏低，特别是当自由度为1时偏差较大。Yates(1934)提出了一个矫正公式，矫正后的

2值记为

当自由度大于1时，

分布与连续型随机变量分布相近似，这时，可不作连续性矫正，但要求各组内的理论次数不小于5。若某组的理论次数小于5，则应把它与其相邻的一组或几组合并，直到理论次数大于5为止。2)、

独立性检验A）、独立性检验的意义

根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验。

独立性检验实际上是基于次数资料对子因子间相关性的研究。独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的不同而构成2×2、2×c、r×c列联表（r为行因子的属性类别数，c为列因子的属性类别数）。独立性检验在计算理论次数时没有现成的理论或学说可资利用，理论次数是在两因子相互独立的假设下进行计算。

在r×c列联表的独立性检验中，共有rc个理论次数，但受到以下条件的约束：①、rc个理论次数的总和等于rc个实际次数的总和；②、r个横行中的每一个横行理论次数总和等于该行实际次数的总和。而独立的行约束条件只有r-1个；③、类似地，独立的列约束条件有c-1个。因而在进行独立性检验时，自由度为rc-1-(r-1)-(c-1)=(r-1)(c-1)，即等于（横行属性类别数-1）×（直列属性类别数-1）。B）、独立性检验的方法（1）2×2列联表的独立性检验

2×2列联表的一般形式如表2所示，其自由度df=(

C-1)(r-1)=(2-1)(2-1)=1，在进行

2检验时，需作连续性矫正，应计算值

。表22×2列联表的一般形式12

行总合1O11（E11）O12（E12）R1=O11+O122O21（E21）O22（E22）R2=O21+O22列总合T.C1=O11+O21C2=O12+O22T=O11+O12+O21+O22其中Oij为实际观察次数，Eij为理论次数。【例】某猪场用80头猪检验某种疫苗是否有预防效果。结果是注射疫苗的44头中有12头发病，32头未发病；未注射的36头中有22头发病，14头未发病，问该疫苗是否有预防效果？①、先将资料整理成列联表（见表3）表32×2列联表发病未发病行总和发病率注射12(18.7)32(25.3)R1：4427.3%未注射22(15.3)14(20.7)R2：3661.1%列总和C1：34C2：46T：80②、提出无效假设与备择假设H0：发病与否和注射疫苗无关，即二因子相互独立。HA：发病与否和注射疫苗有关，即二因子彼此相关。③、计算理论次数根据二因子相互独立的假设，由样本数据计算出各个理论次数。二因子相互独立，因此注射疫苗与否不影响发病率。也就是说注射组与未注射组的理论发病率应当相同，均应等于总发病率34/80=0.425。依此计算出各个理论次数如下：注射组的理论发病数：E11=44×34/80=18.7注射组的理论未发病数：E12=44×46/80=25.3，未注射组的理论发病数：E21=36×34/80=15.3未注射组的理论未发病数：E22=36×46/80=20.7。★表3括号内的数据为相应的理论次数。④、计算

2c值将表5中的实际次数、理论次数代入公式得：+

⑤、由自由度df=1查临界

2值，作出统计推断因为

20.01（1）=6.63，而

2c=7.944>

20.01（1），P<0.01，否定H0，接受HA，表明发病率与是否注射疫苗极显著相关，这里表现为注射组发病率极显著低于未注射组，说明该疫苗是有预防效果的。在进行2

2列联表独立性检验时，还可利用下述简化公式计算：

在简化公式中，不需要先计算理论次数，直接利用实际观察次数Oij，行、列总和Ri、Cj和总总和T进行计算，比利用公式计算简便，且舍入误差小。（2）2×c列联表的独立性检验

2×c列联表是行因子的属性类别数为2，列因子的属性类别数为c（c

3）的列联表。其自由度df=(2-1)(c-1)，因为c

3，所以自由度大于2，在进行

2检验时，不需作连续性矫正。2×c表的一般形式见表4。表42×c联列表一般形式12…c行总和1O11O12…O1cR12O21O22…O2cR2列总和

C1C2…总总和T其中Oij（i=1，2；j=1，2，…，c）为实际观察次数。【例】在甲、乙两地进行水牛体型调查，将体型按优、良、中、劣四个等级分类，其结果见表5，问两地水牛体型构成比是否相同。表5两地水牛体型分类统计优良中劣行总和Ti.甲10（13.3）10(10.0)60(53.3)10(13.4)90乙10(6.7)5(5.0)20(26.7)10(6.6)45列总和T.j20158020135这是一个2×4列联表独立性检验的问题。

检验步骤如下：①.提出无效假设与备择假设

H0：水牛体型构成比与地区无关，即两地水牛体型构成比相同。

HA：水牛体型构成比与地区有关，即两地水牛体型构成比不同。②.计算各理论次数，并填在各观察次数后的括号中。计算方法与2×2表类似，即根据两地水牛体型构成比相同的假设计算。如优等组中，甲地、乙地的理论次数按理论比率20/135计算；良等组中甲地、乙地的理论次数按理论比率15/135计算；中等、劣等组中甲地、乙地的理论次数分别按理论比率80/135和20/135计算。甲地优等组理论次数：E11=90×20/135=13.3，乙地优等组理论次数：E21=45×20/135=6.7；其余各个理论次数的计算类似。③.计算计算

2值4.由自由度df=(2-1)*(4-1)=3查临界

2值，作出统计推断因为

20..05（3）=7.815，而

2=7.582<20..05（3），p>0.05，不能否定H0,可以认为甲、乙两地水牛体型构成比相同。在进行2×c列联表独立性检验时，还可利用下述简化公式计算

2：

或

前后两式的区别在于：前式利用第一行中的实际观察次数A1j和行总和T1.；后式利用第二行中的实际观察次数A2j和行总和T2.，计算结果相同。

（3）r×c列联表的独立性检验

r×c表是指行因子的属性类别数为r（r>2），列因子的属性类别数为c(c>2)的列联表。其一般形式见表6。表6r×c列联表的一般形式12…c行总和1O11O12…O1cR12O21O22…O2cR2rOr1Or2…OrcRr列总和C1C2…CcT其中Oiji=1,2,…r;j=1,2,…c）为实际观察次数。r×c列联表各个理论次数的计算方法与上述（2×2）、（2×c）表适合性检验类似。但一般用简化公式计算

2值，其公式为：

【例】对三组奶牛（每组39头）分别喂给不同的饲料，各组发病次数统计如下表，问发病次数的构成比与所喂饲料是否有关？表7三组牛的发病次数资料发病次数饲料总和123019（17.3）16(17.3)17(17.3)5211(0.3)0(0.3)0(0.3)120(1.3)3(1.3)1(1.3)437(5.7)9(5.7)1(5.7)1743(4.7)5(4.7)6(4.7)1454(3.3)1(3.3)5(3.3)1062(2.0)1(2.0)3(2.0)670(1.3)2(1.3)2(1.3)481(2.3)2(2.3)4(2.3)792(0.7)0(0.7)0(0.7)2总和393939117

检验步骤如下：

①、提出无效假设与备择假设

H0：发病次数的构成比与饲料种类无关，即二者相互独立。

HA：发病次数的构成比与饲料种类有关，即二者彼此独立。②、计算理论次数对于理论次数小于5者，将相邻几个组加以合并（见表10），合并后的各组的理论次数均大于5。表10资料合并结果发病次数饲料123总和019(17.3)16(17.3)17(17.3)521-38(7.3)12(7.3)2(7.3)224-57(8.0)6(8.0)11(8.0)246-85(6.3)5(6.3)9(6.3)19总和393939117（注：括号内为理论次数）③、计算

2值用简化公式计算

2值，得：④、查临界

2值，进行统计推断由自由度df=(4-1)(3-1)=6，查临界2值得：

20..05（6）=12.9，因为计算所得的2<20.05（6），P>0.05，不能否定HO，可以认为奶牛的发病次数的构成比与饲料种类相互独立，即用三种不同的饲料饲喂奶牛，各组奶牛发病次数的构成比相同。

3、线性回归分析

回归分析是一种统计工具，它利用两个或两个以上变量之间的关系，由一个或几个变量来预测另一个变量，它是处理变量之间相关关系的一种数理统计方法。这里仅给定的实际问题能够作出一元线性回归的数学模型，并熟练运用最小二乘估计法，求解一元线性回归方程中的未知参数，深刻理解和掌握一元回归效果的显著性检验方法一元线性回归的数学模型设相关的两个变量为x与y，且x是可以控制或可以观测的变量(普通变量)，y是随机变量，我们来讨论x与y之间的关系。我们先从一个例子入手，例1某种合成纤维的强度与其拉伸倍数之间有一定关系，下表是实测24个纤维样品的强度y与相应的拉伸倍数x的数据记录，试求出它们之间的关系。解：

从表中可以看出，y有随着x增加而增加的趋势，但它们之间的关系又是不确定的．为了研究x与y之间的内在联系，我们以x为横坐标，以y为纵坐标，在直角坐标系中将表中的24对数据(xi,yi),(i=1,2,…,24)描成图1，在回归分析中，这种图称为散点图，散点图有助于我们粗略地了解两个变量之间大致上存在怎样的相关关系。如图1所示，这些点大致分布在一条直线的附近。变量x和y之间的关系基本上可看作是线性的，但这些点与直线还有一定的偏离，这是因为除了因素x以外，还有许多其它随机因素在影响着y，使y与直线产生了误差ε。因此，y与x应满足下列关系：

y=a+bx+ε

称为y对x的一元线性回归的数学模型．其中a、b是两个未知参数，ε是一个变量，在一般情况下，总是假设ε满足两个条件：(1)对自变量x的任一给定值，ε均为随机变量，并且服从同一正态分布N(0,σ2)；(2)对自变量x的任意n个给定值x1,x2,…,xn

，相应的随机变量ε1，ε2，…，εn相互独立。

即我们只讨论自变量x是一般变量的情形，即它是可以精确测量或可以严格控制的变量，对于样本(xi,yi)(i=1,2,…,n)，如果它符合一元线性回归的数学模型，则：yi=a+bxi+εi

(i=1,2,…,n)

其中εi～N(0,σ2)，(i=1,2,…,n)且相互独立，则

yi～N(a+bxi,σ2)E(yi)=a+bxi

即当x已知时，由上式可以算出E(y)，由于ε是不可控制的因素，通常用E(y)作为y的估计值，记为

即一般情况下，只能通过试验获得有限个样本点，无法获得a和b的真值，只能求出它们的估计值aˆ和bˆ，从而得到：

上式称为y对x的线性回归方程或回归直线方程，其中称为回归常数项，

称为回归系数。那么，要求出线性回归方程，关键要求出a、b的估计值、

，即用下面的一元线性回归未知参数的最小二乘估计。下面以前面讲到的合成纤维的强度与其拉伸倍数之间关系例子为例具体计算其回归方程：五、常用文字编辑规范5.1阿拉伯数字书写的多位整数和小数的分节

☞专业性科技出版物的分节法：从小数点起，向左和向右每三位数字一组，组间空四分之一个汉字(二分之一个阿拉伯数字)的位置。

例：2748456.1

3.14159265☞

非专业性科技出版物如排版留四分空有困难，可仍采用传统的以千分撇“，”分节的办法。小数部分不分节。四位以内的整数也可以不分节。例：2,748,456

3.14159265

8703

☞

拉伯数字书写的纯小数必须写出小数点前定位的“0”。小数点是齐底线的黑圆点“.”。例：0.46不得写成.46和0·46☞

阿拉伯数字书写的数值在表示数值的范围时，使用浪纹式连接号“~”。

示例：150千米～200千米

-360℃～80℃

2500元～3000元

5.2中国医药卫生期刊编排规范

☞各类图统一从“1”开始用阿拉伯数字标图序号。只有1幅图则应标明“图1”。图应具有自明性，即只看图、图题和图例，不阅读正文，就可理解图意。图的内容不要与文字、表格重复。☞

表应具有自明性。表的内容不要与文字、插图重复。表应按统计学的制表原则设计，力求结构简洁

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据处理及统计分析简介

文档简介

温馨提示

最新文档

评论

数据处理及统计分析简介

文档简介

温馨提示

最新文档

评论

相关文档