试验数据的正态性检验、数据的转换及卡方检验_第1页
试验数据的正态性检验、数据的转换及卡方检验_第2页
试验数据的正态性检验、数据的转换及卡方检验_第3页
试验数据的正态性检验、数据的转换及卡方检验_第4页
试验数据的正态性检验、数据的转换及卡方检验_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试验数据的正态检验、数据的转换和卡方检验

目录

一、符合正态分布的例子..............................................................1

二、不符合正态分布的例子...........................................................6

三、不符合正态分布数据的转换及转换后数据的方差分析...............................11

四、次数分布资料的卡方检验........................................................14

在对试验数据进行方差分析前,应对数据的三性(即同质性、独立性和正态性)进行检验。本

文介绍对资料的正态性进行检验的方法,主要介绍3种检验方法:(1)频数检验一一作频率分布图、

看偏度系数和峰度系数,(2)作Q-Q图检验,(3)非参数检验——单个样本K-S检验。

下面以两个试验数据为例,例1为84头育肥猪的体重数据,通常符合正态分布。例2为生长育

肥猪7个试验处理组的腹泻率(百分数资料)统计结果,这类资料往往不符合正态,而大多数人以

为是符合正态分布,进行方差分析的,因而不能得出正确的结论,却可能得出错误结论。

一、符合正态分布的例子

【例1】84头生长育肥猪的“体重”数据如表1-1,检验该数据是否呈正态分布。

表84头育肥猪的“体重"数据(排序后)

No.体重No.体重No.体重No.体重No.体重No.体重No.体重No.体重No.体重

155.31171.62178.33181.24184.65188.66192.07199.481107.4

258.21272.12278.73282.24284.75288.86292.072100.782109.0

360.21372.82378.83382.44384.75389.26392.273102.483112.8

464.81473.62479.13482.84485.05489.96493.074103.084113.2

565.81575.92579.33582.84585.35590.46594.275105.4

666.71676.12679.73682.84685.75690.96695.376105.4

767.91777.02780.23783.54786.45791.06797.077105.4

868.41877.12880.63883.74886.85891.16897.878106.0

970.11977.22981.13984.34987.35991.26998.479106.2

1070.82078.13081.14084.45087.46091.47098.580107.3

检验方法一:频数检验一一作频率分布图、看偏度系数和峰度系数

步骤1:数据录入SPSS中,如图1-1。

NO体重变量变量]

1155.30

2258.20

3360.20

446480

5565.80

6666.70

7767.90

8868.40

997010

10107080

111171.60

121272.10

图1-1体重数据录入SPSS中

步骤2:在SPSS里执行“分析一>描述统计一>频率”,然后弹出“频率”对话框(图l-2a),变

量选择“体重”;再点右边的“统计量”按钮,弹出图“频率:统计量”对话框(图l-2b),选

择“偏度”和“丰度”(图l-2b);再点右边的“图表”按钮,弹出图“频率:图表”对话框(图

l-2c),选择“直方图”,并选中“在直方图显示正态曲线”

图l-2a“频率”对话框

集中趋势

均值图)

□中位数

□众数(2)

口合计

值为组的中点也)

「分布।

囹偏度

囹蟾度

[继续]取消j帮助

图l-2b“频率:统计量”对话框图l-2c"频率:图表”对话框

设置完后点“确定”后,就会出来一系列结果,包括2个表格和一个图,我们先来看看“统计

量”表,如下:

统计量

体重

N有效84

缺失0

偏度.040

偏度的标准误.263

峰度-.202

峰度的标准误.520

偏度系数=0.040,峰度系数-0.202;两个系数都小于1,可认为近似于正态分布。再看直方图(图

1-3),如下:

体重

图1-384头育肥猪体重的频数分布直方图

图1-3中横坐标为“增重”,纵坐标为增重出现的“频数”。根据直方图及绘出的曲线,可以

认为该数据近似正态分布。

检验方法二:Q-Q图检验

步骤1:数据录入SPSS中,如图1-1。

步骤2:在SPSS里执行“描述统计一>Q-Q图”,弹出“Q-Q图”对话框,变量选择“体重”,检

验分布选择“正态”(见图1-4),其他选择默认,然后“确定”。

Q-Q图

,变量在):检脸分布CD

夕NO夕体重

df-

分布参数

囹从数据中估计(巨)

位留.I0

刻度:;1

-转换

比例估计公式

□自然对数转换(N)

@BlomCRankit©Tukey

口标准值g)

OVanderWaerden

0差分但)

为结指定的秩

IH季节性差分@):1

@均值(M)c高但)o低也)

当前周期:无

。强制打开结(K)

[确定[粘贴(g)重置回[取消帮助,

图1-4“Q-Q图”对话框

最后可以得到Q-Q图检验结果,结果很多,我们只需要看最后一个图,见图1-5o所有数据

几乎在一条直线上,表明近似正态分布。

体重的正态Q-Q图

120-

望110-

100-

正90-

态80-

值70-

60-

图1-584头生长育肥猪的正态Q-Q图

检验方法三:非参数检验——单个样本K-S检验

步骤1:数据录入SPSS中,如图1-1。

步骤2:在SPSS里执行“分析一>非参数检验一>旧对话框一〉单个样本K-S检验”,弹出对话框,

检验变量选择“期初平均分”,检验分布选择“常规”(即正态分布),然后点“确定”(图1-6)0

图1一6单样本K-S检验对话框

从以下结果可以看出,K-S检验中,Z值为0.563,渐近显著性(双侧)(即P值)=0.909>0.05,

因此数据呈近似正态分布。

单样本Kolmogorov-Smirnov检验

体重

N84

正态参数”均值85.9654

标准差12.67824

最极端差别绝对值,061

正,061

负-.056

Kolmogorov-SmirnovZ.563

渐近显著性(双侧).909

a.检验分布为正态分布。

b.根据数据计算得到。

二、不符合正态分布的例子

【例2】7个处理组,每个处理4个重复,每重复3头生长育肥猪全期(98天)的腹泻次数统计结

果见表1-2。“腹泻率”统计结果,检验其是否符合正态分布?(腹泻指数为每天有1头猪发生腹

泻,记为1头次)。

表2-1生长育肥猪全期98天腹泻次数统计及腹泻率计算表

总指数(总头数)全期腹泻率“

分组重复(头数)饲养天数腹泻指数(腹泻头次)

(=3*98)(二腹泻头次/总头次)

139832941.02

1398112943.74

139822940.68

139852941.70

2

2398102943.40

239862942.04

239862942.04

3398122944.08

339872942.38

33985529418.71

3398122944.08

4398232947.82

439812940.34

439822940.68

4398112943.74

53987429425.17

53984529415.31

53988329428.23

539842941.36

639872942.38

6398142944.76

639862942.04

6398222947.48

73987329424.83

739832941.02

739842941.36

73983629412.24

检验方法一:频数检验一一作频率分布图、看偏度系数和峰度系数

步骤1:数据录入SPSS中,如图2-1。

分组重复饲养天数腹泻指数总指数腹泻率自然对数转

后的腹泻率

1139832941.02.02

21398112943.741.32

313982294.68-.39

4139852941.70.53

52

62398102943.401.22

7239862942.04.71

8239862942.04.71

93398122944.081.41

10339872942.3887

1133985529418.712.93

图2-1腹泻率数据录入SPSS中

步骤2:在SPSS里执行“分析一>描述统计一>频率”,然后弹出“频率”对话框(图2-2a),变

量选择“腹泻率”;再点右边的“统计量”按钮,弹出图“频率:统计量”对话框(图2-2b),

选择“偏度”和“丰度”(图2・2b);再点右边的“图表”按钮,弹出图”频率:图表”对话框(图

2-2c),选择“直方图”,并选中“在直方图显示正态曲线”

回频率(F)a

变量(丫):统计量@).j

夕分组6腹泻率

,图表©|

夕重复

,饲养天数।格式(£)—j

夕腹'泻指数Bootstrap(B)...)

夕总指数

囹显示频率表格Q)

[确定]拈贴(E)J重置(E)[取消帮助

图2-2a“频率”对话框

B频率:统计量

百分位值集中趋势一

四分位数(2)均值(M)

害9点相等组中位数

百分位数宅):二众数(9)

|添加(&匚合计

【更逅

;剜除(艮)

值为组的中点❷)

高敬分布

标准差Q)「最小值9偏度

U方差£最大值,峰度

范围均值的标准误(£)

[继续I取消帮助I

图2-2b“频率:统计量”对话框图2-2c"频率:图表”对话框

设置完后点“确定”,就后会出来一系列结果,包括2个表格和一个图,我们先来看看“统计

量”表,如下:

统计量

腹泻率

N有效27

缺失1

偏度1.623

偏度的标准误.448

峰度1.433

峰度的标准误.872

偏度系数=1.623,峰度系数1.433;两个系数都大于1,可认为不服从正态分布。再看直方图(图

2-3),如下:

图2-3腹泻率的频数分布直方图

图2-3中横坐标为“腹泻率”,纵坐标为增重出现的“频数”。根据直方图可以看出,分布显

然是偏态的,与正态分布曲线相差甚远。

检验方法二:Q-Q图检验

步骤1:数据录入SPSS中,如图2-1。

步骤2:在SPSS里执行“描述统计一>Q-Q图”,弹出“Q-Q图”对话框,变量选择“腹泻率”,

检验分布选择“正态”(见图2-4),其他选择默认,然后“确定”。

Q-Q图

一检蛤分布(I)一

8分组正哀▼

“重复

df

6饲养天数

岑腹泻指数分布参数

6总指数

SI从数据中估计(£)

位置0

刻度|7

比例估计公式

©BlomORankitOTukey

©VanderWaerden

「为结指定的秩一

@均值(M)©*(H)©低&)

o强制打开结(K)

[确F]fcfe(p)]重丽,|飞歪:痴助

图2-4“Q-Q图”对话框

最后可以得到Q-Q图检验结果,结果很多,我们只需要看最后一个图,见图2-5。腹泻率数

据不在一条直线上,表明不符合正态分布。

腹巧率的出态Q・Q图

'1%06102030

观测值

图2-5腹泻率的正态Q-Q图

检验方法三:非参数检验一一单个样本K-S检验

步骤1:数据录入SPSS中,如图2・1。

步骤2:在SPSS里执行“分析一>非参数检验一>旧对话框一〉单个样本K-S检验”,弹出对话框,

检验变量选择“腹泻率”,检验分布选择“常规”(即正态分布),然后点“确定”(图2-6)。

图2-6单样本K-S检验对话框

检验结果为从结果可以看出,K-S检验中,Z值=1.544,渐近显著性(双侧)(即P值)=0.016<0.05,

因此数据分布不符合正态分布。

单样本Kolmogorov-Smirnov检验

腹泻率

N27

正态参数""均值6.7641

标准差8.30213

最极端差别绝对值.299

正.299

负-.220

Kolmogorov-SmirnovZ1.554

渐近显著性(双侧).016

a.检验分布为正态分布。

b,根据数据计算得到。

后记:对于以上腹泻率百分数资料的正态性检验,结果表明不符合正

态分布,因此不能用方差分析进行检验。可进行数据转换(对数转换等),

然后再对转换后的数据进行正态性检验,或采用其他检验方法(如卡方检

验)。

数据的转换和卡方检验方法介绍如下:

三、不符合正态分布数据的转换及转换后数据的方差分析

3.1“自然对数转换”后的Q-Q图

对于以上【例2】的腹泻率数据进行自然对数转换,可在Q-Q图检验时,选择“自然对

数转换”,步骤如下:

在SPSS里执行“描述统计一>Q-Q图”,弹出“Q-Q图”对话框,变量选择“腹泻率”,检

验分布选择“正态”,在转换中选择“自然对数转换”(见图3-1),其他选择默认,然后“确定”。

Q-Q图

变量(Y):检险分布CD—

夕分组夕腹泻率正态

夕重复

df:

,饲养天数

,腹泻指数分布参数

,总指数

画从数据中估计(目

夕VAR00015

位匿叵二

刻度匚

-转换

比例估计公式

M自然对数转换型)

⑥Blom©Rankit©Tukey

0标准值©

◎VanderWaerden

0差分但):

-为结指定的秩一

目季节性差分(§):

◎均值(M)◎寓电)o低&)

当前周期:无。强制打开结(9

[确定]|粘贴也)||重力坦)j[取薮j|帮助j

图3-1腹泻率自然对换转换后的“Q-Q图”对话框

输出结果见图3-2。可见所有数据几乎在一条直线上,可认为近似正态分布。

腹泻率的正态Q-Q图

A

2-L

值0-

o12

观测值

转换:自然对数

图3-2腹泻率自然对换转换后的“Q-Q图”

3.2对自然对数转换后的数据作频率分布图、看偏度系数和峰度系数

将以上【例2】的腹泻率数据时行自然对数转换,结果如下表。

腹泻指数总指数自然对数转换后的

分组重复(头数)饲养天数全期腹泻率

(腹泻头次)(总头数)腹泻率

139832941.020.02

1398112943.741.32

139822940.68-0.39

139852941.700.53

2

2398102943.401.22

239862942.040.71

239862942.040.71

3398122944.081.41

339872942.380.87

33985529418.712.93

3398122944.081.41

4398232947.822.06

439812940.34-1.08

439822940.68-0.39

4398112943.741.32

53987429425.173.23

53984529415.312.73

53988329428.233.34

539842941.360.31

639872940.024-3.738

6398142940.048-3.045

639862940.020-3.892

6398222940.075-2.593

7398732940.248-1.393

739832940.010-4.585

739842940.014-4.297

7398362940.122-2.100

自然对数转换后腹泻率的频率分布图(直方图)、偏度系数和峰度系数如下:

图3-3自然对数转换后的腹泻率的直方图(近似正态分布)

统计量

自然对数转后的腹泻率

N有效27

缺失57

偏度.212

偏度的标准误.448

峰度-.656

峰度的标准误.872

自然对数转换后的腹泻率的偏度系数=0.213,峰度系数=-。656,均小于1。表明符合正态分

布。

3.3数据转换前后的方差分析结果的比较

腹泻率数据转换前与转换后的各组平均数如下:

描述性统计量

分组均值标准偏差N

腹泻率11.78501.370584

22.4933,785203

37.31257.640484

43.14503.471504

517.517512.100364

64.16502.519604

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论