版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章1
-2023-04-02贾俊平2023-04-02统计学—Python实现—贾俊平贾俊平
2023-04-02Fundamentals
of
dataanalysis
with
Python数据分析基础基于
Python 的实现第8章方差分析的原理单因子方差分析双因子方差分析方差分析的假定及其检验贾俊平2023-04-02第
8
章
方差分析数据分析基础—基于Python的实现8
-2023-04-02第8章提出假设·
:
i
=
0(i=1,2,…,I)(处理效应不显著)·
:
i
至少有一个不等于0
(处理效应显著)构建检验统计量,用P值做出决策·
未拒绝,因子对观测值
影响不显著,分析结束·
拒绝,可以用效应量,多重比较效应量分析·
用效应量·
双因子方差分析可以及计算:总效应量、主效应量、偏效应量多重比较·
Fisher的最小显著性差异法—LSD·
Tukey的实际显著性差异法—HSD假定条件检验·
正态性检验Q-Q图数据分析基础—基于Python的实现8
-2023-04-02Sharpio检验;K-S检验·
方差齐性检验Levene检验·
独立性判断方差分析的步骤思维导图第8章8.1
方差分析的原理方差分析的原理——什么是方差分析(ANOVA)方差分析是在20世纪20年代由英国统计学家RonaldA.Fisher在进行实验设计时为解释实验数据而首先引入的分析类别自变量对数值因变量影响的一种统计方法研究分类型自变量对数值型因变量的影响
一个或多个分类自变量;两个或多个(k个)处理水平或分类一个数值型因变量有单因子方差分析和双因子方差分析单因子方差分析:涉及一个分类的自变量双因子方差分析:涉及两个分类的自变量【例8-1】(数据:example8_1.RData)为分数据分析基础—基于Python的实现8
-2023-04-02析不同测评时间电脑处理器的性能。3个测评时间电脑处理器的性能得分数据:2020年第二季度2020年第三季1
083
5461
029
575651
401668
441517
440511
137366
452348
244353
786339
329314
934284
131288
302274
748285
369265
583268
038265
567(以上是前9行,共30行数据,第8章8.1方差分析的原理方差分析的原理——误差分解总误差(total
error)反映全部观测数据的误差
所抽取的全部30个地块的产量之间差异处理误差(treatment
error)—组间误差
(between-group
error)
由于不同处理造成的误差,它反映了处理(品种)对观测数据(产量)的影响,因此称为处理效应(treatment
effect)随机误差(random
error)—组内误差
(within-group
error)
由于随机因子造成的误差,也简称为误差(error)数据的误差用平方和(sum
of
squares)表示,记为SS总平方和(sum
of
squares
for
total),记为SST反映全部数据总误差大小的平方和处理平方和(treatment
sum
of
squares),记为SSA反映处理误差大小的平方和也称为组间平方和(between-group
sum
of
squares)误差平方和(sum
of
squares
of
error),记为SSE反映随机误差大小的平方和称为误差平方和也称为组内平方和(within-group
sum
of
squares)数据分析基础—基于Python的实现8
-2023-04-02第8章8.1方差分析的原理方差分析的原理——数学模型数据的误差用平方和(sum
of
squares)表示,记为SS总平方和(sum
of
squares
for
total),记为SST反映全部数据总误差大小的平方和设因子A有I种处理(比如时间有”2020年第二季度”,”2020年第三季度”,”2021年第一季度”3种处理),单因子方差分析用线性模型表示为数据分析基础—基于Python的实现8
-2023-04-02第8章8.2单因子方差分析单因子方差分析——提出假设数据分析基础—基于Python的实现8
-2023-04-02第8章8.2
单因子方差分析数据分析基础—基于Python的实现8
-2023-04-02单因子方差分析——方差分析表第8章8.2
单因子方差分析单因子方差分析——效应检验——例题分析#将表8-1的短格式数据转为长格式数据测评时间性能得分…
…02020年第二季度108354612020年第二季度651401dfsum_sqmean_sqFPR(>F)22020年第二季度517440-------------------------------------------------32020年第二季度366452测评时间2.0
4.590e+12
2.295e+12
49.709
4.008e-1542020年第二季度35378652020年第二季度314934Residual
87.0
4.017e+12
4.617e+10
NaN
NaN62020年第二季度28830272020年第二季度28536982020年第二季度26803892020年第二季度254566数据分析基础—基于Python的实现8
-2023-04-02第8章8.2
单因子方差分析单因子方差分析——效应检验——例题分析OLS
Regression
Results============================================================Dep.
Variable:
valueR-squared:0.533Model:
OLSAdj.
R-squared:0.523Method:
Least
SquaresF-statistic:49.71Date:
Sat,
21
Aug
2021Prob
(F-statistic):4.01e-15Time:
17:28:42Log-Likelihood:-1231.2No.
Observations:
90AIC:2468.Df
Residuals:
87BIC:2476.Df
Model:
2Covariance
Type:
nonrobust============================================================coef
std
err
t
P>|t|Intercept 2.641e+05
3.92e+04
6.733
0.000数据分析基础—基于Python的实现8
-2023-04-02[0.025
0.975]1.86e+05
3.42e+05season[2020年第三季度]4.784e+05
5.55e+048.6230.000
3.68e+05
5.89e+05season[2021年第一季度]-1330.8000
5.55e+04-0.0240.981
-1.12e+05
1.09e+05============================================================Omnibus:69.519Durbin-Watson:0.648Prob(Omnibus):0.000Jarque-Bera
(JB):324.339Skew:2.627Prob(JB):3.72e-71Kurtosis:10.674Cond.
No.3.73============================================================Notes:[1]
Standard
Errors
assume
that
the
covariance
matrix
of
the
errors
is
correctly
specified.第8章8.2
单因子方差分析单因子方差分析——效应检验——例题分析——均值图数据分析基础—基于Python的实现8
-2023-04-02第8章8.2
单因子方差分析单因子方差分析——效应量分析——例题分析数据分析基础—基于Python的实现8
-2023-04-02第8章8.2
单因子方差分析单因子方差分析——多重比较——Tukey-Kramer的HSD方法HSD是真实显著差异(honestly
significant
difference)的缩写,因此也被称为真显著差异方法该检验方法是由Jone
W.Tukey于1953年提出的,因此也被称为Tukey的HSD方法。由于Tukey的HSD方法要求各处理
的样本量相同,当各处理的样本量不相同时,该方法就不再适用。20世纪50年代中期,C.Y.Kramer对Tukey的HSD方法做了一些修正,从而使其适用于样本量不同的情形。修正后的HSD检验称为Tukey-Kramer方法,简称为Tukey-Kramer的HSD方法该方法的适用场合是:研究者事先并未计划进行多重比较,只是在方差分析决绝原假设后,才需要对任意两个处理的
均值进行比较,这时采用HSD方法比较合适数据分析基础—基于Python的实现8
-2023-04-02第8章8.2
单因子方差分析单因子方差分析——多重比较——Tukey-Kramer的HSD方法Multiple
Comparison
of
Means
-
Tukey
HSD,
FWER=0.05======================================================group1
group2
meandiff
p-adj
lower
upper数据分析基础—基于Python的实现8
-2023-04-02reject第一季度第三季度-479748.50.001-612048.0659-347448.9341True第一季度第二季度-478417.70.001-610717.2659-346118.1341True第三季度第二季度
1330.80.9-130968.7659133630.3659False第8章8.3双因子方差分析双因子方差分析——数学模型分析两个因子(因子A和因子B)对实验结果的影响如果两个因子对实验结果的影响是相互独立的,分别判断因子A和因子B对实验数据的单独影响,这时的双因子方差分析称为只考虑主效应的双
因子方差分析或无重复双因子方差分析(Two-factor
without
replication)如果除了因子A和因子B对实验数据的单独影响外,两个因子的搭配还会对结果产生一种新的影响,这时的双因子方差分析称为考虑交互效应的双因子方差分析或可重复双因子方差分析
(Two-factor
with
replication)设因子A有I种处理因子B有J种处理双因子方差分析可用下面的线性模型来表示ij=0数据分析基础—基于Python的实现8
-2023-04-02第8章8.3
双因子方差分析双因子方差分析——主效应分析——误差分解数据分析基础—基于Python的实现8
-2023-04-02第8章8.3
双因子方差分析数据分析基础—基于Python的实现8
-2023-04-02双因子方差分析——主效应分析——方差分析表第8章8.3
双因子方差分析双因子方差分析——主效应分析——效应量数据分析基础—基于Python的实现8
-2023-04-02第8章8.3
双因子方差分析双因子方差分析——主效应分析——例题分析【例8-4】(数据:example8_4.Rdata)情况。数据如表8-4所示。检验性别和身体状况对受访者收入的影响是否显著(
=0.05)方差分析表中国综合社会调查(CGSS)2017年对不同性别和不同健康自我认知的受访者收入进行了询问。男性和女性2dfsum_sqmean_sqFPR(>F)种性别下,各有健康自我认知的5种性别1.02.936845e+092.936845e+094.6818710.035953身体状况4.01.267231e+103.168078e+095.0504990.001944状况,分别记录了5位受访者的收入
Residual44.02.760033e+106.272801e+08NaNNaN数据分析基础—基于Python的实现8
-2023-04-02第8章8.3
双因子方差分析双因子方差分析——主效应分析——例题分析【例8-4】效应量分析性别偏效应量0.096身体状况偏效应量0.315OLS
Regression
Results==============================================================Dep.
Variable:
全年总收入
R-squared:
0.361数据分析基础—基于Python的实现8
-2023-04-02Model:
OLSAdj.
R-squared:0.289Method:
Least
SquaresF-statistic:4.977Date:
Sun,
22
Aug
2021Prob
(F-statistic):0.00107Time:
15:25:53Log-Likelihood:-574.17No.
Observations:
50AIC:1160.Df
Residuals:
44BIC:1172.Df
Model:
5Covariance
Type:nonrobust==============================================coef
std
err================t
P>|t|[0.0250.975]Intercept2.83e+048676.0373.2610.0021.08e+044.58e+04性别[T.男]1.533e+047083.9542.1640.0361051.2282.96e+04身体状况[T.很不健康]-2.177e+041.12e+04-1.9440.058-4.43e+04803.558身体状况[T.很健康]2.244e+041.12e+042.0030.051-133.5584.5e+04身体状况[T.比较不健康]-1.573e+041.12e+04-1.4040.167-3.83e+046843.558身体状况[T.比较健康]7360.00001.12e+040.6570.515-1.52e+042.99e+04==============================================================Omnibus:
15.173
Durbin-Watson:
1.897Prob(Omnibus):0.001Jarque-Bera
(JB):19.736Skew:1.049Prob(JB):5.18e-05Kurtosis:5.252Cond.
No.6.56第8章8.3
双因子方差分析双因子方差分析——交互效应分析——误差分解数据分析基础—基于Python的实现8
-2023-04-02第8章8.3
双因子方差分析双因子方差分析——交互效应分析——例题分析dfsum_sqmean_sqFPR(>F)性别1.02.936845e+092.936845e+094.385524
0.042627身体状况4.01.267231e+103.168078e+094.730818
0.003207性别:身体状况
4.08.136052e+08
2.034013e+08
0.303735
0.873744Residual40.02.678672e+10
6.696680e+08NaNNaN数据分析基础—基于Python的实现8
-2023-04-02第8章8.3
双因子方差分析双因子方差分析——交互效应分析——例题分析OLS
Regression
Results===================================================================Dep.
Variable:全年总收入R-squared:0.380Model:OLSAdj.
R-squared:0.241Method:Least
SquaresF-statistic:2.725Date:Sun,
22
Aug
2021Prob
(F-statistic):0.0141Time:16:17:51Log-Likelihood:-573.43No.
Observations:50AIC:1167.Df
Residuals:40BIC:1186.Df
Model:9Covariance
Type:nonrobust===================================================================coefstd
errtP>|t|[0.0250.975]Intercept
2.752e+04
1.16e+042.3780.0224130.1585.09e+04性别[T.男]
1.688e+04
1.64e+041.0310.309-1.62e+045e+04身体状况[T.很不健康]
-1.832e+04
1.64e+04-1.1190.270-5.14e+041.48e+04身体状况[T.很健康] 1.648e+04
1.64e+041.0070.320-1.66e+044.96e+04身体状况[T.比较不健康]
-9660.0000
1.64e+04-0.5900.558-4.27e+042.34e+04身体状况[T.比较健康]
7680.0000
1.64e+040.4690.641-2.54e+044.08e+04性别[T.男]:身体状况[T.很不健康]
-6900.0000
2.31e+04-0.2980.767-5.37e+043.99e+04性别[T.男]:身体状况[T.很健康] 1.192e+04
2.31e+040.5150.609-3.49e+045.87e+04性别[T.男]:身体状况[T.比较不健康]-1.214e+04
2.31e+04-0.5240.603-5.89e+043.46e+04性别[T.男]:身体状况[T.比较健康]
-640.0000
2.31e+04-0.0280.978
-4.74e+044.61e+04=====================数据分析基础—基于Python的实现8
-2023-04-02Omnibus:Durbin-Watson:Prob(Omnibus):Jarque-Bera
(JB):Skew:Prob(JB):Kurtosis:Cond.
No.16.2451.8960.00022.2951.0901.44e-055.44015.3=====================Notes:[1]
Standard
Errors
assume
thatthe
covariance
matrix
of
the
errors
is
correctly
specified.第8章8.3
双因子方差分析双因子方差分析——交互效应分析——例题分析dfsum_sqmean_sq
...PR(>F)eta_sqeta_sq_part性别1.02.936845e+092.936845e+09
...
0.042627
0.067968
0.098805身体状况4.01.267231e+103.168078e+09
...
0.003207
0.293276
0.321151性别:身体状况4.08.136052e+082.034013e+08
...
0.873744
0.018829
0.029478Residual40.02.678672e+106.696680e+08
..
NaN
0.619927
NaN数据分析基础—基于Python的实现8
-2023-04-02第8章8.4
方差分析的假定及其检验方差分析——假定及其检验正态性(normality)。每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本在例8-4中,要求每个性别和每个身体状况下的受访者收入必须服从正态分布
检验总体是否服从正态分布的方法有很多,包括对样本数据作直方图、茎叶图、箱线图、正态概率图做描述性判断,也可以进行非参数检验等方差齐性(homogeneity
variance)。各个总体的方差必须相同,对于分类变量的个水平,有
12=22=…=
k2在例8-4中,要求不同性别和不同身体状况的受访者收入方差都相同(随后以性别为示例)独立性(independence)。每个样本数据是来自因子各水平的独立样本(该假定不满足对结果影响较大)在例8-4中,受访者收入数据来自相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化学方程式的书写计算和物质的构成教案
- 华银田径学期教案(全套)
- 文书模板-自来水安装报告申请书
- 国际民航日节日活动安全乘机指南飞机趣味问答课件
- 采购行业年终总结报告课件模板
- 2025《黑神话:悟空》高中语文试卷(1)含答案
- 2024届广东省珠海一中高三全真数学试题模拟试卷
- 残疾人合同管理制度
- 不嫁不娶协议书模板
- 毕业协议书户口
- 项目式课程与全课程设计
- 车间环境温湿度控制
- 小儿重症肺炎查房中的胸腔积液处理
- 新生入学校查验预防接种证培训课件
- 面部血管瘤的护理查房
- 新型脚手架材料研究
- 药物警戒质量管理规范试题
- 工程量自动计算结果表格(新增文字注释上标功能)
- 新课标视域下的小学数学大单元教学
- 幼儿园保教工作管理
- 产后乳房肿胀的护理课件
评论
0/150
提交评论