




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2021-12-202一、传统方法一、传统方法-基本方法基本方法(一)频数、频率分析(一)频数、频率分析(二)数据集中趋势分析(二)数据集中趋势分析 1、算术平均数、算术平均数 2、中位数、中位数 3、众数、众数(三)数据分散趋势分析(三)数据分散趋势分析 1、全距(极差)、全距(极差) 2、四分位差、四分位差 3、标准差、标准差2021-12-203二、方差分析二、方差分析方差分析(方差分析(ANOVA)又称)又称“变异数分析变异数分析”或或“F检验检验”,是,是R.A.Fisher发明的,用于发明的,用于两个及两个以上样本均数差别的显著性检验。两个及两个以上样本均数差别的显著性检验。方差分
2、析是在可比较的数组中,把数据间方差分析是在可比较的数组中,把数据间的总的的总的“变差变差”按各指定的变差来源进行分按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从方和。方差分析方法就是从总离差平方和总离差平方和分分解出可追溯到指定来源的解出可追溯到指定来源的部分离差平方和部分离差平方和,这是一个很重要的思想。这是一个很重要的思想。2021-12-204三、相关分析(Correlation analysis)相关分析:是研究现象之间是否存在某种依相关分析:是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其
3、存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。间的相关关系的一种统计方法。相关关系是一种非确定性的关系,例如,相关关系是一种非确定性的关系,例如,以以X和和Y分别记一个人的身高和体重,或分分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则别记每公顷施肥量与每公顷小麦产量,则X与与Y显然有关系,而又没有确切到可由其中显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是的一个去精确地决定另一个的程度,这就是相关关系。相关关系。2021-12-205四、回归分析四、回归
4、分析回归分析(回归分析(regression analysis)是确定两种或两是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析种以上变数间相互依赖的定量关系的一种统计分析方法。方法。运用十分广泛,回归分析按照涉及的自变量的多少,运用十分广泛,回归分析按照涉及的自变量的多少,可分为可分为一元回归分析一元回归分析和和多元回归分析多元回归分析;按照自变量;按照自变量和因变量之间的关系类型,可分为和因变量之间的关系类型,可分为线性回归分析线性回归分析和和非线性回归分析非线性回归分析。如果在回归分析中,只包括一个。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线自变量和
5、一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性因变量和自变量之间是线性关系,则称为多元线性回归分析。回归分析。2021-12-206五、因子分析五、因子分析因子分析最早由英国心理学家因子分析最早由英国心理学家C.E.斯皮尔曼提出。斯皮尔曼提出。主要目的是用来描述隐藏在一组测量到的变量中的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量一些更基本的,但
6、又无法直接测量到的隐性变量 (latent variable, latent factor)。比如,如果要测。比如,如果要测量学生的学习积极性量学生的学习积极性 (motivation),课堂中的积极,课堂中的积极参与,作业完成情况,以及课外阅读时间可以用来参与,作业完成情况,以及课外阅读时间可以用来反应积极性。而学习成绩可以用期中,期末成绩来反应积极性。而学习成绩可以用期中,期末成绩来反应。在这里,学习积极性与学习成绩是无法直接反应。在这里,学习积极性与学习成绩是无法直接用一个测用一个测 度度 (比如一个问题比如一个问题) 测准,它们必须用一测准,它们必须用一组测度方法来测量,然后把测量结果
7、结合起来,才组测度方法来测量,然后把测量结果结合起来,才能更准确地来把握。能更准确地来把握。2021-12-207六、判别分析六、判别分析 判别分析又称判别分析又称“分辨法分辨法”,是在分类确定的,是在分类确定的条件下,根据某一研究对象的各种特征值判条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方别其类型归属问题的一种多变量统计分析方法。法。其基本原理是按照一定的判别准则,建其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判资料确定判别函数中的待定系数,并计算判别指标。
8、据此即可确定某一样本属于何类。别指标。据此即可确定某一样本属于何类。2021-12-208七、聚类分析七、聚类分析 聚类分析指将物理或抽象对象的集合分组成聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。相似性,而不同簇间的对象有很大的相异性。主要步骤:主要步骤:1. 数据预处理;数据预处理;2. 为衡量数据点为衡量数据点间的相似度定义一个距
9、离函数;间的相似度定义一个距离函数;3. 聚类或分聚类或分组;组;4. 评估输出。评估输出。2021-12-209八、统计软件八、统计软件 SPSS:这是一个很受欢迎的统计软件;它容易操这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。对于非统计作,输出漂亮,功能齐全,价格合理。对于非统计工作者是很好的选择。工作者是很好的选择。 SAS:这是功能非常齐全的软件;尽管价格不菲,这是功能非常齐全的软件;尽管价格不菲,许多公司还是因为其功能众多和某些美国政府机构许多公司还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量认可而使用。尽管现在已经尽量“傻瓜化傻瓜化”,仍
10、然,仍然需要一定的训练才可以进入。对于基本统计课程则需要一定的训练才可以进入。对于基本统计课程则不那么方便。不那么方便。 STATA: 这是众多统计软件的后起之秀;它操作灵这是众多统计软件的后起之秀;它操作灵活、简单、易学易用,同时具有数据管理软件、统活、简单、易学易用,同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言计分析软件、绘图软件、矩阵计算软件和程序语言的特点。占用计算机系统资源少,绘图漂亮,对有的特点。占用计算机系统资源少,绘图漂亮,对有简单编程基础者来讲十分容易上手,有专门出版的简单编程基础者来讲十分容易上手,有专门出版的专业刊物。专业刊物。以上三种软件并称为新
11、的国际三大权威统计以上三种软件并称为新的国际三大权威统计软件软件2021-12-2010八、统计软件八、统计软件 Excel:它严格说来并不是统计软件,但作它严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功为数据表格软件,必然有一定统计计算功能。而且凡是有能。而且凡是有Microsoft Office的计算机,的计算机,基本上都装有基本上都装有Excel。但要注意,有时在装。但要注意,有时在装Office时没有装数据分析的功能,那就必须时没有装数据分析的功能,那就必须装了才行。当然,画图功能是都具备的。装了才行。当然,画图功能是都具备的。对于简单分析,对于简单分析,Excel还
12、算方便,但随着问还算方便,但随着问题的深入,题的深入,Excel就不那么就不那么“傻瓜傻瓜”,需要,需要使用函数,甚至根本没有相应的方法了。使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他多数专门一些的统计推断问题还需要其他专门的统计软件来处理。专门的统计软件来处理。2021-12-2011八、统计软件八、统计软件 S-plus:这是统计学家喜爱的软件。不仅由于其:这是统计学家喜爱的软件。不仅由于其功能齐全,而且由于其强大的编程功能,使得研功能齐全,而且由于其强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和究人员可以编制自己的程序来实现自己的理论和方法。
13、它也在进行方法。它也在进行“傻瓜化傻瓜化”以争取顾客。但仍以争取顾客。但仍然以编程方便为顾客所青睐。然以编程方便为顾客所青睐。 R软件:软件:这是一个这是一个免费的免费的,由志愿者管理的软件。,由志愿者管理的软件。其编程语言与其编程语言与S-plus所基于的所基于的S语言一样,很方语言一样,很方便。还有不断加入的各个方向统计学家编写的统便。还有不断加入的各个方向统计学家编写的统计软件包。同时从网上可以不断更新和增加有关计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是的软件包和程序。这是发展最快发展最快的软件,受到世的软件,受到世界上统计师生的欢迎。界上统计师生的欢迎。是用户量增加
14、最快的统计是用户量增加最快的统计软件软件。对于一般非统计工作者来说,主要问题是。对于一般非统计工作者来说,主要问题是它没有它没有“傻瓜化傻瓜化”。2021-12-2012八、统计软件八、统计软件 Minitab:这个软件是很方便的功能强大而又齐全的软这个软件是很方便的功能强大而又齐全的软件,也已经件,也已经“傻瓜化傻瓜化”,在我国用的不如,在我国用的不如SPSS与与SAS那么普遍。那么普遍。 Statistica:也是功能强大而齐全的也是功能强大而齐全的“傻瓜化傻瓜化”的软件,的软件,在我国用的也不如在我国用的也不如SAS与与SPSS那么普遍。那么普遍。 Eviews:这是一个主要处理回归和时
15、间序列的软件。这是一个主要处理回归和时间序列的软件。 GAUSS:这是一个很好用的统计软件,许多搞经济的这是一个很好用的统计软件,许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人喜欢它。主要也是编程功能强大。目前在我国使用的人不多。不多。 FORTRAN:这是应用于各个领域的历史很长的非常优这是应用于各个领域的历史很长的非常优秀的编程软件,功能强大,也有一定的统计软件包。计秀的编程软件,功能强大,也有一定的统计软件包。计算速度比这里介绍的都快得多。但需要编程和编译。操算速度比这里介绍的都快得多。但需要编程和编译。操作不那么容易。作不那么容易。 MATLAB:这也是应用于各个领域的以
16、编程为主的软这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。编程类似于件,在工程上应用广泛。编程类似于S和和R。但是统计。但是统计方法不多。方法不多。目录目录2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙13第一讲第一讲 市场调查数据分析的基本方法市场调查数据分析的基本方法n一、一、频数、频率分析频数、频率分析n二、数据集中趋势分析二、数据集中趋势分析 1、算术平均数算术平均数 2、中位数中位数 3、众数众数n三、数据分散趋势分析三、数据分散趋势分析 1、全距(极差)全距(极差) 2、四分位差四分位差 3、标准差标准差n四、参数假设检验四、参数假设检验 U检验检验
17、t检验检验n五、五、非参数检验非参数检验单元目录单元目录2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙14一、一、频数、频率分析(频数、频率分析(1)n例例1:假设有样本数据:假设有样本数据ABCDEFGHIJ112214653322611223254334413314335413456424635352112114662634551322763662365118415336463495132522262103252341445n请大家拿出自己的数据,取有效样本数据请大家拿出自己的数据,取有效样本数据n个。个。2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙1
18、5一、一、 频数、频率分析(频数、频率分析(2)VAR000016.005.004.003.002.001.00Count222018161412n请大家做出自己数据的分布图。请大家做出自己数据的分布图。2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙16一、一、 频数、频率分析(频数、频率分析(3)VAR000011717.017.017.02020.020.037.02121.021.058.01616.016.074.01313.013.087.01313.013.0100.0100100.0100.01.002.003.004.005.006.00TotalValidF
19、requencyPercentValidPercentCumulative Percentn请大家做出自己数据的分布表。请大家做出自己数据的分布表。2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙17二、集中趋势分析二、集中趋势分析n1、算术平均数、算术平均数n未分组数据的平均数计算未分组数据的平均数计算n 分组数据的平均数计算分组数据的平均数计算n 上例的计算结果上例的计算结果270. 31001001iixxfffxfxfxnxx为组频数 2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙182、中位数的计算(1)n未分组数据的中位数计算未分组数据的中位数计算
20、 对所有数据进行排序,当数据量为奇数时,取中对所有数据进行排序,当数据量为奇数时,取中间数为中位数,当数据量为偶数时,取最中间两间数为中位数,当数据量为偶数时,取最中间两位数的平均数为中位数。上例中数据量为位数的平均数为中位数。上例中数据量为100,是偶数,所以应取排序后第是偶数,所以应取排序后第50位数和第位数和第51位数的位数的平均值作为中位数。第平均值作为中位数。第50位数是位数是3,第,第51位数也位数也是是3,所以中位数为,所以中位数为3。2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙192、中位数的计算(2)n分组数据的中位数计算分组数据的中位数计算 下式中下式中
21、L为中位数所在组的下限值,为中位数所在组的下限值,fm为中位数所在为中位数所在组的组频数,组的组频数, Sm-1为至中位数组时累计总频数,为至中位数组时累计总频数,h为为组距。组距。hfSfLMmme1212021-12-20 2009版版版权所有版权所有 张祖龙张祖龙202、中位数的计算(3)n例例2:假设有分组数据如下(销售额单位为万元):假设有分组数据如下(销售额单位为万元)年销售额年销售额组中值组中值商店数目商店数目累计频数累计频数80-90853390-10095710100-1101051323110-120115528120-130125230合计合计30n请大家计算中位数?请大
22、家计算中位数?回回众数计算众数计算回回四分位计算四分位计算2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙212、中位数的计算(4)n依据公式依据公式例例2的中位数为的中位数为万元 85.103101310230100212111hfSfLMhfSfLMmmemme2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙223、众数的计算n未分组数据的众数为出现次数最多的数。未分组数据的众数为出现次数最多的数。n分组数据的众数依据下式(下限公式)计算获得。分组数据的众数依据下式(下限公式)计算获得。 表达式中表达式中1表示众数所在组与前一组的频数差,表示众数所在组与前一
23、组的频数差,2表示众数所在组与后一组的频数差。依据公式,表示众数所在组与后一组的频数差。依据公式,例例2分组数据的众数为?分组数据的众数为?hLMo211n请大家计算请大家计算例例2分组数据的众数?分组数据的众数?n答案:答案:104.29万元。万元。2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙23三、分散趋势分析三、分散趋势分析1、全距(极差)的计算、全距(极差)的计算全距指的是样本数据中最大值与最小值之间的距离,全距指的是样本数据中最大值与最小值之间的距离,因而也叫极差。因而也叫极差。例例1中最小值为中最小值为1,最大值为,最大值为6,因而全距为,因而全距为6-1=5。
24、2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙242、 四分位差的计算四分位差的计算n四分位差是一种按照位置来测定数据离散趋势的四分位差是一种按照位置来测定数据离散趋势的计量方法。四分位差是一批数据中的第三四分位计量方法。四分位差是一批数据中的第三四分位数与第一四分位数之差的二分之一数与第一四分位数之差的二分之一,即即(Q3-Q1)/2.其意义是去掉数列中四分之一最小的部分和四分其意义是去掉数列中四分之一最小的部分和四分之一最大的部分之一最大的部分,再根据中间再根据中间50%部分来测定四分部分来测定四分之一的距离为多少。之一的距离为多少。n请大家计算请大家计算例例2分组数据的
25、四分位差?分组数据的四分位差?万元 四分位差万元 万元 606243.9662.109262.109101310343010043.961073430901331.QQQQn例例2的四分位差计算过程如下:的四分位差计算过程如下:2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙253、标准差的计算、标准差的计算n未分组数据的标准差计算未分组数据的标准差计算n分组数据的标准差的计算分组数据的标准差的计算nxxnxxs2)(fxfxffxxs2)(2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙26四、参数假设检验四、参数假设检验n1、U检验检验n当样本容量大于当样本
26、容量大于30时,可以采用时,可以采用U检验。检验。 均值检验均值检验 百分比检验百分比检验 双样本平均数差异的检验双样本平均数差异的检验 双样本百分比差异的检验双样本百分比差异的检验2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙27均均 值值 检检 验(验(U)n假设有假设有选取统计量选取统计量设定显著性水平设定显著性水平 查表得到查表得到根据根据U的计算结果,比较的计算结果,比较U的绝对值与的绝对值与 的大小。的大小。若有若有 则接受则接受H0,否则拒绝,否则拒绝H0 。0100:HHnsxU05. 096.12U2U2UU 2021-12-20 2009版版版权所有版权所
27、有 张祖龙张祖龙28百百 分分 比比 检检 验(验(U)n假设有假设有选取统计量选取统计量设定显著性水平设定显著性水平 查表得到查表得到根据根据U的计算结果,比较的计算结果,比较U的绝对值与的绝对值与 的大小。的大小。若有若有 则接受则接受H0,否则拒绝,否则拒绝H0 。0100:PPHPPHnPPPpU)1(05. 096.12U2U2UU 2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙29双样本平均数差异的检验(双样本平均数差异的检验(U)n假设有假设有选取统计量选取统计量设定显著性水平设定显著性水平 查表得到查表得到根据根据U的计算结果,比较的计算结果,比较U的绝对值与
28、的绝对值与 的大小。的大小。若有若有 则接受则接受H0,否则拒绝,否则拒绝H0 。211210:HH22212121nsnsxxU05. 096. 12U2U2UU2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙30双样本百分比差异的检验(双样本百分比差异的检验(U)n假设有假设有选取统计量选取统计量设定显著性水平设定显著性水平 查表得到查表得到根据根据U的计算结果,比较的计算结果,比较U的绝对值与的绝对值与 的大小。的大小。若有若有 则接受则接受H0,否则拒绝,否则拒绝H0 。211210:PPHPPH22211121)1()1(nppnppppU05. 096. 12U2U
29、2UU2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙312、 t检验检验n当样本容量小于当样本容量小于30时,不可以使用时,不可以使用U检验,而需要使用检验,而需要使用t检验。检验。 均值检验均值检验 均值差异的检验均值差异的检验 百分比差异的检验百分比差异的检验2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙32均均 值值 检检 验(验(t)n假设有假设有选取统计量选取统计量设定显著性水平设定显著性水平 查表得到查表得到根据根据t的计算结果,比较的计算结果,比较t的绝对值与的绝对值与 的大的大小。若有小。若有 则接受则接受H0,否则拒绝,否则拒绝H0 。01
30、00:HH1nsxt01. 0)1(nt)1(nt) 1( ntt2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙33均值差异的检验(均值差异的检验(t)n假设有假设有选取统计量选取统计量设定显著性水平设定显著性水平 查表得到查表得到根据根据t的计算结果,比较的计算结果,比较t的绝对值的绝对值与与 的大小。若有的大小。若有 则接受则接受H0,否则拒绝,否则拒绝H0 。211210:HH)11(2212122221121nnnnsnsnxxt01.0) 2(21nnt)2(21 nnt)2(21 nntt2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙34百分比差
31、异的检验(百分比差异的检验(t)n假设有假设有选取统计量选取统计量设定显著性水平设定显著性水平 查表得到查表得到根据根据t的计算结果,比较的计算结果,比较t的绝对值的绝对值与与 的大小。若有的大小。若有 则接受则接受H0,否则拒绝,否则拒绝H0 。211210:ppHppH2122112121)11)(1 (nnpnpnpnnppppt 其中 01. 0) 2(21nnt)2(21 nnt) 2(21nntt2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙35五、非参数检验(五、非参数检验(X2)n在市场调查中常获得一些量表数据,对量表数在市场调查中常获得一些量表数据,对量表数
32、据求取平均数与方差都是毫无意义的。对量表据求取平均数与方差都是毫无意义的。对量表数据的处理更适宜于采用非参数检验方法。非数据的处理更适宜于采用非参数检验方法。非参数检验中常用的方法是参数检验中常用的方法是X2检验。检验。 X2检验的检验的统计量是统计量是 上述统计量中,上述统计量中, 表示第表示第 类别在样本中实际出类别在样本中实际出现的次数,表示期望出现的次数,现的次数,表示期望出现的次数, 为类别数。为类别数。kiiiiEEQX122)(iQiiEk2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙36第二讲第二讲 方差分析方差分析第一节第一节 方差分析的基本问题方差分析的基
33、本问题第二节第二节 单因素方差分析单因素方差分析2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙37学学 习习 目目 标标 1 1、掌握方差分析的基本概念、掌握方差分析的基本概念 2 2、掌握方差分解的思想、掌握方差分解的思想 3 3、能针对单因素方差分析,构造出对、能针对单因素方差分析,构造出对原假设进行检验的原假设进行检验的F F统计量。统计量。2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙38方差分析概述方差分析概述 一个复杂的事物,其中往往有许多因素互相一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数制约又互相依存。方差分析
34、的目的是通过数据分析找出对该事物有显著影响的因素,各据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,最佳水平等。方差分析是在可比较的数组中,把数据间的总的把数据间的总的“变差变差”按各指定的变差来按各指定的变差来源进行分解的一种技术。对变差的度量,采源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想平方和,这是一个很重要的思
35、想。2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙39方差分析简称方差分析简称ANOVANOV,该统计分析方法能一次性地,该统计分析方法能一次性地检验多个总体均值是否存在显著差异。检验多个总体均值是否存在显著差异。假设检验主要是检验两总体的均值是否差异显著。假设检验主要是检验两总体的均值是否差异显著。对于多个总体均值是否差异显著的问题,如果按照每对于多个总体均值是否差异显著的问题,如果按照每一对总体进行一次检验,显然要花费较多的时间。因一对总体进行一次检验,显然要花费较多的时间。因此,方差分析所提供的处理方法比两两比较的处理方此,方差分析所提供的处理方法比两两比较的处理方法要
36、方便得多。法要方便得多。第一节第一节 方差分析的基本问题方差分析的基本问题一、问题的提出一、问题的提出2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙40方差分析方差分析该方法能一次性地检验多个该方法能一次性地检验多个总体均值是否存在显著差异。总体均值是否存在显著差异。分析分析如果把每一个分店的日营如果把每一个分店的日营业额看成一个总体,以上业额看成一个总体,以上问题的实质是检验这三个问题的实质是检验这三个总体的均值是否相等。总体的均值是否相等。2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙41n提出如下假设:提出如下假设:n 三者不完全相等三者不完全相等 n
37、其中,其中, 分别为三分分别为三分店的平均日营业额。如果检验结果店的平均日营业额。如果检验结果接受原假设,则有充分证据表明地接受原假设,则有充分证据表明地点因素对分店的日营业额没有实质点因素对分店的日营业额没有实质性影响;如果拒绝原假设,则有充性影响;如果拒绝原假设,则有充分证据说明地点因素对日营业额有分证据说明地点因素对日营业额有显著影响。显著影响。3211,:H321,0123:H2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙42影响销售量的因素影响销售量的因素2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙43 该饮料在五家超市的销售情况该饮料在五家超市
38、的销售情况超市超市无色无色粉色粉色橘黄色橘黄色绿色绿色1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.82021-12-20 2009版版版权所有版权所有 张祖龙张祖龙442021-12-20 2009版版版权所有版权所有 张祖龙张祖龙452021-12-20 2009版版版权所有版权所有 张祖龙张祖龙462021-12-20 2009版版版权所有版权所有 张祖龙张祖龙472021-12-20 2009版版版权所有版权所有 张祖龙张祖龙48样本数据样本数据2021-12-20
39、 2009版版版权所有版权所有 张祖龙张祖龙49三、方差分析的基本思想三、方差分析的基本思想n 比较两类误差比较两类误差 以检验均值是否相等以检验均值是否相等n 比较的基础是方差比比较的基础是方差比n 如果系统如果系统(处理处理)误差显著地不同于随机误差,误差显著地不同于随机误差,则均值就是不相等的;反之,均值就是相等的则均值就是不相等的;反之,均值就是相等的n 误差是由各部分的误差占总误差的比例来测误差是由各部分的误差占总误差的比例来测度的度的2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙501、两类误差、两类误差在因素的同一水平在因素的同一水平(同一个总体同一个总体)下,
40、样本的各观察值之间的差异。下,样本的各观察值之间的差异。比如,同一种颜色的饮料在不同比如,同一种颜色的饮料在不同超市上的销售量是不同的。不同超市上的销售量是不同的。不同超市销售量的差异可以看成是随超市销售量的差异可以看成是随机因素的影响,或者说是由于抽机因素的影响,或者说是由于抽样的随机性所造成的,称为随机样的随机性所造成的,称为随机误差误差 。 2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙51系统系统误差误差在因素的不同水平在因素的不同水平(不同总体不同总体)下,下,各观察值之间的差异。比如,同各观察值之间的差异。比如,同一家超市,不同颜色饮料的销售一家超市,不同颜色饮料
41、的销售量也是不同的。这种差异可能是量也是不同的。这种差异可能是由于抽样的随机性所造成的,也由于抽样的随机性所造成的,也可能是由于颜色本身所造成的,可能是由于颜色本身所造成的,后者所形成的误差是由系统性因后者所形成的误差是由系统性因素造成的,称为系统误差。素造成的,称为系统误差。2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙522、两类方差、两类方差组内方差组内方差因素的同一水平因素的同一水平(同一个同一个总体总体)下样本数据的方差。下样本数据的方差。比如,无色饮料比如,无色饮料A1在在5家家超市销售数量的方差。超市销售数量的方差。组内方差只包含随机误组内方差只包含随机误差差2
42、021-12-20 2009版版版权所有版权所有 张祖龙张祖龙53组间方组间方差差因素的不同水平因素的不同水平(不同总体不同总体)下各样本之间的方差下各样本之间的方差比如,比如,A1、A2、A3、A4四四种颜色饮料销售量之间的种颜色饮料销售量之间的方差。组间方差既包括随方差。组间方差既包括随机误差,也包括系统误差。机误差,也包括系统误差。2、两类方差、两类方差2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙543、方差的比较、方差的比较如果不同颜色如果不同颜色( (水平水平) )对销售量对销售量( (结果结果) )没有影响没有影响,那么在组间方差中只包含有随机误差,而没有系那么
43、在组间方差中只包含有随机误差,而没有系统误差。这时,组间方差与组内方差就应该很接统误差。这时,组间方差与组内方差就应该很接近,两个方差的比值就会接近近,两个方差的比值就会接近1 1。如果不同的水平对结果有影响如果不同的水平对结果有影响,在组间方差中,在组间方差中除了包含随机误差外,还会包含有系统误差,这除了包含随机误差外,还会包含有系统误差,这时组间方差就会大于组内方差,组间方差与组内时组间方差就会大于组内方差,组间方差与组内方差的比值就会大于方差的比值就会大于1 1。当这个比值大到某种程度时,就可以说不同水当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异。平之间存在着显著差异。2
44、021-12-20 2009版版版权所有版权所有 张祖龙张祖龙55四、基本假定四、基本假定1、每个总体都应服从正态分布、每个总体都应服从正态分布对于因素的每一个水平,其观察值是对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样来自服从正态分布总体的简单随机样本本比如,每种颜色饮料的销售量必须服比如,每种颜色饮料的销售量必须服从正态分布从正态分布2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙56四、基本假定四、基本假定2、各个总体的方差必须相同、各个总体的方差必须相同对于各组观察数据,是从具有相同方对于各组观察数据,是从具有相同方差的总体中抽取的。差的总体中抽取的
45、。比如,四种颜色饮料的销售量的方差比如,四种颜色饮料的销售量的方差都相同。都相同。3、观察值是独立的。、观察值是独立的。比如,每个超市的销售量都与其他超比如,每个超市的销售量都与其他超市的销售量独立。市的销售量独立。2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙57五、方差分析的原理五、方差分析的原理u在上述假定条件下,判断颜色对销售量是否在上述假定条件下,判断颜色对销售量是否有显著影响,实际上也就是检验具有同方差的有显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等的问题。四个正态总体的均值是否相等的问题。u如果四个总体的均值相等,可以期望四个样如果四个总体的
46、均值相等,可以期望四个样本的均值也会很接近。本的均值也会很接近。u四个样本的均值越接近,我们推断四个总体四个样本的均值越接近,我们推断四个总体均值相等的证据也就越充分。均值相等的证据也就越充分。u样本均值越不同,我们推断总体均值不同的样本均值越不同,我们推断总体均值不同的证据就越充分。证据就越充分。 2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙581、如果原假设成立,即、如果原假设成立,即H0: 1 = 2 = 3 = 4u四种颜色饮料销售的均值都相等四种颜色饮料销售的均值都相等u没有系统误差没有系统误差u 这意味着每个样本都来自均值为这意味着每个样本都来自均值为、方差为方
47、差为 2的同一正态总体的同一正态总体 2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙592021-12-20 2009版版版权所有版权所有 张祖龙张祖龙602、如果备择假设成立,即、如果备择假设成立,即H1: i (i=1,2,3,4)不全相等不全相等u至少有一个总体的均值是不同的至少有一个总体的均值是不同的u有系统误差有系统误差u 这意味着四个样本分别来自均值不同这意味着四个样本分别来自均值不同的四个正态总体的四个正态总体 。2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙612021-12-20 2009版版版权所有版权所有 张祖龙张祖龙623、方差的分解
48、、方差的分解u样本数据的波动又两个来源:一个样本数据的波动又两个来源:一个是随机波动;一个是因子影响。样本是随机波动;一个是因子影响。样本数据的波动,可通过离差平方和来反数据的波动,可通过离差平方和来反映。这个离差平方和可分解为组间方映。这个离差平方和可分解为组间方差与组内方差两部份。即差与组内方差两部份。即总离差平方和总离差平方和=组间离差平方和组间离差平方和+组内组内离差平方和离差平方和2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙634、方差的分解、方差的分解u组间方差反映出不同的因子对样本波动的影组间方差反映出不同的因子对样本波动的影响;组内方差则是不考虑组间方差的纯
49、随机影响;组内方差则是不考虑组间方差的纯随机影响。响。u如果组间方差明显高于组内方差,说明样本如果组间方差明显高于组内方差,说明样本数据波动的主要来源是组间方差,因子是引起数据波动的主要来源是组间方差,因子是引起波动的主要原因,可认为因子对实验的结果存波动的主要原因,可认为因子对实验的结果存在显著的影响;在显著的影响;u反之,如果波动的主要部分来自组内方差,反之,如果波动的主要部分来自组内方差,则因子的影响就不明显,没有充足理由认为因则因子的影响就不明显,没有充足理由认为因子对实验或抽样的结果有显著作用。子对实验或抽样的结果有显著作用。2021-12-20 2009版版版权所有版权所有 张祖龙
50、张祖龙645、检验统计量、检验统计量u(1)自由度:产生方差的独立变量的个数,)自由度:产生方差的独立变量的个数,称做自由度称做自由度n。u(2)均方差:方差除以独立变量个数即自由)均方差:方差除以独立变量个数即自由度。度。u(3)检验因子影响是否显著的统计量)检验因子影响是否显著的统计量F.F 组间均方差组内均方差uF统计量越大,越说明组间方统计量越大,越说明组间方差是主要的方差来源,因子影响差是主要的方差来源,因子影响是显著的;是显著的;F越小,越说明随机越小,越说明随机方差是主要的方差来源,因子的方差是主要的方差来源,因子的影响不显著。影响不显著。2021-12-20 2009版版版权所
51、有版权所有 张祖龙张祖龙65第二节第二节 单因素方差分析单因素方差分析一、单因素方差分析的步骤一、单因素方差分析的步骤 二、单因素方差分析中的其它问题二、单因素方差分析中的其它问题2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙66一、单因素方差分析的步骤一、单因素方差分析的步骤(一)提出假设(一)提出假设(二)构造检验统计量(二)构造检验统计量(三)统计决策(三)统计决策2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙67一、单因素方差分析的步骤一、单因素方差分析的步骤一般提法一般提法H0: 1 = 2 = r (因素有因素有r个水平)个水平)H1: 1 ,
52、2 , , r不全相等不全相等对前面的例子提出假设对前面的例子提出假设H0: 1 = 2 = 3 = 4颜色对销售量没有影响颜色对销售量没有影响H0: 1 , 2 , 3, 4不全相等不全相等颜色对销售量有影响颜色对销售量有影响(一)提出假设(一)提出假设2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙68组内均方差组间均方差F(二)构造检验统计量(二)构造检验统计量为检验为检验H0是否成立,需确定检验的统计量是否成立,需确定检验的统计量 F统计量统计量2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙69构造检验统计量需要计算构造检验统计量需要计算1、水平的均值
53、、水平的均值2、全部观察值的总均值、全部观察值的总均值3、离差平方和、离差平方和4、均方、均方(MS) 2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙70 总离差平方和总离差平方和 =组内离差平方和组内离差平方和+组间离差平方和组间离差平方和 离差平方和:离差平方和:SST = SSE + SSA 自由度:自由度: nr-1 = (nr-r) + ( r-1 ) 均方差:均方差: MST= MSE + MSA2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙71SST是全部观察值是全部观察值 与总平均值的离差平方与总平均值的离差平方和,反映全部观察值的离散状况。
54、和,反映全部观察值的离散状况。其计算公式为:其计算公式为:SST反映了全部数据总的误差程度。反映了全部数据总的误差程度。211rnijijS S TxX 2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙72计算计算SSE(组内离差平方和)(组内离差平方和)SSE反映了随机误差的大小。反映了随机误差的大小。211rni jijS S ExX 2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙73计算计算SSA(组间离差平方和)(组间离差平方和)SSA平方和既包括随机误差,也包括系统平方和既包括随机误差,也包括系统误差,反映的是随机误差和系统误差的误差,反映的是随机误
55、差和系统误差的大小。大小。22111rnriiiijiSSAxXnxX 2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙74如果原假设成立,即如果原假设成立,即H1 H2 Hr为真,为真,则表明没有系统误差,组间平方和则表明没有系统误差,组间平方和SSA除以自由度除以自由度后的均方差与组内平方和后的均方差与组内平方和SSE除以自由度后的均方除以自由度后的均方差的差异就不会太大;如果组间均方差显著地大于差的差异就不会太大;如果组间均方差显著地大于组内均方差,说明各水平组内均方差,说明各水平(总体总体)之间的差异不仅有之间的差异不仅有随机误差,还有系统误差。随机误差,还有系统误差。
56、判断因素的水平是否对其观察值有影响,实际上判断因素的水平是否对其观察值有影响,实际上就是比较组间均方差与组内均方差之间差异的大小。就是比较组间均方差与组内均方差之间差异的大小。检验这种差异,需要构造一个用于检验的统计量。检验这种差异,需要构造一个用于检验的统计量。检验统计量检验统计量=组间均方差组间均方差/组内均方差组内均方差即:即:F=MSA/MSE2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙75计算均方差计算均方差MS各离差平方和的大小与观察值的多少有关,各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,为了消除观察值多少对离差平方和大小的
57、影响,需要用离差平方和除以相应的自由度,这就是需要用离差平方和除以相应的自由度,这就是均方差。均方差。计算方法:计算方法: MST=SST/nr-1 MSA=SSA/r-1 MSE=SSE/nr-r2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙76统计决策统计决策将检验统计量的值将检验统计量的值F与给定的显著性水平与给定的显著性水平 的临界值的临界值F 进行比较,作出接受或拒绝原假进行比较,作出接受或拒绝原假设设H0的决策。的决策。(1,)rnrrF2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙77若若F F ,则不能拒绝原假设,则不能拒绝原假设H0 ,表明
58、所,表明所检验的因素检验的因素(A)对观察值没有显著影响对观察值没有显著影响 。若若FF ,则拒绝原假设,则拒绝原假设H0 ,表明均值之,表明均值之间的差异是显著的,所检验的因素间的差异是显著的,所检验的因素(A)对观察对观察值有显著影响。值有显著影响。2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙78单因素方差分析表单因素方差分析表方差来源方差来源平方和平方和SS自由度自由度df均方均方MSF 值值组间组间(因素因素影响影响) 组内组内(误差误差) 总和总和SSASSESSTr-1nr-nr-MSAMSE2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙79为
59、了对几个行业的服务质量进行评价,消费者为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的样本分别抽取了不同的样本23家,其中零售业抽取家,其中零售业抽取7家,家,旅游业抽取了旅游业抽取了6家,航空公司抽取家,航空公司抽取5家、家电制造家、家电制造业抽取了业抽取了5家,然后记录了一年中消费者对总共家,然后记录了一年中消费者对总共23家服务企业投诉的次数,结果如表家服务企业投诉的次数,结果如表9.7。试分析这。试分析这四个行业的服务质量是否有显著差异?四个行业的服务质量是否有显著差异?( 0.05)2021-
60、12-20 2009版版版权所有版权所有 张祖龙张祖龙80消费者对四个行业的投诉次数消费者对四个行业的投诉次数 观察值观察值( j )行业行业( A )零售业零售业旅游业旅游业航空公司航空公司家电制造业家电制造业123456757554645545347 624960545655 5149485547 7068636960 2021-12-20 2009版版版权所有版权所有 张祖龙张祖龙81解:设四个行业被投诉次数的均值分别为,解:设四个行业被投诉次数的均值分别为, 1、 2 、 3、 4 ,则需要检验如下假设,则需要检验如下假设 H0: 1 = 2 = 3 = 4 (四个行业的服四个行业的服
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 18 古诗三首 江南春 教学设计-2024-2025学年语文六年级上册统编版
- 2024年八年级物理下册 第9章 第4节 流体压强与流速的关系教学实录 (新版)新人教版
- 某一级公路收费站工程施工组织设计方案
- 2024年四年级英语下册 Module 4 Things we enjoy Unit 11 Children's Day第1课时教学实录 牛津沪教版(三起)
- 钢轨探伤培训
- 2024年学年七年级语文上册 第四单元 学习生活 第7课《给表姐的一封信》教学实录2 新疆教育版
- 2 我们有精神2023-2024学年一年级下册道德与法治同步教学设计(统编版)
- 10 青山处处埋忠骨 (教学设计)-2023-2024学年统编版语文五年级下册
- 居住项目地块景观设计方案
- 2024-2025学年高中数学 第一章 三角函数 1.4.3 正切函数的性质与图象(4)教学教学实录 新人教A版必修4
- 2025年八省联考数学试题(原卷版)
- 工业机器人中传感器应用案例
- 基于教学评一体化理念的高中英语阅读教学行动研究
- 高教社马工程伦理学(第二版)教学课件02
- 《榜样9》观后感心得体会二
- 2024年安全生产法律、法规、标准及其他要求清单
- 2024年滁州职业技术学院单招职业适应性测试题库带答案
- 小学生播音主持课课件
- 二年级下册道法大单元全册教案
- 人工智能在智慧物流中的应用
- 《高大模板支撑系统实时安全监测技术规范》
评论
0/150
提交评论