2016体育统计学课件_第1页
2016体育统计学课件_第2页
2016体育统计学课件_第3页
2016体育统计学课件_第4页
2016体育统计学课件_第5页
已阅读5页,还剩276页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大学体育统计学,第一章 绪论,第一节 体育统计及其研究对象,统计的作用,客观事物的特征,质的特征,量的特征,统计活动,研,究,统计的分类(从性质上,一) 描述性统计 对事物的特征与状态进行数量描述,身高=226 cm 体重=141 kg,百米速度=15 s 投篮命中率=52,二) 推断性统计 通过样本数量特征估计推断总体特征,抽,样,总体平均成绩是14.6秒吗,体育统计的概念 体育统计是运用数理统计的原理和方法对体育领域里各种随机现象规律性进行研究的一门基础应用学科。属于方法论学科范畴。 理解: 1:用普遍的方法研究特殊领域的问题。 2:无论描述统计还是推断统计,都服务于对随机现象规律性的研究

2、,统计工作的基本过程,统计资料的搜集,统计资料的整理,统计资料的分析,统计资料的搜集:(基础环节) 根据研究设计的要求获取有关数据资料。 统计资料的整理:(中间环节) 按照分析的要求对数据资料进行审核和分类。 统计资料的分析:(决定性阶段) 按照研究目的对整理后的数据进行统计学处理,统计工作的基本过程,体育统计的研究对象及其特征,研究对象: (1)体育领域里的各种可量化的随机现象。 (2)非体育领域里对体育发展有关的各种随机现象,研究范围逐渐扩大了,体育统计研究对象的特征,运动性特征: 反映运动能力心理能力等方面的数量指标是具有 运动性特征的。(1,与运动有关;2,是动态的) 综合性特征: 兼

3、有自然科学和社会科学的综合属性。 客观性特征: 数据来源于客观事物本身,是对客观事物的反映,第二节 体育统计在体育活动中的作用,是体育教育科研活动的基础 有助于训练工作的科学化 能帮助研究者制定研究设计 能帮助研究者有效地获取文献资料,总体与个体 1,总体的概念:根据统计研究的具体研究目的而确定的同质对象的全体。 2,个体的概念:组成总体的每个基本单位。 3,总体的分类,第三节 体育统计中的若干基本概念,总体,现存总体,假想总体,有限总体,无限总体,有限总体:基本研究单位的边界是明晰的,并且基本研究单位的数量是有限的总体。 无限总体:基本研究单位的数量是无限多个的总体,样本 1,样本的概念:

4、根据研究需要与可能,从总体中抽取的部 分研究对象所形成的子集为样本。 2,样本的分类:随机样本和非随机样本,样本,随机样本,非随机样本,采用随机抽样方法获得的样本,研究者根据研究需要,制定某些条件获得的带非随机性质的样本,必然事件和随机事件 1,必然事件:在确定的条件范围内,必然发生 (或不发生)的事件。 (具备可预言性) 2,随机事件:在一定的实验条件下,有可能发生,也有可能不发生的事件。(具备不可预言性,只能猜) 随机变量 1,随机变量:随机事件的数量表现,随机变量,连续型随机变量,离散型随机变量,至少理论上可以穷举,不能穷举,总体参数和样本统计量 1,总体参数:反映总体数量特征的指标。

5、2,样本统计量:反映样本数量特征的指标。 概率 1,古典概率:适用于总体明晰的情况下。 2:统计概率:适用于总体状况不明的情况下,补充内容:连加和的缩写式,在高等数学中,采用连加求和缩写式 形式来表示连加求和数,它的一般形式为: 其中:连加求和号 变量(一组观测数据) 在 中, i 是下标,n 是上标 , i 、n 表示连 加求和的界限,即从通项公式具体分解的第一项开 始相加一直到第n项为止。各具体项根据 i 的取值 不同而有所不同,i 取1为第一项,取“n”为第n项,体育中常用的连加求和运算,为了避免符号过于复杂,今后凡在求和范围可以看清的条件下,通常将号上下标省略不写,简记为,补充内容:连

6、加和的缩写式,课堂练习:展开连加和缩写式,体育统计学,第二章 统计资料的收集与整理,收集资料的基本要求 1:资料的准确性 2:资料的齐同性 3:资料的随机性 收集资料的基本方法 1:日常积累 2:全面普查 3:专题研究,第一节 统计资料的收集,几种常用的抽样方法,简单随机抽样(完全随机抽样) 抽取特点:1:不分组,不分类,不排队地抽取; 2:总体中每个个体都有被抽中的机会; 3:总体中每个个体被抽中的机会是均等的。 抽取方法:1:抽签法 2:随机数表法(见随机数表) 该方法的优点:样本代表性好 该方法的缺点:总体含量大时,编号困难。工作量大,几种常用的抽样方法,分层抽样 抽取步骤方法: 1:按

7、属性特征分成若干类型、部分或层; 2:在类型、部分或层中按照比例进行简单随机抽样。 分层的需注意的问题: 1:层间必须有清晰的界面;(类间差异大,类内差异小) 2:必须知道各类型中的个体数目和比例; 3:层的数目不宜太多,但也不要极少。 分层抽样的优点: 1:能够提高样本代表性,又不至于给调查工作带来麻烦,在代表性和工作量之间做出了平衡; 2:适用于总体情况复杂、个体数目较多的情况,分层抽样范例,某大学 体育系 大一新生 总体人数 合计 900人,田径350人,篮球200人,足球150人,网球100人,体操80人,游泳20人,分,层,田径35人,篮球20人,足球15人,网球10人,体操8人,游

8、泳2人,按照10%比例简单随机抽样,研究 样本 含量为 90人,按照学生专项属性分层,继续下一步 的研究过程,几种常用的抽样方法,整群抽样 整群抽样的特点:区别于简单随机抽样和分层抽样,抽样的单位不再是总体中的个体,是总体中的划分出来的群。 划分群应注意的问题: 群间差异要小,群内差异要大。 讨论: 调查广东省初中毕业生体质达标的情况。如何抽样,第二节 统计资料的整理,资料的审核 1:初审简单排误 2:逻辑检查专业知识、常识,指标关系间排误 3:复核按比例抽样复核,频数整理频数分布表的制作,频数分布表的编制(实例,例】某小学五年级学生跳绳成绩如下(单位:个/分钟)。对数据进行分组,117 12

9、2 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121,分组方法,单变量值分组,1. 将一个变量值作为一组 2. 适合于离散变量 3. 适合于变量值较少的情况,单变量值分组表,组距分组,将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 必须遵循“不重

10、不漏”的原则 可采用等距分组,也可采用不等距分组,组距分组的步骤(等距分组,求全距(极差)R:R最大值最小值 确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K 确定组距I:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即:组距( 最大值最小值) 组数 (k) 确定组限 (组限:是指每组的起点值与终点值,5. 根据分组整理成频数分布表 填写组限 按照从上到下、从小到大的顺序填写,只写下限,不写上限 划记 将数据逐个划记到相应的组中,五个为一组 计算:频数(f);

11、频率;组中值 ( 组中值该组下限 组距2,组距分组涉及的几个概念,1. 下 限:一个组的最小值 2. 上 限:一个组的最大值 3. 组 距:上限与下限之差 4. 组中值:下限与上限之间的中点值,课堂练习,117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 12

12、1,例】某小学五年级学生跳绳成绩如下(单位:个/分钟)。对数据进行分组,1.求全距(极差)R: R最大值(Xmax) 139最小值(Xmin) 107 32 2.确定组数: 3.确定组距: 组距( 最大值139 - 最小值107) 组数7 5,1 + 1.70/0.306.6677,4.确定组限: 第一组下限(L1)最小值(Xmin) 组距(I)/2 107 5 /2 104.5105 其他组组限的确定:从第一组开始,每一组的下限加上组距,就得到该组的上限,此上限又是下一组的下限,于是就形成了一列左闭右开的半开区间 5.根据分组整理成频数分布表:(略,参照书P17-P18,需要说明的几个问题,

13、关于组数的确定: 1:可以依据已有的成熟的专业经验来确定; 2:可参考前苏联专家制定的参考表(如右表)确定: 关于图形的绘制: 可以绘制直观的图形来方便了解数据的信息。 较常使用的图形形式有多边形图和直方图等。 图形中,一般横坐标代表组限,纵坐标代表频数,作业,1.每人准备一本固定的作业本。 2.教材P19第二章习题第4题,按照步骤与格式制作频数分布表及其直方图,体育统计学,第三章 样本特征数,第一节 集中位置量数,数据的分布特征及其测量指标,集中趋势(Central tendency,一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据一般水平的代表值或中心值 不同类型的数据用不同的

14、集中趋势测度值 低层次数据的集中趋势指标值适用于高层次的测量数据,反过来,高层次数据的集中趋势指标值并不适用于低层次的测量数据 选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定,中位数 (Median,中位数,又称中数,中点数。 符号Md (Median), 定义:是指位于一组数据中较大一半与较小一半中间位置的那个数,中位数 (Median,特征:此数可能是数据中的某一个,也可能根本不是原有的数据。不受极端值的影响 计算方法:将数据依大小次序排列,若数据个数为奇数,则取数列中间的那个数为中数;若数据个数为偶数,则取中间两个数的平均数为中数,概念:样本观测值在频数分布表中频数

15、最多的那一组的组中值。(分组数据的众数,属于引申概念) 原始概念:众数,符号Mo,它指在一组数中出现次数最多的那个数。计算方法是直接找到出现次数最多的那个数。 众数具有不唯一性。例如,众数 (Mode,无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众数原始数据: 25 28 28 36 42 42,分组数据中众数的计算,频数最多的那一组的组中值。 如书P21-P22: 练习:找找众数,利用上次所做的作业,几何平均数,概念:样本观测值的连乘积,并以样本观测值的总数作为次数,开方所得的数据。 主要适用于一组数据中有少量数据偏大或偏小,数据分布呈偏

16、态。 计算公式: 举例说明:1,2,3,4,8,16,42,108 见教材P22,例题3.4,算术平均数,算术平均数简称为平均数或均值,符号为M(Mean) 总体算术平均数:希腊字母 (音:miu) 样本算术平均数:英文字母 (音:X bar)。 算术平均数是由所有数据之和除以数据个数所得的商数,用公式表示为,算术平均数在应用上有如下特点: 算术平均数是一个良好的集中量数,具有反应灵敏、确定严密、简明易解、计算简单、适合进一步演算和较小受抽样变化的影响等优点。 算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果,第二节:离中趋势量数,数据分布的另一

17、个重要特征 离中趋势的各指标值是对数据离散程度所作的描述 反映各变量值远离其中心值的程度,因此也称为离中趋势 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值,全距(极差,两极差,概念:一组数据最大值与最小值之差。 公式: R最大值(Xmax) 最小值(Xmin) 特征与缺陷: 1:能够了解数据的范围(区域,区间)。 2:只考虑极值,容易受到异常数据的影响,属于粗略的指标值,精细程度不够,绝对差与平均差,绝对差: 平均差,方差和标准差,1:是离散程度的测量指标值之一,最常用。 2:能反映数据的分布。 3:能反映各变量值与均值的平均差异。 4:根据总体数据计算的,

18、称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,总体方差和标准差的计算公式,总体方差的计算公式,总体标准差的计算公式,样本方差和标准差,样本方差的计算公式,样本标准差的计算公式,自由度(degree of freedom,一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值

19、 样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,平均数与标准差在体育中的应用,平均数与标准差在决策中的直接应用。 变异系数在稳定性研究中的应用。 法在原始数据逻辑审核中的应用,平均数与标准差在决策中的直接应用,例题:教练员要从两名标枪运动员中决定一人参加 比赛,如何作出决策? 队员甲:40.50;41.26;40.44;39.62;40.12 42.10;39.84;40.18;38.70;39.54 队员乙:40.48;42.88;40.50;39.50;38.00; 43.32;38.72;41.82;36

20、.84;40.24 简单应用平局数与标准差进行数据决策的步骤: 1:确定样本数据的全域。 2:确定样本数据的平均水平。 3:确定样本数据的离散程度。 4:根据专业专项应用要求采取相应不同决策。 注意:决策前提是认同所取得的数据是真实客观有效的,变异系数在稳定性研究中的应用,例题:某运动员主项为100m跑,兼项为跳远,在竞技期内,其主、兼项目测试结果如下: 100m: s s 跳远: m m 试比较该运动员主项、兼项成绩的稳定性。 (试比较该运动员100m跑、跳远两成绩的离散程度。) 解答:二者的指标单位不同且性质不同,不能够直接进行比较。 依据变异系数的概念特征,可以计算CV进行比较: 由于该

21、运动员100m跑的CV跳远的CV,故该运动员的100m跑 的成绩比跳远成绩稳定。 (或说100m跑成绩的离散程度小于跳远成绩,例题:随机抽取某市300名初中男生的身高,经检验基本服从正态分布,并得出 cm, cm,在这300名学生中,有三人的身高原始数据为 cm, cm, cm。试用 法检查这三个数据是否为可疑数据。 法进行原始数据逻辑审核的步骤: 1:求 的下限和上限。 2:数据检验,看数据是否存在 下限,上限 区间之内。 3:作出初步判定 a:在区间之内,可以初步认定数据正常; b:在区间之外,需要进一步审核数据的准确性,法在原始数据逻辑审核中的应用,作业,1.计算教材P19第二章习题第4

22、题中样本数据的所有集中量数指标和离散量数指标。 2.教材P39第三章习题第2题。 3.自习教材第三章与第四章未讲到的内容,体育统计学,第五章 正态分布,正态分布的概念与性质,200个样本数据的频率分布直方图,总体密度曲线,无穷多个样本数据的频率分布直方图,正态分布的重要性,1.描述连续型随机变量的最重要的分布 2.可用于近似连续型的离散变量的分布 3.经典统计推断的基础,概率密度函数,f(x) :随机变量 X 的频数 :总体方差 =3.14159; e = 2.71828 x = 随机变量的取值 (- x ) = 总体均值,正态分布函数的一些性质,概率密度函数在x 的上方,即f (x)0 正态

23、曲线的最高点在均值,它也是分布的中位数和众数 正态分布是一簇分布,每一特定正态分布通过均值和标准差来区分。 决定曲线的位置,称为位置参数;决定曲线的形状,称为形状参数。 曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交 正态曲线下的总面积等于1,即概率值等于1 随机变量的概率由曲线下的面积给出,和 对正态曲线的影响,正态分布的概率,标准正态分布,任何一个一般的正态分布,可通过下面的线性变换 转化为标准正态分布,标准正态分布的概率密度函数,标准正态分布,标准正态分布的重要性,一般正态分布的不同取决于均值和标准差 计算概率时 ,每一个一般正态分布都需要有自己的正态概率

24、分布表,这种表格是无穷多的。 若能将一般正态分布转化为标准正态分布,计算概率时就只需查一张表(标准正态分布表)就可以了,先将一个一般正态分布转换为标准正态分布 计算概率时,查标准正态概率分布表 对于负的 x ,可由 (-x)- x得到 对于标准正态分布,即X N(0,12),有 P (a X b) b a P (|X| a) 2 a 1 对于一般正态分布,即X N( , 2),有,标准正态分布表的使用,标准化的例子A(5,102,x,=5,10,一般正态分布,6.2,P(5 X 6.2,标准化的例子B(5,102,一般正态分布,P(2.9 X 7.1,正态分布(实例,例】设UN(0,12),求

25、以下概率值: (1) P(U2); (3) P(-12)=1- P(U 2)=1-0.9973=0.0227 (3) P(-1U 3)= P(U 3)- P(U-1) = (3)- (-1)= (3) 1-(1) = 0.9987-(1-0.8413)=0.8354 (4) P(| U | 2) = P(-2 U 2)= (2)- (-2) = (2)- 1-(2)=2 (2)- 1=0.9545,正态分布(实例,例】设XN(5,32),求以下概率值 (1) P(X 10) ; (2) P(2X 10) 解: (1,2,正态分布(实例,例】设XN(1,4),求P (0X1.6) 解: XN(1

26、,4) XN(1,22) 故, = 1, = 2 P (0X1.6,正态分布理论在体育中的应用,主要应用方面: 制定考核标准 制定离差评价表 进行人数估算 在综合评价中统一 变量单位,应用正态分布理论制定考核标准,制定考核标准的步骤: 1:制作正态曲线的分布草图。 2:计算出从 到 ui值所围成的面积概率。 3:查表求得各等级的ui值。 4:求得各等级标准的原始成绩xi值。 举例说明(如书本例5.1,应用正态分布理论制定离差评价表,制定离差评价表的步骤: 1:根据指标总数画好框表。 2:将各个指标的平均数填入0标准差等级线与各个指标纵线的交叉处。 3:计算1标准差,2标准差,3标准差的对应指标

27、数值,并填入各级标准差等级线与各个指标纵线的交叉处。 特别要注意计量的方向性(如:田径中田赛与径赛的计分区别)。 4:依据指标成绩基础值和指标变化值画出不同时期的变化图线。 5:注意离差等级的划分标准合理制定。 (参考标准有两种) 举例说明(如书本例5.2,应用正态分布理论进行人数估算,应用正态分布理论进行人数估算的步骤: 1:作正态分布曲线的草图,以确定估计范围。 2:求各个区间的ui 值。 3:查表找到所估计范围的面积概率。 4:计算估计范围的人数。 举例说明(如书本例5.3,在综合评价中统一 变量单位,U分法:就是依据距离平均数有多少个标准差的距离来确定分数的方法。如果距离平均数在正方向

28、有2个标准差的距离,则记为U分为2分。在负方向有2个标准差距离,则记为U分为-2分。直接用u值来评分。 Z分法:是通过U分转换成更加符合实际运用情况的分数计量方法。可以转换为百分计分法,公式为: 累计计分法:用于符合正态分布的前提下不等距升分的方法之一。其公式为: 百分位数法:用于不符合正态分布的条件下使用变换分数的变量标准化法。其公式见教材P99(5.15,作业,1. P49 第三章课后习题第7题。 2. P99 第五章课后习题第2题。 3. P100 第五章课后习题第3题。 4. P100 第五章课后习题第5题,体育统计学,第六章 统计推断 (假设检验,关于误差的说明 1:随机误差 偶然因

29、素造成,不可避免,无法消除 2:系统误差 实验条件和研究方法造成的,可以改善 3:抽样误差 抽出的样本统计量之间或样本统计量与总体参数之间的偏差,主要由于个体间差异造成的,样本含量增大时,抽样误差会有减少的趋势 4:人为误差(过失错误) 人为过失错误造成的统计数据的失真性。 统计处理中最关心的是系统误差和抽样误差,第一节 参数估计,第一节 参数估计,关于“标准误”的概念 表示样本均数(或样本率)与总体均数 (或总体率)之间偏差程度的标准差。 均数标准误的计算公式,第一节 参数估计,均数标准误的计算公式,第一节 参数估计,点估计与区间估计 点 估 计选定适当的样本统计量作为参数的估计量。 区间估

30、计以变量的概率分布规律来确定未知参数 值的可能范围。 置信概率在区间估计中,预选规定的概率。 置信区间在区间估计中,按照预选规定的概率确 定下来的区间范围,置信区间的计算,一:总体均数的置信区间 1:大样本含量(n45),可以认定符合正态分布,根据正态分布原理,用u分计算。 2:小样本含量(n45),不符合正态分布,只能根据t分布原理,用t分计算。 二:总体率的置信区间 样本含量必须足够大(如:n100) p的抽样分布逼近正态分布,用u分计算。 计算公式:教材P108-109,假设检验的基本思想及步骤,主要学习目标 : 假设检验的基本知识 u 检验 t 检验 卡方检验(不讲,什么是假设,假设是

31、对总体参数的一种看法 总体参数包括总体均值、比例、方差等 分析之前必需要有合理的陈述,我认为:蛙跳训练能够促进100m跑成绩的提高,什么是假设检验,根据研究目的,对样本所属总体的特征提出一个假设,然后根据样本资料所提供的信息,对这个假设作出拒绝或者不拒绝的判断,这一过程成为假设检验。 概念核心: 事先对总体参数或分布形式作出某种假设 然后利用样本信息来判断原假设是否成立,假设检验的基本思想,因此我们拒绝假设 = 173 cm,样本均值,m,173 cm,抽样分布,H0,这个是我们抽样得出的某个样本均值,150,假设检验的过程(提出假设抽取样本作出决策,假设检验中的小概率原理,什么是小概率? 1

32、.在一次试验中,一个几乎不可能发生的事件发生的概率 2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设 3.小概率由研究者事先确定(与置信区间相关,假设检验的基本步骤,1)根据实际情况建立原假设H0 ,备择假设H1 (2)选择并计算检验统计量的取值 (3)确定显著性水平,查表得出相应的临界值 (4)把实值与临界值进行比较,作出统计判断,什么检验统计量? 1. 用于假设检验问题的统计量 2. 选择统计量的方法与参数估计相同,需考虑 是大样本还是小样本 总体方差已知还是未知 3.检验统计量的基本形式为,确定适当的检验统计量,提出原假设H0 和备择假设H1,什么是原假设?(Null Hypo

33、thesis) 1.待检验的假设,又称“0假设、虚无假设”。 2.如果错误地作出决策会导致一系列后果。 3.总是有等号 , 或 4.表示为 H0 H0 : 某一数值0 例如, H0 : 1.73(米,提出原假设H0和备择假设H1,什么是备择假设?(Alternative Hypothesis) 1.与原假设对立的假设 2.总是有不等号: , 或 3.表示为 H1 H1: 某一数值,或 某一数值 例如, H1: 1.73 (米),或 1.73 (米,假设检验的几个理论问题,假设检验的基础 (1)逻辑基础:反证法 (2)数理统计基础:小概率事件原理 显著性水平问题 (小概率事件发生的概率) 0.0

34、5 或者0.01 临界值问题(见置信区间部分内容,两种检验类型,双侧检验 只是强调差异性,不强调方向性 单侧检验 研究目的着重强调方向性的,有一 定理论和经验基础作为背景,双 侧 检 验,只是强调差异性,不强调方向性,双侧检验图解,双侧检验图解,双侧检验图解,双侧检验图解,单 侧 检 验,研究目的着重强调方向性,是 有一定理论和经验基础作为背景的,单侧检验(左侧)图解,单侧检验(左侧)图解,单侧检验(右侧)图解,单侧检验(右侧)图解,假设检验中的两类错误,1.第一类错误(错否定,弃真错误) 原假设为真时拒绝原假设 第一类错误的概率为,被称为显著性水平 2.第二类错误(错接受,取伪错误) 原假设

35、为假时接受原假设 第二类错误的概率为,H0: 无罪,假设检验中的两类错误(决策结果,假设检验就好像 一场审判过程,数理统计检验过程,u检验,u 检验,性质:总体平均数或者总体率的检验 最佳适用范围: (1)总体方差已知且总体为正态分布。 (2)总体方差已知且总体为任何分布的 大样本,样本均数与总体均数的差异显著性检验 0,样本均数与总体均数的差异显著性检验 0,0 u 检验原始公式,0 u 检验原始公式的变式: (即:用样本标准差S代替总体标准差,两个样本均数的差异显著性检验1 2,两个样本均数的差异显著性检验1 2,1 2 u 检验原始公式的变式: (即:用样本方差S12和S22分别代替总体

36、方差12和22,1 2 u 检验原始公式,率(比例)的差异显著性检验,样本率与总体率的差异显著性检验 (0) 样本率与样本率的差异显著性检验 (12,其中,t 检验,t 检验背景知识“自下而上的科研,英国Dublin啤酒公司技师Gorsset想要解决啤酒质量检验问题,可是所涉及的研究对象(如啤酒中的酵母菌的含量等)很难获取大样本的数据。他苦心钻研统计理论,终于想出了一种小样本的检验方法t 检验法,并于1906年以“Student”笔名在Biometrika的杂志上发表了。 意义:统计思想上开创了一个新纪元。经过剑桥大学著名统计学专家Fisher教授在数学上的严格证明,创立了与过去描述性统计学炯

37、然不同的推断统计学,标志着推断统计学的诞生。小样本检验理论在许多领域得到了广泛的应用,t 检验,性质:常用于均数的假设检验 最佳适用范围:总体服从正态分布,总体方差未知,样本量n45(30)(或者相对而言样本量较小的时候)。 种类: 单样本t 检验; 独立样本t 检验; 配对样本t 检验 Spss上的演示(选讲,单样本 t 检验,检验比较的对象:样本均数与一个已知的总体均数 检验比较的目的:推断样本所代表的未知总体均数与已知的总体均数0是否相等。( 0) 例子:“全民健身工程”国民体质检测测试中,已知我国健康成年男子脉搏均数为72次/分(0),某调研人员在一个山区随机调查了25名健康成年男子的

38、脉搏数(具体原始调研数据已知),能否据此认为该山区成年男子的脉搏数()就是(或“就可以代表”)我国健康成年男子脉搏数(0,单样本t 检验,公式: 练习:P115 例6.6 Spss演练(选讲,独立样本t 检验,检验比较的对象:来自两个正态总体且相互独立的两个样本均数 检验比较的目的:推断两个样本所代表的总体均数1与2是否相等。(1 2) 例子:“全民健身工程”国民体质检测测试中,A调研人员在一个a山区随机调查了25名健康成年男子的脉搏数(具体原始调研数据已知),B调研人员在另一b山区随机调查了28名健康成年男子的脉搏数(具体原始调研数据也已知),能否据此推断两山区健康成年男子的脉搏数没有差异。

39、或者说能否推断两山区健康成年男子的脉搏数同属于一个共同的大总体的两个样本(即来源于同一总体,独立样本t 检验,公式(大样本) 公式(小样本)书本P118 练习:大样本:P116例6.7 小样本:P117例6.8 Spss演练(选讲,配对样本t 检验,检验比较的对象:两个数据均能配对的样本 检验比较的目的:比较经不同实验处理后或某因素变化后配对单位的差异是否显著。( d 0) 例子:某调研人员在一个山区随机调查了25名健康成年男子的脉搏数(具体原始调研数据已知),现在该调研人员对这25人进行了为期三个月的高原体能训练,三个月后再测得了这25名健康成年男子的脉搏数(具体数据已知),想了解这三个月的

40、训练后,这25名健康成年男子的脉搏数是否有了显著性的变化,配对样本t 检验,公式及其计算过程:教材P120例6.10 练习:例6.10 Spss演练(选讲,体育统计学,第七章 方差分析 (单因素方差分析,下面通过一个实例来介绍方差分析中的有关基本概念。 例 题 为检验不同的训练方法对磷肌酸增加有无影响,设计了四种不同的训练方法、,并选取同样条件的名运动员,将他们分成四组,通过三个月的训练后,观察他们磷肌酸增长情况,数据如下表所示,试通过以上数据推断:不同的训练方法对磷肌酸的增长有无影响,从表中数据可看出,名运动员磷肌酸的增加量存在差异,这种差异是由以下两方面原因造成的:第方面:由随机误差造成的

41、。第方面:由训练方法不同造成的(系统误差)。方差分析的目的就是将试验中上述两个方面所造成的差异区分出来,并分析哪一方面在试验中起主要作用,以下是方差分析中所涉及的几个基本概念: 1、指标:方差分析中,我们通常把实验所要考察的结果称为指标,也可称之为因变量。 2、因素:对试验数据有影响的条件叫因素,其中可控条件叫可控因素,不可控条件叫不可控因素,也称为随机因素。 3、因素水平:试验中把可控因素控制在不同范围内,每一个范围就称为一个因素水平。 例如,在例6中,训练方法就是一个因素,而训练方法就是一个因素水平,在该试验中共设计了四个因素水平、。 4、随机误差:在试验中由随机因素(也称为不可控因素)造

42、成的误差叫随机误差。 5、条件误差(系统误差):在试验中由试验条件不同而造成的误差叫条件误差,6、单因素方差分析:在试验中只考虑一个因素对试验结果的影响,则称此试验为单因素试验,其对应的数据分析方法为单因素方差分析法。 7、多因素方差分析:在试验中考虑多个因素对试验结果的影响,则称此试验为多因素试验,其对应的数据分析方法为多因素方差分析法。 8、交互作用:多因素方差分析中,不同因素水平间的搭配会对试验结果产生影响,称这种影响为交互作用,单因素方差分析,一、单因素方差分析的基本思想 单因素方差分析的基本思想就是把观测值的总变异(差异)分解成条件误差与椭机误差两部分,并求得反映它们所起作用大小的量

43、离差平方和,再除以各自的自由度而求得它们各自的方差,通过比较它们方差的“大小”,就可作出试验条件对试验结果是否有影响的统计判断。 单因素方差分析的基本原理可简述如下: 单方差分析的基本原理:把试验数据的总差异分解成条件误差与随机误差,然后比较“大小”,看哪一个在总差异中占主要地位。 这一基本原理也称之为离差分解法,即 Q总=Q条件+Q随机,二、单因素方差分析的步骤,单因素方差分析分一般分如下4个步骤: 提出假设H0:某因素对试验数据无显著影响。 列方差计算表,计算随机误差、条件误差及它们的自由度。 列方差分析表,比较条件误差与随机误差的大小。 作出结论。 当临界值(,)或相伴概率P a时,拒接

44、假设; 当临界值(,)或相伴概率Pa时,接受假设,方差计算表,总差异Q总、条件误差Q条件、随机误差Q随机可由方差计算表中右下方框中的、按以下公式计算: Q条件 Q随机 Q总 Q条件 Q随机 随机误差、条件误差的自由度计算公式为: 条件误差的自由度条件 随机误差的自由度随机(其中为水平数,三、单因素方差分析举例 例 为检验不同的训练方法对磷肌酸增加有无影响,设计了四种不同的训练方法、,并选取同样条件的名运动员,将他们分成四组,通过三个月的训练后,观察他们磷肌酸增长情况,数据如下表所示,试通过以上数据推断:不同的训练方法对磷肌酸的增长有无影响,解】 1.提出假设H0:不同训练方法对磷肌酸的增长无显

45、著性差异。 2.列方差计算表,由上计算表可得: 条件误差的离差平方和1、自由度1分别为: 1219.7269.2/24=17.29 1 随机误差的离差平方和2、自由度2分别为: 2248.31219.7228.6 22420,列方差分析表,结论: 拒接原假设,即认为不同的训练方法对磷肌酸的增长有显著性影响,什么是方差分析,检验多个总体均值是否相等 通过对各观察数据误差来源的分析来判断多个总体均值是否相等 2.变量 一个定类尺度的自变量 2个或多个 (k 个) 处理水平或分类 一个定距或比例尺度的因变量 3.用于分析完全随机化试验设计,什么是方差分析,例8.1】某饮料生产企业研制出一种新型饮料。

46、饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超级市场上收集了前一时期该饮料的销售情况,见表8-1。试分析饮料的颜色是否对销售量产生影响,什么是方差分析,检验饮料的颜色对销售量是否有影响,也就是检验四种颜色饮料的平均销售量是否相同 设1为无色饮料的平均销售量,2粉色饮料的平均销售量,3为橘黄色饮料的平均销售量,4为绿色饮料的平均销售量,也就是检验下面的假设 H0: 1 2 3 4 H1: 1 , 2 , 3 , 4 不全相等 检验上述假设所采用的方法就是方差分析,方差分析的基本思

47、想和原理(几个基本概念,因素或因子 所要检验的对象称为因子 要分析饮料的颜色对销售量是否有影响,颜色是要检验的因素或因子 水平 因素的具体表现称为水平 A1、A2、A3、 A4四种颜色就是因素的水平 观察值 在每个因素水平下得到的样本值 每种颜色饮料的销售量就是观察值,方差分析的基本思想和原理(几个基本概念,试验 这里只涉及一个因素,因此称为单因素四水平的试验 总体 因素的每一个水平可以看作是一个总体 比如A1、A2、A3、 A4四种颜色可以看作是四个总体 样本数据 上面的数据可以看作是从这四个总体中抽取的样本数据,1.比较两类误差,以检验均值是否相等 2.比较的基础是方差比 3.如果系统(处

48、理)误差显著地不同于随机误差,则均值就是不相等的;反之,均值就是相等的 4.误差是由各部分的误差占总误差的比例来测度的,方差分析的基本思想和原理,方差分析的基本思想和原理(两类误差,随机误差 在因素的同一水平(同一个总体)下,样本的各观察值之间的差异 比如,同一种颜色的饮料在不同超市上的销售量是不同的 不同超市销售量的差异可以看成是随机因素的影响,或者说是由于抽样的随机性所造成的,称为随机误差 系统误差 在因素的不同水平(不同总体)下,各观察值之间的差异 比如,同一家超市,不同颜色饮料的销售量也是不同的 这种差异可能是由于抽样的随机性所造成的,也可能是由于颜色本身所造成的,后者所形成的误差是由

49、系统性因素造成的,称为系统误差,方差分析的基本思想和原理(两类方差,组内方差 因素的同一水平(同一个总体)下样本数据的方差 比如,无色饮料A1在5家超市销售数量的方差 组内方差只包含随机误差 组间方差 因素的不同水平(不同总体)下各样本之间的方差 比如,A1、A2、A3、A4四种颜色饮料销售量之间的方差 组间方差既包括随机误差,也包括系统误差,方差分析的基本思想和原理(方差的比较,如果不同颜色(水平)对销售量(结果)没有影响,那么在组间方差中只包含有随机误差,而没有系统误差。这时,组间方差与组内方差就应该很接近,两个方差的比值就会接近1 如果不同的水平对结果有影响,在组间方差中除了包含随机误差

50、外,还会包含有系统误差,这时组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1 当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,方差分析中的基本假定,每个总体都应服从正态分布 对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本 比如,每种颜色饮料的销售量必需服从正态分布 各个总体的方差必须相同 对于各组观察数据,是从具有相同方差的总体中抽取的 比如,四种颜色饮料的销售量的方差都相同 观察值是独立的 比如,每个超市的销售量都与其他超市的销售量独立,方差分析中的基本假定,在上述假定条件下,判断颜色对销售量是否有显著影响,实际上也就是检验具有同方差的四个正态总

51、体的均值是否相等的问题 如果四个总体的均值相等,可以期望四个样本的均值也会很接近 四个样本的均值越接近,我们推断四个总体均值相等的证据也就越充分 样本均值越不同,我们推断总体均值不同的证据就越充分,方差分析中基本假定,如果原假设成立,即H0: m1 = m2 = m3 = m4 四种颜色饮料销售的均值都相等 没有系统误差 这意味着每个样本都来自均值为、差为2的同一正态总体,方差分析中基本假定,如果备择假设成立,即H1: mi (i=1,2,3,4)不全相等 至少有一个总体的均值是不同的 有系统误差 这意味着四个样本分别来自均值不同的四个正态总体,单因素方差分析的数据结构,单因素方差分析的步骤,

52、提出假设 构造检验统计量 统计决策,提出假设,一般提法 H0: m1 = m2 = mk (因素有k个水平) H1: m1 ,m2 , ,mk不全相等 对前面的例子 H0: m1 = m2 = m3 = m4 颜色对销售量没有影响 H0: m1 ,m2 ,m3, m4不全相等 颜色对销售量有影响,构造检验的统计量,为检验H0是否成立,需确定检验的统计量 构造统计量需要计算 水平的均值 全部观察值的总均值 离差平方和 均方(MS,构造检验的统计量(计算水平的均值,假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数 计算公式为,式中:

53、ni为第 i 个总体的样本观察值个数 xij 为第 i 个总体的第 j 个观察值,构造检验的统计量(计算全部观察值的总均值,全部观察值的总和除以观察值的总个数 计算公式为,构造检验的统计量(前例计算结果,构造检验的统计量( 计算总离差平方和 SST,全部观察值 与总平均值 的离差平方和 反映全部观察值的离散状况 其计算公式为,前例的计算结果: SST = (26.5-28.695)2+(28.7-28.695)2+(32.8-28.695)2 =115.9295,构造检验的统计量( 计算误差项平方和 SSE,每个水平或组的各样本数据与其组平均值的离差平方和 反映每个样本各观察值的离散状况,又称

54、组内离差平方和 该平方和反映的是随机误差的大小 计算公式为,前例的计算结果:SSE = 39.084,构造检验的统计量( 计算水平项平方和SSA,各组平均值 与总平均值 的离差平方和 反映各总体的样本均值之间的差异程度,又称组间平方和 该平方和既包括随机误差,也包括系统误差 计算公式为,前例的计算结果:SSA = 76.8455,构造检验的统计量(三个平方和的关系,总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和 (SSA) 之间的关系,SST = SSE + SSA,构造检验的统计量(三个平方和的作用,SST反映了全部数据总的误差程度;SSE反映了随机误差的大小;SSA反

55、映了随机误差和系统误差的大小 如果原假设成立,即H1 H2 Hk为真,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差 判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小 为检验这种差异,需要构造一个用于检验的统计量,构造检验的统计量( 计算均方MS,各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方,也称为方差 计算方法是用离差平方和除以相应的自由度 三个平方和

56、的自由度分别是 SST 的自由度为n-1,其中n为全部观察值的个数 SSA 的自由度为k-1,其中k为因素水平(总体)的个数 SSE 的自由度为n-k,构造检验的统计量( 计算均方MS,SSA的均方也称组间方差,记为MSA,计算公式为,SSE的均方也称组内方差,记为MSE,计算公式为,构造检验的统计量( 计算检验的统计量F,将MSA和MSE进行对比,即得到所需要的检验统计量F 当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布,即,构造检验的统计量(F分布与拒绝域,如果均值相等,F=MSA/MSE1,统计决策,将统计量的值F与给定的显著性水平的临界值F进行比较,

57、作出接受或拒绝原假设H0的决策 根据给定的显著性水平,在F分布表中查找与第一自由度df1k-1、第二自由度df2=n-k 相应的临界值 F 若FF ,则拒绝原假设H0 ,表明均值之间的差异是显著的,所检验的因素(A)对观察值有显著影响 若FF ,则不能拒绝原假设H0 ,表明所检验的因素(A)对观察值没有显著影响,单因素方差分析表(基本结构,MSE,单因素方差分析(一个例子,例】为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的样本,其中零售业抽取7家,旅游业抽取了6家,航空公司抽取5家、家电制造业抽取了5家,然后记录了一年中消费者对总共23家服务

58、企业投诉的次数,结果如表9.7。试分析这四个行业的服务质量是否有显著差异?(0.05,单因素方差分析(一个例子,单因素方差分析(计算结果,解:设四个行业被投诉次数的均值分别为,m1、m2 、m3、m4 ,则需要检验如下假设 H0: m1 = m2 = m3 = m4 (四个行业的服务质量无显著差异) H1: m1 ,m2 ,m3, m4不全相等 (有显著差异) Excel输出的结果如下,结论:拒绝H0。四个行业的服务质量有显著差异,方差分析中的多重比较 (作用,多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异 多重比较方法有多种,这里介绍Fisher提出的最小显著差异

59、方法,简写为LSD,该方法可用于判断到底哪些均值之间有差异 LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的,方差分析中的多重比较(步骤,提出假设 H0: mi = mj (第i个总体的均值等于第j个总体的均值) H1: mi mj (第i个总体的均值不等于第j个总体的均值) 检验的统计量为,若|t|t,拒绝H0;若|t|t,不能拒绝H0,方差分析中的多重比较(基于统计量xi-xj的LSD方法,通过判断样本均值之差的大小来检验 H0 检验的统计量为 :xi xj 检验的步骤为 提出假设 H0: mi = mj (第i个总体的均值等于第j个总体的

60、均值) H1: mi mj (第i个总体的均值不等于第j个总体的均值) 计算LSD,若|xi-xj| LSD,拒绝H0, 若|xi-xj| LSD ,不能拒绝H0,方差分析中的多重比较(实例,根据前面的计算结果: x1=27.3;x2=29.5; x3=26.4;x4=31.4 提出假设 H0: mi = mj ;H1: mi mj 计算LSD,方差分析中的多重比较(实例,x1-x2|= |27.3-29.5| =2.22.096 颜色1与颜色2的销售量有显著差异 |x1-x3|= |27.3-26.4| =0.92.096 颜色1与颜色4的销售量有显著差异 |x2-x3|= |29.5-26

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论