




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用统计学:基础及要点——以《应用统计和Excel运用》为蓝本(21世纪高职高专精品教材主编:方向阳)目录第一章_统计学的发展及应用领域第二章_数据与数据的获得第三章_描述统计第四章_参数估计第五章_假设检验第六章_方差分析第七章_相关分析第八章_回归分析第一章_统计学的发展及应用领域F-分布(F-distribution)是一种连续概率分布,被广泛应用于似然比率检验,特别是ANOVA中。1922年统计的应用领域统计学经济学管理学医学工程学社会学…统计的应用领域hydrology(水文学)Industry(工业)linguistics(语言学)literature(文学)manpowerplanning(劳动力计划)managementscience(管理科学)marketing(市场营销学)medicaldiagnosis(医学诊断)meteorology(气象学)militaryscience(军事科学)nuclearmaterialsafeguards(核材料安全管理)ophthalmology(眼科学)pharmaceutics(制药学)physics(物理学)politicalscience(政治学)psychology(心理学)psychophysics(心理物理学)qualitycontrol(质量控制)religiousstudies(宗教研究)sociology(社会学)surveysampling(调查抽样)taxonomy(分类学)weathermodification(气象改善)统计学与其它学科的关系1、统计学与数学的关系(1)统计学研究的量是具体的量,而数学研究的量是抽象的量。
(2)统计学运用归纳推理,而数学运用演绎推理。2、统计学与计算机的关系计算机是统计数据处理的工具。第二章_数据与数据的获得总体与总体单位统计总体(Population)就是根据一定目的确定的所要研究对象的全体。总体单位是组成总体的个别单位。总体中的总体单位数称为总体容量(Populationsize)
。用N表示。同质性
差异性大量性有限总体:总体单位数目有限
无限总体:总体单位数目无限总体的特点总体的分类总体、总体单位总体、总体单位总体或总体单位的区分不是固定的,在一定条件下可以相互转化。总体单位标志不变标志决定总体的同质性变异标志决定总体的差异性品质标志数量标志(变量)标志和变量不变标志(标志表现无差别)变异标志(标志表现有差别)▼样本和样本单位●样本:在总体中抽取部分总体单位进行调查,被抽出的总体单位构成一个整体,这个整体称为样本。●样本单位:组成样本的个体。总体总体单位样本样本单位数据变量值是指变量的可能观测值,数据是变量的观测值。如,假设我们观测10个学生的体重,它们分别是: 54614859554862768353 我们要从这些数据中提取所要寻找的信息。一个学生的体重是一个数据。统计的目的是从数据中提取信息。数据类型数据是我们整个统计分析的关键和依据。不同类型的数据采用不同的处理方式和显示方式,因此我们先来认识一下各种类型的数据。数据按采用的测量尺度的不同分为:定性数据和定量数据。数据类型定性数据定性数据又分为定类数据和定序数据。用来测量被测对象类别归属的测度称为定类尺度,按定类尺度进行测量所得的变量称为定类变量,定类变量的观测值即为定类数据,定类变量表现为类别。用来测量被测对象具体属性的高低、大小、先后、优劣次序的测度称为定序尺度,按定序尺度进行测量所得的变量称为定序变量,定序变量的观测值即为定序数据,定序变量表现为有序的类别。
数据类型定量数据定量数据又分为定距数据和定比数据。用来准确测量被测对象之间确切差距的测度称为定距尺度,按定距尺度进行测量所得的变量称为定距变量,定距变量的观测值即为定距数据,定距变量表现为数值,可进行加减运算。比如人的身高、体重等。
第三章_描述统计当数据收集整理完成后,对数据进行分析、并由数据得出结论的一系列方法称为统计方法。统计方法通常可分为两类:描述统计方法和推断统计方法。【实例描述】1998年夏天,麦奎尔和索沙激烈地角逐美国主要棒球单季全垒打的纪录,成为大众关注的焦点。最终,麦奎尔以70支全垒打刷新纪录。麦奎尔这项最新成就相比起他在职业棒球生涯中的全垒打纪录表现如何呢? 以下是麦奎尔从1987年(他的职业棒球生涯的第一年)到1999年之间的全垒打数: 我们也可以把麦奎尔的纪录与纽约洋基队外野手马里斯(RogerMaris)的纪录比较一下。麦奎尔所破的单季纪录,原先就是由马里斯保持的。以下是马里斯在美国联盟十年当中的全垒打数,从小到大排序为: 8131416232628333961 由这两组数据,这两位美国史上都很优秀的棒球选手谁的表现更好些呢?这就可以用描述统计的方法来得到结论。3.1数据描述3.1.1数据频数表与直方图3.1.2直方图与茎叶图方法3.1.3样本数据的集中趋势3.1.4样本数据的离散特征3.1.5样本数据特征的综合表达:箱形图3.1.6数据分布形状测度3.1.1数据频数表与直方图【例】某班级40名同学数学课程考试成绩资料如下(单位:分) 6889888486877573726875829958815479769576 7160916576727685899264578381787772617087 要分析学生的考试成绩,可以通过编制数据表来反映学生的学习成绩情况。具体步骤如下:3.1.1数据频数表与直方图 (1)将原始资料按从小到大的顺序排列,确定数据值的变动范围。 5457586061646568687071727272737575767676 7676777881818283848586878788898991929599 可以看出,学生成绩的基本情况是:最低分54分,最高分99分,成绩的变动幅度在54――99分之间,差距为99-54=45分,这个差距称为极差。另外,还可以从数列中可看出大多数学生的成绩在60~90分之间。不及格和优秀的学生不多。3.1.1数据频数表与直方图 (2)确定组数和组距。为了反映总体不同性质组成部分的分布特征,可以考虑根据研究对象的具体情况来分组,每组数据上限和下限的差称为组距。对学习成绩的分析可以从不及格、及格、中、良好及优秀方面来考虑,于是考虑分组为5组。 根据需要确定组距,如果采用等距分组,则组距=(最大值-最小值)/组数=45/5=9(分)。而实际上为了便于计算,组距一般用5或10的倍数,尽量采用整数,所以本例采用10分作为组距。3.1.1数据频数表与直方图 (3)确定组限和组限的表示方法。习惯上用离散型变量的方法表示成绩。用整数来作组限,还要注意,最低组的下限要小于最小变量值,最高组的上限应最大变量值。根据上面分析分别统计各组学习成绩出现的次数(也称为频数),并计算频率(频数/总数),形成频数分布表,如表3-1所示。3.1.1数据频数表与直方图在分组计算的基础上计算累计频数和累计频率。如果从最小变量值向最大变量值累计,称为向上累计,反之为向下累计,如表3-2所示。3.1.1数据频数表与直方图在分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为频数分布,又称分布数列。分布数列包括两个要素:总体按其标志所分的组和各组所分布的单位数。分布在各组的个体单位数称频数或次数,各组次数与总次数之比称频率。数列根据分组标志的不同分为属性分布数列和变量分布数列;变量分布数列又有单项式数列和组距式数列。任何一个分布都必须满足: (1)各组的频率大于0; (2)各组的频率和等于1。3.1.3样本数据的集中趋势统计分析往往是从了解数据的基本特征开始的。描述数据分布特征的统计量可分为两类:一类表示数量的中心位置(或称集中趋势),另一类表示数量的变异程度(或称离散程度)。两者相互补充,共同反映数据的全貌。在统计研究中,需要搜集大量数据并对其进行加工整理,对这些数据进行整理之后发现:大多数情况下数据都会呈现出一种钟形分布,即各个变量值与中间位置的距离越近,出现的次数越多;与中间位置距离越远,出现的次数越少,从而形成了一种以中间值为中心的集中趋势。这个集中趋势是现象共性的特征,是现象规律性的数量表现。描述数据集中趋势的主要指标有均值、中位数、众数等。3.1.3样本数据的集中趋势1.均值(MEAN)平均指标又称统计平均数,指同类社会现象总体内各单位某一数量标志在一定时间、地点条件下数量差异抽象化的代表性水平指标,其数值表现为平均值,简称均值。它反映了总体分布集中趋势的一般特征。平均值主要是简单算术平均值,是将各单位标志值的总和除以相应的总体单位的项数而得的,若有样本观测值,其中n是
样本容量,均值为:=,式中,xi表示总体第i个单位的标志值。结果,样本均值表示为,总体观察值的数量记为N,总体均值表示为μ,则
μ==。3.1.3样本数据的集中趋势这样,我们计算一下两位选手的全垒打数均值:可以看出,麦奎尔的平均成绩明显高于马里斯。3.1.3样本数据的集中趋势2.中位数(MEDIAN)中位数是指全体数值按大小排列后位于中间的数值。一列观测值,排好序后得到:,称作次序统计量。其中位数就是:3.1.3样本数据的集中趋势我们把两名运动员的成绩从小到大排序: 麦奎尔:992232333939424952586570 马里斯:8131416232628333961显然,当观测值的总个数是奇数时,总存在最中间的那个数,39就是我们要的中位数;而当观测值的总个数是偶数时,没有正中间的那个观测值,于是就选取正中间的那对观测值23和26的平均值表示其中位数:。3.1.3样本数据的集中趋势3.众数(MODE)众数是一组数列中出现次数最多的数值。一组数据可能有众数,也可能没有众数;可能有一个众数,也可能有多个众数。如在麦奎尔的数据中众数有9和39,而在马里斯的数据中就没有众数。3.1.3样本数据的集中趋势4.均值、中位数、众数的选择由于均值是根据总体所有标志值来计算的,所以又称为数值平均数,而众数和中位数是根据标志值所处的位置来决定的,所以又称为位置平均数。它们所反映的一般水平,有不同的意义,有不同的计算方法,也有不同的应用场合,如表3-6所示。3.1.3样本数据的集中趋势3.1.4样本数据的离散特征在研究现象总体标志的一般水平时,不仅要研究总体标志的集中趋势,还要研究总体标志的离中趋势,如研究价格背离价值的平均程度。研究离中趋势可以通过计算标志变异指标来进行。标志变异指标是同统计平均数相联系的一种综合指标,用于度量随机变量在取值区间内的分布情况,主要有方差、标准差、四分位数等。3.1.4样本数据的离散特征1.方差与标准差方差=
标准差 当观测值离均值散布得越远,就越大。当观测值都相同时,。3.1.4样本数据的离散特征总体标准差用σ表示,则总体方差为=3.1.4样本数据的离散特征最大值和最小值的差称为极差,表示一列数值的跨度。特别地,可以取总体中第3四分位数与第1四分位数之差,这个差称为四分位极距。显然,四分位距包括位于总体分布中心的50%,能集中反映总体的差异特性。最小值、最大值、第1四分位数、第3四分位数和中位数从各个角度反映了一列数据的分布状况,我们不妨把这五个数字综合起来看,这种综合法称为五数综合。3.1.4样本数据的离散特征标准差、四分位数、四分位距比较,如表3-7所示。3.1.5样本数据特征的综合表达:箱形图箱形图也叫盒形图,是显示五数综合的图。盒形图中间的箱体是从第1四分位数延伸到第3四分位数;中位数在箱体里用直线标示出来;相同两头有直线往外延伸到最小值和最大值。如图3-1所示。3.1.6数据分布形状测度1.偏斜度(Skew) 偏斜度反映分析数据以均值为中心的分布的不对称程度。正偏斜度表示不对称的分布更趋于正值,负偏斜度表示不对称的分布更趋于负值。 当偏斜度为0时,数据分布对称;当偏斜度为正值时,表示正偏离差值较大,为正偏或右偏;当偏斜度为负值时,表示负偏离差值较大,为负偏或左偏。偏斜度的绝对值越大,表示偏斜的程度就越大。3.1.6数据分布形状测度2.峰度(Kurt) 峰度反映与正态分布相比某一分布的尖锐度或平坦度。正峰度表示相对尖锐的分布,负峰度表示相对平坦的分布。第四章_参数估计4.1几种常见的概率分布4.2参数估计【实例描述】据卫生部网站消息,卫生部、工业和信息化部、农业部、国家工商行政管理总局、国家质量监督检验检疫总局发布公告,公告规定了婴幼儿配方乳粉中三聚氰胺的限量值为1mg/kg,高于1mg/kg的产品一律不得销售。现国家质检局对某企业当天生产的婴幼儿配方乳粉进行三聚氰胺的监测,监测结果如下:(单位mg/kg) 0.85 0.92 1.01 1.21 0.68 0.96 0.89 0.76根据监测结果,该企业当天生产的婴幼儿配方乳粉是否合格,能否上架呢?4.1几种常见的概率分布4.1.1总体分布4.1.2统计量与统计量的分布4.1.1总体分布所谓参数是指描述总体特征的固定的数值,也叫总体参数(populationparameter)或总体目标量,常用希腊字母来表示。例如总体的均值μ、方差σ2、总体的比例π等都是参数。总体参数虽然是固定的,但一般是未知的。4.1.1总体分布1.二项分布在每次试验中有2种可能结果的二项分布无疑是应用最广的连续型随机变量的概率分布,这种概率分布有以下特点:每次试验只有对立的两类结果,如生与死、男与女、阴与阳等。其中某一类结果发生的概率π为一个常数。不管进行多少次,任何一次试验的结果的概率是固定的;试验是独立的,即每次试验的结果不影响任何其他试验的结果。4.1.1总体分布设以同性别、同月龄的小白鼠每四头A、B、C、D为一组,各鼠接种某菌,假如接种后经过一定时间每鼠生存的概率π=2/5,则死亡概率为1-π=3/5。在随机抽样中各组生存鼠数X有0,1,2,3,4五种情况。假定任何一鼠的生与死不影响其他鼠的生与死(即相互独立),几个相互独立事件同时发生的概率等于各独立事件的概率之积(概率的乘法定律);同一组内任何两种组合不可能同时发生(即互不相容),几个互不相容的事件中,任一事件发生的概率等于这几个事件的概率之和(概率的加法定律)。4.1.1总体分布五种情况分别如下:
各种情况分别出现的概率:
A
B
C
D
0生
死
死
死
死
(3/5)4
1生3死
生
死
死
死
4(3/5)³*(2/5)
死
生
死
死
死
死
生
死
死
死
死
生
2生2死
生
生
死
死
6(2/5)²*(3/5)²
死
生
生
死
死
死
生
生
生
死
死
生
生
死
生
死
死
生
死
生
3生1死
生
死
死
死
4(2/5)³*(3/5)
死
生
死
死
死
死
生
死
死
死
死
生
4生
生生
生
生
(2/5)44.1.1总体分布得生存鼠数X为0,1,2,3,4五种情况的概率依次为下列二项式的展开的各项:(3/5+2/5)4=(3/5)4+4(3/5)³*(2/5)+6(2/5)²*(3/5)²+4(2/5)³*(3/5)+(2/5)4写成分布律的形式,见表4-2。表4-2鼠生存分布律4.1.1总体分布二项分布的名称由此而得。并且,上面的二项式展开后各项的系数为:=n!/x!*(n-x)!.式中为n只鼠中有x只生存鼠的组合数(系数)。总结二项分布的一般原理为:在同一条件下,重复做n次独立实验,每次有两个对立的结果,事件a发生或不发生。如果a发生的概率为π,不发生的概率为1-π,则在n次实验中a发生x次的概率为:Pn(X)=πx(1-π)n-x=n!/x!(n-x)!πx(1-π)n-x。从以上一般原理可知,二项分布的实用条件为:(1)实验中只有对立的两类结果,其中某一类结果发生的概率π为一个常数。(2)n次实验相互独立。(3)求n次实验结果中恰好发生x次的概率Pn(X)。4.1.1总体分布2.正态分布正态分布是统计学和抽样的理论基础,在统计中具有极其重要的理论意义和实践意义,主要表现如下:(1)客观世界中有许多随机现象都服从或近似服从正态分布。这些随机变量的共同特点是与平均数比较接近的数值出现次数较多,而与平均数相差较大的数值出现的次数较少,即“中间大,两头小”。(2)正态分布具有很好的数学性质。根据中心极限定理,很多分布的极限是正态分布,在抽样时有些总体虽然不知其确定的分布,但随着样本容量的增大,很多统计量可以看作近似正态分布的。(3)尽管经济管理活动中的有些变量是正偏斜的,但这些丝毫不影响正态分布在抽样应用中的地位。4.1.1总体分布举一个近似正态分布的实例。某专业96个学生某次高等数学考试成绩资料如表4-3所示。经过整理作直方图如图4-1所示。表4-3某专业96名学生高等数学成绩4.1.1总体分布由图4-1可看出96名学生高等数学成绩的分布是中间大两头小。如果学生人数增多,成绩的分组间隔缩小,图形就逐渐转化为分布密度曲线。这样曲线底下的总面积恰好是1。图4-196名学生成绩直方图4.1.1总体分布我们取一组样本容量较大的数据,它的分布形状比较有规则。用同样的方法,在这组数据的直方图上画曲线,呈现出的是一个特别对称且单峰的钟形。4.1.1总体分布所得到的这条曲线叫做正态曲线。具有这样曲线作为密度曲线的分布称为正态分布或高斯分布。正态曲线的概率公式:4.1.1总体分布(2)当样本容量足够大时,样本近似地服从一个正态分布。而对于任何的正态分布而言,大约有68%的观测值落在距平均值一个标准差的范围内;95%的观测值落在距平均值两个标准差的范围内;99.7%的观测值落在距平均值三个标准差的范围内。这一规律被称为68-95-99.7规则,或是“3σ”准则。图4-3正态分布的“3σ”准则4.1.1总体分布特别地,当,,,这时我们称这样的分布为标准正态分布。它是一种最简单的正态分布,我们以后就用标准正态分布来解决问题。4.1.1总体分布正态分布是一种概率分布,是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是遵从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2)。遵从正态分布的随机变量的概率规律为取
μ邻近的值的概率越大
,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低,图像是一条位于x轴上方的钟形曲线,曲线和x轴所围面积正好是1,如图4-4。当μ=0,σ2=1时,称为标准正态分布,记为N(0,1)。当μ=0,σ=0.5的正态分布密度曲线如图4-5。4.1.1总体分布0-2-424μ=0σ=0.5图4-4标准正态分布密度曲线图4-5服从N(0,0.25)的正态分布图4.1.1总体分布3.t分布样本统计量的抽样分布,特别是小样本条件下的抽样分布,并不完全服从正态分布。在实际工作中,往往σ是未知的,常用s作为σ的估计值,称为t变换t=,统计量t值的分布称为t分布。4.1.1总体分布
t分布有如下特征:(1)以0为中心,左右对称的单峰分布;(2)t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线,如图所示。t=自由度为1、5、∞的t分布4.1.2统计量与统计量的分布1.样本均值的抽样分布例4-2:设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1、x2=2、x3=3、x4=4,总体的均值,方差。4.1.2统计量与统计量的分布现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如表4-4所示。计算出各样本的均值,如表4-5。3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)表4-4所有可能的样本3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)表4-5各样本的均值4.1.2统计量与统计量的分布通过以上数据计算可得,各样本均值的平均数μ=2.5,方差σ2=0.625。X图4-5样本均值的抽样分布1.00123P(X)1.53.04.03.52.02.54.1.2统计量与统计量的分布2.样本均值的抽样分布与中心极限定理当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值也服从正态分布,的数学期望为μ,方差为σ2/n。即~(μ,σ2/n)。中心极限定理:设从均值为、方差为
2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。抽样分布与总体分布的关系如图4-6所示。4.1.2统计量与统计量的分布总体分布正态分布非正态分布大样本(n>=30)小样本(n<30)正态分布标准正态分布非正态分布图4-6总体分布与抽样分布的关系第五章_假设检验5.1假设检验的基本概念5.2一个正态总体的统计假设检验5.3两个正态总体的统计假设检验5.2一个正态总体的
统计假设检验5.2.1构造检验统计量5.2.2总体标准差已知条件下的均值检验5.2.3总体标准差未知条件下大样本的均值检验5.2.4总体标准差未知条件下小样本的均值检验5.2.1构造检验统计量设总体X服从正态分布,方差已知,可以通过构造一个服从正态分布的统计量z来进行关于均值μ的假设检验。设是来自正态总体X的一个简单随机样本,样本均值为,根据单个总体的抽样分布结论,选用统计量。5.2.1构造检验统计量如果给定一个常数,根据不同的问题可以做出不同的假设。(1)μ是否等于μ0,假设:(双侧检验)。(2)μ是否不大于μ0,假设:(右侧检验),它与模型有相同的拒绝域。(3)μ是否不小于μ0,假设:(左侧检验),它与模型有相同的拒绝域。5.2.1构造检验统计量当H0成立时,~N(0,1)。对于假设(1),当时,拒绝H0,否则不拒绝H0;其拒绝域是{},如图5-1所示阴影部分。图5-1双侧检验的拒绝域与接受域5.2.1构造检验统计量对于假设(2),当时,拒绝H0,否则不拒绝H0;其拒绝域是{},如图5-2所示阴影部分。图5-2右侧检验的拒绝域与接受域5.2.1构造检验统计量对于假设(3),当时,拒绝H0,否则不拒绝H0;其拒绝域是{},如图5-3所示阴影部分。图5-3左侧检验的拒绝域与接受域5.2.1构造检验统计量在一个正态总体均值的检验中,用到的统计量有z统计量,t统计量。但在假设检验时选用什么统计量进行检验,需要考虑样本量的大小,总体的标准差σ是否已知。采用双侧检验还是采用单侧检验(以及左侧还是右单尾),取决于备择假设的形式。见表5-2.表5-2拒绝域的单、双侧与备择假设之间的对应关系5.2.2总体标准差已知条件下的均值检验
例5-2:某电子元器件生产厂对一批产品进行检测,根据该产品生产质量标准,其使用寿命不低于2000小时。根据以往经验,该电子元器件的使用寿命服从正态分别,标准差为100小时。质量部从该批产品中随机抽取了120个产品进行检测,测得样本均值为1960小时,在的显著性水平下检验该批电子元器件的质量是否符合要求。5.2.2总体标准差已知条件下的均值检验解:由题可知总体服从正态分布,样本均值,样本容量。这是一个单侧检验的问题。(1)建立原假设,备择假设,(2)构造统计量,(3)查表得,因为,统计量Z值落在拒绝域内,不能接受原假设。所以,我们有理由认为该批电子元器件的质量不符合质量标准。5.2.3总体标准差未知条件下大样本的均值检验在大样本条件下,如果总体为正态分布,样本统计量服从正态分布;如果总体为非正态分布,样本统计量近似服从正态分布。所以,在正态总体的标准差未知,大样本条件下,我们可以用样本标准差ѕ代替标准差σ。构造统计量,原假设,备选假设(1)(检验总体均值与是否有显著差异),(2)(若已知不可能小于,检验总体均值是否显著变大),(3)(若已知不可能大于,检验总体均值是否显著变小),5.2.3总体标准差未知条件下大样本的均值检验对于给定α的显著性水平,其拒绝域:5.2.4总体标准差未知条件下小样本的均值检验5.2.5总体方差的假设检验检验方差的基本思想是:利用样本方差建立一个统计量,并为这个总体方差的统计量构造一个置信区间。这个置信区间包括总体方差的概率是1-α,显著性水平是α。在确定α的水平下,统计量有固定的拒绝区域,在单侧检验中,拒绝域分布在统计量的分布曲线的一边;在双侧检验中,拒绝域分布在统计量的分布曲线的两边。如果检验统计量大于或等于临界值而落入拒绝域,或P值小于显著性水平而落入拒绝域,便拒绝原假设;反之,则接受原假设。5.2.5总体方差的假设检验方差检验的基本步骤如下:(1)提出原假设H0和备择假设H1,H0:;H1:。(2)构造检验统计量,在H0成立的条件下,统计量服从自由度为n-1的分布。(3)确定显著性水平。(4)规定决策规则。(5)进行判断决策。5.2.5总体方差的假设检验(2)构造检验统计量,在H0成立的条件下,统计量服从自由度为n-1的分布。(3)确定显著性水平。(4)规定决策规则。在双侧检验的情况下,拒绝域在两侧,如果检验统计量大于右侧临界值,或小于左侧临界值,则拒绝原假设。若是单侧检验,拒绝区域分布在一侧,具体左侧还是右侧根据备择假设H1的情况而定。(5)进行判断决策。第六章_方差分析6.1方差分析基础6.1.1单因素方差分析6.1.2双因素方差分析6.1.3可重复试验的双因素方差分析6.1.1单因素方差分析当方差分析只涉及一个分类型变量时称为单因素方差分析。基本步骤如下:第一步:建立检验假设。H0:多个样本总体均数相等;H1:多个样本总体均数不相等或不全等。第二步:计算检验统计量F值。第三步:确定P值或F临界值并作出推断结果,当P值小于显著性水平时拒绝原假设。6.1.1单因素方差分析例6-1:某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下,患者:0.841.051.201.201.391.531.671.801.872.072.11健康人:0.540.640.640.750.760.811.161.201.341.351.481.561.87
问该地克山病患者与健康人的血磷值是否不同?显著性水平0.05。6.1.1单因素方差分析结论如下:由F值=6.369183>F临界值=4.300949或P值=0.019337042<显著性水平0.05可知,应拒绝原假设,患者和健康人的血磷值不同,有显著性差异。F(k-1,n-k)0小概率区域,拒绝H0不能拒绝H0F图6-1方差分析的拒绝域与接受域6.1.2双因素方差分析如果对试验结果(相应变量)的影响因素不止一个,我们就要进行多因素方差分析。特别地,当影响因素有两个的时候,就进行双因素方差分析。如果A和B对试验结果的影响是相互独立的,分别判断因素A和因素B对试验指标的影响,这时的双因素方差分析称为无重复试验的双因素方差分析,否则称为可重复双因素方差分析。6.1.2双因素方差分析
例如,为了了解不同品种小麦的产量进行农业试验,选择三块土质相同的试验田,每块又分成面积相等的四小块,把四个不同品种的小麦分别种植在每块试验田里,收获量(kg)如下,检验小麦品种及试验田对收获量是否有显著影响。
6.1.3可重复试验的双因素方差分析可重复的双因素方差分析是用来分析影响某一试验结果的两个不同因素之间关系的一种方法。它与无重复双因素分析相比具有以下几点区别:(1)调查者对两个因素都感兴趣;(2)每个因素的每组值都不止一个观察值;(3)除了每个因素的影响外,分析者也应注意到这些因素之间的相互作用,这些因素的不同组合可能带来不同的影响。6.1.3可重复试验的双因素方差分析例如,为了了解3种改革方案在3个不同地区促使经济效益提高的状况,现抽样调查,得到数据如下表所示,检验哪些因素对经济效益的提高有显著影响。方案地区A1地区A2地区A3B1355340335334357359B2395380378396387380B3367356388372384358试验设计问题一个养蟹户要遇到许多影响生产的因素或因子(factor),如水温,饲料,水质等。要想稳定高产,就要进行各种因素的不同水平(level)的搭配(组合)试验。这里的“水平”就是一个因素可能取的值。如有三种饲料,那饲料因素就有三个水平。而如果水温有四种水平,则水温和饲料就有12种可能的搭配。第六章方差分析试验设计问题试验设计模型可以说就是回归模型的一种。试验设计问题本身有很大一部分是如何设计试验,使得人们有可能用最少的资源得到最好的结果。这里,我们不打算详细讨论如何设计试验,而把主要精力放在试验设计数据的方差分析和建立线性模型上。方差分析方差分析(analysisofvariance,ANOVA)是分析各个自变量对因变量影响的一种方法。这里的自变量就是定性变量的因子及可能出现的称为协变量(covariate)的定量变量。分析结果是由一个方差分析表表示的。方差分析原理为:把因变量的值随着自变量的不同取值而得到的变化进行分解,使得每一个自变量都有一份贡献,最后剩下无法用已知的原因解释的则看成随机误差的贡献。然后用各自变量的贡献和随机误差的贡献进行比较(F检验),以判断该自变量的不同水平是否对因变量的变化有显著贡献。输出就是F-值和检验的一些p-值。下面看一个例子。单因素方差分析
饲料比较数据,n=19头猪,用p=4种饲料喂养一段时间后的重量增加
问题:四种饲料是否不同?
饲料ABCD133.8151.2193.4225.8125.3149.0185.3224.6143.1162.7182.8220.4128.9143.8188.5212.3135.7153.5198.6
SPSS中的数据形式饲料例子(继续):
饲料(fodder)为自变量(单因子),
重量增加(weight)为因变量(一个数量变量,一元)
(SPSS计算机数据形式有所不同)饲料ABCD133.8151.2193.4225.8125.3149.0185.3224.6143.1162.7182.8220.4128.9143.8188.5212.3135.7153.5198.6
均值A=133.36均值B=152.04均值C=189.72均值D=220.78对数据的描述性输出(SPSS)
(ANOVA-CONTRASTS/POSTHOC-LSD,T2/OPTION-DES.,HOMO./MEANPLOT)
DescriptivesWEIGHT
NMeanStd.DeviationStd.Error95%ConfidenceIntervalforMean
MinimumMaximum
LowerBoundUpperBound
A5133.366.807943.04460124.9068141.8132125.3143.1B5152.046.957233.11137143.4015160.6785143.8162.7C5189.726.350352.83996181.8350197.6050182.8198.6D4220.786.105943.05297211.0591230.4909212.3225.8Total19171.5234.311377.87157154.9730188.0481125.3225.8四种饲料的箱图
四种饲料的均值图
模型中的假定:涉及的检验:H0:m1=…=mp线性模型:公式:总平方和=组间平方和+组内平方和其中,SST有自由度n-1,SSB有自由度p-1,SSE有自由度n-p,在正态分布的假设下,如果各组增重均值相等(零假设),则
有自由度为p-1和n-p的F分布.ANOVAWEIGHT
由SPSS可以得到方差分析表:
SumofSquaresDfMeanSquareFSig.BetweenGroups20538.69836846.233157.467.000WithinGroups652.1591543.477
Total21190.85818
该表说明各饲料之间有显著不同.(比较一元总体的)ANOVAWEIGHT(重量)
方差分析表的说明:
SumofSquares(平方和)Df自由度MeanSquare(均方)FSig.BetweenGroups(处理)SSBP-1MSB=SSB/(p-1)F=MSB/MSEP(F>Fa)WithinGroups(误差)SSEn-pMSE=SSE/(n-p)
Total(总和)SSTn-1
这里n为观测值数目p为水平数,Fa满足
P(F>Fa)=a.这是自由度为
p-1和n-p的
F-分布的概率
TestofHomogeneityofVariances(Arobusttest)这是SPSS输出之一,明白即可,不用记住LeveneStatisticdf1df2Sig.0.0243150.995第七章_相关分析7.1相关分析基础7.1.1相关关系与识别7.1.2线性相关7.1.3非线性相关7.1.4Spearman等级相关7.1.5偏相关7.1.6相关系数异于零的显著性检验在描述性统计方法中,一般来说每个问题只涉及一个变量,反映相应指标的变化情况。而对于两个或两个以上相关现象之间的因果关系,除了上一章节中介绍的方差分析之外,我们还将考虑下面的几种分析方法:相关分析和回归分析。下面我们将介绍简单的相关分析。7.1.1相关关系与识别变量之间的依存关系可分为函数关系与相关关系两种。相关关系按程度可分为完全相关、不完全相关和不相关三种;按相关的方向可分为正相关和负相关;按相关的形式可分为线性相关和非线性相关;按变量的多少可分为单相关、偏相关和复相关。识别变量间相关关系最简单的办法是图形法。7.1.1相关关系与识别简单线性相关是变量之间最简单的一种相关关系,衡量线性相关程度的重要指标是相关系数。具体相关系数r的计算公式:7.1.2线性相关在所有相关分析中,最简单的是两个变量之间的线性相关,它只涉及一个自变量和一个因变量。这种相关关系称为直线相关(也叫线性相关),如图7-1所示。7.1.2线性相关相关系数r表示两个变量间相互的关系,并判断其密切程度。r没有单位,在-1到+1之间波动,其绝对值越接近1,两个变量之间的相关关系越密切。不同r值的相关关系如图7-2所示。正相关:Y随X的增加而增加,X亦随Y的增加而增加,0<r<1。负相关:Y随X的增加而减少,X亦随Y的增加而减少,-1<r<0。无相关:不论X增加或减少,Y的大小不受其影响;反之亦然,r=0。7.1.2线性相关7.1.3非线性相关如果两种相关现象之间并不表现为直线的关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。图7-3非线性相关第八章_回归分析8.1回归分析基础8.1.1一元线性回归8.1.2多元线性回归8.1.3逐步回归回归和相关已成为统计学中最基本的概念之一,其分析方法已是最标准、最常用的统计工具之一。从狭义上看,相关分析的任务主要是评判现象之间的相关程度高低以及相关的方向,而回归分析则是在相关分析的基础上进一步借用数学方程将那种显著存在的相关关系表示出来,从而使这种被揭示出的关系具体化并可运用于实践中去。从广义的角度去理解相关和回归,此时回归分析就包含着相关分析。8.1.1一元线性回归回归分析最简单的情形是一个自变量和一个因变量,且它们有线性关系,这叫一元线性回归,即模型为Y=A+BX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ2(σ2>0),σ2与X的值无关。A和B为未知待估的总体参数,又称其为回归系数。8.1.1一元线性回归如何根据样本资料去估计就成为回归分析的基本任务。由此可以假设样本的回归方程如下:、上式中,、和分别为Y、A和B的估计值
变异系数(CoefficientOfVariation,CV)C.V=(
标准偏差SD÷
平均值MN)×100%
同一水平试验结果之和
各因素同一水平均值
参数与统计量参数:反应总体分布特征的指标统称为总体参数,简称参数。常用的有统计量:反应样本分布特征的指标统称为样本统计量,简称统计量。常用总体参数样本统计量平均数方差比率正态分布再生定理
■当总体服从正态分布时,从中抽取样本容量为n的样本,样本均值一定服从正态分布。
■样本均值的期望值和方差?它们与总体的期望值和方差有何关系样本均值的期望值等于总体均值方差(有退还抽样、无退还抽样)(退还抽样)(不退还抽样)单一总体平均数的置信区间的临界值为时的单一总体平均数的区间估计举例,教材144页构造检验的F统计量比较F和F*得出结论~参数估计的统计过程总体均值μ=?从总体中选取几项组成一个简单随机样本对样本数据的汇总提供了样本均值的值用的值对μ值进行推断单因素方差分析步骤提出假设选择显著性水平构造检验的统计量制定决策规则决策
构造检验的F统计量比较F和F*得出结论~单因素方差分析方法的应用方差分析表有关方差分析的几个概念和符号什么是方差?离均差离均差之和离均差平方和(SS)方差(2
S2)也叫均方(MS)(标准差:S)自由度:关系:MS=SS/Xij第i个组的第j个观察值I=1,2,…kJ=1,2,…nini第i个处理组的例数∑ni=NXi=第i组的均数X=总的均数各种符号的意义方差分析的概念对总变异进行分析。看总变异是由哪些部分组成的,这些部分间的关系如何。方差是描述变异的一种指标,方差分析也就是对变异的分析。列举存在的变异及意义1、全部的19个实验数据之间大小不等,存在变异(总变异)。2、各个组间存在变异:反映处理因素之间的作用,以及随机误差。3、各个组内个体间数据不同:反映了观察值的随机误差。各种变异的表示方法各种变异的表示方法SS总总MS总SS组内组内MS组内SS组间组间MS组间三者之间的关系:SS总=SS组内+SS组间总=组内+组间统计量F的计算及其意义
F=MS组间/MS组内自由度:组间=组数-1组内=N-组数
通过这个公式计算出统计量F,查表求出对应的P值,与进行比较,以确定是否为小概率事件。(与t检验公式进行对比)方差分析的基本思想根据资料的设计类型,即变异的不同来源,将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用加以解释,通过比较不同来源变异的均方(MS),借助F分布做出统计推断,从而了解该因素对观察指标有无影响。应用条件各样本是相互独立的随机样本各样本来自正态分布各样本方差相等,即方差齐。第二节成组设计的多个样本均数比较
(单因素方差分析)什么是成组设计?举例。39页。注意无效假设和备择假设的提法。四组不同摄入方式人的血浆游离吗啡水平静脉点滴肌肉注射皮下注射口服1212912101678715688911109714均数101389.5完整书写方差分析的过程
建立假设:
H0:4组病人血浆游离吗啡水平的总体均数相等1=2=
3=
4H1:4组病人血浆游离吗啡水平的总体均数全不相等或不全相等H1与H0相反,如果H0被否决,则H1成立。确定显著性水平,用表示。区分大小概率事件的标准,常取0.05。计算统计量F:F=MS组间/MS组内根据资料的性质选择不同的统计方法。注意都是在H0成立的条件下进行计算。计算概率值P:P的含义。做出推论:统计学结论和专业结论。方差分析表分析相关关系的定量方法相关系数的含义r简单线性回归模型(总体)因变量自变量参数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大型影视项目专用发电机组与拍摄场地租赁协议
- 铁塔作业安全协议书
- 压路机租赁合同协议书
- 项目人员服务协议书
- 中关村履约监管协议书
- 质量问题协议协议书
- 退场合同终止协议书
- 合伙向他人购买协议书
- 酒醉责任自负协议书
- 便利店供货合同协议书
- 校园ip地址规划方案表格
- 威图电柜空调SK3304500使用说书
- 中国近现代外交史智慧树知到期末考试答案章节答案2024年外交学院
- 河南省2022汉字大赛题库
- 2023年湖北宜昌高新区社区专职工作人员(网格员)招聘考试真题及答案
- 2024年江苏省知识产权竞赛参考试题库(含答案)
- 《导数及其概念》课件
- 小学英语面试试讲(六大课型)
- 国培教师个人成长案例3000字
- 电工技能竞赛实操试题库完整
- 水土保持工程监理工作总结报告(格式)
评论
0/150
提交评论