统计学第五版总复习_第1页
统计学第五版总复习_第2页
统计学第五版总复习_第3页
统计学第五版总复习_第4页
统计学第五版总复习_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据的概括性度量4.1集中趋势的度量集中趋势(centraltendency)1、一组数据向其中心值靠拢的倾向和程度2、测度集中趋势就是寻找数据水平的代表值或中心值3、不同类型的数据用不同的集中趋势测度值4、低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据分类数据:众数(mode)1、一组数据中出现次数最多的变量值2、适合于数据量较多时使用3、不受极端值的影响4、一组数据可能没有众数或有几个众数5、主要用于分类数据,也可用于顺序数据和数值型数据6、(不惟一性):无众数、一个众数、多于一个众数顺序数据:中位数和分位数=1\*alphabetica中位数(median)1、排序后处于中间位置上的值2、不受极端值的影响3、主要用于顺序数据,也可用数值型数据,但不能用于分类数据(中位数)位置确定:中位数位置=(n+1)/2(中位数)位置确定:中位数位置=(n+1)/2数值确定:Me=X(n+1/2)n为奇数Me=1/2X(n/2)+1/2X(n/2+1)n为偶数b四分位数(quartile)排序后处于25%和75%位置上的值2、不受极端值的影响3、计算公式:QL=n/4QU=3n/4数值型数据:平均数(mean)1.、集中趋势的最常用测度值2、一组数据的均衡点所在3、体现了数据的必然性特征4、易受极端值的影响5、有简单平均数和加权平均数之分6、根据总体数据计算的,称为平均数,记为µ;根据样本数据计算的,称为样本平均数,记为x分类:简单平均数、加权平均数、几何平均数a几何平均数(geometricmean)1、n个变量值乘积的n次方根2、适用于对比率数据的平均3、主要用于计算平均增长率4、计算公式:可看做为平均数的一种变形:众数、中位数、平均数的特点和应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用4.2离散程度的度量分类数据:异众比率(variationratio)1、对分类数据离散程度的测度2、非众数组的频数占总频数的比例3、计算公式为用于衡量众数的代表性顺序数据:四分位差(quartiledeviation)1、对顺序数据离散程度的测度2、也称为内距或四分间距3、上四分位数与下四分位数之差Qd=QU–QL

4、反映了中间50%数据的离散程度5、不受极端值的影响6、用于衡量中位数的代表性数值型数据:方差和标准差a极差(range)1、一组数据的最大值与最小值之差2、离散程度的最简单测度值3、易受极端值影响4、未考虑数据的分布5、计算公式:R=max(Xi)-min(Xi)b平均差(meandeviation)1、各变量值与其平均数离差绝对值的平均数2、能全面反映一组数据的离散程度3、数学性质较差,实际中应用较少4、计算公式:未分组数据组距分组数据

c方差和标准差(varianceandstandarddeviation)1、数据离散程度的最常用测度值2、反映了各变量值与均值的平均差异3、根据总体数据计算的,称为总体方差(标准差),记为σ2(σ);根据样本数据计算的,称为样本方差(标准差),记为s2(s)样本方差用自由度n-1样本方差用自由度n-1去除方差的计算公式标准差的计算公式未分组数据组距分组数据e自由度(degreeoffreedom)1、自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差2、从字面涵义来看,自由度是指一组数据中可以自由取值的个数3、当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值4、按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k1.样本有3个数值,即x1=2,x2=4,x3=9,则`x(平均)=5。当`x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值2.为什么样本方差的自由度为什么是n-1呢?因为在计算离差平方和时,必须先求出样本均值`x,而`x则是附件给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个3.样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量f总体方差和标准差(PopulationvarianceandStandarddeviation)方差的计算公式标准差的计算公式未分组数据组距分组数据相对位置的度量:标准分数(standardscore)1、也称标准化值2、对某一个值在一组数据中相对位置的度量3、可用于判断一组数据是否有离群点(outlier)4、用于对变量的标准化处理5、计算公式为性质:z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1经验法则:当一组数据对称分布时•约有68%的数据在平均数加减1个标准差的范围之内•约有95%的数据在平均数加减2个标准差的范围之内•约有99%的数据在平均数加减3个标准差的范围之内切比雪夫不等式(Chebyshev’sinequality)1、如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用2、切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”3、对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数相对离散程度:离散系数(coefficientofvariation)1、标准差与其相应的均值之比2、对数据相对离散程度的测度3、消除了数据水平高低和计量单位的影响4、用于对不同组别数据离散程度的比较5、计算公式为:4.3偏态与峰态的度量偏态(skewness)1、统计学家Pearson于1895年首次提出2、数据分布偏斜程度的测度2、偏态系数=0为对称分布3、偏态系数>0为右偏分布4、偏态系数<0为左偏分布5、偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低6、计算公式为:根据原始数据计算.根据分组数据计算峰态(kurtosis)1、统计学家Pearson于1905年首次提出2、数据分布扁平程度的测度3、峰态系数=0扁平峰度适中4、峰态系数<0为扁平分布5、峰态系数>0为尖峰分布6、计算公式为:根据原始数据计算根据分组数据计算概率与概率分布5.1随机事件及其概率a试验(experiment)1、在相同条件下,对事物或现象所进行的观察例如:掷一枚骰子,观察其出现的点数2、试验的特点可以在相同的条件下重复进行每次试验的可能结果可能不止一个,但试验的所有可能结果在试验之前是确切知道的在试验结束之前,不能确定该次试验的确切结果b事件1、事件(event):随机试验的每一个可能结果(任何样本点集合)2、随机事件(randomevent):每次试验可能出现也可能不出现的事件3、必然事件(certainevent):每次试验一定出现的事件,用Ω表示

4、.不可能事件(impossibleevent):每次试验一定不出现的事件,用Ф表示

c事件与样本空间1、基本事件(elementaryevent)一个不可能再分的随机事件例如:掷一枚骰子出现的点数2、样本空间(samplespace)一个试验中所有基本事件的集合,用Ω表示例如:在掷枚骰子的试验中,Ω={1,2,3,4,5,6}5.2概率的性质与运算法则概率的古典定义如果某一随机试验的结果有限,而且各个结果在每次试验中出现的可能性相同,则事件A发生的概率为该事件所包含的基本事件个数m与样本空间中所包含的基本事件个数n的比值,记为:概率的统计定义在相同条件下进行n次随机试验,事件A出现m次,则比值m/n称为事件A发生的频率。随着n的增大,该频率围绕某一常数P上下摆动,且波动的幅度逐渐减小,取向于稳定,这个频率的稳定值即为事件A的概率,记为:主观概率定义1、对一些无法重复的试验,确定其结果的概率只能根据以往的经验人为确定2、概率是一个决策者对某事件是否发生,根据个人掌握的信息对该事件发生可能性的判断3、例如,我认为2003年的中国股市是一个盘整年概率的性质与运算法则1、非负性对任意事件A,有0≤P(A)≤12、规范性必然事件的概率为1;不可能事件的概率为0。即P(Ω)=1;P(Ф)=03、可加性若A与B互斥,则P(A∪B)=P(A)+P(B)推广到多个两两互斥事件A1,A2,…,An,有P(A1∪A2∪…∪An)=P(A1)+P(A2)+…+P(An)4、概率的加法法则(additiverule)a法则一1.两个互斥事件之和的概率,等于两个事件概率之和。设A和B为两个互斥事件,则P(A∪B)=P(A)+P(B)2.事件A1,A2,…,An两两互斥,则有P(A1∪A2∪…∪An)=P(A1)+P(A2)+…+P(An)b法则二对任意两个随机事件A和B,它们和的概率为两个事件分别概率的和减去两个事件交的概率,即P(A∪B)=P(A)+P(B)-P(A∩B)条件概率(conditionalprobability)在事件B已经发生的条件下,求事件A发生的概率,称这种概率为事件B发生条件下事件A发生的条件概率,记为:概率的乘法公式(multiplicativerule)1、用来计算两事件交的概率2、以条件概率的定义为基础3、设A、B为两个事件,若P(B)>0,则P(AB)=P(B)P(A|B),或P(AB)=P(A)P(B|A)事件的独立性(independence)1、一个事件的发生与否并不影响另一个事件发生的概率,则称两个事件独立2、若事件A与B独立,则P(B|A)=P(B),P(A|B)=P(A)3、此时概率的乘法公式可简化为P(AB)=P(A)·P(B)4、推广到n个独立事件,有P(A1A2…An)=P(A1)P(A2)…P(An)全概公式设事件A1,A2,…,An两两互斥,A1+A2+…+An=Ω(满足这两个条件的事件组称为一个完备事件组),且P(Ai)>0(i=1,2,…,n),则对任意事件B,有

我们把事件A1,A2,…,An看作是引起事件B发生的所有可能原因,事件B能且只能在原有A1,A2,…,An之一发生的条件下发生,求事件B的概率就是上面的全概公式贝叶斯公式(逆概公式)1、与全概公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因2/设n个事件A1,A2,…,An两两互斥,A1+A2+…+An=Ω(满足这两个条件的事件组称为一个完备事件组),且P(Ai)>0(i=1,2,…,n),则

5.3离散型随机变量及其分布随机变量(randomvariables)1.一次试验的结果的数值性描述2.一般用X、Y、Z来表示3.例如:投掷两枚硬币出现正面的数量4.根据取值情况的不同分为离散型随机变量和连续型随机变量A离散型随机变量(discreterandomvariables)1.随机变量X取有限个值或所有取值都可以逐个列举出来X1,X2,…

2.以确定的概率取这些不同的值3.离散型随机变量的一些例子试验随机变量可能的取值抽查100个产品一家餐馆营业一天电脑公司一个月的销售销售一辆汽车取到次品的个数顾客数销售量顾客性别0,1,2,…,1000,1,2,…0,1,2,…男性为0,女性为1B连续型随机变量(continuousrandomvariables)1.随机变量X取无限个值2.所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点c离散型随机变量的数学期望1.在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其取相对应的概率pi乘积之和2.描述离散型随机变量取值的集中程度3.计算公式为d离散型随机变量的方差1.随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X)2.描述离散型随机变量取值的分散程度3.计算公式为二项分布与贝努里试验有关e二项分布(Binomialdistribution)1.进行n次重复试验,出现“成功”的次数的概率分布称为二项分布2.设X为n次重复试验中事件A出现的次数,X取x的概率为1.显然,对于P{X=x}0,x=1,2,…,n,有2.同样有

3.当n=1时,二项分布化简为4.二项分布的数学期望为E(X)=np

二项分布的方差为D(X)=npqf泊松分布(Poissondistribution)1.用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布2.泊松分布的例子一个城市在一个月内发生的交通事故次数消费者协会一个星期内收到的消费者投诉次数人寿保险公司每天收到的死亡声明的人数—给定的时间间隔、长度、面积、体积内“成功”的平均数—给定的时间间隔、长度、面积、体积内“成功”的平均数e=2.71828x—给定的时间间隔、长度、面积、体积内“成功”的次数4.泊松分布的数学期望为E(X)=

方差为D(X)=5.泊松分布(作为二项分布的近似)5.1当试验的次数n很大,成功的概率p很小时,可用泊松分布来近似地计算二项分布的概率,即5.2实际应用中,当P0.25,n>20,np5时,近似效果良好。

5.4连续型随机变量的概率分布连续型随机变量的概率分布1.连续型随机变量可以取某一区间或整个实数轴上的任意一个值2.它取任何一个特定的值的概率都等于03.不能列出每一个值及其相应的概率4.通常研究它取某一区间值的概率5.用数学函数的形式和分布函数的形式来描述概率密度函数设X为一连续型随机变量,x为任意实数,X的概率密度函数记为f(x),它满足条件2.f(x)不是概率3.在平面直角坐标系中画出f(x)的图形,则对于任何实数x1<x2,P(x1<X≤x2)是该曲线下从x1到x2的面积分布函数1.连续型随机变量的概率也可以用分布函数F(x)来表示2.分布函数定义为3.根据分布函数,P(a<X<b)可以写为4.分布函数与密度函数的图示4.1.密度函数曲线下的面积等于14.2.分布函数是曲线下小于X0的面积连续型随机变量的数学期望:方差:均匀分布(uniformdistribution)1.若随机变量X的概率密度函数为称X在区间[a,b]上均匀分布2.数学期望和方差分别为正态分布1.描述连续型随机变量的最重要的分布2.可用于近似离散型随机变量的分布f(xf(x)=随机变量X的频数

=总体方差=3.14159;e=2.71828x=随机变量的取值(-<x<+)=总体均值3.经典统计推断的基础概率是曲线下的面积正态分布函数的性质1.概率密度函数在x的上方,即f(x)>02.正态曲线的最高点在均值µ,它也是分布的中位数和众数3.正态分布是一个分布族,每一特定正态分布通过均值µ和标准差σ来区分。µ决定了图形的中心位置,σ决定曲线的平缓程度,即宽度4.曲线f(x)相对于均值m对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交5.正态曲线下的总面积等于16.随机变量的概率由曲线下的面积给出标准正态分布函数1.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布

2.标准正态分布的概率密度函数3.标准正态分布的分布函数标准正态分布表的使用1.对于负的x,可由Ф(-x)=1-Ф(x)得到2.对于标准正态分布,即X~N(0,1),有P(a≤X≤b)=Ф(b)-Ф(a)P(|X|≤a)=2Ф(a)-13.对于一般正态分布,即X~N(µ,σ),有二项分布的正态近似1.当n很大时,二项随机变量X近似服从正态分布N{np,np(1-p)}2.对于一个二项随机变量X,当n很大时,求P(x1Xx2)时可用正态分布近似为第6章统计量及其抽样分布统计量统计量设X1,X2,…,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…,Xn),不依赖于任何未知参数,则称函数T(X1,X2,…,Xn)是一个统计量样本均值、样本比例、样本方差等都是统计量

2、统计量是样本的一个函数

3、统计量是统计推断的基础次序统计量1、一组样本观测值X1,X2,…,Xn由小到大的排序X(1)≤X(2)≤…≤X(i)≤…≤X(n)后,称X(1),X(2),…,X(n)为次序统计量

2、中位数、分位数、四分位数等都是次序统计量

6.2关于分布的几个概念抽样分布1、样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布2、随机变量是样本统计量样本均值,样本比例,样本方差等3、结果来自容量相同的所有可能样本

4、提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据6.3由正态分布导出的几个重要分布卡方分布由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson)分别于1875年和1900年推导出来2、设,则3、令,则Y服从自由度为1的分布,即

4、当总体,从中抽取容量为n的样本,则

5、卡方分布的性质和特点:(1)分布的变量值始终为正

(2)分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称

(3)期望为:E()=n,方差为:D()=2n(n为自由度)

(4)可加性:若U和V为两个独立的分布随机变量,U~X2(n1),V~X2(n2),则U+V这一随机变量服从自由度为n1+n2的X2分布t分布1、高塞特(W.S.Gosset)于1908年在一篇以“Student”(学生)为笔名的论文中首次提出

2、t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散

3、一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布

F分布由统计学家费希尔(R.A.Fisher)提出的,以其姓氏的第一个字母来命名设若U为服从自由度为n1的X2分布,即U~X2(n1),V为服从自由度为n2的X2分布,即V~X2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为,6.4样本均值的分布与中心极限定理样本均值的抽样分布1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值µ的理论基础 样本均值的抽样分布与中心极限定理当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)中心极限定理从均值为µ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布第7章参数估计7.1参数估计的一般问题估计量与估计值1.估计量:用于估计总体参数的随机变量如样本均值,样本比例,样本方差等例如:样本均值就是总体均值µ的一个估计量2.参数用θ表示,估计量用^θ表示3.估计值:估计参数时计算出来的统计量的具体值如果样本均值`x=80,则80就是µ的估计值点估计与区间估计点估计1.用样本的估计量的某个取值直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计2.无法给出估计值接近总体参数程度的信息虽然在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量区间估计在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量置信水平1.将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平表示为(1-α)%α为是总体参数未在区间内的比例3.常用的置信水平值有99%,95%,90%相应的α为0.01,0.05,0.10;相应的2.58,1.96,1.65。置信区间1.由样本统计量所构造的总体参数的估计区间称为置信区间2.统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间3.用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个总体参数以一定的概率落在这一区间的表述是错误的评价估计量的标准无偏性有效性一致性估计量抽样分布的数学期望等于被估计的总体参数对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效随着样本量的增大,估计量的值越来越接近被估计的总体参数7.2一个总体参数的区间估计一个总体参数的区间估计总体参数符号表示样本统计量均值比例方差总体均值的区间估计(正态总体、σ2已知,或非正态总体、大样本)总体均值的区间估计(大样本)1.假定条件(1)总体服从正态分布,且方差(σ2)已知(2)如果不是正态分布,可由正态分布来近似(n≥30)2.使用正态分布统计量z3.总体均值µ在1-α置信水平下的置信区间为总体均值的区间估计(正态总体、σ2未知、小样本)1.假定条件(1)总体服从正态分布,但方差(σ2)未知(2)小样本(n<30)2.使用t分布统计量3.总体均值µ在1-α置信水平下的置信区间为t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布总体比例的区间估计1.假定条件(1)总体服从二项分布(2)可以由正态分布来近似2.使用正态分布统计量z3.总体比例π在1-α置信水平下的置信区间为总体方差的区间估计1.估计一个总体的方差或标准差2.假设总体服从正态分布3.总体方差σ2的点估计量为s2,且4.总体方差在1-α置信水平下的置信区间为一个总体参数的区间估计(小结)7.3两个总体参数的区间估计两个总体参数的区间估计总体参数符号表示样本统计量均值差比例差方差比两个总体均值之差的区间估计(独立大样本)1.假定条件(1)两个总体都服从正态分布,σ12、σ22已知(2)若不是正态分布,可以用正态分布来近似(n1≥30和n2≥30)(3)两个样本是独立的随机样本2.使用正态分布统计量z3.1σ12、σ22已知时,两个总体均值之差µ1-µ2在1-α置信水平下的置信区间为3.2σ12、σ22未知时,两个总体均值之差µ1-µ2在1-α置信水平下的置信区间为两个总体均值之差的区间估计(独立小样本)两个总体均值之差的估计(小样本:σ12=σ22)1. 假定条件(1)两个总体都服从正态分布(2)两个总体方差未知但相等:σ12=σ22)(3)两个独立的小样本(n1<30和n2<30)2.总体方差的合并估计量3.估计量`x1-`x2的抽样标准差4.1两个样本均值之差的标准化4.2.两个总体均值之差µ1-µ2在1-α置信水平下的置信区间为两个总体均值之差的估计(小样本:σ12≠σ22)1. 假定条件(1)两个总体都服从正态分布(2)两个总体方差未知且不相等:σ12≠σ22)(3)两个独立的小样本(n1<30和n2<30)自由度:2.使用统计量自由度:3.两个总体均值之差m1-m2在1-a置信水平下的置信区间为两个总体均值之差的区间估计(匹配样本)两个总体均值之差的估计(匹配大样本)1.假定条件(1)两个匹配的大样本(n1≥30和n2≥30)(2)两个总体各观察值的配对差服从正态分布2.两个总体均值之差µd=µ1-µ2在1-α置信水平下的置信区间为(d—为对应差值的均值,σd为对应差值的标准差)两个总体均值之差的估计(匹配小样本)1.假定条件(1)两个匹配的小样本(n1<30和n2<30)(2)两个总体各观察值的配对差服从正态分布2.两个总体均值之差µd=µ1-µ2在1-α置信水平下的置信区间为两个总体比例之差区间的估计1.假定条件(1)两个总体服从二项分布(2)可以用正态分布来近似(3)两个样本是独立的2. 两个总体比例之差π1-π2在1-α置信水平下的置信区间为两个总体方差比的区间估计1.比较两个总体的方差比2.用两个样本的方差比来判断如果S12/S22接近于1,说明两个总体方差很接近如果S12/S22远离1,说明两个总体方差之间存在差异3.总体方差比在1-α置信水平下的置信区间为,两个总体参数的区间估计(小结)7.4样本量的确定估计总体均值时样本量的确定估计总体均值时样本量n为,其中2.样本量n与总体方差σ2、估计误差E、可靠性系数Z或t之间的关系为(1)与总体方差成正比(2)与估计误差的平方成反比(3)与可靠性系数成正比3.样本量的圆整法则:当计算出的样本量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等估计总体比例时样本量的确定1.根据比例区间估计公式可得样本量n为,其中2.E的取值一般小于0.13.π未知时,可取使方差达到最大的值0.5第八章假设检验8.1假设检验的基本问题一、假设问题的提出(一)什么是假设?对总体参数的的数值所作的一种陈述总体参数包括总体均值、比例、方差等分析之前必需陈述(二)什么是假设检验?1.事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立2.有参数假设检验和非参数假设检验3.采用逻辑上的反证法,依据统计上的小概率原理(三)提出原假设和备择假设A什么是原假设?1.待检验的假设,又称“0假设”2.研究者想收集证据予以反对的假设3. 总是有等号=,≤或≥4. 表示为H0H0:µ=某一数值指定为=号,即≤或≥例如,H0:µ=3190(克)B什么是备择假设?1.与原假设对立的假设,也称“研究假设”2.研究者想收集证据予以支持的假设,总是有不等号:≠,<或>3.表示为H1H1:µ<某一数值,或µ>某一数值例如,H1:µ<3910(克),或µ>3910(克)二、假设检验中的两类错误(决策风险)1. 第一类错误(弃真错误)原假设为真时拒绝原假设会产生一系列后果第一类错误的概率为α被称为显著性水平2. 第二类错误(取伪错误)原假设为假时接受原假设第二类错误的概率为β三、假设检验的流程提出假设→确定适当的检验统计量→规定显著性水平α→计算检验统计量的值→作出统计决策(一)什么是检验统计量?1. 用于假设检验决策的统计量2. 选择统计量的方法与参数估计相同,需考虑是大样本还是小样本总体方差已知还是未知3.检验统计量的基本形式为(二)规定显著性水平α1.是一个概率值2.原假设为真时,拒绝原假设的概率被称为抽样分布的拒绝域3.表示为α常用的α值有0.01,0.05,0.104.由研究者事先确定(三)做出统计决策1.计算检验的统计量2.根据给定的显著性水平α,查表得出相应的临界值Zα或Zα/2,tα或tα/23.将检验统计量的值与α水平的临界值进行比较4.得出拒绝或不拒绝原假设的结论(四)利用P值进行决策1.是一个概率值2.如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积3.被称为观察到的(或实测的)显著性水平H0能被拒绝的最小值双侧检验的p值左侧检验的p值右侧检验的p值假设研究的问题双侧检验左侧检验右侧检验H0=³£H1≠<>4.利用P值进行检验(决策准则)4.1单侧检验若p-值>α,不拒绝H0若p-值<α,拒绝H04.2双侧检验若p-值>α/2,不拒绝H0若p-值<α/2,拒绝H0(四)双侧检验和单侧检验假设的形式双侧检验(原假设与备择假设的确定)1.属于决策中的假设检验2.不论是拒绝H0还是不拒绝H0,都必需采取相应的行动措施3.例如,某种零件的尺寸,要求其平均长度为10cm,大于或小于10cm均属于不合格我们想要证明(检验)大于或小于这两种可能性中的任何一种是否成立4.建立的原假设与备择假设应为H0:µ=10H1:µ≠108.2一个总体参数的检验一个总体参数的检验一、总体均值检验(一)总体均值的检验(σ2已知或σ2未知大样本)1. 假定条件总体服从正态分布不服从正态分布,可用正态分布来近似(n30)2.使用Z统计量σ2已知:σ2未知:(二)总体均值的检验(σ2未知小样本)1. 假定条件总体为正态分布σ2未知,且小样本2. 使用t统计量二、总体比例的检验(Z检验)(一)一个总体比例检验1.假定条件有两类结果总体服从二项分布可用正态分布来近似2.比例检验的Z统计量,其中p0为假设的总体比例三、总体方差的检验(χ2检验)1.检验一个总体的方差或标准差2.假设总体近似服从正态分布3.检验统计量,其中S2为样本方差,σ02为假设的总体方差8.3两个总体参数的检验两个正态总体参数的检验独立样本总体均值之差的检验(一)两个总体均值之差的检验(σ12,σ22已知)1.假定条件两个样本是独立的随机样本两个总体都是正态分布若不是正态分布,可以用正态分布来近似(n1≥30和n2≥30)2.检验统计量为(二)两个总体均值之差的检验(σ12,σ22未知且不相等,小样本)1.检验具有不等方差的两个总体的均值2.假定条件两个样本是独立的随机样本两个总体都是正态分布两个总体方差未知且不相等σ12≠σ223.检验统计量(三)两个总体均值之差的检验(σ12,σ22未知但相等,小样本)1.检验具有等方差的两个总体的均值2.假定条件两个样本是独立的随机样本两个总体都是正态分布两个总体方差未知但相等σ12=σ223.检验统计量(四)两个匹配(或配对)样本的均值检验两个总体均值之差的检验(匹配样本的t检验)1.检验两个总体的均值配对或匹配重复测量(前/后)2. 假定条件两个总体都服从正态分布如果不服从正态分布,可用正态分布来近似(n1≥30,n2≥30)3.匹配样本的t检验(假设的形式)假设研究的问题没有差异有差异总体1³总体2总体1<总体2总体1³总体2总体1>总体2H0mD=0mD³0mD£0H1mD¹0mD<0mD>0注:Di=X1i-X2i,对第i对观察值4.检验统计量D0:假设的差值D0:假设的差值自由度df=nD-1样本差值均值样本差值标准差两个总体比例之差的检验1.假定条件两个总体是独立的两个总体都服从二项分布可以用正态分布来近似2.检验统计量三、两个总体方差比的检验1.假定条件两个总体都服从正态分布,且方差相等两个独立的随机样本2.假定形式H0:σ12=σ22或H0:σ12≥σ22(或<)H1:σ12≠σ22H1:σ12≤σ22(或>)3.检验统计量F=S12/S22~F(n1–1,n2–1)方差分析10.1方差分析引论方差分析及其有关术语什么是方差分析(ANOVA)?(analysisofvariance)1.检验多个总体均值是否相等通过分析数据的误差判断各总体均值是否相等2.研究分类型自变量对数值型因变量的影响一个或多个分类型自变量两个或多个(k个)处理水平或分类一个数值型因变量3.有单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量方差分析中的有关术语1.因素或因子(factor)所要检验的对象分析行业对投诉次数的影响,行业是要检验的因子2.水平或处理(treatment)因子的不同表现零售业、旅游业、航空公司、家电制造业3.观察值在每个因素水平下得到的样本数据每个行业被投诉的次数4.试验这里只涉及一个因素,因此称为单因素4水平的试验5.总体因素的每一个水平可以看作是一个总体零售业、旅游业、航空公司、家电制造业是4个总体6.样本数据被投诉次数可以看作是从这4个总体中抽取的样本数据二、方差分析的基本思想和原理1.散点图观察不能提供充分的证据证明不同行业被投诉的次数之间有显著差异这种差异可能是由于抽样的随机性所造成的2.需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差这个名字也表示:它是通过对数据误差来源的分析判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源(一)两类误差1.随机误差因素的同一水平(总体)下,样本各观察值之间的差异比如,同一行业下不同企业被投诉次数之间的差异这种差异可以看成是随机因素的影响,称为随机误差2.系统误差因素的不同水平(不同总体)之间观察值的差异比如,不同行业之间的被投诉次数之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差(二)误差平方和—SS1.数据的误差用平方和(sumofsquares)表示2.组内平方和(withingroups)因素的同一水平下数据误差的平方和比如,零售业被投诉次数的误差平方和只包含随机误差3.组间平方和(betweengroups)因素的不同水平之间数据误差的平方和比如,4个行业被投诉次数之间的误差平方和既包括随机误差,也包括系统误差(三)均方—MS1.平方和除以相应的自由度2.若原假设成立,组间均方与组内均方的数值就应该很接近,它们的比值就会接近13.若原假设不成立,组间均方会大于组内均方,它们之间的比值就会大于14.当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,即自变量对因变量有影响判断行业对投诉次数是否有显著影响,也就是检验被投诉次数的差异主要是由于什么原因所引起的。如果这种差异主要是系统误差,说明不同行业对投诉次数有显著影响方差分析的基本假定1.每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本比如,每个行业被投诉的次数必须服从正态分布2.各个总体的方差必须相同各组观察数据是从具有相同方差的总体中抽取的比如,4个行业被投诉次数的方差都相等3.观察值是独立的比如,每个行业被投诉的次数与其他行业被投诉的次数独立4.1在上述假定条件下,判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的4个正态总体的均值是否相等4.2.如果4个总体的均值相等,可以期望4个样本的均值也会很接近4个样本的均值越接近,推断4个总体均值相等的证据也就越充分样本均值越不同,推断总体均值不同的证据就越充分5.1如果原假设成立,即H0:µ1=µ2=µ3=µ44个行业被投诉次数的均值都相等意味着每个样本都来自均值为µ、方差为σ2的同一正态总体5.2若备择假设成立,即H1:µi(i=1,2,3,4)不全相等至少有一个总体的均值是不同的4个样本分别来自均值不同的4个正态总体问题的一般提法1.设因素有k个水平,每个水平的均值分别用m1,m2,¼,mk表示2.要检验k个水平(总体)的均值是否相等,需要提出如下假设:H0:µ1=µ2=...=µkH1:µ1,µ2,。。。µk不全相等3.设µ1为零售业被投诉次

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论