版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数理统计基础第一页,共一百页,编辑于2023年,星期三培训大纲
一、发展简史
二、数理统计的基本知识
三、随机变量的数字特征
四、分布
五、假设检验第二页,共一百页,编辑于2023年,星期三概率论的起源与初步发展1657年,荷兰数学家惠更斯(C.Huyens,
1629-1695)发表了《论赌博中的计算》,这是最早的概率论著作。这些数学家的著述中所出现的第一批概率论概念与定理,标志着概率论的诞生。而概率论最终成为一门独立的数学分支,真正的奠基人是伯努利(JacobBernoulli,1654-1705)。他的主要贡献是建立了概率论中的第一个极限定理我们称为“伯努利大数定律”。即“在多次重复试验中,频率有越趋稳定的趋势”。这一定理是在他去世后,即1713年,发表在他的遗著《猜度术》中。第三页,共一百页,编辑于2023年,星期三19世纪概率论朝着建立完整的理论体系和更广泛的应用方向发展.其中为之作出较大贡献的代表性人物有:法国数学家拉普拉斯(PierreSimonLaplace,1749~1826)德国数学家高斯(C.F.Gauss,1777.4.30~1855.2.23)法国物理学家泊松(S.D.Poisson,1781~1840)等.特别是数学家拉普拉斯,他是严密的、系统的科学概率论的最卓越的创建者,在1812年出版的《概率的分析理论》中,拉普拉斯以强有力的分析工具处理了概率论的基本内容,实现了从组合技巧向分析方法的过渡,以往零散的结果系统化,开辟了概率论发展的新时期。
泊松则推广了大数定理,提出了著名的泊松分布。俄国数学家切比雪夫(Chebyshev,1821~1894)建立了关于独立随机变量序列的大数定律,推广了棣莫弗—拉普拉斯的极限定理。第四页,共一百页,编辑于2023年,星期三
高斯从描述天文观测的误差而引进正态分布,并使用最小二乘法作为参数的估计方法,是近代数理统计学发展初期的重大事件。
英国生物学家高尔顿(F.Galton,1822~1911)在回归方面的先驱性工作,也是这个时期中的主要发展,他在遗传研究中为了弄清父子两辈特征的相关关系,揭示了统计方法在生物学研究中的应用,他引进回归直线、相关系数的概念,创始了回归分析。高尔顿的学生皮尔逊(K.Pearson,1856~1936)在1900年提出了检验拟合优度的统计量。他还提出了矩估计法。
皮尔逊的学生英国医生戈塞特(W.S.Gosset,笔student1876~1937)于1908年导出了t的精确分布,开了小样本理论的先河。英国实验遗传学家兼统计学家费歇尔(1890~1962),是将数理统计作为一门数学学科的奠基者,在样本相关系数的分布、方差分析、实验设计等方面的研究中做出了重要贡献。第五页,共一百页,编辑于2023年,星期三统计描述统计分析统计推断假设检验参数估计区间估计点估计统计指标集中趋势指标离散趋势指标统计图表
总体抽样推断样本第六页,共一百页,编辑于2023年,星期三培训大纲
一、发展简史
二、数理统计的基本知识
三、随机变量的数字特征
四、分布
五、假设检验第七页,共一百页,编辑于2023年,星期三1、随机现象、随机事件与随机变量
随机现象:某些现象发生的结果在一次观察中具有不确定性,而在大量的重复观察中表现出某种规律性。
随机事件:进行随机试验时,某事件在一定条件下可能出现也可能不出现,其结果事先不能肯定,该事件则是随机事件。
随机变量:用来代表随机事件的变量。2、概率与频率
频率:某变量值出现的次数(频数)/重复观察的总次数。对一个随机事件重复观察时,尽管每进行n次试验,所得到的频率可能各不相同,但随着n的增大,频率会逐渐稳定在某个常数附近波动。频率的稳定性说明随机事件发生的可能性大小是事件本身固有的一种客观属性。
概率:表示随机事件发生可能性大小的数值。(用P表示)通常由频率的稳定值反映。确定性事件:(1)必然事件P=1,(2)不可能事件P=0;随机性事件:概率取值介于0~1之间。概率越接近0,表明事件发生的可能性越小。概率越接近1,表明事件发生的可能性越大。第八页,共一百页,编辑于2023年,星期三概率和频率有区别:
频率是已经进行试验的结果,描述的是样本中事件出现的可能性大小(样本信息),样本不同,其值也不同,具有偶然性;
概率刻画的则是总体中随机事件出现的可能性大小(总体信息),是一种客观存在,是个确定数值,具有必然性。3、小概率原理:概率很小的随机事件在一次或少量实际观察中是不可能发生的(尽管理论上有发生的可能)小概率:P≤0.05或P≤0.01
4、总体和个体
在统计学中,常把所研究对象的全体称为总体,而把组成总体的每个元素叫做个体。总体:指同质的观察单位某种变量值的集合;(同质是指被研究指标的主要影响因素相同)总体根据有无时间和空间的限制又分为有限总体和无限总体第九页,共一百页,编辑于2023年,星期三5、样本抽样:
为了推断总体的性态而从总体中抽取部分个体的过程。简单随机抽样:
抽取的个体是相互独立的随机变量且都与总体同分布的抽样。由简单随机抽样所得样本(X1,X2,…,Xn)称为简单随机样本。从总体X中随机抽取n个个体X1,X2,Xn所组成的一个个体组(X1,X2,,Xn),称为总体X的一个样本,个体的数目n称为样本容量。通过试验对样本(X1,X2,,Xn)进行观测,得到的n个确定的实验数据(x1,x2,,xn),称为样本(X1,X2,,Xn)的一个观察值,简称样本值,也称为样本的一次实现。第十页,共一百页,编辑于2023年,星期三6、变异与抽样误差
同质条件:都是鼻咽癌患者都用相同治疗方法变异现象:疗效各不相同
变异:指同质事物间的差异。是客观存在的现象,可分为以下两类:(1)个体变异:指同一特征或同一条件下个体间的差异。(2)随机测量变异:指同一个体重复观测结果未必相等的现象。第十一页,共一百页,编辑于2023年,星期三7、抽样随机抽样:在抽样过程中,要使总体中的每一个观察对象都有同等机会被抽中成为样本。抽样研究的目的:利用样本信息估计或推断总体特征。样本要具备以下两个条件:(1)可靠性:样本中的每一个个体均来自既定的同一总体(2)代表性:样本要由随机抽样获得;并且要抽取一定的数量;分层抽样。第十二页,共一百页,编辑于2023年,星期三8、统计资料的类型(1)、数值变量资料(计量资料)用定量的方法(仪器、实验)对观察对象的某项指标进行测量所得到的数值(有度量单位、可以是小数、连续性资料)。(2)、分类变量资料:是将观察单位按某种属性或类别分组,然后清点各组观察单位的个数所得的数据(无度量单位、整数、离散性资料)
分类变量又可分为有序分类和无序分类两种情况:①、无序分类变量资料(计数资料)
二项分类:按属性或类别分组时,分成对立的两种属性或类别;如阳性与阴性、有效与无效多项分类:按属性或类别分组时,分成互不相容的几种属性或类别;如血型A型、B型、O型、AB型②、有序分类变量资料(等级资料):将观察单位按某种属性的不同程度、档次或等级分类,然后清点各等级类别所得的观察单位数。*有序分类变量资料与多项分类资料的区别:各等级类别有程度上的差别(这种差别按顺序排列,任何两类别的排序不能替换)*多项分类资料根据分析需要:各类变量资料之间可以互相转化第十三页,共一百页,编辑于2023年,星期三如:9、统计量纯粹由样本而构成(不含其它未知参数)的函数g(X1,X2,,Xn)称为统计量。
注:统计量通常也是随机变量。10、切比雪夫不等式(Chebyshev’sinequality)对于任一随机变量X,若EX与DX均存在,则对任意ε>0,恒有P{|X-EX|>=ε}<=DX/ε^2或P{|X-EX|<ε}>=1-DX/ε^2①、如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用②、切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”③、K=2=>75%K=3=>89%K=4=>94%,第十四页,共一百页,编辑于2023年,星期三11、几种基本的统计量15设(X1,X2,,Xn)为总体X的样本,样本均值样本k阶(原点)矩样本k阶中心矩注
1)以上统计量又称为样本的数字特征;另外在不混淆的情况下,对于总体X的期望E(X)和方差D(X)也分别称为均值和方差,分别记为,2.
2)样本方差S2稍不同于样本的2阶中心矩M2’。3)称为样本的偏差平方和性质:设总体X的期望为,方差为2,则与相互独立.第十五页,共一百页,编辑于2023年,星期三12、频数表:
频数(f):相同观察值(或观察结果)出现的次数观察值及其相应的频数按一定顺序排列的表格.频数表编制步骤如下:1、找极值:即找出最大值(Xmax=19.84)和最小值(Xmin=9.23)2、求全距(R):本例R=Xmax-Xmin=10.613、定组段与组数:组段指各组的起止范围;组数指组段的个数(用k)表示;频数表一般设10~15个组段,这里取k=10。4、求组距(i):等距分组时i=R/(k-1)本例i=10.61/10=1.061≈15、列组限:(1)每个组段的起点为下限,终止点为上限(2)第一组段下限取等于或略小于Xmin的整数,其余各个组段依次累加i作下限6、划记归组:二、频数图:在频数表的基础上,以直方的面积大小表示频数的多少,以直方的面积占总面积的比例表示频率大小的图形第十六页,共一百页,编辑于2023年,星期三120例正常成年人血清铜含量频数表第十七页,共一百页,编辑于2023年,星期三频数分布特征(两方面特征)1、集中趋势:14~组段(居中组段)频数最多,其它组段的频数分布向其靠拢.2、离散趋势:居中组段两侧的频数逐渐减少频数分布的类型1、对称分布:集中位置居中,两侧基本对称的频数分布频数表的用途1、揭示资料的分布类型
2、反映频数的集中趋势和离散趋势3、便于发现某些特大或特小的可疑值4、便于进一步计算统计指标和作统计处理第十八页,共一百页,编辑于2023年,星期三培训大纲
一、发展简史
二、数理统计的基本知识
三、随机变量的数字特征
四、分布
五、假设检验第十九页,共一百页,编辑于2023年,星期三集中趋势(centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值/中心值不同类型的数据用不同的集中趋势测度值集中趋势只是数据分布的一个特征,它所反映的是总体各单位变量值向其中心值聚集的程度。集中趋势特征值:均数、中位数、众数第二十页,共一百页,编辑于2023年,星期三1、平均数指标体系:反映一组观察值的集中位置或平均水平;常用的有均数、几何均数、中位数(1)、算术均数(均数):特点:对观察值进行数量上的平均,适用于均匀分布或近似正态分布的资料。各变量值与平均数的离差之和等于零均值是统计分布的均衡点各变量值与平均数的离差平方和最小
计算均数时,应:①、应做正态性假设检验②、均数受极端值影响较大(2)、几何均数:n个数值连乘的n次方根特点:是比例或倍数上的平均,适用于成比例(或成倍数)关系的资料。主要用于计算平均增长率、平均发展速度第二十一页,共一百页,编辑于2023年,星期三(3)、切尾均值(trimmedmean)去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用。计算公式为n
表示观察值的个数;α表示切尾系数性质:①、α=0,切尾均值就是算数平均数②、α≈1/2,切尾均值就是中位数③、改变α的值可以选择集中趋势的测度值④、切尾均值是结合了均值利用数据信息充分和中位数不受极端值影响的两个有点而形成的新型统计量第二十二页,共一百页,编辑于2023年,星期三2、中位数(Median):将一组观察值按大小顺序排列,位次居中的数值;特点:序数上的平均
适用(1)偏态分布资料(2)一端或两端无确切界值的开口资料。中位数的性质:①、不受极端值的影响,具有稳健(稳定)性特点②、各变量值与中位数的离差绝对值之和最小,即注意事项①、对于偏态分布资料,中位数不受两端特大值和特小值的影响,只和位置居中的观察值有关。而均数受特大值和特小值的影响,会偏大或者偏小,所以对于偏态分布的资料,均数的代表性差,不适合描述偏态分布的集中趋势。②、中位数适合于任何分布类型的资料③、与变异指标结合使用,才能全面反映资料特征(集中和离散趋势)④、同质(同类)事物方能计算平均数。⑤、如果数据大量重复某一数值,此时中位数未必准确,在解释时要特别小心⑥、主要用于顺序数据,也可用数值型数据,但不能用于分类数据
第二十三页,共一百页,编辑于2023年,星期三3、众数(mode):①、一组数据中出现次数最多的变量值②、分布最高峰点所对应的数值即众数③、一种位置代表值,不受极端值的影响,应用场合有限④、一组数据可能没有众数或有几个众数⑤、主要用于分类数据,也可用于顺序数据和数值型数据下限公式:上限公式:第二十四页,共一百页,编辑于2023年,星期三众数、中位数和平均数的关系左偏分布均值
中位数
众数对称分布
均值=中位数=
众数右偏分布众数
中位数均值取决于数据分布状况对称分布时,中位数、众数和算术平均数合而为一,即:Me=M0=X在非对称分布的情况下,中位数、众数和算术平均数之间存在一定的差别。右偏,则三者之间的关系是:M0<Me<X;左偏,则三者之间的关系是:M0>Me>X。无论是右偏还是左偏,中位数总是介于算术平均数和众数之间。第二十五页,共一百页,编辑于2023年,星期三众数、中位数、平均数的特点和应用众数优点:不受极端值影响缺点:具有不惟一性偏态分布且有明显峰值时应用比均值好中位数优点:不受极端值影响数据偏态分布时应用比均值好平均数优点:数学性质优良缺点:易受极端值影响数据对称分布或接近对称分布时应用数据类型分类数据顺序数据数值型数据适用的测度值※众数※中位数※平均数众数众数中位数第二十六页,共一百页,编辑于2023年,星期三离散程度数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度变量值变异大,离散程度就大,均值的代表性就小。反之亦然。反映离散程度相关的统计量主要有下面几个:分类数据:异众比率顺序数据:四分位差数值型数据:方差和标准差相对位置度量:离散系数第二十七页,共一百页,编辑于2023年,星期三1、异众比率(variationratio)①、对分类数据离散程度的测度②、非众数组的频数占总频数的比例③、用于衡量众数的代表性④、计算公式为2、内距(inter-quartilerange,IQR)①、也称四分位差,是两个四分位数之差②、内距=上四分位数-下四分位数=Q3-Q1=QU-QL=P75-P25③、极差容易受极端值影响,内距基本不受极端值影响④、内距反映的是中间50%数值大小的差异Q的主要用途:①、Q适用于任何分布的资料,结果比极差稳定,尤其适用于大样本偏态分布的资料。②、与M共同描述偏态分布资料的分布特征,简写成M(Q);③、计算参考值范围(百分位数P2.5,P97.5的范围)方法1:定义算法方法2:较准确算法第二十八页,共一百页,编辑于2023年,星期三3、极差(range):用于反映个体变异的范围①、离散程度的最简单测度值②、易受极端值影响,数据越多,R可能越大。(不稳定)③、未考虑数据的分布,未顾及全部数据间的变异④、计算公式为4、平均差(meandeviation)①、各变量值与其平均数离差绝对值的平均数②、能全面反映一组数据的离散程度③、数学性质较差,实际中应用较少④、计算公式为未分组数据组距分组数据第二十九页,共一百页,编辑于2023年,星期三5.方差:①、数据离散程度的最常用测度值②、反映了各变量值与均值的平均差异③、根据总体数据计算的,称为总体方差或标准差,记为2();根据样本数据计算的,称为样本方差或标准差,记为s2(s)
方差的重要性质:①、②、若每一个变量值加上一个常数,方差和标准差不变③、变量对算术平均数的方差,小于对任意常数的方差第三十页,共一百页,编辑于2023年,星期三6、标准差与平均差①、标准差与平均差虽都是变量值与均值的平均离差,但不同的是平均差所平均的是离差绝对值,而标准差平均的是离差平方。②、标准差彻底解决了正负离差不能相加的问题。它在抽样调查、相关分析中应用较多,所以标准差是应用较为广泛的一种离中趋势的测度值。③、平均差和标准差其数值大小,不仅决定于各标志值的差异程度,还决定于数列平均水平的高低,同时它们具有与标志值相同的名数。7、自由度(degreeoffreedom)①、自由度是指附加给独立的观测值的约束或限制的个数②、从字面涵义来看,自由度是指一组数据中可以自由取值的个数③、当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值④、按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k⑤、为什么样本方差的自由度是n-1呢?因为在计算离差平方和时,必须先求出样本均值x
,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个⑥、样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量第三十一页,共一百页,编辑于2023年,星期三平均差系数8、离散系数(coefficientofvariation)对于具有不同平均水平和不同计量单位的数列,就不能直接利用标准差等来比较其标志变动程度的大小,而需要用变异系数,以消除不同数列水平的影响。①、对数据相对离散程度的测度②、消除了数据水平高低和计量单位的影响③、用于对不同组别数据离散程度的比较④、离散系数包括:
变异系数(CV):一组观察值的s与均数的百分比。CV的主要用途:①、比较度量单位不同或均数相差悬殊时几组样本资料的离散性;②、评价精密度。第三十二页,共一百页,编辑于2023年,星期三9、标准分数(standardscore)①、也称标准化值②、对某一个值在一组数据中相对位置的度量③、可用于判断一组数据是否有离群点④、用于对变量的标准化处理⑤、计算公式为性质:①、均值等于0②、方差等于1第三十三页,共一百页,编辑于2023年,星期三箱线图(boxplot)①、用于显示未分组的原始数据的分布②、由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成③、绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接该箱线图也称为Median/Quart./Range箱线图
中位数4681012QUQLX最大值X最小值Median/Quart./Range箱线图第三十四页,共一百页,编辑于2023年,星期三应用变异指标的注意事项①、极差适用于任何分布的资料,用于资料的粗略分析。②、标准差适用于正态分布或近似正态分布的资料。③、四分位数间距适用于偏态分布的资料。④、变异系数适用于度量单位不同的指标间的比较以及均数相差比较悬殊的变异程度的比较。第三十五页,共一百页,编辑于2023年,星期三偏态及其测度偏态系数计算方法有很多,比较常用的是:
是对分布偏斜方向及程度的测度。偏态利用众数、中位数和均值之间的关系判断分布的偏斜方向利用偏态系数既可以判断分布的偏斜方向,还可测度偏斜的程度皮尔逊测定法动差测定法第三十六页,共一百页,编辑于2023年,星期三在计算偏态系数时,如果公式中的众数不易计算,可用中位数代替已知
偏态系数实际上是以标准差为单位的算术平均数与众数的离差,因而其数值的变动范围,一般应在0与+3及0与-3之间;
偏态系数为0表示对称分布,+3表示极右偏,-3表示极左偏。测定分布的偏度:偏度系数SK=0SK>0SK<0(对称分布)正偏态分布(右)负偏态分布(左)第三十七页,共一百页,编辑于2023年,星期三
所以,m3可以测定偏度。为消除量纲,转变为系数,再除以σ3。<0负偏态=0对称分布>0正偏态偏度系数
(m3——三阶中心矩)
在偏斜适度(微偏)的情况下,不论左偏还是右偏,则有如下的经验公式:
第三十八页,共一百页,编辑于2023年,星期三偏度系数
第三十九页,共一百页,编辑于2023年,星期三峰度及其测度峰度系数计算方法有很多,比较常用的是:
是对分布集中趋势高峰的形状的测度。峰度大量的客观事物的统计规律都呈现钟型分布,但其分布曲线的陡峭程度却有所不同,峰度正是测度数据分布与正态分布相比尖峭或扁平的程度
当频数分布中的频数比较集中于众数的位置,使频数分布曲线较正态分布曲线更为隆起,称为尖顶峰度当频数分布中的频数,对众数来说比较分散,使频数分布曲线较正态分布曲线更为平滑,称为平顶峰度峰度的测定方法,是以四阶中心距为基础。将四阶中心距的期望除以б4,化为相对数,即为峰度的测定值。第四十页,共一百页,编辑于2023年,星期三峰度测度通常是与正态分布相比较而言,可分为尖峰分布平峰分布正态分布在归化到同一方差时,若分布的形状比正态分布更矮更胖,则称为平峰分布在归化到同一方差时,若分布的形状比正态分布更瘦更高,则称为尖峰分布第四十一页,共一百页,编辑于2023年,星期三三、应用举例第四十二页,共一百页,编辑于2023年,星期三思考:从图中我们能分析出什么结论?第四十三页,共一百页,编辑于2023年,星期三培训大纲
一、发展简史
二、数理统计的基本知识
三、随机变量的数字特征
四、分布
五、假设检验第四十四页,共一百页,编辑于2023年,星期三1、概率分布的分位数(分位点)定义对总体X和给定的(0<<1),若存在x,使P{X≥x}=,如图.P{X≥x}=则称x为X分布的上侧分位数或上侧临界值.xoyx若存在数1、2,使P{X≥1}=P{X≤2}
则称1、2为X分布的双侧分位数或双侧临界值.oyx
21第四十五页,共一百页,编辑于2023年,星期三双侧分位数或双侧临界值的特例当X的分布关于y轴对称时,则称为X分布的双侧分位数或双侧临界值.如图.若存在使yxO第四十六页,共一百页,编辑于2023年,星期三2、正态分布
①、特征:是一种重要的连续型分布。具有集中性、对称性和均匀变动性。表现为以均数为中心,高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交②、正态分布的密度函数:
③、标准正态密度函数④、u0.05=1.645,u0.01=2.326u0.025=1.96,u0.005=2.575第四十七页,共一百页,编辑于2023年,星期三
定义设总体,是的一个样本,则称统计量服从自由度为n的分布,记作自由度是指独立随机变量的个数,3、2分布n大分布的密度函数为
其图形随自由度的不同而有所改变.第四十八页,共一百页,编辑于2023年,星期三上分位点则称点t为2(n)分布的上分位点,记为2(n)。当n≤45时,可查表;其中Z
是N(0,1)的上分位点。对于给定的正数(0<<1),若存在点t使得当n>45时,有近似公式:特性:E(Y)=n,D(Y)=2n;可加性:若Y1~
2(n1),Y2~2(n2),且Y1,Y2相互独立,则Y1+
Y2~2(n1+n2)第四十九页,共一百页,编辑于2023年,星期三定义设随机变量X~N(0,1),Y~2(n)
,且X与Y相互独立,则称统计量服从自由度为n的t分布或学生氏分布,记作T
~t(n).定义:若随机变量T的概率密度函数为4、t—分布T服从自由度为n的t分布(俗称学生分布),记为T~t(n)特点:
当n∞时,t(n)N(0,1)第五十页,共一百页,编辑于2023年,星期三上分位点t(n)注意:t1-(n)=-t(n)n≤45时,可查表求得;n>45时,t(n)≈z
双侧分位点
即:对于给定的正数(0<<1),使得P{|T|>u}=
的点u.(相当于:使得P{T>t}=/2
的点t.)注:正态分布、2分布等也都有双侧分位点
对较小的n值,t分布与标准正态分布之间有较大差异.且P{|T|≥t0}≥P{|X|≥t0},其中X~N(0,1),即在t分布的尾部比在标准正态分布的尾部有着更大的概率.设T~t
(n),则E(T)=0,D(T)=第五十一页,共一百页,编辑于2023年,星期三定理设(X1,X2,…,Xn)为来自正态总体
X~N(,2)的样本,则统计量定理
设(X1,X2,…,Xn1)和(Y1,Y2,…,Yn2)分别是来自正态总体N(1
,2)和N(2
,2)的样本,且它们相互独立,则统计量其中、分别为两总体的样本方差.第五十二页,共一百页,编辑于2023年,星期三设随机变量X~2(n1)、Y~2(n2),且相互独立,则称随机变量服从第一自由度为n1,第二自由度为n2的F分布,记作F~F(n1,n2).F
的概率密度函数为:
其中:5、F—分布定义第五十三页,共一百页,编辑于2023年,星期三上分位点F(n1,n2)
F分布的性质:
F1-(n1,n2)
=F(n2,n1)1F(n1,n2)F1-(n1,n2)
性质:若X~F(n1,n2),则~F(n2,n1).f(y)xO
/2
/2为F分布的上分位数;为F分布的上分位数;第五十四页,共一百页,编辑于2023年,星期三设为正态总体的样本容量和样本方差;定理为正态总体的样本容量和样本方差;且两个样本相互独立,则统计量第五十五页,共一百页,编辑于2023年,星期三6、设总体X~N(,2),(X1,X2,…Xn)为样本,则7、若两个总体X与Y相互独立,且X~N(1,12),Y~N(2,22),
(X1,X2,…Xn1),(Y1,Y2,…Yn2)分别为取自总体X,Y的样本,则1>当12=22时2>一般情况时有第五十六页,共一百页,编辑于2023年,星期三8、样本均数的抽样分布具有如下特点:①各样本均数未必等于总体均数;②各样本均数间存在差异;③样本均数的分布为中间多,两边少,左右基本对称。④样本均数的变异范围较之原变量的变异范围大大缩小。标准误:是统计量的标准差,描述的是样本统计量的离散程度(即抽样误差的大小)。标准误的意义:标准误的值越大,反映样本统计量的离散程度越大,通过一次抽样得到的某个样本统计量与总体参数(是个定值)相差也越大。第五十七页,共一百页,编辑于2023年,星期三培训大纲
一、发展简史
二、数理统计的基本知识
三、随机变量的数字特征
四、分布
五、假设检验第五十八页,共一百页,编辑于2023年,星期三统计推断与假设检验统计推断:统计推断中存在两种分布,一是样本分布,一是总体分布。从一个或一系列样本所得的统计量去推断总体的结果,称为统计推断。统计推断包括假设检验和参数估计两个基本点。假设检验:①、比较两总体的平均值是否相同,或一个总体平均数是否等于某个值的问题。②、比较两个样本的方差,或样本方差与总体方差的一致性问题。③、差异产生的原因,一是纯粹的由于随机误差引起的,二是结果本身存在着实质性的差异,即有系统误差存在。第五十九页,共一百页,编辑于2023年,星期三假设检验与两类错误1、假设检验:先对总体的参数或分布作出某种假设,然后用适当的方法根据样本对总体提供的信息,运用“小概率原理”推断假设是否成立。2、两类错误:Ⅰ型错误:拒绝实际成立的H0(弃真)Ⅱ型错误:不拒绝实际不成立的H0(存伪)(1)由假设检验可知,假设检验实际是在假定H0的前提下抽样观察,出现当前样本现象的可能性大小(概率P)来进行推断的(2)假设检验的结论是概率性结论,无论是拒绝H0还是不拒绝H0,都有犯错误的可能。检验(显著性)水平当我们对原假设H0是否为真作出判断时有可能会犯错误,这就是要冒风险,为了控制这一风险,首先需要用一个概率去表示这一风险,这个概率便是“H0为真但被拒绝”的概率,这个概率又称为显著性水平,记为α。显著性(检验)水平LevelofSignificance①、定义如果零假设成立样本统计量不可能的取值区间,称为样本分布的拒绝域Rejectionregionofsamplingdistribution②、用α表示,典型值为0.01,0.05,0.10③、由研究人员在开始时选定第六十页,共一百页,编辑于2023年,星期三两类错误
第一类错误:原假设H0为真,但由于样本的随机性,使样本观察值落入拒绝域W,这时所下的判断便是拒绝H0,这类错误称为第一类错误,其发生的概率称为犯第一类错误的概率,也称为拒真概率,该错误后果严重,它便是显著性水平α。第二类错误:原假设H0为假,但由于样本的随机性,使样本观察值落入接受域A,这时所犯下的判断便是接受H0,这类错误称为第二类错误,其发生的概率称为犯第二类错误的概率,也称为取伪概率,记为β。好的检验法则总希望犯两类错误的概率α与β都很小,但这在一般场合下很难实现。接受原假设拒绝原假设假设实际为真符合(1-α)弃真错误α假设实际不真取伪错误β符合(1-β)第六十一页,共一百页,编辑于2023年,星期三检验决策结果
DecisionResultsH0:无罪陪审团裁决0检验实际情况实际情况裁决无罪有罪决策H0为真H0为假无罪正确错误不拒绝H0置信度1-α第二类错误()有罪错误正确拒绝H0第一类错误()检验能力(1-)第六十二页,共一百页,编辑于2023年,星期三拒绝原假设的推断的基本思想参数的假设检验:已知总体的分布类型,对分布函数或密度函数中的某些参数提出假设,并检验。基本原则——小概率事件在一次试验中是不可能发生的。思想:如果原假设成立,那么某个分布已知的统计量在某个区域内取值的概率应该较小,如果一次观测样本的数值落在这个小概率区域内,则原假设不正确,所以拒绝原假设;否则,接受原假设。
拒绝域检验水平第六十三页,共一百页,编辑于2023年,星期三(一)假设检验的两类问题1、参数假设检验总体分布已知,参数未知,由观测值x1,…,xn检验假设H0:=0;H1:≠02、非参数假设检验总体分布未知,由观测值x1,…,xn检验假设H0:F(x)=F0(x;);H1:F(x)≠F0(x;)
第六十四页,共一百页,编辑于2023年,星期三拒绝域的几点说明1.拒绝域在两边的是双边(侧)检验,拒绝域在一边的是单边(侧)检验。3.提防犯弃真错误或取伪错误。2.不同的检验水平对应不同的拒绝域。可以增大样本容量或多找几个样本作检验。双边检验单边检验(右)单边检验(左)第六十五页,共一百页,编辑于2023年,星期三正态总体均值与方差的假设检验一、单个总体参数的检验二、两个总体参数的检验三、基于成对数据的检验(t
检验)四、小结第六十六页,共一百页,编辑于2023年,星期三一、单个正态总体均值与方差的检验对于给定的检验水平由标准正态分布分位数定义知,因此,检验的拒绝域为
其中为统计量U的观测值。这种利用U来检验的方法称为U检验法。第六十七页,共一百页,编辑于2023年,星期三第六十八页,共一百页,编辑于2023年,星期三在实际中,正态总体的方差常为未知,所以我们常用t
检验法来检验关于正态总体均值的检验问题.上述利用t
统计量得出的检验法称为t检验法.由t分布分位数的定义知第六十九页,共一百页,编辑于2023年,星期三
dataread;inputL@@;datalines;10.410.610.110.410.510.310.310.210.910.610.810.510.710.210.7;Run;Procttestdata=readh0=10.5;Varl;Run;单变量均值检验程序1第七十页,共一百页,编辑于2023年,星期三
dataread;inputL@@;L=L-10.5;Datalines;10.410.610.110.410.510.310.310.210.910.610.810.510.710.210.7;Run;Procmeansdata=readnmeanstdvarmaxminstderrlclmuclmrangetprobt;Run;单变量均值检验程序2第七十一页,共一百页,编辑于2023年,星期三
dataread;inputscorecount@@;datalines;402472522261192252354391261481142221421342332181151291412441511431272462281491311281541451;Run;Procttestdata=readh0=30;Varscore;Freqcount;Run;单变量均值检验编程及结果显示第七十二页,共一百页,编辑于2023年,星期三要检验假设:根据第七十三页,共一百页,编辑于2023年,星期三指它们的和集拒绝域为:第七十四页,共一百页,编辑于2023年,星期三二、两个正态总体均值与方差的检验1.已知方差时两正态总体均值的检验需要检验假设:上述假设可等价的变为
利用u检验法检验.第七十五页,共一百页,编辑于2023年,星期三第七十六页,共一百页,编辑于2023年,星期三故拒绝域为由标准正态分布分位数的定义知第七十七页,共一百页,编辑于2023年,星期三2.未知方差时两正态总体均值的检验
利用t检验法检验具有相同方差的两正态总体均值差的假设.第七十八页,共一百页,编辑于2023年,星期三第七十九页,共一百页,编辑于2023年,星期三对给定的故拒绝域为第八十页,共一百页,编辑于2023年,星期三需要检验假设:3.两正态总体方差的检验第八十一页,共一百页,编辑于2023年,星期三第八十二页,共一百页,编辑于2023年,星期三为了计算方便,习惯上取检验问题的拒绝域为上述检验法称为F检验法.第八十三页,共一百页,编辑于2023年,星期三成组法T检验计算程序如下:datayild;inputstrain$yield@@;cards;a69a97a106a51a97a65a73a83a79a41a92b32b61b50b46b73b43b80b61b56b60b29b38b48b26b23b61b46;
procttestdata=yild;varyield;classstrain;title'grouped-comparisonsttest';run;
第八十四页,共一百页,编辑于2023年,星期三三、基于配对数据的检验(t检验)
有时为了比较两种产品,两种仪器,或两种试验方法等的差异,我们常常在相同的条件下做对比试验,得到一批成对(配对)的观测值,然后对观测数据进行分析。作出推断,这种方法常称为配对分析法。
例
比较甲,乙两种橡胶轮胎的耐磨性,今从甲,乙两种轮胎中各随机地抽取8个,其中各取一个组成一对。再随机选择8架飞机,将8对轮胎随机地
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黑龙江大学《人物素描基础》2021-2022学年第一学期期末试卷
- 2024医疗机构耗材采购协议样本版
- 2024医疗职业人员劳动协议样本版
- 黑龙江大学《国际投资学》2021-2022学年第一学期期末试卷
- 黑龙江大学《工程伦理》2022-2023学年第一学期期末试卷
- 2024年版酒店装修工程协议版
- 2024年小区物业综合服务协议样本版
- 2024年专业技能培训学徒协议版
- 2024年复合肥供应协议格式版
- 2024年砖砌围护工程承包协议版
- 【高新技术企业所得税税务筹划探析案例:以科大讯飞为例13000字(论文)】
- 2024年中国铁路广州局集团招聘笔试参考题库含答案解析
- 《清水混凝土技术》课件
- 2023年地球科学奥赛选拔赛试题-真题及答案
- 2022年4月自考00249国际私法试题及答案含评分标准
- 肖申克的救赎-读书感悟
- (完整word版)钢琴五线谱(高音谱号、低音谱号、空白)可
- 医护护理培训课件:《癌痛-口服吗啡的剂量滴定》
- 上海市徐汇区上海小学小学语文五年级上册期末试卷(含答案)
- 架线弧垂计算表(应力弧垂插值计算)
- 国家开放大学《政治学原理》章节自检自测题参考答案
评论
0/150
提交评论