上海财经大学应用统计学_第1页
上海财经大学应用统计学_第2页
上海财经大学应用统计学_第3页
上海财经大学应用统计学_第4页
上海财经大学应用统计学_第5页
已阅读5页,还剩191页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用统计学管理科学与工程学科综合水平考试应用统计学考试大纲考试要求:经济管理中常用的基本统计原理和方法熟悉统计计算方法和公式,并能正确地解释计算结果初步具有应用定量的统计模型以及科学的统计方法进行现代化管理和决策的能力应用统计学考试大纲(续)考试内容:数据的整理与图形常用随机变量的分布以及抽样分布参数估计假设检验回归分析时间序列分析考试时间:每年五月份第3个星期日下午应用统计学教学进度表日期教学内容教学方法3月3下午第一章数据的整理与图形课堂与上机3月4上午第二章常用随机变量的分布以及抽样分布课堂与上机3月17下午第二章常用随机变量的分布以及抽样分布(续)课堂与上机3月18上午第三章参数估计课堂与上机3月31下午第四章假设检验课堂与上机4月1上午第五章回归分析课堂与上机4月7下午第五章回归分析(续)课堂与上机4月8上午第六章时间序列分析课堂与上机4月14下午总复习模拟试卷AB5月12上午考试笔试2小时应用统计学目录第一章数据的整理与图形--------------------------------------10第一节数据的整理与图形表示-------------------------------------12一.饼形图----------------------------------------------------------18二.组距分组法与频率直方图----------------------------------19三.条形图与柱状图----------------------------------------------20四.并列条形图或柱状图----------------------------------------21五.茎叶图----------------------------------------------------------22第二节数据的描述性指标-------------------------------------------18一.数据集中趋势的度量----------------------------------------24二.数据离散趋势的度量----------------------------------------25应用统计学目录第二章随机变量以及抽样分布-----------------25第一节随机变量概念和随机变量的数字特征-------------------12一.随机变量的数学期望----------------------------------------18二.随机变量的方差和标准差----------------------------------19第二节常用随机变量以及分布-------------------------------------18一.0-1分布------------------------------------------------------24二.二项分布------------------------------------------------------25三.正态分布与标准正态分布---------------------------------26第三节总体与样本----------------------------------------------------27一.总体------------------------------------------------------------28二.样本------------------------------------------------------------29三.联合分布函数和联合概率密度---------------------------30应用统计学目录第二章常用随机变量的分布以及抽样分布-----------------25第四节抽样方法-------------------------------------------------------30一.简单随机抽样------------------------------------------------31二.分层抽样------------------------------------------------------32三.整群抽样------------------------------------------------------33四.系统抽样------------------------------------------------------34第五节样本统计量的分布------------------------------------------18一.统计量---------------------------------------------------------35二.常用统计量---------------------------------------------------36三.三大分布(卡方分布、t分布、F分)-----------------37四.正态总体的样本均值和样本方差分布------------------38五.独立同分布的中心极限定理------------------------------40应用统计学目录第三章参数估计--------------------------------------------------41第一节参数的点估计-------------------------------------------------42一.参数点估计的一般提法-------------------------------------42二.参数点估计的求法-------------------------------------------43三.点估计量的评价标准----------------------------------------44第二节参数的区间估计----------------------------------------------44一.参数区间估计的一般提法---------------------------------44二.单侧置信区间---------------------------------------45三.关于一个正态总体均值和方差的区间估计------------46四.关于两个正态总体的均值差的区间估计---------------47五.关于比率p的区间估计-------------------------------------48应用统计学目录第四章假设检验--------------------------------------------------51第一节假设检验的原理----------------------------------------------42一.假设检验的基本思想----------------------------------------42二.原假设和备选假设-------------------------------------------43第二节假设检验的基本概念----------------------------------------44一.两类错误------------------------------------------------------44二.显著性水平α的确定---------------------------------------45三.原假设与备选假设的选择---------------------------------46四.双侧检验与单侧检验---------------------------------------47五.假设检验的一般步骤---------------------------------------48应用统计学目录第四章假设检验--------------------------------------------------51第三节关于总体均值与方差的假设检验-------------------------52一.关于一个正态总体均值的假设检验----------------------52二.关于一个正态总体方差的假设检验----------------------53三.关于两个正态总体均值差的假设检验-------------------54四.关于比率p的假设检验--------------------------------------55五.关于两个总体比率差的假设检验-------------------------56第四节假设检验与区间估计的关系-------------------------------44应用统计学目录第五章回归分析--------------------------------------------------62第一节简单线性回归分析-------------------------------------------62一.散点图----------------------------------------------------------62二.简单线性回归模型及基本理论假设----------------------63三.简单线性回归模型的基本特征----------------------------66四.回归参数的最小二乘估计----------------------------------67五.方差σ2的估计、可判定系数R2与相关系数R---------68六.回归效果的显著性检验与方差分析表-------------------69七.回归参数的假设检验与区间估计-------------------------70八.预测-------------------------------------------------------------71

应用统计学目录第五章回归分析--------------------------------------------------61第二节多元线性回归分析-------------------------------------------74一.多元线性回归模型及基本理论假设---------------------74二.回归参数的最小二乘估计---------------------------------75三.方差σ2的估计、复可判定系数R2----------------------76四.多元线性回归模型的假设检验---------------------------77五.估计与预测---------------------------------------------------78六.多项式回归模型---------------------------------------------79应用统计学目录第五章回归分析--------------------------------------------------61第三节线性回归模型的适宜性评价------------------------------81一.非线性---------------------------------------------------------82二.异方差性------------------------------------------------------83三.序列相关性---------------------------------------------------84四.非正态性------------------------------------------------------85五.多重共线性---------------------------------------------------86应用统计学目录第六章时间序列分析--------------------------------------------92第一节时间序列的组成因素----------------------------------------92一.影响时间序列的四个因素----------------------------------92二.时间序列的三个分解模型----------------------------------93第二节长期趋势的测定----------------------------------------------96一.长期趋势的测定——滑动平均法-------------------------97二.直线趋势的测定——最小二乘法-------------------------98三.曲线趋势的测定----------------------------------------------99应用统计学目录第六章时间序列分析--------------------------------------------92第三节季节变动因素的测定---------------------------------------100一.按月(季)平均法-----------------------------------------------101二.滑动平均趋势剔除法----------------------------------------102三.季节调整-------------------------------------------------------103第四节循环波动因素的测定---------------------------------------104一.剩余测定法----------------------------------------------------104二.循环波动相关数图-------------------------------------------105

应用统计学希腊字母表大写小写读音主要用途和用法Ααalpha显著水平;分布参数Ββbeta分布参数;第二类错误的概率Γγgamma分布参数Δδdelta差分;误差Εεepsilon无穷小的总体误差及样本误差Ηηeta分布参数Θθtheta待估分布参数Λλlambda普阿松分布参数;待估分布参数Μμmu分布均值Ξξxi待估分布参数Ππpi圆周率Ρρrho相关系数;比率待估分布参数Σσsigma分布标准差Ττtau待估分布参数Φφphi待估分布参数Χχchi卡方分布Ψψpsi待估分布参数Ωωomega样本空间及样本点第一章数据的整理与图形第一节数据的整理与图形表示数据整理——一般来说数据整理的一项初步工作是对数据进行统计分组。统计分组——一般按照数据的品质标志或数量标志分组。不同的分组标志反映总体的不同特征,因此,必须从统计研究任务的需要出发,选择能够反映现象本质特征的标志。品质标志——从事物的性质或属性特征上区分各种类型组。如性别、颜色、产品等级、生产厂家等。数量标志——从事物的数量差异程度上来区分各种类型组。如温度、产量、年龄、销售量等。频数——分配在某统计分组内的数据个数称为该组的频数。频率——某组频数与全部组的频数之和的比值称为该组的频率。频率分布——按数据的某种标志分组,把全部数据在各组中的分配状况称为频率分布。频数频率分布表——将分组标志、各组频数及频率列成表格。反映总体的分布规律和性质,在定量统计分析中有广泛的用途。第一节数据的整理与图形表示频数频率分布表标准样式:按品质标志或数量标志频数频率(%)A1X1=X1/TA2X2=X2/T………AnXn=Xn/T总计T=X1+X2+…+Xn100.00一.饼形图适用于分组数少用于描述和表现各成分或某一成分占全部的百分比各成分总和=100%用圆代表全体,用扇形区域代表各成分,扇形区域面积占整个圆面积的百分比等于该成分占全部的百分比例1.1某公司工作人员的性别频数频率分布表如下:按性别分组频数(人数)频率(%)男12060.00女8040.00总计200100.00二.组距分组法与频率直方图数据标志取值个数较小(单项数列)——采用品质分组法。例如5分制的学生成绩。数据标志取值个数较多或连续变量(组距数列)——采用组距分组法(等距数列和异距数列)。例如百分制的学生成绩。异距数列——制作直方图时,要先计算出各组的频数密度=频数/组距,然后以组距为宽,以频数密度为高画直方图。组距分组法(等距数列)的操作步骤如下:例1.2从一批电阻中抽取30只,测得各只电阻的电阻值如下表。对这组数据适当分组,并建立频数频分布表和绘制频率直方图。4.34.64.73.73.83.24.04.42.83.43.73.24.12.64.64.94.13.43.82.73.54.43.63.24.03.83.54.24.63.9二.组距分组法与频率直方图(续)第一步:找出最大值L,最小值l,计算极差R=L-l。本例中L=4.9,l=2.6,R=4.9-2.6=2.3。第二步:确定分组个数k,计算组距h。分组个数一般由下表确定(根据美国统计学家斯特吉斯提出的经验公式:组数=1+3.322LogN得出,其中N为数据个数)。本例选取k=5。则组距k=R/h=2.3/5=0.46,为计算方便可取h=0.5。样本容量N分组各数k50以下5~650~1006~10100~2507~12250以上10~20二.组距分组法与频率直方图(续)第三步:决定各组界限值,确定分点。第一组的下限值=l-h/2,上限值=l+h/2。本例中也可取第一组下限值为2.5,上限值为2.5+h=2.5+0.5=3;依此类推第五组下限值为4.5,上限值为5.0。第四步:数出各组频数,计算频率,作出频数频率分布表如下。要特别注意:数据正好是界限值时,则该数据应被计数在以它为下限的组中。组序分组界限频数频率1[2.5,3.0)30.1002[3.0,3.5)50.1653[3.5,4.0)90.3004[4.0,4.5)80.2705[4.5,5.0)50.165合计301.000二.组距分组法与频率直方图(续)第五步:由频数频率分布表可以画出频率直方图。在平面直角坐标系的横坐标X轴上标出各组界限值在各组下限值与上限值之间画出高为该组频率的矩形直方图的特点:简单、直观,能够反映数据是否呈对称分布,数据的平均水平及散布情况。三.条形图与柱状图条形图与柱状图本质上没有太大区别,都是用来对各项信息进行比较。主要区别:数据是对事物在时间序列上的度量,一般用横坐标表示时间,这样可以直接地观察事物随时间变化的情况——采用柱状图。如果数据不是按时间排列的且各项信息的标识过长时——采用条形图。例1.3某电视机生产厂家2006年市场占有率及其主要竞争对手的市场占有率资料如下表所示。请分别用条形图和柱状图表示该组数据。该厂商竞争对手A竞争对手B竞争对手C竞争对手D15%10%14%12%8%三.条形图与柱状图(续)四.并列条形图或并列柱状图并列条形图或并列柱状图有利于对两组或两组以上的并列数据进行对比。(还有一种堆积条形图)例1.4某电视机生产厂家2005和2006年市场占有率及其主要竞争对手的市场占有率资料如下表所示。请用并列柱状图表示该组数据。该厂商竞争对手A竞争对手B竞争对手C竞争对手D200511%7%15%11%10%200615%10%14%12%8%三.并列条形图或并列柱状图(续)三.茎叶图茎叶图——也是一种条形图,它是把每个数分成茎和叶两部分,同茎的数排成一列,然后按茎和叶的大小排列成图。一般取数据的最后一位数为叶,前几位数为茎。分为一般茎叶图和有序茎叶图。茎叶图——它直观地显示了数据所在的范围以及数据的总体水平(集中或分散情况),它的优点是可以清楚地看到落在每一直方形中的具体数据,而且可以较容易地找出有用的分位数,如中位数等。例1.5某班级(40人)应用统计学期末考试成绩如下表所示。请画出茎叶图。67658575707275586983827396698583787480706584858170889086777886929385727670838875三.茎叶图(续)以十位数为茎,个位数为叶,画出的茎叶图如下:586759957502538400782605853253045186653896023三.茎叶图(续)还可以把各茎叶上的叶按大小排序,得到有序茎叶图如下:586557997000022345556788801233345555668890236第二节数据的描述性指标测定每个观察单位某项指标值的大小,所得的资料称为计量资料又称测量资料,这类资料一般具有计量单位。计量资料的统计指标分成两大类:数据集中趋势的度量——表达计量资料集中位置的指标,用以描述观察值的平均水平,如算术均值、几何均值、调和均值、中位数、众数、百分位数。数据离散趋势的度量——表达计量资料变异的指标,又称离散指标,用以描述观察值间参差别不齐的程度,即离散度或称变异度,如全距、标准差、方差、标准误差、变异系数、四分位数间距等。设原始观察值为第组频数(有时可以是出现的频率)记为,组中值记为

一.数据集中趋势的度量表示数据的集中点或中心点。根据不同的实际需要,可以采用下列指标之一来对数据的集中趋势进行度量:算术平均值简称为均值总体均值用希腊字母表示,样本均值用表示。算术平均值的具体计算方法分为简单算术平均和加权算术平均两种:简单算术平均加权算术平均算术平均值有两个重要的数学性质:①各个变量值与平均值离差之和等于零。②各个变量值与平均值的离差平方之和为最小值。一.数据集中趋势的度量(续)中位数(或称中数)中位数用M表示,它将总体或样本的全部观察值分成两部分,每部分各有50%个观察值,其计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均值为中位数。中位数是位置平均值,它不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比算术平均值更具有代表性。一.数据集中趋势的度量(续)众数频数最大的变量值称为众数,列为频数表的资料,频数最大的组的组中值为众数。当数据个数较少时,众数就是出现次数最多的那个数据。对于一组数据,众数可以不止一个,也可能没有众数。适用于粗略地表示呈单峰分布资料的集中趋势。一.数据集中趋势的度量(续)百分位数百分位数以表示,它将总体或样本的全部观察值分成两个部分,其中有个观察值小于,(100-)%个观察值大于。如百分之25分位数或称第25百分位数,表示有25%个观察值小于;75%个观察值大于。中位数就是百分之50分位数。常用的有上四分位数和下四分位数一.数据集中趋势的度量(续)上四分位数的计算将数据由小到大排列,记排列后的数据为令:其中表示向上取整,如。则上四分位数就是,即约有1/4的数据比大,3/4的数据比比小。一.数据集中趋势的度量(续)下四分位数的计算将数据由小到大排列,记排列后的数据为令:其中表示向上取整,如。则下四分位数就是,即约有3/4的数据比大,1/4的数据比比小。一.数据集中趋势的度量(续)例1.6某班30名MBA学生的年龄按上升顺序排列如下表。请计算这组数据的众数、中数、平均数、上四分位数和下四分位数。众数为27和28;分别出现5次中数为(27+28)/2=27.5平均数为27.67上四分位数为x23=30,下四分位数x8=26242425252525262626262727272727282828282829293030303031313132一.数据集中趋势的度量(续)中位数、众数、平均数的运用比较中位数对极端值不像平均数那么敏感,因此对于有极端值的数据集来说,采用中位数描述其集中趋势一般比平均数更合适。众数的主要缺点是可能没有众数或不惟一,而平均数和中数都是存在并且惟一的。它的优点是反映了数据集中最常见的数值,即最普遍的数值,当数据多且有明显集中趋势时,计算众数既方便且有意义,并且它不仅对数量型数据有意义,对分类型数据集也有意义。平均数的优点在于它容易理解和计算。它的一个主要缺点是它对极端值特别敏感;它的另一个缺点是它不考虑数据在数据集中的重要性,一律平等对待。加权平均数克服了平均数不考虑数据在数据集中的重要性的缺陷,采用权重反映数据在数据集中的重要性,并且具有容易计算的优点。一.数据集中趋势的度量(续)运用中位数、众数、平均数的数量关系判别总体分布特征(*)次数分布呈对称分布曲线时,算术平均数、众数、中位数三者完全相等。次数分布呈右偏态时,算术平均>中位数>众数。次数分布呈左偏态时,算术平均<中位数<众数。一.数据集中趋势的度量(续)利用位置平均数与算术平均数的关系进行推算(*)根据经验,在分布偏斜程度不大的情况下,不论右偏态还是左偏态,三者存在一定比例关系,中位数居中,众数Me与中位数Mo距离约为算术平均数与中位数的2倍,即有公式:一.数据集中趋势的度量(续)例如:某城市住户家庭月收入的抽样调查资料计算资料计算得到众数为1040元,中位数为1128.57,问算术平均数约为多少?其分布呈何形态?算术平均数=(3*1128.57-1040)/2=1172.86所以有算术平均>中位数>众数,呈现右偏态分布,也说明收入分配中算术平均数偏向高端,多数居民收入低于算术平均数。二.数据离散趋势的度量全距——也称极差是一种离散指标,是最大与最小观察值之差。用极差反映总体分布的离散程度虽然简便,但它只从两端数值考察,忽略了中间数据的变动情况,不能说明整体的差异程度,尤其是存在极端值情况下,使用极差往往会造成错误的结论。二.数据离散趋势的度量(续)四分位差——即上四分位数与下四分位数的差数。它一般不受极端值的影响。方差——是一种常用的离散指标,样本的方差计算公式为:

,标准差——,与数据具有相同的单位。二.数据离散趋势的度量(续)变异系数——是一种离散指标,简记为CV,它是标准差与均值之比,用百分数表示:由于CV无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。二.数据离散趋势的度量(续)各种离散趋势度量的适用场合比较分析极差——最简单、最直观、最容易计算。但特别容易受极端值的影响。四分布差——不像极差那么容易受极端值的影响,但仍然存在没有充分利用数据所有信息的缺陷。方差和标准差——最常用的度量数据离散程度的指标,它用数据自身与平均数之差的大小加权,因而区别对待了大小不同的数据,距离平均数远的数据权重比较大,距离平均数近的数据权重比较小,比较合理地反映了不同数据对离散度量的作用。缺点是计算比较繁琐,且方差的单位常常没有意义。变异系数——比较两组或两组以上数据集的离散趋势度量时,应采用无量度单位的变异系数CV。二.数据离散趋势的度量(续)数据离散趋势度量——方差的作用衡量数据的稳定性——例如:产品的质量评价事物的风险——例如:投资的风险数据的方差分析——例如:数据的挖掘第二章随机变量以及抽样分布第一节随机变量概念和随机变量的数字特征随机变量是描述随机事件的数学模型。学习和掌握随机变量的概念是学习统计学的前提。随机试验的每一个可能结果称为样本点,用ω表示,样本点全体组成的集合称为样本空间,用Ω表示。随机事件是由若干个样本点组成的集合,或者说是样本空间的某个子集。随机变量是定义在样本空间上的函数,即对于随机试验的每一个可能结果ω,随机变量X取值X(ω)也不同,并且以确定的概率取这些不同的值。随机变量一般用X,Y,Z表示。按照随机变量的取值情况,把随机变量分成两类:离散型随机变量——用概率函数描述。连续型随机变量——用概率密度函数描述。对于任意实数x,随机变量X的分布函数为:即随机变量X的取值不大于x的概率。第一节随机变量概念和数字特征一.随机变量的数学期望E(X)一个随机变量的数学期望是对该随机变量分布中心的度量,它反映了随机变量的(加权)平均取值,因此数学期望也称为随机变量的均值。数学期望也常常用希腊字母μ表示,即μ=E(X)。离散型随机变量的数学期望设离散型随机变量X的概率函数为则根据概率函数的性质有离散型随机变量X的数学期望为第一节随机变量概念和数字特征一.随机变量的数学期望E(X)连续型随机变量的数学期望设连续型随机变量X的概率密度函数为则根据概率函数的性质有连续型随机变量X的数学期望为第一节随机变量概念和数字特征二.随机变量的方差D(X)和标准差σ离散型随机变量X的方差定义为连续型随机变量X的方差定义为方差的概念我们称为随机变量X关于它期望的离差。由方差定义,方差就是离散平方的数学期望,即离散平方的平均值。因此,方差D(X)小,说明随机变量X的分布比较集中;方差D(X)大,说明随机变量X的分布比较分散。随机变量X的标准差。标准差和原随机变量具有相同的度量单位。随机变量的方差也可以记为,即。第一节随机变量概念和数字特征例2.1已知随机变量X的分布列为试求:随机变量的均值E(X)和方差D(X)解法1:E(X)=1×0.2+2×0.1+3×0.4+4×0.3=2.8D(X)=(1-2.8)2×0.2+(2-2.8)2×0.1+(3-2.8)2×0.4+(4-2.8)2×0.3=1.16X1234P0.20.10.40.3第一节随机变量概念和数字特征解法2:E(X)=1×0.2+2×0.1+3×0.4+4×0.3=2.8E(X2)=1×0.2+4×0.1+9×0.4+16×0.3=9由于有证明:随机变量平方的数学期望不小于其数学期望的平方。D(X)=9-2.82=1.16第二节常用随机变量以及分布一.0-1分布只取两个不同数值的随机变量X称为0-1分布。定义:设0<p<1,如果X的概率函数为则称X服从参数为p的0-1分布,记为B(1,p)。0-1分布的概率函数也可以表示为X01P1-pp第二节常用随机变量以及分布一.0-1分布0-1分布的数学期望为0-1分布的方差为任何一个只有两种可能结果的随机试验,都可以用一个服从0-1分布的随机变量来描述。有时也称0-1分布为两点分布或贝努利分布。第二节常用随机变量以及分布二.二项分布定义:若随机变量X的所有可能取值为0,1,┄,n,且它的概率函数为则称X服从参数为n和p的二项分布。其中0<p<1。记为X~B(n,p)。当n=1时,二项分布就是0-1分布。n无限大时,趋向正态分布。二项分布的性质二项分布的数学期望二项分布的方差第二节常用随机变量以及分布二.二项分布应用:对产品有放回地做n次检验,每一次检验一个产品是否合格,n次检验中正好有k个产品合格的概率,其中每一次检验得到合格的概率为p。证明:由贝努利概型(在重复独立试验中,每次试验的结果只有两个可能)知,在指定k次检验中出现合格,而在其余n-k次检验中出现不合格的概率为例如:在前k次检验中出现合格,而后面n-k次检验中出现不合格个概率由于事件合格在n次检验中的任k次出现,共有种情况,而这么多种情况所对应的这么多个事件是不相容的。因此由概率的有限可加性得到:第二节常用随机变量以及分布三.正态分布与标准正态分布设连续型随机变量X的密度函数为正态分布的分布函数为其中是正态分布随机变量的均值,是方差,我们称X服从均值为方差为的正态分布,记为第二节常用随机变量以及分布三.正态分布与标准正态分布正态分布的概率密度函数曲线为第二节常用随机变量以及分布三.正态分布与标准正态分布正态分布的密度函数性质p(x)与x轴之间的面积都是1。曲线关于x=μ对称,因此μ是正态分布的位置参数。方差σ2的大小决定了密度曲线的高矮胖瘦:σ2越大,曲线越矮越胖;σ2越小,曲线越高越瘦。标准正态分布期望值为0和标准差为1的正态分布N(0,1)称为标准正态分布,即μ=0,σ=1。常用U表示。第二节常用随机变量以及分布三.正态分布与标准正态分布标准正态分布概率密度函数为分布函数为标准正态分布关于纵轴对称,对任意实数x,有第二节常用随机变量以及分布三.正态分布与标准正态分布正态变量的线性变换标准化变换——把随机变量X减去自己的均值μ,再除以自己的标准差σ,所得到的新变量Z=(X-μ)/σ,称为原变量X的标准化变换,或简称标准化。一般正态分布与标准正态分布之间的关系是:若则Z=(X-μ)/σ~N(0,1)分布函数之间的关系:第二节常用随机变量以及分布四.正态分布的计算设,则例2.1设,试求:解:第二节常用随机变量以及分布四.正态分布的计算设,则第二节常用随机变量以及分布四.正态分布的计算设,若知,求c第三节总体与样本一.总体总体——研究对象的全体称为总体。通常我们研究对象某项数量指标,即总体就是研究对象的某项数量指标X的值的全体。一般,X的取值在客观上有一定的分布F,故X是一个随机变量。因此,对总体的研究就是对相应的随机变量X的分布F(x)的研究。X的分布函数和数字特征分别称为总体的分布函数F(x)和数字特征。p维总体——在有些问题中,研究对象可能要观测两个或多个指标,则可用多维随机变量去描述总体,也可用其联合分布函数去描述总体。个体——组成总体的每一个基本元素称为个体。有限总体和无限总体——根据总体包含个体总数的多少分为有限总体和无限总体。当有限总体所包含的个体总数很大时,可以近似地将它看成是无限总体。第三节总体与样本二.样本样本——总体中抽取若干个体所组成的集合称为一个样本。样本容量——样本中所包含个体的个数称为样本容量。从总体中抽出的容量为n的样本记为,这里每个Xi都看成是随机变量,因为第i个被抽到个体具有随机性,在观察前是不知其值的。样本的观察值记为。n次不重复抽样——抽样时,每次从总体中抽取一个不放回去,再抽取第二个,连续抽取n次。重复抽样——抽样时,每次从总体中抽取一个进行观察后放回去,再抽取第二个,连续抽取n次。重复抽样的特例:对于无限总体,抽取有限个n后不会影响总体的分布,在这种情况下,不重复抽样等价于重复抽样。在实际应用时,如果总体所包含的个体个数很大,而样本容量很小,可认为总体是无限的,抽样时可以认为是重复抽样。第三节总体与样本二.样本简单随机样本——设X是具有分布函数F(x)的随机变量,若是具有同一分布函数F(x)的相互独立的随机变量,则称是来自总体X(或总体F(x))的容量为n的简单随机样本,简称样本。即抽取的样本满足以下要求:代表性——每一个体都有同等机会被选入样本,这便意味着每一样品Xi与总体X有相同的分布。独立性——样本中每一样品取什么值不受其它样品取值的影响,这意味着相互独立。第三节总体与样本三.联合分布函数和联合概率密度若是来自总体F的一个容量为n的简单随机样本(独立同分布样本),则的联合分布函数为若X具有概率密度f,则的联合概率密度为第四节抽样方法统计调查与整理——根据研究的目的和要求,有组织、有计划地搜集资料和对这些资料进行去伪存真、去粗取精的分类整理、浓缩简化的工作过程。统计调查的方式——按其组织方式可分为:统计报表制度专门组织的统计调查;专门组织的调查可分为:普查重点调查典型调查抽样调查其中抽样调查方法已经发展为现代统计科学的一个分支系列。抽样的目的——我们抽取样本的目的是为了对总体进行推断。为了能从样本正确推断总体就要求所抽取的样本能很好地反映总体的信息,所以要有一个正确的抽取样本的方法。第四节抽样方法抽样调查方法的重要特点:随机原则(机会均等原则)——按照随机原则从总体中抽取样本单位。调查者不带任何主观倾向,完全凭偶然性抽取样本单位,使总体的每个单位有均等机会被抽中。推断总体——以样本的指标即统计量为依据推断总体的参数或检验总体的某种假设。抽样调查的目的就是要对总体的数量特征作出估计或作出某种判断,而且它是以概率论阐明的有关分布规律为依据的估计,可以计算其可靠性和精确度。误差事先控制——抽样调查方法的误差可以事先计算并加以控制。用样本指标推断总体,不可避免地会产生误差,即抽样误差。抽样误差也是随机变量,其分布具有一定的规律性,可以依据这种分布规律和具体的抽样条件计算抽样误差的大小。影响抽样误差大小的因素主要有三个方面:总体内部的差异程度;样本容量的大小;抽样的方式方法。第四节抽样方法进行抽样调查时,必须事前根据研究对象的特点和具体条件,对抽取样本的程序和具体方法进行周密的设计,选择最合适的组织方式。基本的抽样组织方式有简单随机抽样、分层抽样、整群抽样和系统抽样。一.简单随机抽样简单随机抽样——也称完全随机抽样,对总体单位不作任何分类或排队,完全按随机原则逐个地抽取样本单位。它是在无限总体中进行的无放回独立抽样或在有限总体中进行的有放回随机抽样。随机抽样特点:理论上最易处理,但实施时较困难;可用样本平均数来估计总体均值;限于总体规模不大,内部差异也不很大的情况第四节抽样方法二.分层抽样分层抽样——也称类型抽样,它将总体的成员按某种原则划分成若干个子总体(类型组),每个子总体称为一个层。在每层中独立进行简单随机抽样或其他抽样。分层抽样特点:先对各层进行估计,然后再综合成总体参数估计;因为子总体的差异必定小于总体差异,因此,分层抽样的抽样误差比简单随机抽样小,抽样推断的效果好。;适用于既需要对总体进行估计,也需要对局部进行估计的情况。当层内成员差异较小,而层间成员差异较大时,分层抽样可以提高估计的精度。第四节抽样方法三.整群抽样整群抽样——它将总体的成员分成若干群(或组),从这些群(或组)中抽取部分群(或组),调查对象是被抽中的这些群(或组)中的所有成员。整群抽样特点:优点是当被调查单位地理位置比较集中时,实施起来比较方便,可以节省人力和财力;缺点是由于调查单位集中在若干群或组中,而不能均匀地分布在总体的各部分。因此,它的准确性较差;但可以通过适当地多抽取一些群来弥补。第四节抽样方法四.系统抽样系统抽样——又称为等距抽样或机械抽样,它将总体中的调查单位按某种次序排列,随机地选定初始单位,然后按相等的间距抽取其他样本单位。例如总体共有N个单位,从中抽取n个单位, N/n=k便是等距抽样的间隔距离,然后在第一组中先抽取一个单位,再每隔k个单位抽取一个,直到抽满n个单位。系统抽样特点:优点是总体各部分都能在一定程度上被包含到样本中,实施方便。缺点是当初始单位决定后,样本只有一种组合,不再具有随机性。当次序排列具有周期性时,容易产生严重的偏差。因此,必须对排列次序进行细致的研究。第五节样本统计量的分布一.统计量统计量定义:设是来自总体X的一个样本,是的函数。若g是连续函数,且g中不含任何未知参数,则称是一个统计量。统计量是样本的函数,它是一个随机变量。观察值定义:设是相应于样本的样本值,则称是的观察值抽样分布:统计量的分布称为抽样分布。第五节样本统计量的分布一.统计量例2.5.1设总体,其中未知,已知,设为来自X的一个样本,则是统计量是统计量不是统计量(含有未知参数)是统计量不是统计量第五节样本统计量的分布二.常用统计量设是来自总体X的一个样本,是这一样本的观测值,则样本平均值:样本方差:样本标准差:样本k阶原点矩:样本k阶中心矩:样本观测值的计算将上面公式全部改写为小写即可。第五节样本统计量的分布三.三大分布(分布、t分布、F分布)卡方分布设是来自总体N(0,1)且相互独立的样本,则随机变量

服从自由度为n的分布,记为。其中,自由度是指上式右端包含的独立变量的个数。第五节样本统计量的分布卡方分布的概率密度为f(y)的图形如下所示:第五节样本统计量的分布卡方分布的性质可加性:设,且它们相互独立,则数学期望和方差若,则α分位点对于给定的正数α,0<α<1,称满足条件的点为分布的上α分位点。例如:,第五节样本统计量的分布卡方分布的上α分位点如下图所示:第五节样本统计量的分布三.三大分布(分布、t分布、F分布)t分布设,并且X和Y相互独立,则称随机变量

服从自由度为n的t分布,记为。第五节样本统计量的分布

t分布的概率密度为h(t)的图形如下所示:第五节样本统计量的分布t分布的性质t分布与正态分布比较:t分布类似于标准正态分布,两者都是均值为0的对称的钟形曲线,取值范围也都在负无穷大到正无穷大。但t分布的方差大于1,与标准正态分布相比中心部分较低,两个尾部较高。自由度n越小,这些差别就越明显,随着自由度n不断增大,t分布越来越趋近于标准正态分布,并以其为极限。数学期望和方差α分位点对于给定的正数α,0<α<1,称满足条件的点为分布的上α分位点。由对称性知:例如:,第五节样本统计量的分布

t分布的上α分位点如下图所示:第五节样本统计量的分布三.三大分布(分布、t分布、F分布)F分布设,并且U和V相互独立,则称随机变量

服从自由度为

的F分布,记为。第五节样本统计量的分布

F分布的概率密度为ψ(t)的图形如下所示:第五节样本统计量的分布F分布的性质F分布的性质:

由定义可知,若,则数学期望:α分位点对于给定的正数α,0<α<1,称满足条件的点为分布的上α分位点。重要性质:例如:,第五节样本统计量的分布

F分布的上α分位点如下图所示:第五节样本统计量的分布四.正态总体的样本均值和样本方差分布设总体的X的均值为μ,方差为σ2,是X的一个样本,则样本均值有定理一:相互对立的正态分布的线性组合还是正态分布。推论:设为来自总体的一个样本,则有定理二:

第五节样本统计量的分布四.正态总体的样本均值和样本方差分布定理三:设为来自总体的一个样本,则有

第五节样本统计量的分布四.正态总体的样本均值和样本方差分布定理四:设与分别是具有相同方差的两个正态总体的样本,且这两个样本相互独立。则有

其中第五节样本统计量的分布五.独立同分布的中心极限定理设随机变量相互独立,服从同一分布,且具有相同的数学期望和方差:则标准化随机变量有的极限分布是标准正态分布——即n很大时,Yn近似地服从标准正态分布第五节样本统计量的分布五.独立同分布的中心极限定理即有这表明:当n较大时,可用正态分布近似计算与n个相互独立、同分布随机变量的算术平均值

有关事件的概率和各阶距,这在应用中是有重要意义的。第三章参数估计第一节参数的点估计一.参数点估计的一般提法设总体的分布函数的形式已知,θ是待估参数。是X的一个样本,是相应的一个样本观测值。点估计问题就是要构造一个适当的统计量用它的观测值来估计未知参数θ。

为θ

的估计量,称为θ的估计值。估计量与估计值统称为估计,简记为。

第一节参数的点估计二.参数点估计的求法矩估计法——用样本各阶原点矩的函数来估计总体各阶原点矩的同一个函数的方法称为矩估计法。这是参数点估计的最常用方法。矩估计法的优点——不要求知道总体的分布,因而矩估计获得广泛的应用。例3.1某灯炮厂某天生产了一批灯泡,从中随机地抽取10只,测得寿命(小时)如下:试用矩估计法估计该批灯泡的平均寿命及标准差。1050110010801120120012501040113013001200第一节参数的点估计二.参数点估计的求法解:总体的k阶原点矩为:当k=1时存在,则可以用样本的一阶矩去估计总体的一阶矩

,有同样,当k=2时,总体二阶矩存在,总体的标准差为:分别用样本二阶矩A2估计,样本一阶矩A1

估计,因此它的矩估计值为

第一节参数的点估计三.点估计量的评价标准对一个未知参数θ,人们可以构造多个估计量去估计它,从而产生一个问题:究竟用哪一个估计量去估计为好呢?为此需要有评价估计好坏的标准,标准不同答案也会有所不同。无偏性若估计量的数学期望存在,且对于任意,这里是θ

的参数空间,有,则称是θ的无偏估计量。估计的系统误差——通常,称为以作为θ

估计的系统误差。无偏估计的实际意义就是无系统误差。样本均值的矩估计量是总体均值矩估计量的无偏估计量。样本方差的矩估计量是总体方差矩估计量有偏估计量。因为:因此,是的无偏估计量。第一节参数的点估计三.点估计量的评价标准有效性设与都是θ

的无偏估计量,若有则称比有效。有效性的意义——在样本容量相同的情况下,的方差比的方差小,即的观察值比的观测值更集中在真值θ

的附近。因此,我们认为,作为θ

的无偏估计,比更理想。第一节参数的点估计三.点估计量的评价标准有效性例3.2设为来自总体X的一个样本,试比较总体均值的两个无偏估计量谁更有效?解:因为n>3,故,因此比更有效。第一节参数的点估计三.点估计量的评价标准一致性设为参数θ

的估计量,若对于任意,当时,依概率收敛于于θ

,则称为θ

的一致估计量。例如,样本的K(>=1)阶矩是总体X的K阶矩的一致估计量。更进一步,若g是连续函数,总体参数估计量则样本参数估计量是θ

的一致估计量。第一节参数的点估计矩估计法例3.3设是来自均匀分布U(a,b)的一个样本,试求a,b的矩估计法。解:第一节参数的点估计矩估计法解:从上面两个方程可解得a与b,由得用,则得a与b矩估计法为第二节参数的区间估计参数估计有两种形式:点估计和区间估计。点估计值能给出一个明确,未知参数θ

是多少,不能给出精度。而区间估计弥补了这种不足。所以点估计与区间估计是互为补充、各有各的用途。一.参数区间估计的一般提法设总体X的分布函数含有一个未知参数θ

。对于给定的值,若由样本确定的两个统计量满足则称随机区间是θ

的置信度为的置信区间,和分别称为置信度的双侧置信区间的置信下限和置信上限,称为置信度。第二节参数的区间估计一.参数区间估计的一般提法求解未知参数θ的置信区间寻找一个样本的函数它包含待估参数θ,但不包含其他未知参数。并且Z的分布已知且不依赖于任何未知参数(其中也包含待估参数)对于给定的置信度,定出两个常数a,b,使若能从得到等价的不等式其中,都是统计量,那么就是θ

的一个置信度为的置信区间。第二节参数的区间估计一.参数区间估计的一般提法区间估计的含义置信度为的置信区间不是惟一的。置信区间会随着样本观察值的不同而不同。当对X进行多次抽样(容量为n)。设抽样N次,每一个抽样都给出一个区间一共有N个不同的区间。根据大数定律,这N个区间中大约有个区间包含真值θ

个区间不包含真值θ第二节参数的区间估计二.单侧置信区间对于某些实际问题,例如设备、元件的寿命来说,一般只关心平均寿命的“下限”;而对于产品的废品率p来说,一般只关心p的上限。对于给定的值,若由样本确定的统计量满足称随机区间是θ

的置信度的单侧置信区间,称为置信度为的单侧置信下限。若统计量满足称随机区间是θ

的置信度为的单侧置信区间,称为置信度的单侧置信上限。第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计设为来自总体的一个样本,样本均值,样本方差为。给定的置信度为。均值的置信区间

为已知时,则有

因此,的置信度的置信区间是第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计均值的置信区间总体方差为已知时如果总体不是正态分布,但样本容量n充分大时,根据中心极限定理,渐近地服从正态分布。一般情况下,n>=30时,就可以认为总体方差未知时如果样本容量n充分大(n>=30)时,可用S代替,对均值进行近似的区间估计。注意:掌握样本容量与置信水平及区间长度之间的关系。能够在给定置信水平和区间长度下,求出所需要的最小样本容量。第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计均值的置信区间例3.4设一个物体的重量未知,为估计其重量可用天平去称量。由于称量是有误差的,因而所得称量结果是一个随机变量,通常服从正态分布,当天平称量的误差标准差为0.1克时,可认为称量结果服从现对该物体称了五次,结果如下(单位克)可将其看成来自该总体的一个容量n为5的样本观测值。试对

作置信水平为0.95的区间估计。5.525.485.645.515.45第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计均值的置信区间解:=(5.52+5.48+5.64+5.51+5.45)/5=5.521-α=0.95,α=0.05,α/2=0.025z0.025=1.96

第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计均值的置信区间例3.5已知一批产品的长度指标。问至少应抽取多大容量的样本,才能使样本均值与总体均值的绝对误差,在置信度不低于95%的条件下小于0.1?第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计解:根据题意,应有即应抽取容量至少为97的样本。第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计设为来自总体的一个样本,样本均值,样本方差为。给定的置信度为。均值的置信区间

为未知时,则有

因此,的置信度的置信区间是第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计均值的置信区间例3.6对某型号飞机的最大飞行速度进行15次试验,测得样本的平均最大飞行速度,样本方差。根据长期经验可以认为最大飞行速度服从正态分布,试求平均最大飞行速度的95%的置信区间。在置信水平条件下,飞机的平均最大飞行速度不低于多少?第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计均值的置信区间解:这是一个正态总体方差未知,求均值的置信区间的问题。根据题意有:即:有95%的把握认为飞机的平均最大飞行速度在420.3到429m/s之间。第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计均值的置信区间解:这是一个这是一个正态总体方差未知,对均值求的单侧置信下限的问题。即:有95%的把握认为飞机的平均最大飞行速度不低于421.1m/s。第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计设为来自总体的一个样本,样本均值,样本方差为。给定的置信度为。方差的置信区间

为未知时,则有

因此,的置信度的置信区间是第二节参数的区间估计四.关于两个正态总体的均值差的区间估计设为来自总体的样本,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论