第五版统计学复习资料_第1页
第五版统计学复习资料_第2页
第五版统计学复习资料_第3页
第五版统计学复习资料_第4页
第五版统计学复习资料_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章1、总体是包含所研究的全部个体(数据)的集合,它通常所研究的一些个体组成,如由多个企业构成的集合,多个居民户构成的集合,多个人构成的集合,等等。2、样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。3、参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。4、统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于样本是随机的,因此统计量是样本的函数。1.2某研究部门准备抽取2000个职工家庭推断该城市所有职工家庭的年人均收入。要求:(1) 描述总体和样本。总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集

2、合。(2) 指出参数和统计量。参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。1.3一家研究机构从IT从业者中随机抽取1000人作为样本进行调查,其中60%的人回答他们的月收入在5000元以上,50%的人回答他们的消费支付方式是用信用卡。回答一下问题:(1) 这一研究的总体是什么?总体是所有IT从业者的集合。(2) 指出参数和统计量。参数是所有IT从业者的月收入;统计量是抽中的1000个IT从业者的月收入。第二章1、概率抽样也称随机抽样,是遵循随机原则进行的抽样,不加主观因素,组成总体的每个单位都有被抽中的概率(非零概率),可以避免样本出现偏差,样本对总体有很

3、强的代表性。特点:(1) 抽样时是按一定的概率以随机原则抽取样本。(2) 每个单位被抽中的概率是已知的,或是可以计算出来的。(3) 当用样本对整体目标量进行估计时,要考虑到每个样本单位被抽中的概率。分类:(1) 简单随机抽样:从包括总体N个单位的抽样框中随机地、一个个地抽取n个单位作为样本,每个单位的入样概率是相等的。也就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此之间无一定的关联性和排斥性。简单随机抽样是其他各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。(2) 分层抽样:

4、将抽样单位按某种特征或某种规划划分为不同的层,然后从不同的层中独立、随机地抽取样本。特点是:由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。该方法适用于总体情况复杂,各单位之间差异较大,单位较多的情况。(3) 整群抽样:将总体中若干个单位合并为组,这样的组称为群。抽样时直接抽群,然后对中选群中的所有单位全部实施调查。特点是:调查单位比较集中,调查工作的组织和进行比较方便。但调查单位在总体中的分布不均匀,准确性要差些。因此,在群间差异性不大或者不适宜单个地抽选调查样本的情况下,可采用这种方式。(4) 系统抽样:(也叫等距抽样)是将总体各单位按一定标志或次序排列成为图

5、形或一览表式(也就是通常所说的排队),然后按相等的距离或间隔抽取样本单位。特点是:抽出的单位在总体中是均匀分布的,而且抽取的样本可少于纯随机抽样。等距抽样既可以用同调查项目相关的标志排队,也可以用同调查项目无关的标志排队。等距抽样是实际工作中应用较多的方法,目前我国城乡居民收支等调查,都是采用这种方式。(5) 多阶抽样(又称多级抽样):将调查分成两个或两个以上的阶段进行抽样。第一阶段先将总体按照一定的规范分成若干抽样单位,称之为一级抽样单位(或称初级抽样单位),再把抽中的一级抽样单位分成若干更小的二级抽样单位,从抽中的二级抽样单位再分三级抽样单位等等,这样就形成一个多阶段抽样过程。特点是:在对

6、超大而又复杂总体调查的抽样中实施和管理更加方便,且不需要对每级抽样单位编制完全的抽样框。2、非概率抽样是按主观意向进行的抽样(非随机的),组成总体的很大部分单位没有被抽中的机会(零概率),使调查很容易出现倾向性偏差。分类:(1) 方便抽样:样本限于总体中易于抽到的一部分。最常见的方便抽样是偶遇抽样,即研究者将在某一时间和环境中所遇到的每一总体单位均作为样本成员。“街头拦人法”就是一种偶遇抽样。方便抽样是非随机抽样中最简单的方法,省时省钱,但样本代表性因受偶然因素的影响太大而得不到保证。(2) 判断抽样:根据研究目的的需要和研究者的主观判断,选择研究对象。抽样成本低,也容易操作,单样本是人为确定

7、的,没有依据随机原则,因而调查结果不能用于对总体有关参数进行估计。这种抽样方法多应用于总体小而内部差异大的情况,以及在总体边界无法确定或因研究者的时间与人力、物力有限时采用。(3) 自愿样本:被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息。例如,参与报刊上和互联网上刊登的调查问卷活动。(4) 滚雪球抽样:选择并调查几个具有研究目的所需要的特征的人,再依靠他们选择合乎研究需要的人,后者又可选择更多合乎研究需要的人,以此类推下去,样本就像滚雪球一样越来越大。成本低,适合对特定群体进行研究的资料搜集。(5) 配额抽样:先将要研究的人群按某种特征划分成几个组别,然后,按照一定的比例,从每

8、组人群中任意选择一定量的样本作为研究对象。由于抽样前先进行了分层处理,抽得的样本代表性比单纯的方便抽样要好。3、数据的误差(一)抽样误差:抽样方法本身所引起的误差。当由总体中随机地抽取样本时,哪个样本被抽到是随机的,由所抽到的样本得到的样本指标x与总体指标之间偏差,称为实际抽样误差。当总体相当大时,可能被抽取的样本非常多,不可能列出所有的实际抽样误差,而用平均抽样误差来表征各样本实际抽样误差的平均水平。(二)非抽样误差:非抽样误差是指除抽样误差以外的,由其他众多因素而引起的误差,在概率抽样与非概率抽样中,非抽样误差都有可能存在。分类:(1) 抽样框误差:抽样框误差是因不准确或不完整的抽样框而引

9、起的误差。从包含抽样误差的抽样框中抽取的样本有时无法正确地代表调研目标的实际情况,这就存在抽样框误差。(2) 回答误差:被调查者在接受调查时给出的回答与真实情况不符。导致回答误差的原因有很多种,主要有理解误差、记忆误差和有意识误差。(3) 无回答误差:指的数据丢失,数据丢失的原因有两种,一是有意不回答,二是无意不回答。有意识不回答,主要指被调查者拒绝访问或拒绝就某一个问题给予回答。无意识不回答则可能受访者不在家或者是访问者疏忽,导致数据遗漏。(4) 调查员误差:由于调查员的原因而产生的调查误差。(5) 测量误差:在测量时,测量结果与实际值之间的差值叫误差。真实值或称真值是客观存在的,是在一定时

10、间及空间条件下体现事物的真实数值,但很难确切表达。测得值是测量所得的结果。这两者之间总是或多或少存在一定的差异,就是测量误差。第三章(一)分类数据的图示类型1、 条形图(简单条形图、复式条形图等):排列在工作表的列或行中的数据可以绘制到条形图中。条形图显示各个项目之间的比较情况。描绘条形图的要素有3个:组数、组宽度、组限。2、 帕累托图:按各类别数据出现的频数多少排序后绘制的条形图。排列图用双直角坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率.分析线表示累积频率,横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左到右排列,通过对排列图的观察分析可以抓住影响质量的主要因素.

11、帕累托图在项目管理中主要用来找出产生大多数问题的关键原因,用来解决大多数问题。在帕累托图中,不同类别的数据根据其频率降序排列的,并在同一张图中画出累积百分比图。帕累托图可以体现帕累托原则:数据的绝大部分存在于很少类别中,极少剩下的数据分散在大部分类别中。这两组经常被称为“至关重要的极少数”和“微不足道的大多数”。帕累托图能区分“微不足道的大多数”和“至关重要的极少数”,从而方便人们关注于重要的类别。帕累托图是进行优化和改进的有效工具,尤其应用在质量检测方面。3、 饼图:仅排列在工作表的一列或一行中的数据可以绘制到饼图中。饼图显示一个数据系列 (数据系列:在图表中绘制的相关数据点,这些数据源自数

12、据表的行或列。图表中的每个数据系列具有唯一的颜色或图案并且在图表的图例中表示。可以在图表中绘制一个或多个数据系列。饼图只有一个数据系列。)中各项的大小与各项总和的比例。饼图中的数据点 (数据点:在图表中绘制的单个值,这些值由条形、柱形、折线、饼图或圆环图的扇面、圆点和其他被称为数据标记的图形表示。相同颜色的数据标记组成一个数据系列。)显示为整个饼图的百分比。4、 环形图:简单饼图只能显示一个样本各部分所占的比例。而环形图能显示两个及两个以上样本各部分所占的比例。环形图是由两个及两个以上大小不一的饼图叠在一起,挖去中间的部分所构成的图形。(二)顺序数据的整理与图示1、累积频数:累积频数可以是向上

13、累积频数,也可以是向下累积频数。向上累积频数分布是先列出各组的上限,然后由标志值低的组向标志值高的组依次累积频数。向下累积频数分布是先列出各组的下限,然后由标志值高的组向标志值低的组依次累积频数。2、累积频率或累积百分比:按某种标志对数据进行分组后,分布在各组内的数据个数称为频数或次数,各组频数与全部频数之和的比值称为频率或比重。为了统计分析的需要,有时需要观察某一数值以下或某一数值以上的频率之和,叫做累积频率,或叫做对频率的累计。从变量值小的一方向变量值大的一方累加,称为向上累积,反之为向下累积。频率的最终累积值为100%。(三)数值型数据的图示1、分组数据:直方图用面积来表示频数分布矩形的

14、高度表示每一组的频数或频率,宽度则表示各组的组距。制作频数分布直方图的方法:集中和记录数据,求出其最大值和最小值。数据的数量应在100个以上,在数量不多的情况下,至少也应在50个以上。 我们把分成组的个数称为组数,每一个组的两个端点的差称为组距。将数据分成若干组,并做好记号。分组的数量在512之间较为适宜。计算组距的宽度。用最大值和最小值之差去除组数,求出组距的宽度。计算各组的界限位。各组的界限位可以从第一组开始依次计算,第一组的下界为最小值减去最小测定单位的一半,第一组的上界为其下界值加上组距。第二组的下界限位为第一组的上界限值,第二组的下界限值加上组距,就是第二组的上界限位,依此类推。统计

15、各组数据出现频数,作频数分布表。作直方图。以组距为底长,以频数为高,作各组的矩形图。2、未分组数据:茎叶图和箱线图(1)茎叶图:反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如,分布是否对称,数据是否集中,是否有离群点,等等。(2)箱线图:是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,反映原始数据分布的特征,还可以进行多组数据分布特征的比较。(3)时间序列数据线图:如果数值型数据是在不同时间上取得的,及时间

16、序列数据,则可以绘制线图。主要用于反映现象随时间变化的特征。(4) 多变量数据的图示1、 散点图:两个变量之间。2、 气泡图:三个变量之间。气泡表示第三个变量。3、 雷达图(蜘蛛图):多个变量之间。第四章1、众数(M0):一组数据中出现次数最多的变量值。2、中位数(Me):在一组数据中处于中间位置上的变量值。3、四分位数:也称四分位点,它是一组数据排序后处于25%(下四分位数QL)和75%(上四分位数QU)位置上的值。计算公式:QL 位置=n4;QU 位置=3n44、平均数(X)=x1+x2+xnn=i=1nxin5、众数(M0 )、中位数(Me)、平均数(X )的关系。右偏分布:M0 Me

17、X左偏分布:X Me 0时为尖峰分布,数据的分布更集中;当K0即P(AB)=P(B)P(AB)3、独立性:P(AB)= P(A)P(B)第六章1、中心极限定理:设从均值、方差为2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值X的抽样分布近似服从均值为、方差为2 /n的正态分布。例6.4设从一个均值=10、标准差=0.6的总体中随机选取容量为n=36的样本。假定该总体不是很偏,要求:(1)计算样本均值X小于9.9的近似概率。(2)计算样本均值X超过9.9的近似概率(3)计算样本均值X在总体均值=10附近0.1范围内的近似概率。解:根据中心极限定理,不论总体的分布是什么形状,

18、在假定总体的分布不是很偏的情形下,当从总体中随机选取n=36的样本时,样本均值X近似服从均值X=10,标准差X=n=0.636=0.1的正态分布,即XN(10,0.12)(1) P(X9.9)=(X-100.19.9-100.1) =P(Z-0.10.1)=P(Z-1) =1-P(Z9.9)=1-P(X9.9) =1-0.1587 =0.8413(3) P(9.9X10.1)=P(9.9-100.1X-100.110.1-100.1) =P(Z10.1-100.1)-P(Z9.9-100.1) =P(Z1)-P(Z-1) =2P(Z1)-1=2(1)-1 =20.8413-1 =0.6826第

19、七章(一)参数估计1、参数估计:用样本统计量去估计总体的参数。比如,用样本均值x估计总体均值。2、估计量():在参数估计中,用来估计总体参数的统计量。3、估计值:根据一个具体的样本计算出来的估计量的数值。4、点估计:用样本统计量的某个取值直接作为总体参数的估计值。比如,用样本均值x直接作为总体均值的估计值。5、区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。6、置信区间:由统计量所构造的总体参数的估计区间。其中区间的最小值称为置信下线,最大值称为置信上限。7、置信水平(置信度或置信系数):置信区间中包含总体参数真值的次数所占的比例。例如人们常

20、说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。(二)评价估计量的标准1、无偏性:指估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为,所选择的估计量为,如果E()=0,则称为的无偏估计量。2、有效性:指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。3、一致性:指随样本量的增大,估计量的值越来越接近被估总体的参数。4、根据t分布建立的总体均值在1-置信水平下的置信区间为:xt2sn一个总体参数的区间估计参数点估计量(值)标准误差(1-)%的置信区间假定条件的总体均值xnxz2n(1)已知(2)大样本(n30)xz2sn(1)未知(2)大样本(n30

21、)xnxt2sn(1)正态总体(2)未知(3)小样本(n30)总体比例p(1-)npz2p(1-p)n(1)二项总体(2)大样本(n5,n(1-p)5)例72一家保险公司收集到由36位投保人组成的随机样本,得到每位投保人的年龄数据表如下所示:233539273644364246433133425345544724342839364440394938344850343945484532试建立投保人年龄90%的置信区间。解:已知n=36,1-=90%,z2 =1.645。由于总体方差未知,但为大样本,可用样本方差代替总体方差。根据样本数据计算的样本均值和标准差如下:x=i=1nxin=39.5s=

22、i=1nxi-x2n-1=7.77根据式xz2sn得投保人年龄的置信区间为:xz2sn=39.51.6457.7736即39.52.13=(37.4,41.6),投保人平均年龄90%的置信区间为37.4岁41.6岁。例73已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16个,测得其使用寿命(单位:h)如下:试建立该批灯泡平均使用寿命的95%的置信区间。解:根据抽样结果计算得x=i=1nxin=2384016=1490s=i=1nxi-x2n-1=920016-1=24.77根据=0.05查t分布表得t2(n-1)=t0.025(15)=2.131,由xt2sn得平均寿命的置信区间为:x

23、t2sn=14902.13124.7716即149013.2=(1476.8,1503.2),该种灯泡平均使用寿命的95%的置信区间为1476.8h1503.2h。7.8 从一个正态总体中随机抽取样本量为8的样本,各样本值分别为:10,8,12,15,6,13,5,11。求总体均值的95%的置信区间。解:已知总体服从正态分布,但未知,n=8为小样本,=0.05.根据抽样结果计算得x=i=1nxin=808=10s=i=1nxi-x2n-1=848-1=12=3.464根据=0.05查t分布表得t2(n-1)=t0.025(7)=2.3646,由xt2sn得总体均值的置信区间为:xt2sn=10

24、2.36463.4648即102.896=(7.104,12.896),总体均值的95%的置信区间为7.10412.896。第八章例8.1 由统计资料得知,1989年某地新生儿的平均体重3190克,现从1990年的新生儿中随机抽取100个,测得其平均体重为3210克,问1990年的新生儿与1989年相比,体重有无差异?(一) 假设的表达方式统计的语言是用一个等式或不等式表示问题的原假设。在这个新生儿体重的例子中,原假设采用等式的方式,即H0:=3190克,H0表示原假设,是我们要体验的参数,即1990年的新生儿总体体重的均值。如果用0表示感兴趣的数值,原假设更一般的表达式为:H0:=0 或 H

25、0:-0= 0尽管原假设陈述的是两个总体的均值相等,却并不表示它是既定的事实,仅是假设而已。如果原假设不成立,就要拒绝原假设,而需要在另一个假设中做出选择,这个假设称为备择假设。其表达方式为:H1:3190克,H1表示备择假设,它意味着1990年的新生儿与1989年的在体重上有明显差异。其更一般的表达式为:H1:0或H1:-00原假设与备择假设互斥。(二) 两类错误1、 错误(弃真错误):原假设H0为真却被我们拒绝了,犯这种错误的概率用表示。2、 错误(取伪错误):原假设为伪我们却没有拒绝,犯这种错误的概率用表示。8.6(选择题)某厂家在广告中声称,该厂生产的汽车轮胎在正常行驶条件下超过目前的平均水平25000公里。对一个由15个轮胎组成的随机样本做了试验,得到样本均值和标准差分别为27000公里和5000公里。假定轮胎寿命服从正态分布,问该厂家的广告是否真实(=0.05)?解:已知n=15,x=27000,s=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论