统计学知识点整理_第1页
统计学知识点整理_第2页
统计学知识点整理_第3页
统计学知识点整理_第4页
统计学知识点整理_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE60-第1章统计学导论1、统计学:收集、处理、分析、解释数据并从数据中得出结论的科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。2、(1)数据搜集:例如,调查与试验(2)数据整理:例如,排序、分组(3)数据展示:例如,图和表(4)数据分析:例如,回归分析3、统计学的分科:描述统计、推断统计、理论统计、应用统计4、统计数据的类型:按计量尺度划分分类尺度:分类数据顺序尺度:顺序数据间隔尺度:数值型数据比率尺度:数值型数据5、数据类型与统计方法分类数据:品质数据顺序数据:品质数据数值型数据:数量数据6、统计数据类型按计量尺度:分类数据、顺序数据、数值型数据按收集方法:观测数据、实验数据按时间状况:截面数据、时序数据7、统计学中的基本概念(P7)(1)总体:是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成,如由多个企业构成的集合,多个居民户构成的集合,多个人构成的集合,等等。(个体:组成总体的每一个元素。如:由多个人构成的总体中,每一个人就是一个个体。)(2)样本:是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。(如:从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。)(3)参数:是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。(4)统计量:是用来描述样本特征的概括性数字度量。(如:样本平均数用表示,样本标准差用s表示,样本比例用p表示。)(5)变量:是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化。(如:商品的销售额、受教育程度、产品的质量级别)总体总体样本参数统计量μ平均数σ标准差sπ比例p8、例:指出下面分别是哪种数据类型(1)年龄(连续性变量)(2)性别。(分类变量)(3)汽车产量。(数值型变量)(4)员工对企业某项改革措施的态度(赞成、中立、反对)(顺序变量)(5)购买商品时的支付方式(现金、信用卡、支票)(分类变量)9、例题:一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。回答以下问题:(1)这一研究的总体是什么?(在网上购物的消费者)(2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值型变量?(分类变量)(3)研究者所关心的参数是什么?(所有在网上购物消费者的平均花费)(4)“消费者每月在网上购物的平均花费是200元”是参数还是统计量?(统计量)(5)研究所使用者的主要是描述统计方法还是推断统计方法?(推断统计方法)第2章数据的搜集1、数据的直接来源——一手资料(调查和实验)调查的方式:普查、抽样调查、统计报表……2、数据的间接来源——二手资料(如:统计公报、统计年鉴、网上资料、期刊、杂志、报纸等)3、概率抽样:也称随机抽样,指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样。(1)简单随机抽样:①抽签法②随机数表法(2)分层抽样(分层抽样法适用于总体中个体差异明显的抽样)(3)整群抽样(将总体中若干个单位合并为组,这样的组称为群)(4)系统抽样(5)多阶段抽样4、非概率抽样(1)方便抽样(依据方便原则,自行确定入抽样本)(2)判断抽样(根据经验、判断、对研究对象的了解,有目的地抽样)(3)自愿样本(自愿参加)(4)滚雪球抽样(针对特定稀少群体的研究)(5)配额抽样(先分类,在每类中用方便抽样或判断抽样选取样本)5、概率抽样与非概率抽样的比较概率抽样:遵循随机原则,样本可以对总体进行估计,计算估计误差、置信区间,技术含量高、成本较高,适合用于验证问题作进一步的数量分析。非概率抽样:不依据随机原则,样本无法对总体估计,不计算估计误差、置信区间,操作简便、时效快、成本低、前期发现问题。6、搜集数据的基本方法:自填式、面访式、电话式、观察法、试验法。7、数据的误差(1)抽样误差(由于抽样的随机性引起的样本结果与总体真值之间的误差。)——只在概率抽样中(不能避免,但能控制)(2)非抽样误差(除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。)——存在于任何抽样或调查中(除了抽样框误差都可避免)①抽样框误差②回答误差③无回答误差④调查员误差⑤测量误差(3)误差的控制。数据的整理与图表展示数据的预处理1.数据审核:发现数据中的错误2.数据筛选:找出符合条件的数据3.数据排序发现数据的基本特征、升序和降序【例3.1】表3-1是8名学生4门课程的考试成绩数据(单位:分)。试找出(1)统计学成绩等于80分的学生(2)数学成绩最高的前三名学生,英语成绩最低的三名学生(3)统计学成绩在80-90之间的学生(4)四门课程成绩都大于70分的学生数据排序1.分类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分2.数值型数据的排序品质数据的整理与展示分类数据的整理与图示(一)步骤:1.列出各类别2.计算各类别的频数3.制作频数分布表4.用图形展示(二)分类数据中需要计算的指标:1.频数:落在各类别中的数据个数频数分布:把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来。2.比例:某一类别数据占全部数据的比值3.比:将对比的基数作为100而计算的比值4.比率:不同类别数值之间的比值【例3.3】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。数据见Excel表。要求:对数据进行整理,求不同品牌饮料的频数分布、比例和百分比。【例3.4】为研究广告市场的状况,一家广告公司在某城市随机抽取100人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?”1.商品广告;2.服务广告;3.金融广告;4.房地产广告;5.招生招聘广告;6.其他广告。要求:计算各类广告的频数、比例、百分比。画出频数分布表、柱形图、饼图。(三)分类数据的图示1、条形图条形图是用宽度相同的条形的高度或长短来表示数据多少的图形★各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图★对比条形图——显示分类变量在不同时间或不同空间上的差异或变化2、饼图饼图:用圆形及圆内扇形的面积来表示数值大小的图形。主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的3、环形图环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于进行比较研究环形图可用于展示分类数据和顺序数据图3-4甲乙两城市家庭对住房状况的评价8%8%36%31%15%7%33%26%21%13%10%非常不满意不满意一般满意非常满意图3-4甲乙两城市家庭对住房状况的评价3.2.2顺序数据的整理与图示累积频数:将各有序类别的频数逐级累加起来得到的频数。向上累积:从类别顺序的开始一方,向类别顺序的最后一方累加频数;向下累积:从类别顺序的最后一方,向类别顺序的开始一方累加频数。累积频率:将各类别的百分比逐级累加。【例3.5】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)非常不满意不满意一般满意非常满意209812040226.732.74013.37.3

合计300100.0————24243001322252700100200300400非常不满意不满意一般满意非常满意累积户数(户)(a)向上累积27616830300750100200300400非常不满意不满意一般满意非常满意累积户数(户)(b)向下累积甲城市家庭对住房状况评价的累积频数分布图数值型数据的整理与显示3.3.1数据的分组分组方法分组方法单变量值分组组距分组等距分组异距分组(一)单变量值分组(要点)★适合于离散变量★适合于变量值较少的情况步骤:1、排序2、将一个变量值作为一组【例3.6】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121解:某车间50名工人日加工零件数分组表零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112(二)组距分组1、要点适合于连续变量适合于变量值较多的情况将变量值的一个区间作为一组可采用等距分组,也可采用不等距分组2、组距分组(几个概念)1.下限:一个组的最小值2.上限:一个组的最大值3.组距:上限与下限之差4.组中值:下限与上限之间的中点值下限值下限值+上限值2组中值=3、组距分组步骤第1步:排序,确定组数(K)5≤K≤15能够显示数据的分布特征和规律第2步:确定组距组距=(最大值-最小值)÷组数★组距宜取5或10的倍数◆第一组的下限应低于最小值,◆最后一组的上限应高于最大值。遵循“不重不漏”的原则上组限不在内第3步:根据分组整理成频数分布表等距分组表

(上下组限间断)等距分组表(上下组限重叠)等距分组表(使用开口组)重点:开口组的组中值和组距分组数据—直方图用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列。分组数据—折线图折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的151512963105110115120125130135140日加工零件数(个)频数(人)折线图下的面积与直方图的面积相等!未分组数据——茎叶图用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶4.茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息树茎树茎树叶7880223477788890012222333344466777889013344579910111213数据个数3132410茎叶图类似横置的直方图某车间工人日加工零件数的茎叶图未分组数据—箱线图1.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成2.其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接时间序列数据—线图绘制线图时应注意以下几点时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断【例3.5】已知1991~1998年我国城乡居民家庭的人均收入数据如表3-11。试绘制线图解:多变量数据的图示1.散点图:用二维坐标展示两个变量之间关系的图形。每组数据(xi,yi)在坐标系中用一个点表示。2.气泡图:可用于展示三个变量之间的关系,一个变量放在x轴,另一个变量放在y轴,第三个变量用气泡的大小表示。3.雷达图:可显示多个变量之间的关系,也称为蜘蛛图。雷达图的制作设有n组样本S1,S2,…Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是★先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示★再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图第4章数据的概括性度量数据分布特征的测度◆集中趋势的度量——反映数据向其中心值靠拢或聚集的程度◆离散程度的度量——反映数据远离其中心值的趋势◆分布的形状——反映数据分布的偏态和峰态集中趋势的度量一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值分类数据——众数顺序数据——中位数和分位数数值型数据——平均数(一)分类数据——众数众数一组数据中出现次数最多的变量值,用Mo表示;主要用于测度分类数据的集中趋势,也可用于顺序数据和数值型数据;众数是位置代表值,不受极端值影响;可能没有众数、有一个众数或几个众数特点:众数的不唯一性分类数据的众数【例4.1】某城市居民关注广告类型的众数解:这里的变量为解:这里的变量为“广告类型”,不同类型的广告就是变量值。关注商品广告的人数最多,为47人,占总被调查人数的47%,因此众数为“商品广告”这一类别,即Mo=商品广告顺序数据的众数【例4.2】求甲城市家庭对住房状况评价的众数解:这里的数据为顺序数据。变量为解:这里的数据为顺序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意数值型数据的众数(未分组)【例4.3】在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元)。要求计算人均月收入的众数。108075010801080850960200012501630解:人均月收入出现次数最多的是1080,因此,Mo=1080元数值型分组数据的众数(分组)的计算【例4.4】根据第三章表3-6中的数据,计算50名工人日加工零件数的众数(二)顺序数据:中位数和分位数1、中位数排序后处于中间位置上的变量值不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据2、计算中位数的步骤1.排序2.确定中位数的位置(按公式)确定中位数的位置(按公式)N为数据的个数顺序数据的中位数解:顺序数据本身就解:顺序数据本身就是排序的,根据中位数位置的确定公式:从累积频数看,中位数在“一般”这一类中,即Me=一般数值型未分组数据的中位数(奇数个数据的算例)数值型未分组数据的中位数(偶数个数据的算例)数值型分组数据的中位数的计算【例4.5】根据第三章表3-5中的数据,计算50名工人日加工零件数的中位数四分位数排序后处于25%和75%位置上的值不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据四分位数的计算★如果位置是整数,四分位数就是该位置上的值;★如果是在0.5位置上,则取该位置两侧值的平均数;★如果是在0.25或0.75位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。【例4.6】由一组10个学生的月支出的调查数据,要求计算该组数据的四分位数。150075078010808509602000125016302500数值型分组数据的四分位数的计算【例4.7】计算50名工人日加工零件数的四分位数表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—数值型数据:平均数(均值)1.平均数是一组数据相加后除以数据个数得到的结果。2.集中趋势的最主要测度值3.易受极端值的影响4.用于数值型数据,不能用于分类数据和顺序数据。简单平均数(算例)【例4.8】计算第三章中50个工人日加工零件数的均值【例4.9】根据第三章表3-5中的数据,计算50名工人日加工零件数的均值(个)(个)★简单平均数,其数值的大小只与变量值的大小有关;加权平均数,其数值的大小不仅受各组变量值大小的影响,而且受各组变量值出现的频数即权数(fi)大小的影响。如果某一组的权数较大,说明该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越小。几何平均数1.几何平均数:N个变量值乘积的N次方根,用GM表示其计算公式为2.主要用于计算平均比率和平均发展速度【例4.10】一位投资者持有一种股票,2001-2004年的收益率分别为4.5%,2.1%,25.5%,1.9%要求计算该投资者在这4年内的平均收益率。【例4.11】某水泥生产企业2001年的水泥产量为100万吨,2002年的产量比2001增长了9%,2003年比2002年增长了16%,2004年比2003增长20%。求该企业2002年、2003年、2004年这三年的平均增长率。3众数、中位数和平均数的比较众数、中位数和平均数的关系4.2离散程度的测度离散程度:反映个体远离其中心值的程度。离散程度越大,表示集中趋势的测度值对数据的代表性越差;离散程度越小,表示集中趋势的测度值对数据的代表性越好。分类数据——异众比率顺序数据——四分位差数值型数据——方差和标准差一.分类数据:异众比.1.离散程度的测度值之一2.非众数组的频数占总频数的比率3.计算公式为4.用于衡量众数的代表性二。顺序数据:四分位差1. 离散程度的测度值之一2. 也称为内距或四分间距3. 上四分位数与下四分位数之差QD=QU-QL4. 反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性【例】计算甲城市家庭对住房满意状况评价的四分位差表3-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—4.3数值型数据的离散程度极差平均差※方差※标准差一极差(range)1.一组数据的最大值与最小值之差,用R表示2.计算公式3.离散程度的最简单测度值4.易受极端值影响5.未考虑数据的分布二平均差(Md1.各变量值与其平均数离差绝对值的平均数2.以平均数为中心,反映每个数据与平均数的平均差异程度,能全面准确地反映一组数据的离散程度。3.平均差越大,离散程度越大;平均差越小,离散程度越小。【例4.13】为调查大学生对课外培训班所愿意付出的最高费用的离散程度,计算以下数据的平均差。表4-13课外培训班费用调查按零件数分组组中值(Mi)频数(fi)|Mi-X||Mi-X|Fi500以下500~800800~11001100~14001400~17001700~20002000以上

101215381492

合计—100—

表4-13培训班费用调查按零件数分组组中值(Mi)频数(Fi)|Mi-X||Mi-X|Fi500以下500~800800~11001100~14001400~17001700~20002000以上3506509501250155018502150101215381492807507207933936939938070608431053534550262371986合计—100—34518三方差和标准差方差:各变量值与其均值离差平方的平均数。标准差:方差的平方根1.反映了各变量值与均值的平均差异2.反映出数据的离散程度3.最常用的离散程度测度值4.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差四自由度(degreeoffreedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为n时,若样本均值`x确定后,则附加给n个观测值1个约束条件,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值。【例】一位投资者有一笔现金可用于投资,现有两个投资项目可供选择。项目A和B有如下资料可供参考。试比较哪个投资项目较佳?项目A回报率x(%)可能性(p)预期回报率5.56.57.58.50.250.250.250.25

合计1

项目B回报率x(%)可能性p预期回报率456789100.050.10.150.40.150.10.05

合计1

五。期望值或平均数衡量平均回报率或收益率方差或标准差反映每一个可能出现的回报率与平均回报率的平均差异。方差或标准差越大,回报率的变化越大,风险越高;方差或标准差越小,回报率的变化越小,风险越低;当投资回报率相等时,风险较小的项目为最佳选择当投资回报率不相等时,通过离散系数来衡量风险。六标准分数【例】一家公司在招聘时,要对应聘者进行两项能力测试。在A项测试中,平均分数为100分,标准差是15分;在B项测试中,平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分,与平均分数相比,该应试者哪一项测试更为理想?七切比雪夫不等式适用于任何分布形状的数据根据切比雪夫不等式,至少有(1-1/k2)的数据落在k个标准差之内,k是大于1的任意值。至少有75%的数据在平均数±2个标准差的范围之内至少有89%的数据在平均数±3个标准差的范围之内至少有94%的数据在平均数±4个标准差的范围之内八。离散系数(变异系数)离散系数:标准差与其相应的平均数之比 计算公式为◆测度数据离散程度的相对统计量◆用于比较不同样本数据离散程度【例】某管理局抽查了所属的8家企业,其产品销售数据如下,试比较产品销售额与销售利润的离散程度表4-7某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)X1销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.04.3偏态与峰态的度量——对分布形状的测度第五章概率与概率分布(自学P115—154)第六章统计量及其抽样分布6.1统计量(P156)1.统计量的形成:抽样——样本——构造函数2.统计量是样本X1,X2……Xn的一个函数3.统计量不依赖任何未知参数4.将一组样本的具体观测值代入统计量函数,可以计算出一个具体的统计量值。6.2样本均值的抽样分布和中心极限定理(重点哦,P165)1.抽样分布:从一个总体中随机抽出容量相同的各种样本,从这些样本计算出的某统计量所有可能值的概率分布,称为这个统计量的抽样分布。2.样本均值的抽样分布:设X1,X2,…,Xn是取自总体X的样本,样本均值所有可能样本的均值构成的概率分布即为样本均值的抽样分布。【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表计算出各样本的均值,如下表。并给出样本均值的抽样分布3、所有样本均值的均值和方差式中:M为样本均值的个数4、样本均值的分布当总体服从正态分布时,来自该总体的所有容量为n的样本的均值`X也服从正态分布,`X的数学期望为μ,方差为,即。5、中心极限定理设从均值为m,方差为的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为的正态分布。当样本容量足够大时(n≥30),样本均值的抽样分布逐渐趋于正态分布6、标准误差标准误差:样本统计量与总体参数之间的平均差异1.所有可能的样本均值的标准差,测度所有样本均值的离散程度2.样本均值的标准误差小于总体标准差3.计算公式为【例】设从一个均值μ=8、标准差σ=0.7的总体中随机抽取容量为n=49的样本。要求:(1)计算样本均值小于7.9的近似概率(2)计算样本均值超过7.9的近似概率(3)计算样本均值在总体均值μ=8附近0.1范围的近似概率(与P167的例题类似)【例】某公司有400人,平均工龄为10年,标准差为3年。随机抽出49名组成一个简单随机样本,试问样本中工作人员的平均年龄不低于9年的概率有多大。解:虽然该总体的分布未知,但样本容量n=49较大由中心极限定理可知,样本均值的抽样分布近似服从正态分布。则均值的期望均值的标准差。练习题:某类产品的抗拉强度服从正态分布,平均值为99.8公斤/平方厘米,标准差为5.48公斤/平方厘米,从这个总体抽出一个容量为12的样本,问这一样本的平均值介于98.8公斤/平方厘米和100.9公斤/平方厘米之间的概率有多大。6.3由正态分布导出的几个重要分布(简单了解就行,P161)重要分布分别是:分布(卡方分布)、t分布、F分布三种6.4样本比例的抽样分布如果在样本大小为n的样本中具有某一特征的个体数为X,则样本比例用p来表示:当n充分大时,p近似服从均值为,方差为的正态分布。【例】已知对某超市服务水平不满意的人数的比例为5%,现随机抽取475名顾客组成的简单随机样本,问这475名顾客中不满意的比例在0.03~0.075之间的概率有多大?解:设475名顾客中不满意的比例为p,则E(p)=0.05,D(p)=0.05×0.95/475=0.0001p~N(0.05,0.0001)6.5两个样本平均值之差的分布1、两个样本平均之差的分布:(P170)设是独立地抽自总体的一个容量为n1的样本的均值。是独立地抽自总体的一个容量为n2的样本的均值,则有【例】居民区甲有2000个家庭,平均居住时间为130个月,服从正态分布,标准差为30个月;居民区乙有3000个家庭,平均居住时间为120个月,也服从正态分布,标准差为35个月。从两个居民区中独立地各自抽取一个简单随机样本,样本容量为70和100。问居民区甲样本中的平均居住时间超过居民区乙样本中的居民平均居住时间的概率是多大。【例】A班统计学考试平均分为75分,分数服从正态分布,标准差为5分;B班统计学考试平均分为72分,也服从正态分布,标准差为7分。现在从A、B两班分别随机抽出10名学生的统计学成绩,A班10名学生的统计学平均成绩高于B班10名同学的统计学平均成绩的可能性有多大?2、两个样本比例之差的分布(P171)设分别从具有参数为π和π2的两个总体中抽取包含n1个观测值和n2个观测值的独立样本,当n1和n2很大时,(p1-p2)的抽样分布近似服从正态分布:【例】某厂甲、乙两个车间生产同一种产品,根据经验其产品的不合格率分别为3.5%和4%。从甲车间随机独立地抽取200个产品,从乙车间随机独立地抽取150个产品。问两个样本中产品不合格率相差不超过1%的概率。补充:同比、环比、定基比一、同比、环比、定基比同比:报告期水平与其前一年同期水平之比。环比:报告期水平与其前一期水平之比。定基比:报告期水平与某一固定时期水平之比二、发展速度与增长速度㈠发展速度反映社会现象在时间上的变动程度的相对数。以某一时期(报告期)水平同以前时期(基期)水平对比而得,用百分率或倍数表示。1、同比发展速度用以说明本期发展水平与去年同期发展水平对比而达到的相对发展速度,主要是为了消除季节变动的影响。本期发展水平本期发展水平去年同期发展水平同比发展速度=×100%去年同期发展水平2、环比发展速度指报告期发展水平与其前一期发展水平对比(相邻期间的比较),所得到的动态相对数。表明现象逐期的发展变动程度。报告期发展水平报告期发展水平报告前一期发展水平环比发展速度=×100%报告前一期发展水平3、定基发展速度定基发展速度也叫总速度,是报告期发展水平与某一固定时期发展水平之比,表明这种现象在较长时期内总的发展速度。报告期发展水平报告期发展水平某一固定时期发展水平定基发展速度=×100%某一固定时期发展水平㈡增长速度表明社会现象增长程度的相对指标,它是报告期的增长量与基期发展水平之比,增长速度也叫增长率。报告期水平报告期水平—基期水平基期发展水平增长速度=×100%基期发展水平1、同比增长率(同比增长速度)报告期水平报告期水平—去年同期水平去年同期水平同比增长速度=×100%去年同期水平2、环比增长率(环比增长速度)报告期水平报告期水平—前一期水平前一期水平环比增长速度=×100%前一期水平3、定基增长速度报告期水平报告期水平—基期水平基期水平定基增长速度=×100%基期水平三、平均发展速度平均发展速度反映现象逐期发展速度的平均程度,是各个时期环比发展速度的几何平均数,说明社会经济现象在较长时期内速度变化的平均程度。设各个时期的发展水平为a0,a1,a2,…,an平均发展速度的计算公式为:平均发展速度:平均增长速度是反映某种现象在一个较长时期中逐期递增的平均速度平均增长速度=平均发展速度-1(100%)第七章参数估计本章重点:1掌握概念:参数估计,置信区间,置信水平2.临界值的计算3.四个公式5.估计总体均值时的样本量的确定(7.4.1)①变化表,课本197页②简答题课本199页(见本资料第七章内容最后)6.课后练习必须掌握的:课本202页7.10204页7.187.1参数估计1.用样本统计量去估计总体参数。2.估计量——用来估计总体参数的统计量估计值——一个具体样本计算出的统计量的数值3.参数估计的方法:点估计和区间估计点估计的实际应用二战中的点估计—德军有多少辆坦克?二战期间,盟军非常想知道德军总共制造了多少辆坦。德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行了连续编号。在战争过程中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么怎样利用这些号码来估计坦克总数呢?在这个问题中,总体参数是未知的坦克总数N,而缴获坦克的编号则是样本。假设我们是盟军手下负责解决这个问题的统计人员。制造出来的坦克总数肯定大于等于记录的最大编号。为了找到它比最大编号大多少,我们先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中点。因此样本均值乘以2就是总数的一个估计;当然要特别假设缴获的坦克代表了所有坦克的一个随机样本。N的另一个点估计公式是:用观测到的最大编号乘以因子1+1/n,其中n是被俘虏坦克个数。假如你俘虏了10辆坦克,其中最大编号是50,那么坦克总数的一个估计是(1+1/10)´50=55。此处我们认为坦克的实际数略大于最大编号。从战后发现的德军记录来看,盟军的估计值非常接近所生产的坦克的真实值。记录仍然表明统计估计比通常通过其他情报方式作出估计要大大接近于真实数目。统计学家们做得比间谍们更漂亮!一.点估计含义:从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。1.点估计的可靠性用标准误差来衡量。2.点估计无法衡量估计值接近总体未知参数程度二.区间估计含义:在点估计的基础上,给出总体参数估计取值的一个区间范围。1.置信区间※由样本统计量对总体参数进行估计时的估计区间。【在某种程度上确信置信区间中包含总体参数的真值】2.置信水平(置信度、置信系数)※包含总体参数真值的置信区间占所有置信区间的比例。常用1-α表示置信水平。a.总体参数的真值是未知的、固定的,构造出的置信区间可能包含真值,也可能不包含真值;b.设置信水平为95%,则说明有95%的置信区间包含总体真值,有5%的置信区间不包含总体真值。练习题1.一个95%的置信区间是指()A总体参数有95%的概率落在这一区间内B总体参数有5%的概率落在这一区间内C在用同样方法构造的总体参数的多个区间中,有95%的区间包含该总体参数D在用同样方法构造的总体参数的多个区间中,有95%的区间不包含该总体参数2.根据一个具体的样本求出的总体均值的95%的置信区间()A以95%的概率包含总体均值B有5%的可能性包含总体均值C一定包含总体均值D要么包含总体均值,要么不包含总体均值3.常用置信水平的临界值(Zα/2值)置信水平αα/2Zα/290%95%99%0.100.050.010.050.0250.0051.6451.962.58三.评价估计量的标准(可能是选择题或简答题)1.无偏性2.有效性对同一总体参数的两个无偏估计量,标准差越小的估计量估计效果越好,称估计量越有效。3.一致性随着样本量的增大,点估计量的值越来越接近被估总体的参数。7.2一个总体参数的区间估计(计算题)7.2.1总体均值的区间估计总体均值的置信区间=样本均值±边际误差总体是否为正态分布总体方差是否已知样本是大样本还是小样本1.正态总体,方差已知2.分布未知,方差未知,大样本3.正态总体,方差未知,小样本1.正态总体,方差已知样本均值X~N(μ,σ2/n)总体均值μ在1-α的置信水平下的置信区间为【例】某厂成批生产某种金属棒,其长度服从正态分布,标准差为0.06厘米,对一个由25根棒组成的随机样本进行了测量,平均长度为7.48厘米,求这批金属棒平均长度μ的置信度为95%的置信区间。解:总体服从正态分布,方差已知,置信度为95%则z0.025=1.96,在置信度为95%水平下,金属棒的平均长度在7.456~7.504厘米之间。2.方差未知,大样本(n≥30)总体均值μ在1-α的置信水平下的置信区间为【例】一家保险公司收集到由36位投保人组成的随机样本,他们的平均年龄为40岁,标准差为5岁,求这家保险公司的所有投保人的平均年龄在90%的置信水平下的置信区间。解:总体的分布未知,总体方差也未知,但所抽样本容量36为大样本,因此,求总体均值的置信区间可用样本标准差代替总体标准差置信区间为:则投保人平均年龄在90%的置信度下的置信区间为38.63岁-41.37岁。3.正态总体、方差未知、小样本用样本方差s2代替总体方差σ2样本均值经标准化处理后服从自由度为(n-1)的t分布总体均值μ在1-α的置信水平下的置信区间为【例】某时装店的管理人员想估计其顾客的平均年龄,随机抽取了16位顾客进行了调查,得到样本均值为32岁,样本标准差为8岁,假定顾客的年龄近似服从正态分布,求该店全部顾客平均年龄在置信度为95%的置信区间。解:因为总体近似服从正态分布,方差未知,所抽样本为小样本,则总体均值的置信区间为因此,有95%的把握估计全部顾客平均年龄在27.738至36.262之间。4.不同情况下总体均值的区间估计总体分布样本量σ已知σ未知正态分布大样本(n≥30)

小样本(n≤30)

非正态分布大样本(n≥30)

7.2.2总体比例的区间估计当样本为大样本时,样本比例p近似服从正态分布,当总体比例π已知时,总体比例π在1-α置信水平下的置信区间为:实际情况中,π值是未知的,要被估计的,所以需要用样本比例p来代替π,则总体比例的置信区间为:【例】某所大学想要了解应届毕业生在大四找到工作的学生中女生所占的比例,随机抽取了100名找到工作的应届毕业生,其中42人为女生。试以95%的置信水平估计该校找到工作的应届毕业生中女同学的比例的置信区间。解:已知n=100,zα/2=1.96,p=42/100=0.42因此,该校找到工作的应届毕业生中女同学的比例为0.37-0.477.3两个总体参数的区间估计7.3.1两个总体均值之差的估计1. 假定条件两个样本是独立的随机样本两个总体都服从正态分布若不是正态分布,可以用正态分布来近似(n1³30和n2³30)2.两个独立样本均值之差的抽样分布服从正态分布,其期望值为其标准误差为3.使用正态分布统计量Z.4.当两个总体方差和已知时,两个总体均值之差m1-m2在1-a置信水平下的置信区间为【例】一个银行负责人想知道储户存入两家银行的钱数。他从两家银行各抽取了一个由25个储户组成的随机样本,样本均值如下:银行A:4500元;银行B:3250元。设已知两个总体服从方差分别为sA2=2500和sB2=3600的正态分布。试求mA-mB的区间估计(1)置信度为95%(2)置信度为99%5.当两个总体方差和未知时,可用两个样本方差和来代替,这时,两个总体均值之差m1-m2在1-a置信水平下的置信区间为【例】为比较两位银行职员为新顾客办理个人结算账目的平均时间长度,分别独立地给两位职员随机安排了49位顾客,并记录下为每位顾客办理账单所需的时间(单位:分钟),相应的样本均值和方差分别为:`x1=22.2,s12=16.63,`x2=28.5,s22=18.92。假定每位职员办理账单所需时间均服从正态分布。试求两位职员办理账单的服务时间之差的95%的区间估计。解:已知X1~N(m1,s2),X2~N(m2,s2),`x1=22.2,`x2=28.5,s12=16.63,s22=18.92,n1=n2=49m1-m2置信度为95%的置信区间为因此,两位职员办理账单的服务时间之差的95%的置信区间为4.634分钟~7.966分钟7.3.2两个总体比例之差的区间估计1. 假定条件两个总体是独立的两个总体服从二项分布可以用正态分布来近似2. 两个总体比例之差π1-π2在1-a置信水平下的置信区间为【例】某饮料公司对其所做的报纸广告在两个城市的效果进行了比较,它们从两个城市中分别随机地调查了1000个成年人,其中看过广告的比例分别为p1=0.18和p2=0.14。试求两城市成年人中看过广告的比例之差的95%的置信区间。解:已知p1=0.18,p2=0.14,1-a=0.95,n1=n2=1000π1-π2置信度为95%的置信区间为我们有95%的把握估计两城市成年人中看过该广告的比例之差在0.79%~7.21%之间7.4样本量的确定样本量、置信水平、置信区间三者的关系样本量置信水平置信区间不变不变扩大扩大提高降低不变提高扩大缩小缩小不变估计总体均值时样本量的确定总体均值的置信区间为边际误差样本量可能简答题:样本量与置信水平、总体方差、边际误差的关系样本量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需的样本量越大;样本量与总体方差成正比,在其他条件不变的情况下,总体的差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论