版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
相对数的分类相对数不同时间上的比较【空间固定】(动态相对数)相同时间上的比较【时间固定】(静态相对数)不同数据的比较【大多为有名数】(强度相对数)相同数据的比较【无名数】实际与计划的比较(计划完成数)不同总体的比较(比较相对数)同一总体内部的比较部分与全体的比较(结构相对数)部分与部分的比较(比例相对数)2.2统计数据的来源统计数据的来源间接来源直接来源第二手数据二手数据的特点收集容易,采集成本低作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径收集二手资料在研究中应优先考虑统计调查统计整理统计分析有组织、有计划地搜集资料。要求:准确、完整、及时对调查资料去伪存真、去粗取精、科学分类、浓缩简化描述性分析推断分析、决策分析。要求:定性定量结合统计工作的三个中心阶段2.2.1数据的直接来源数据的直接来源
(原始数据)调查数据实验数据一、调查组织方式统计调查二、调查方案设计报表制度普查重点调查典型调查抽样调查方案内容调查表、问卷设计制度化的经常性调查专门组织调查全面调查非全面调查统计调查抽样调查特点:1·按随机原则从总体中抽取样本;2·以样本指标(统计量)为依据推断总体参数或检验总体的某种假设;3·抽样误差可以事先计算并加以控制。调查误差登记性误差代表性误差偏差随机误差抽样平均误差实际误差统计推断中的抽样误差就是抽样平均误差。它是处于调查所固有的,是对抽样推断精确度的量度。调查方案的结构
(surveyplan)调查方案的内容调查目的调查对象调查单位调查项目其他问卷的基本结构问卷的基本结构开头部分甄别部分主体部分背景部分问候语填写说明问卷编号提问项目的设计提问的内容尽可能短用词要确切、通俗可按6W准则加以推敲。6W即Who(谁),Where(何处),When(何时),Why(为什么),What(什么事),How(如何)一项提问只包含一项内容避免诱导性提问避免否定形式的提问避免敏感性问题回答的类型与方法回答的类型与方法开放性问题(自由回答型)封闭性问题(选择回答型)两项选择法多项选择法顺序选择法评定尺度法双向列联法限制选择型多项选择型单项选择型2.2.3数据的收集方法数据的收集方法询问调查访问调查观察实验电话调查邮寄调查观察电脑辅助座谈会个别深访实验数据的误差
抽样误差(抽样误差可计算和控制
(samplingerror)由于抽样的随机性所带来的误差所有样本可能的结果与总体真值之间的平均性差异影响抽样误差的大小的因素抽取样本时没有按照随机原则样本量的大小总体结构的变异性统计数据的质量要求1.精
度:最低的抽样误差或随机误差2.准确性:最小的非抽样误差或偏差3.关联性:满足用户决策、管理和研究的需要4.及时性:在最短的时间里取得并公布数据5.一致性:保持时间序列的可比性6.最低成本:以最经济的方式取得数据统计数据的整理流程主要任务数据的预处理、分类或分组、汇总、制表、制图等。分组频数分布统计表统计图2.4.1数据的预处理数据审核检查数据中的错误数据筛选(分类数据的排序数值型数据的排序)3数据排序升序和降序寻找数据的基本特征2.4.2统计数据的分组数据分组的意义:
数据分组就是根据研究现象的特点和数据分析的目的,将原始数据按照总体单位的某一特征分为不同的组别.
经过数据分组后形成的分布在各个组里的数据称为分组数据.作为数据分组的标准的这一特征称为分组标志分组标志的选择与分组形式关键:服从研究任务需要,反映总体本质特征形式按分组标志性质分品质标志分组数量标志分组按分组标志个数分简单分组复合分组分组体系数值型数据的整理与显示:分组方法分组方法等距分组异距分组单变量值分组组距分组组距分组
(步骤)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按
Sturges
提出的经验公式来确定组数K确定组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即
组距=(最大值-最小值)÷组数
统计出各组的频数并整理成频数分布表组距分组
(几个概念)1.下限(lowlimit)
:一个组的最小值2.上限(upperlimit)
:一个组的最大值3.组距(classwidth)
:上限与下限之差4.组中值(classmidpoint)
:下限与上限之间的中点值下限值+上限值2组中值=等距分组与不等距分组
(在表现频数分布上的差异)等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况组距分组时组中值的计算上下组限重叠与上下组限间断的组中值:开口组的组中值:组距分组掩盖了各组内的数据分布状况,为反映各组数据的一般水平,常用组中值作为该组数据的代表值。下限值+上限值2组中值=该组的上限值—邻组组距/2缺少下限的组的组中值=缺少上限的组的组中值=该组的下限值+邻组组距/2数值型数据的图示Excel分组数据—直方图和折线图未分组数据—茎叶图和箱线图时间序列数据—线图分组数据—直方图
(histogram)用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1(频率)分组数据—直方图
(直方图与条形图的区别)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据分组数据—折线图
(frequencypolygon)折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的未分组数据—茎叶图
(stem-and-leafdisplay)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留一位数字对于n(20n300)个数据,茎叶图最大行数不超过
L=[10×lgn]
6.茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息未分组数据—茎叶图
(例题分析)未分组数据—单批数据箱线图
(箱线图的构成)中位数4681012QUQLX最大值X最小值简单箱线图时间序列数据—线图
(lineplot)绘制线图时应注意以下几点时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断时间序列数据—线图
(例题分析)时间序列数据—线图
(例题分析)集中趋势
(centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据数值型数据的众数数据未分组整理时:出现次数最多的变量值即为众数数据分组整理后:先确定众数组(频数最大组);再利用公式计算:公式:其中:中位数
(位置的确定)原始数据:(未分组)顺序数据:(分组数据)各变量值与中位数的离差绝对值之和最小,即数值型分组数据的中位数根据公式n/2确定中位数的位置,并确定中位数所在的组利用公式计算中位数的近似值
其中:n为数据的个数(总次数),L为中位数组的下限,为中位数组以前各组的累积频数,为中位数组的频数,i为中位数组的组距。四分位数
(位置的确定)原始数据:(未分组)顺序数据:(已分组)数值型数据的四分位数
(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789数值型数据的四分位数
(10个数据的算例)【例】:10个家庭的人均月收入数据排序:
660
75078085096010801250150016302000位置:1234
5678910数值型分组数据的四分位数
(计算公式)上四分位数:
下四分位数:
简单平均数与加权平均数
(simplemean/weightedmean)设一组数据为:x1,x2,…,xn各组的组中值为:M1,M2,…,Mk
相应的频数为:f1,f2,…,fk简单平均数加权平均数简单平均数与加权平均数
(simplemean/weightedmean)设一组数据为:x1,x2,…,xn各组的组中值为:M1,M2,…,Mk
相应的频数为:f1,f2,…,fk简单平均数加权平均数调和平均数
(harmonicmean)平均数的另一种表现形式易受极端值的影响计算公式为原来只是计算时使用了不同的数据!几何平均数
(geometricmean)
n个变量值乘积的
n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为5.可看作是平均数的一种变形平均增长率众数、中位数和平均数的关系
(从分布角度)左偏分布均值
<中位数
<众数对称分布
均值=中位数=
众数右偏分布众数
>中位数>均值众数、中位数和平均数的关系
(从数值角度)在偏斜不大时数据分布特征的测度
(本节位置)数据特征的测度众数中位数平均数离散系数方差和标准差峰态四分位差异众比率偏态分布的形状集中趋势离散程度异众比率
(variationratio)1. 对分类数据离散程度的测度2. 非众数组的频数占总频数的比例3. 计算公式为
4.用于衡量众数的代表性异众比率
(例题分析)解:
在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好不同品牌饮料的频数分布
饮料品牌频数比例百分比(%)
可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100四分位差
(quartiledeviation)对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差
Qd=QU
–QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性极差
(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布7891078910
R
=max(xi)-min(xi)计算公式为平均差
(meandeviation)各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少计算公式为未分组数据组距分组数据总体方差和标准差
(populationvarianceandstandarddeviation)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:总体方差用N去除!样本方差和标准差
(simplevarianceandstandarddeviation)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!标准分数
(standardscore)1.也称标准化值2. 对某一个值在一组数据中相对位置的度量3. 可用于判断一组数据是否有离群点4. 用于对变量的标准化处理5.计算公式为(均值等于0方差等于1)离散系数
(coefficientofvariation)1. 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5.计算公式为偏态系数
(skewnesscoefficient)根据原始数据计算根据分组数据计算2. 偏态系数=0为对称分布3. 偏态系数>0为右偏分布4. 偏态系数<0为左偏分布峰态系数
(kurtosiscoefficient)根据原始数据计算根据分组数据计算峰态系数=0扁平峰度适中峰态系数<0为扁平分布峰态系数>0为尖峰分布【习题】某班40名学生统计学考试成绩分别为:57、89、49、84、86、87、75、73、72、68、75、82、97、81、
67、81、54、79、87、95、76、71、60、90、65、76、72、70、
86、85、89、89、64、57、83、81、78、87、72、61学校规定:60分以下为不及格,60─70分为及格,70─80分为中,80─90分为良,90─100分为优。要求:(1)将该班学生分为不及格、及格、中、良、优五组,编制一张次数分配表,并绘制直方图。
(2)根据次数分配表,计算该班学生统计学的平均成绩。(3)根据次数分配表,计算该班成绩的标准差(4)请说明其属于哪种偏态形式。1.统计表的结构统计表由以下几个部分组成:(统计表的分类:简单表和复合表)①标题、②标目、③线条、④数字、⑤备注1.标题位于表的上方,概括地说明表的主要内容。必要时注明时间和地点。若一篇论文中有两张以上统计表,则每张统计表的标题前应加序号。2.标目根据其位置与作用可分为横标目、纵标目和总标目。横标目位于表的左侧,说明各横行数字的涵义,一般为研究的事情;纵标目位于表的右侧,说明各纵栏数字的涵义,即研究事物的指标。只有组合表才有总标目,它是对横标目或纵标目内容的概括。
统计表的结构××.××┋┋×.××××.××纵标目总标目(单位)××.××××××××合计┋┋┋┋┋┋┋┋×.××××××┋××.××××××××横标目纵标目纵标目纵标目总标目横标目的总标目备注:表号标题(包括何时、何地、何事)1.统计图的结构统计图由以下几个部分组成:①标题、②标目、③点线条面、④刻度、⑤图(为了图形美观,图形的长宽比例习惯上为7:5或5:7。)
1.标题其作用及要求与统计表的标题相同,但位置是在图的下方。若同一篇论文中有两个以上统计图时,则标题前应有序号。2.标目分为纵标目与横标目,分别表示纵轴与横轴数字刻度的意义,一般有度量衡单位。按中文排版习惯,纵标目由上而下,横标目由左向右。如果横轴的分组标志十分明确,也可省略横标目。(1)条图
条图:用直条的长度表示相互独立的统计指标的大小,可分为:①单式条图:具有一个统计指标,一个分组标志。②复式条图:具有一个统计指标,两个分组因素。③分段条图
④误差条图分段条图:具有两个统计指标,一个分组因素,且两个统计指标必须有隶属关系。如左图。误差条图:用条图或线图表示均数的基础上,在图中附上标准差的范围。如右图。
图2-27四种营养素喂养小白鼠三周后所增体重(克)图2-26老、中、青三代的结核菌素阳性率与强阳性率(%)绘制条图注意事项
⑴纵轴的刻度必须从“0”开始,否则会改变各对比组间的比例关系。
(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。
(3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。
绘制条图注意事项
⑴纵轴的刻度必须从“0”开始,否则会改变各对比组间的比例关系。
(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。
(3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。
绘制条图注意事项
⑴纵轴的刻度必须从“0”开始,否则会改变各对比组间的比例关系。
(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。
(3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。
(4)线图①普通线图:用线段的升降表示某事物动态变化,或某现象随另一现象变迁的情况(绝对差)。适用于连续性资料。纵轴:算术尺度;横轴:连续性变量(时间、年龄等)②半对数线图:表示事物发展速度(相对比)。纵轴:对数尺度;横轴:连续性变量(时间、年龄等)表2-13某市1949~1957年15岁以下儿童结核病和白喉死亡率(1/10万)年份
结核病死亡率百喉死亡率194919501951195219531954195519561957150.2148.0141.0130.0110.498.272.668.054.820.116.614.011.810.76.53.92.41.3(4)线图①普通线图:用线段的升降表示某事物动态变化,或某现象随另一现象变迁的情况(绝对差)。适用于连续性资料。纵轴:算术尺度;横轴:连续性变量(时间、年龄等)②半对数线图:表示事物发展速度(相对比)。纵轴:对数尺度;横轴:连续性变量(时间、年龄等)表2-13某市1949~1957年15岁以下儿童结核病和白喉死亡率(1/10万)年份
结核病死亡率百喉死亡率194919501951195219531954195519561957150.2148.0141.0130.0110.498.272.668.054.820.116.614.011.810.76.53.92.41.3(6)散点图散点图:用点的密集程度和趋势表示两种现象间的相关关系。横轴:自变量X
纵轴:应变量Y纵轴与横轴的起点可根据资料的情况而定。4.1
概率抽样方法4.1.1简单随机抽样4.1.2分层抽样4.1.3系统抽样4.1.4整群抽样4.1
概率抽样方法4.1.1简单随机抽样4.1.2分层抽样4.1.3系统抽样4.1.4整群抽样简单随机抽样
(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n的样本都有相同的机会(概率)被抽中抽取元素的具体方法有重复抽样和不重复抽样特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率分层抽样
(stratifiedsampling)将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计分层抽样
(stratifiedsampling)将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计整群抽样
(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差多阶段抽样
(multi-stagesampling)先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样具有整群抽样的优点,保证样本相对集中,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,经常被采用的方法
总体中各元素的观察值所形成的分布分布通常是未知的通常可以根据经验大致了解总体的分布类型,或者可以假定它服从某种分布总体分布
(populationdistribution)总体一个样本(容量为n)中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布
(sampledistribution)样本样本统计量的概率分布,是样本分布的概率分布,是一种理论分布从理论上说就是在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布样本统计量是随机变量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本,反映了依据样本计算出来统计量数值的概率分布,提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布
(samplingdistribution)一个样本(容量为n)中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布
(sampledistribution)样本样本统计量的概率分布,是样本分布的概率分布,是一种理论分布从理论上说就是在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布样本统计量是随机变量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本,反映了依据样本计算出来统计量数值的概率分布,提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布
(samplingdistribution)一个样本(容量为n)中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布
(sampledistribution)样本样本统计量的概率分布,是样本分布的概率分布,是一种理论分布从理论上说就是在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布样本统计量是随机变量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本,反映了依据样本计算出来统计量数值的概率分布,提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布
(samplingdistribution)样本均值的抽样分布
(例题分析)【例】设一个总体,含有4个元素(个体)
,即总体单位数N=4。4
个个体分别为x1=1,x2=2,x3=3,x4=4
。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差样本均值的抽样分布
(例题分析)
现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)样本均值的抽样分布
(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P
(x)1.53.04.03.52.02.5样本均值的分布与总体分布的比较
(例题分析)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x中心极限定理
(centrallimittheorem)当样本容量足够大时(n
30),样本均值的抽样分布逐渐趋于正态分布中心极限定理:设从均值为,方差为
2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体x抽样均值分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布(t分布)样本均值的数学期望样本均值的方差重复抽样不重复抽样样本均值的抽样分布
(数学期望与方差)比较及结论:1.样本均值的均值(数学期望)等于总体均值
2.样本均值的方差等于总体方差的1/n均值的抽样标准误差所有可能的样本均值的标准差,测度所有样本均值的离散程度也称标准误差小于总体标准差计算公式为均值的抽样标准误差总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为
比例
(proportion)样本比例的数学期望样本比例的方差重复抽样不重复抽样样本比例的抽样分布
(数学期望与方差)样本比例的数学期望样本比例的方差重复抽样不重复抽样样本比例的抽样分布
(数学期望与方差)样本方差的分布在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的2分布,即期望为:E(2)=n,方差为:D(2)=2n(n为自由度)可加性:若U和V为两个独立的2分布随机变量,U~2(n1),V~2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布样本统计量的抽样分布(总结)样本统计量样本均值x样本方差s2样本比率pt分布正态总体或非正态总体大样本非正态总体(小样本)大样本正态分布正态分布x2分布样本统计量的抽样分布(总结)样本统计量样本均值x样本方差s2样本比率pt分布正态总体或非正态总体大样本非正态总体(小样本)大样本正态分布正态分布x2分布样本统计量的抽样分布(总结)样本统计量样本均值x样本方差s2样本比率pt分布正态总体或非正态总体大样本非正态总体(小样本)大样本正态分布正态分布x2分布两个样本方差比的抽样分布
两个总体都为正态分布,即X1~N(μ1,σ12),X2~N(μ2,σ22)从两个总体中分别抽取容量为n1和n2的独立样本两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1)的F分布,即两个样本统计量的抽样分布(总结)两个样本统计量均值之差方差之比比率之差t分布正态总体或非正态总体大样本非正态总体(小样本)大样本正态分布正态分布F分布参数估计在统计方法中的地位参数估计假设检验统计方法描述统计推断统计参数估计在统计方法中的地位参数估计假设检验统计方法描述统计推断统计点估计
(pointestimate)用样本估计量直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计例如:用两个样本均值之差直接作为总体均值之差的估计没有给出估计值接近总体参数程度的信息;点估计的结果只有正确与错误之分,哪怕只相差.01也算不正确;大多数情况下,要点估计决定正确几乎是不可能的.5.点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等区间估计
(intervalestimate)在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减允许误差而得到的根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在75~85之间,置信水平是95%
样本统计量
(点估计)置信区间置信下限置信上限区间估计
(内容)2
已知2未知均值方差比例置信区间无偏性
(unbiasedness)无偏性:估计量抽样分布的数学期望等于被估计的总体参数,即P(
)BA无偏有偏有效性
(efficiency)有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效
AB
的抽样分布
的抽样分布P(
)一致性
(consistency)一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数AB较小的样本容量较大的样本容量P(
)5.2一个总体参数的区间估计5.2.1总体均值的区间估计5.2.2总体比例的区间估计5.2.3总体方差的区间估计总体均值的区间估计
(大样本)1. 假定条件总体服从正态分布,且方差(2)
已知如果不是正态分布,可由正态分布来近似(n
30)使用正态分布统计量z总体均值在1-置信水平下的置信区间为总体均值的区间估计
(正态总体:实例)解:已知X~N(,0.152),x=2.14,n=9,1-=0.95,Z/2=1.96
总体均值的置信区间为我们可以95%的概率保证该种零件的平均长度在21.302~21.498mm之间【例】某种零件长度服从正态分布,从该批产品中随机抽取9件,测得其平均长度为21.4mm。已知总体标准差=0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。总体均值的区间估计
(正态总体:实例)解:已知X~N(,0.152),x=2.14,n=9,1-=0.95,Z/2=1.96
总体均值的置信区间为我们可以95%的概率保证该种零件的平均长度在21.302~21.498mm之间【例】某种零件长度服从正态分布,从该批产品中随机抽取9件,测得其平均长度为21.4mm。已知总体标准差=0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。小样本总体均值的区间估计
(小样本)1. 假定条件总体服从正态分布,且方差(2)
未知小样本(n<30)使用t
分布统计量总体均值在1-置信水平下的置信区间为小样本总体均值的区间估计
(小样本)1. 假定条件总体服从正态分布,且方差(2)
未知小样本(n<30)使用t
分布统计量总体均值在1-置信水平下的置信区间为特别注意:1-=95%,t/2=2.131小样本总体均值的区间估计
(小样本)1. 假定条件总体服从正态分布,且方差(2)
未知小样本(n<30)使用t
分布统计量总体均值在1-置信水平下的置信区间为t分布
t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布xt
分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)z不同情况下总体均值的区间估计总体分布样本容量已知未知正态分布大样本(n>=30)小样本(n<30)非正态分布大样本(n>=30)总体比例的区间估计1. 假定条件总体服从二项分布可以由正态分布来近似使用正态分布统计量z3.总体比例在1-置信水平下的置信区间为总体比例的区间估计1. 假定条件总体服从二项分布可以由正态分布来近似使用正态分布统计量z3.总体比例在1-置信水平下的置信区间为总体比例的区间估计
(例题分析)【例】某城市想要估计下岗职工中女性所占的比例,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间解:已知n=100,p=65%,1-=95%,z/2=1.96该城市下岗职工中女性比例的置信区间为55.65%~74.35%
总体方差的区间估计1. 估计一个总体的方差或标准差2. 假设总体服从正态分布总体方差2
的点估计量为s2,且4.总体方差在1-置信水平下的置信区间为总体方差的区间估计
(例题分析)解:已知n=25,1-=95%,根据样本数据计算得
s2=93.21
2置信度为95%的置信区间为该企业生产的食品总体重量标准差的的置信区间为7.54g~13.43g两个总体均值之差的估计
(大样本)1. 假定条件两个总体都服从正态分布,12、22已知若不是正态分布,可以用正态分布来近似(n130和n230)两个样本是独立的随机样本使用正态分布统计量z两个总体均值之差的估计
(大样本)1. 12,22已知时,两个总体均值之差1-2在1-置信水平下的置信区间为12、22未知时,两个总体均值之差1-2在1-置信水平下的置信区间为两个总体均值之差的估计
(小样本:
12=22
)1. 假定条件两个总体都服从正态分布两个总体方差未知但相等:12=22两个独立的小样本(n1<30和n2<30)总体方差的合并估计量估计量x1-x2的抽样标准差独立小样本两个总体均值之差的估计
(小样本:12=22
)两个样本均值之差的标准化两个总体均值之差1-2在1-置信水平下的置信区间为两个总体均值之差的估计
(例题分析)【例】为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排12名工人,每个工人组装一件产品所需的时间(分钟)下如表。假定两种方法组装产品的时间服从正态分布,且方差相等。试以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间两个方法组装产品所需的时间方法1方法228.336.027.631.730.137.222.226.029.038.531.032.037.634.433.831.232.128.020.033.428.830.030.226.521两个总体均值之差的估计
(例题分析)解:根据样本数据计算得合并估计量为:两种方法组装产品所需平均时间之差的置信区间为0.14分钟~7.26分钟两个总体均值之差的估计
(小样本:1222n1n2)1. 假定条件两个总体都服从正态分布两个总体方差未知且不相等:1222两个独立的小样本(n1<30和n2<30),且容量不等使用统计量两个总体均值之差的估计
(小样本:1222
)两个总体均值之差1-2在1-置信水平下的置信区间为自由度两个总体均值之差的估计
(例题分析)【例】沿用前例。假定第一种方法随机安排12名工人,第二种方法随机安排8名工人,即n1=12,n2=8,所得的有关数据如表。假定两种方法组装产品的时间服从正态分布,且方差不相等。以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间两个方法组装产品所需的时间方法1方法228.336.027.631.730.137.222.226.529.038.531.037.634.433.832.128.020.028.830.030.221两个总体均值之差的估计
(例题分析)解:根据样本数据计算得自由度为:两种方法组装产品所需平均时间之差的置信区间为0.192分钟~9.058分钟匹配样本
(数据形式)
观察序号样本1样本2差值1x11x21d1=x11-x212x12x22d2=x12-x22MMMMix1ix2idi
=x1i
-x2iMMMMnx1nx2ndn
=x1n-x2n两个总体均值之差的估计
(匹配小样本)假定条件两个匹配的小样本(n1<30和n2<30)两个总体各观察值的配对差服从正态分布
两个总体均值之差d=1-2在1-置信水平下的置信区间为两个总体均值之差的估计
(例题分析)【例】由10名学生组成一个随机样本,让他们分别采用A和B两套试卷进行测试,结果如下表。试建立两种试卷分数之差d=1-2
95%的置信区间
10名学生两套试卷的得分学生编号试卷A试卷B差值d17871726344193726111489845691741754951-27685513876601698577810553916STATISTICS两个总体均值之差的估计
(例题分析)解:根据样本数据计算得两种试卷所产生的分数之差的置信区间为6.33分~15.67分1. 假定条件两个总体服从二项分布可以用正态分布来近似两个样本是独立的2. 两个总体比例之差1-2在1-置信水平下的置信区间为两个总体比例之差的区间估计两个总体比例之差的估计
(例题分析)【例】在某个电视节目的收视率调查中,农村随机调查了400人,有32%的人收看了该节目;城市随机调查了500人,有45%的人收看了该节目。试以90%的置信水平估计城市与农村收视率差别的置信区间12两个总体比例之差的估计
(例题分析)解:已知
n1=500,n2=400,p1=45%,p2=32%,
1-=95%,z/2=1.96
1-2置信度为95%的置信区间为城市与农村收视率差值的置信区间为6.68%~19.32%两个总体方差比的区间估计1. 比较两个总体的方差比用两个样本的方差比来判断如果S12/S22接近于1,说明两个总体方差很接近如果S12/S22远离1,说明两个总体方差之间存在差异总体方差比在1-置信水平下的置信区间为估计总体均值时样本容量n为样本容量n与总体方差2、边际(允许)误差E、可靠性系数Z或t之间的关系为与总体方差成正比与边际误差成反比与可靠性系数成正比样本容量的圆整法则:当计算出的样本容量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等估计总体均值时样本容量的确定:估计总体均值时样本容量的确定
(例题分析)【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望边际误差为400元,应抽取多大的样本容量?估计总体均值时样本容量的确定
(例题分析)解:已知=2000,E=400,1-=95%,z/2=1.96
应抽取的样本容量为即应抽取97人作为样本根据比例区间估计公式可得样本容量n为估计总体比例时样本容量的确定
E的取值一般小于0.1
未知时,可取最大值0.5估计总体比例时样本容量的确定
(例题分析)【例】根据以往的生产统计,某种产品的合格率约为90%,现要求边际误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?解:已知=90%,=0.05,z/2=1.96,E=5%
应抽取的样本容量为
应抽取139个产品作为样本估计总体比例时样本容量的确定
(例题分析)【例】根据以往的生产统计,某种产品的合格率约为90%,现要求边际误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?解:已知=90%,=0.05,z/2=1.96,E=5%
应抽取的样本容量为
应抽取139个产品作为样本假设检验看概率论,不做重点要求总体均值的检验
(大样本)1. 假定条件正态总体或非正态总体大样本(n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度环保型砂石料生产线建设合同
- 2024年度信息技术咨询服务合同
- 2024年度产品销售合同违约金约定
- 2024年度工程咨询合同:关于变压器施工项目的咨询服务合同
- 2024年度深圳租赁合同中之广告位使用权协议
- 04版广告媒体代理与合作合同
- 2024年度广告设计制作存放租赁合同
- 2024年度拆房工程变更承包合同
- 04版泵车维修配件供应合同
- 2024年度医疗设备承包转让合同
- 部编版语文拼音默写
- 绘本:《幼儿园的一天》
- 烟花爆竹生产企业2023安全生产费用投入计划和实施方案
- 科幻小说赏读智慧树知到答案章节测试2023年杭州师范大学
- 二年级上册生命 生态 安全 全册教案
- 古埃及古希腊古罗马柱式分析
- 保温脚手架施工方案
- 医疗机构开展消防安全标准化管理达标创建实施方案(示范文本)
- WS/T 431-2013护理分级
- GB/T 5606.1-2004卷烟第1部分:抽样
- GB/T 41300-2022民用无人机唯一产品识别码
评论
0/150
提交评论