




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课程说明
课程名称:《统计学》Statistics
课程编号:171JB008
课程性质:专业必修课
学时学分:64学时,4学分
考试与成绩:考试;
平时成绩占30%期末考试占70%
先修课程:经济数学2000年中国GDP为89404亿元,比上年增长8%;2001年GDP为95933亿元,比上年增长7.3%;2004年GDP为136515亿元,比上年增长9.5%;2008年GDP为300670亿元,比上年增长9.0%;什么是统计?请先看看实际数据1953.7.1~587961964.7.1~704991982.7.1~1015411990.7.1~1132742000.11.1~1295332008年末~132802人口?(万人)中国进行了几次人口普查?人口平均预期寿命
中国:2000年71.4岁,其中男性69.63岁,女性为73.33岁
北京城区人口平均预期寿命79.6岁居全国之首(2006.5.7)
世界:2000年为66岁,发达国家和地区为76
岁,发展中国家和地区为64岁
其中:日本81岁瑞士79岁德国78岁澳大利亚79岁加拿大79岁美国78岁婴儿性别比1982年108.5:1001990年111.3:1001995年115.6:1002000年116.86:1002008年120.56:1002001-2008年我国居民消费价格指数年份20012002200320042005200620072008城镇居民(%)100.799.0100.9103.3101.6101.5104.5105.6农村居民(%)100.899.6101.6104.8102.2101.5105.4106.5注:当CPI>103%时,即为通货膨胀;当CPI>105%时,即为严重通货膨胀。第1章数据与统计学1.1
统计数据与统计学1.2统计学的产生和发展1.3统计学的分科1.4统计数据的来源1.5统计数据的质量1.6统计学的基本概念学习目标理解统计学的含义理解统计学与统计数据的关系了解统计学的分科了解统计学的发展过程了解统计数据的来源理解统计中的几个基本概念1.1统计数据与统计学什么是统计学?1.数据搜集:取得数据2.数据分析:分析数据3.数据表述:图表展示数据数据解释:结果的说明
收集、整理、显示和分析数据的科学
统计规律
(一些例子)正常条件下新生婴儿的性别比为105:100投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现1~6点的频率各为1/6农作物的产量与施肥量之间存在相关关系销售额与广告费用之间的关系1.2统计学的产生和发展1.2统计学的产生和发展一、统计学的三大源头1、政府统计:配第的《政治算术》2、人口统计:格朗特的《关于死亡表的自然观察和政治观察》3、古典概率论:帕斯卡、费马二、统计学的发展阶段1、第一阶段:17C中叶—19C末,描述统计2、第二阶段:20C初—20C中叶,推断统计3、第三阶段:20C中叶以来,全面发展1.3统计学的分科统计方法统计方法描述统计推断统计参数估计假设检验描述统计
(descriptivestatistics)研究数据收集、整理和描述的统计学分支内容搜集数据整理数据展示数据描述性分析目的描述数据特征找出数据的基本规律推断统计
(inferentialstatistics)研究如何利用样本数据来推断总体特征的统计学分支内容参数估计假设检验目的对总体特征作出推断描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(包括分布理论、大数定律和中心极限定理等)描述统计(统计数据的搜集、整理、显示和分析等)总体数据样本数据理论统计与应用统计理论统计研究统计学的一般理论研究统计方法的数学原理应用统计研究统计学在各领域的具体应用1.4统计数据的来源普查和抽样调查普查为某一特定目的,专门组织的一次性全面调查。这是一种摸清国情、国力的重要调查方法。抽样调查抽样调查是统计调查中应用最广、最为重要的调查方法,它是通过随机样本对总体数量规律性进行推断的调查研究方法1.5统计数据的质量抽样误差和非抽样误差抽样误差利用样本推断总体时产生的误差由于样本只是总体的一部分,用样本的信息去推断总体,或多或少总会存在误差,因而抽样误差对任何一个随机样本来讲都是不可避免的非抽样误差由于调查过程中各有关环节工作失误造成的包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中不回答产生的误差等1.6统计学的基本概念总体和样本总体(population)所研究的全部个体(数据)的集合,其中的每一个元素称为个体分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量
参数和统计量参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值(
)、标准差(
)、总体比例()等总体参数通常用希腊字母表示统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数所关心的样本统计量有样本均值(
x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母表示统计中的几个基本概念平均数标准差比例参数
统计量
xsp
总体
样本变量在研究总体时,我们重点关注的是总体单位具有哪些特征或属性,我们把这些特征称为变量。如:工业企业的基本情况包括企业所有制、职工人数、产值、劳动生产率、利润、税金等。几种常用的统计软件
(Software)
典型的统计软件SASSPSSMINITABSTATISTICAExcelMINITABSTATISTICAExcelSASSPSS本章小节统计数据与统计学统计学的产生和发展统计学的分科统计数据的来源和质量统计学的基本概念第2章统计数据的描述2.1统计数据的整理2.2分布集中趋势的测度2.3分布离散程度的测度2.4分布偏态与峰态的测度2.5统计表与统计图
本章小结学习目标掌握数值型数据的整理方法掌握数据集中趋势和离散程度的测度方法掌握茎叶图和箱线图的制作方法掌握分布偏态与峰度的测度方法掌握统计表和统计图的使用2.1统计数据的整理一、统计数据的分组二、次数分配三、次数分配直方图四、洛伦茨曲线一、统计数据的分组(一)定性分组如按性别、民族、经济类型分组(二)定量分组如按产量、年龄、利润分组1、单项分组:每组只有一个变量值2、组距分组2.1统计数据的整理二、次数分配(以组距分组为例)(一)组距分组的要点将变量值的一个区间作为一组适合于数值型变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组~~~~~2.1统计数据的整理组距分组
(几个概念)(二)组距分组的概念1.下限(lowlimit)
:一个组的最小值2.上限(upperlimit)
:一个组的最大值3.组距(classwidth)
:上限与下限之差4.组中值(classmidpoint)
:下限与上限之间的中点值下限值+上限值2组中值=2.1统计数据的整理(三)组距分组的步骤确定组数:组数的确定应以能够显示数据的分布特征和规律为目的确定组距:组距(classwidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即
组距=(最大值-最小值)÷组数统计出各组的频数并整理成频数分布表2.1统计数据的整理次数分配表的编制
(例题分析)【例】某车间30名工人每周加工某种零件件数如右表,试对数据进行分组。
次数分配表使用Excel频数函数
(FREQUENCY)Excel的“直方图”工具的缺陷是:频数分布和直方图没有与数据联系起来,这样,如果你改变任何一个数据,频数分布表和直方图不会跟着改变使用Excel中的统计函数“FREQUENCY”来创建频数分布表和直方图,可解决这一问题。创建频数分布表的步骤是选择与接受区域相临近的单元格区域,作为频数分布表输出的区域选择统计函数中的“FREQUENCY”函数在对话框Date-array后输入数据区域,在Bins-array后输入各组分界点同时按下ctrl-shift-Enter组合键,即得到频数分布统计函数—FREQUENCY直方图
三、次数分配直方图(一)直方图(histogram)用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于12.1统计数据的整理分组数据的图示
(直方图的绘制)某车间工人周加工零件直方图
我一眼就看出来了,周加工零件在100~110之间的人数最多!(frequencypolygon)(二)折线图(frequencypolygon)折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的2.1统计数据的整理分组数据的图示
(折线图的绘制)折线图与直方图下的面积相等!某车间工人周加工零件折线图
对称分布右偏分布左偏分布正J型分布反J型分布U型分布几种常见的频数分布(三)分布曲线2.1统计数据的整理洛伦茨曲线三、洛伦茨曲线和基尼系数(一)洛伦茨曲线20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家巴雷特(V.Pareto)提出的收入分配公式绘制而成描述收入和财富分配性质的曲线,分析该国家或地区分配的平均程度
AB累积的人口百分比
累积的收入百分比
绝对公平线
2.1统计数据的整理基尼系数
(二)基尼系数20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标AB
其中,A表示实际收入曲线与绝对平均线之间的面积,B表示实际收入曲线与绝对不平均线之间的面积2.1统计数据的整理基尼系数2.评价标准(1)如果A=0,则基尼系数=0,表示收入绝对平均;(2)如果B=0,则基尼系数=1,表示收入绝对不平均;(3)基尼系数在0和1之间取值;(4)基尼系数若小于0.2,表明分配平均但缺乏效率;(5)基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;(6)基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。2.2分布集中趋势的测度一、众数二、中位数三、四分位数四、均值五、几何均值六、切尾均值七、众数、中位数和均值的比较(mode)一、众数(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数2.2分布集中趋势的测度众数
(不惟一性)无众数
原始数据:10591268一个众数
原始数据:659855多于一个众数
原始数据:252828
364242排序后处于中间位置上的值Me50%50%不受极端值的影响3.各变量值与中位数的离差绝对值之和最小,即2.2分布集中趋势的测度二、中位数(median)(一)中位数的概念原始数据:分组数据:2.2分布集中趋势的测度(二)中位数的位置中位数的求法
(9个数据的算例)【例】
9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:7507808509601080
1250150016302000位置:1234
56789中位数
1080
中位数的求法
(10个数据的算例)【例】:10个家庭的人均月收入数据排序:
660
75078085096010801250150016302000位置:1234
5678910
三、四分位数(quartile)(一)四分位数的概念排序后处于25%和75%位置上的值不受极端值的影响QLQMQU25%25%25%25%2.2分布集中趋势的测度原始数据:分组数据:2.2分布集中趋势的测度(二)四分位数的位置四分位数的求法
(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789
四分位数的求法
(10个数据的算例)【例】:10个家庭的人均月收入数据排序:
660
75078085096010801250150016302000位置:1234
5678910
统计函数—QUARTILE四、均值(mean)(一)均值的概念集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响2.2分布集中趋势的测度(二)均值的算法1、简单均值(simplemean)设一组数据为:x1,x2,…,xn总体均值样本均值2.2分布集中趋势的测度2、加权均值(weightedmean)设一组数据为:x1,x2,…,xn相应的频数为:f1,f2,…,fk总体均值样本均值2.2分布集中趋势的测度加权均值计算表零件数
工人数
组中值xifi80-9038525590-100795665100-110131051365110-1205115575120-1302125250合计30
—3110加权均值
(例题分析)(三)均值的数学性质1. 各变量值与均值的离差之和等于零
2.各变量值与均值的离差平方和最小2.2分布集中趋势的测度五、几何平均数(geometricmean)1.n个变量值乘积的
n次方根2.适用于对比率数据的平均3.主要用于计算平均增长率4.计算公式为5.可看作是均值的一种变形2.2分布集中趋势的测度几何均值的求法
(例题分析)
【例】一位投资者购持有一种股票,在2000年、2001年、2002年和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率算术平均:
几何平均:六、切尾均值(trimedmean)
1.去掉大小两端的若干数值后计算中间数据的均值2.在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用3.计算公式为n
表示观察值的个数;α表示切尾系数,
2.2分布集中趋势的测度切尾均值
(例题分析)
【例】谋次比赛共有11名评委,对某位歌手的给分分别是:
经整理得到顺序统计量值为去掉一个最高分和一个最低分,取1/11
众数、中位数和均值的关系左偏分布均值
中位数
众数对称分布
均值=中位数=
众数右偏分布众数
中位数均值2.2分布集中趋势的测度众数、中位数、均值的特点和应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用2.3分布离散程度的测度一、极差二、内距三、方差和标准差四、离散系数一、极差(rang)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布7891078910
R
=max(xi)-min(xi)计算公式为2.3分布离散程度的测度二、内距(Inter-QuartileRange,IQR)
也称四分位差上四分位数与下四分位数之差
内距=QU
–QL反映了中间50%数据的离散程度不受极端值的影响可用于衡量中位数的代表性2.3分布离散程度的测度三、方差与标准差(VarianceandStandarddeviation)(一)方差与标准差的概念1. 离散程度的测度值之一2. 最常用的测度值3. 反映了数据的分布4.反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差可用于衡量均值的代表性大小4681012
x=8.32.3分布离散程度的测度(二)总体方差和标准差(PopulationvarianceandStandarddeviation)的计算公式未分组数据:组距分组数据:未分组数据:组距分组数据:1、总体方差的计算公式2、总体标准差的计算公式2.3分布离散程度的测度(三)样本方差和标准差(simplevarianceandstandarddeviation)的计算公式未分组数据:组距分组数据:未分组数据:组距分组数据:1、样本方差的计算公式2、样本标准差的计算公式注意:样本方差用自由度n-1去除!2.3分布离散程度的测度注解:样本方差自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为
n时,若样本均值
x
确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则
x
=5。当
x
=5
确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量2.3分布离散程度的测度方差、标准差计算表(组距数列)零件数
工人数
组中值(Xi-x)280-90385348.4490-10079575.11100-110131051.78110-1205115128.44120-1302125455.11合计30
—1008.89方差、标准差(例题)四、离散系数(coefficientofvariation)1. 标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5.计算公式为2.3分布离散程度的测度离散系数
(例题分析)某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度离散系数
(例题分析)结论:
计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度
v1=536.25309.19=0.577v2=32.521523.09=0.7102.7偏态与峰态的度量一、偏态-----偏度二、峰态-----峰度一、偏态及其测度(一)偏态的概念1.统计学家Pearson于1895年首次提出2.数据分布偏斜程度的测度,数据分布的不对称性称为偏态。3.偏态系数=0为对称分布偏态系数>0为右偏分布偏态系数<0为左偏分布2.7偏态与峰态的度量二、偏态系数
(skewnesscoefficient)根据原始数据计算2.7偏态与峰态的度量2.根据分组数据计算二、峰态及其测度(一)峰态的概念1.统计学家Pearson于1905年首次提出2.数据分布扁平程度的测度,反映数据分布的尖峭程度(与正态分布比较)。3.峰态系数=0为峰度适中峰态系数<0为扁平分布峰态系数>0为尖峰分布2.7偏态与峰态的度量(二)峰态系数(kurtosiscoefficient)1.根据原始数据计算2.7偏态与峰态的度量2.根据分组数据计算偏态系数和峰态系数
(例题分析)
某电脑公司销售量偏态及峰度计算表
按销售量份组(台)组中值(Mi)频数
fi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合计—120540000
70100000
结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布。结论:峰态系数为负值,但与0的差异不大,说明电脑销售量为轻微扁平分布STAT《统计学》非对称的,右偏斜的分布对称的、高度适中的分布既左偏斜又低平的分布2.5统计表与统计图一、统计表二、统计图一、统计表(一)统计表的结构1999~2000年城镇居民家庭抽样调查资料项目单位1999年2000年
调查户数平均每户家庭人口平均每户就业人口平均每户就业面平均一名就业者负担人数平均每人全部年收入#可支配收入平均每人消费性支出户人人%元元元元
400443.141.7756.431.775888.775854.024615.91
4222.03.131.6853.671.866316.816279.984998.00资料来源:《中国统计年鉴2001》,中国统计出版社,2001,第305页。注:本表为城市和县城的城镇居民家庭抽样调查材料。
行标题列标题数字资料表头附加2.5统计表与统计图(1)合理安排统计表的结构(2)总标题内容应满足3W(where,when,what)
要求(3)数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明(4)表中上下两条横线一般用粗线,其他线用细线(5)通常情况下,统计表的左右两边不封口(6)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一(7)对于没有数字的表格单元,一般用“—”表示(8)必要时可在表的下方加上注释(二)设计和使用统计表的注意事项2.5统计表与统计图一、统计图
(一)茎叶图(stem-and-leafdisplay)用于显示未分组的原始数值型数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留一位数字茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息2.5统计表与统计图茎叶图
(例题分析)茎叶图
(扩展的茎叶图)(二)箱线图(boxplot)用于显示未分组的原始数值型数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成箱线图的绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接2.5统计表与统计图箱线图
(箱线图的构成)中位数4681012QUQLX最大值X最小值简单箱线图箱线图
(例题分析)最小值84最大值128中位数105下四分位数96上四分位数10980859095100105110150120125130周加工零件数的箱线图分布的形状与箱线图
对称分布QL中位数
QU左偏分布QL中位数
QU右偏分布QL
中位数
QU不同分布的箱线图未分组数据—多批数据箱线图
(例题分析)【例】
从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据—多批数据箱线图
(例题分析)8门课程考试成绩的箱线图11名学生8门课程考试成绩的箱线图min-max25%-75%medianvalue455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据—多批数据箱线图
(例题分析)本章小结统计数据的整理分布集中趋势的测度分布离散程度的测度偏态系数与峰态系数统计表与统计图第2章结束了!THANKS第3章抽样与抽样分布3.3
常用的抽样方法3.4抽样分布学习目标了解抽样的概率抽样方法理解抽样分布的意义了解抽样分布的形成过程理解中心极限定理理解抽样分布的性质3.3常用的抽样方法一、简单随机抽样二、分层抽样三、系统抽样四、整群抽样3.3常用的抽样方法一、抽样方法的类型3.3常用的抽样方法二、概率抽样(probabilitysampling)(一)概率抽样概述根据一个已知的概率来抽取样本单位,也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率3.3常用的抽样方法(二)简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,使得每一个单位都有相同的机会(概率)被抽中抽取元素的具体方法有重复抽样和不重复抽样特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率3.3常用的抽样方法(三)分层抽样(stratifiedsampling)将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本单位优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计3.3常用的抽样方法(四)系统抽样(systematicsampling)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难3.3常用的抽样方法(五)整群抽样(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差3.4抽样分布一、抽样分布的概念二、由正态分布导出的几个重要分布三、样本均值的抽样分布四、样本比例的抽样分布五、样本方差的抽样分布六、两个样本统计量的抽样分布一、抽样分布(samplingdistribution)样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 3.4抽样分布抽样分布的形成过程
(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本二、由正态分布导出的几个重要分布(一)
2分布1.定义设随机变量X1,X2,…,Xn
相互独立,且服从标准正态分布N(0,1),则Y=X12+X22+…+Xn2服从自由度为n的
2分布,记为Y~
2(n)
。2.与
2分布相关的抽样分布设总体服从参数为μ、σ2的正态分布,从中抽取容量为n的样本,则
3.4抽样分布c2分布(图示)
选择容量为n的简单随机样本计算样本方差s2计算卡方值
2=(n-1)s2/σ2计算出所有的
2值不同容量样本的抽样分布c2n=1n=4n=10n=20ms总体3.4抽样分布(二)t分布1.定义设随机变量X~N(0,1),Y~
2(n),且X与Y独立,则称是自由度为n的t分布,记为t~t(n)。2.与t分布相关的抽样分布设总体,从中抽取容量为n的样本,则t分布(图示)xt
分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)z
t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布3.4抽样分布(三)F分布1.定义
设随机变量U与V相互独立,且U和V分别服从自由度为n1和n2的
2(n)分布,则称服从第一自由度为n1,第二自由度为n2的F分布,记为F~F(n1,n2)。2.与F分布相关的抽样分布设两个总体都为正态分布,两总体的方差分别为σ12,σ22,从两个总体中分别抽取容量为n1和n2的独立样本,样本方差分别为S12,S22则有F分布(图示)
不同自由度的F分布F(1,10)(5,10)(10,10)三、样本均值的抽样分布(一)样本均值的抽样分布的概述1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值
的理论基础 3.4抽样分布样本均值的抽样分布
(例题分析)【例】设一个总体,含有4个元素(个体)
,即总体单位数N=4。4
个个体分别为x1=1,x2=2,x3=3,x4=4
。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差样本均值的抽样分布
(例题分析)
现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)样本均值的抽样分布
(例题分析)
计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P
(x)1.53.04.03.52.02.5样本均值的分布与总体分布的比较
(例题分析)
=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x3.4抽样分布
=50
=10X总体分布n=4抽样分布xn=16(二)总体分布为正态分布时的样本均值的分布当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值
x也服从正态分布,
x
的数学期望为μ,方差为σ2/n。即
x~N(μ,σ2/n)3.4抽样分布当样本容量足够大时(n
30),样本均值的抽样分布逐渐趋于正态分布(三)总体分布未知时的样本均值的分布中心极限定理(centrallimittheorem)
:设从均值为
,方差为
2的一个任意总体中抽取容量为n的样本,当n充分大时(n≥30),样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体x中心极限定理
(centrallimittheorem)
x的分布趋于正态分布的过程(四)样本均值的数学期望与方差1.样本均值的数学期望3.4抽样分布2.样本均值的方差重复抽样:不重复抽样:样本均值的数学期望与方差
(例题分析)比较及结论:1.样本均值的均值(数学期望)等于总体均值2.在重复抽样下,样本均值的方差等于总体方差的1/n3.4抽样分布四、样本比例的抽样分布当样本容量n足够大时(即np≥5,n(1-p)≥5),样本比例p近似服从均值为π
、方差为π(1-π)/n的正态分布。即五、样本方差的分布当总体,从中抽取容量为n的样本,则3.4抽样分布3.4抽样分布六、两个样本统计量的抽样分布(一)两个样本均值之差的分布设两个总体都服从正态分布或两总体不是正态分布,但n1
30和n2
30,分别从两总体中独立抽取两个样本,则3.4抽样分布(二)两个样本比例之差的分布设两个总体都服从二项分布,分别从两个总体中抽取容量为n1和n2的独立样本,当n1p1≥5,n1(1-p1)≥5,n2p2≥5,n2(1-p2)≥5时,则有3.4抽样分布(三)两个样本方差之比的分布设两个总体都是正态总体,分别从两个总体中抽取容量为n1和n2的独立样本,其中σ12、σ22分别是两个总体的方差,s12、s22分别是两个样本的方差,则有抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布抽样分布与总体分布的关系正态分布
t分布正态分布
2分布样本均值统计量样本比例样本方差正态总体(小样本)正态总体或大样本二项总体(大样本)正态总体本章小结了解抽样的概率抽样方法理解抽样分布的意义了解抽样分布的形成过程理解中心极限定理理解抽样分布的性质第4章结束了!THANKS第4章参数估计4.1
参数估计的基本原理4.2一个总体参数的区间估计4.3两个总体参数的区间估计4.4样本容量的确定学习目标估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准一个总体参数的区间估计方法两个总体参数的区间估计方法样本容量的确定方法参数估计在统计方法中的地位参数估计假设检验统计方法描述统计推断统计统计推断的过程样本总体样本统计量如:样本均值、比率、方差总体均值、比率、方差等4.1参数估计的基本原理一、估计量与估计值二、点估计与区间估计三、评价估计量的标准一、估计量与估计值(estimator&estimatedvalue)估计量:用于估计总体参数的随机变量如样本均值,样本比率、样本方差等例如:样本均值就是总体均值
的一个估计量参数用
表示,估计量用表示估计值:估计参数时计算出来的统计量的具体值如果样本均值
x
=80,则80就是
的估计值4.1参数估计的基本原理参数估计的方法估计方法点估计区间估计4.1参数估计的基本原理二、点估计和区间估计(一)点估计(pointestimate)用样本统计量直接作为总体参数的估计量例如:用样本均值直接作为总体均值的估计例如:用两个样本均值之差直接作为总体均值之差的估计没有给出估计值接近总体参数程度的信息点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等4.1参数估计的基本原理(二)区间估计(intervalestimate)在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在75~85之间,置信水平是95%
样本统计量
(点估计)置信区间置信下限置信上限区间估计的图示
x95%的样本
-1.96
x
+1.96
x99%的样本
-2.58
x
+2.58
x90%的样本
-1.65
x
+1.65
x(三)置信区间(confidenceinterval)由样本统计量所构造的总体参数的估计区间称为置信区间统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个4.1参数估计的基本原理(四)置信水平(confidencelevel)将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比率称为置信水平表示为(1-
为是总体参数未在区间内的比率常用的置信水平值有99%,95%,90%相应的
为0.01,0.05,0.104.1参数估计的基本原理置信区间与置信水平
样本均值的抽样分布(1-
)区间包含了
的区间未包含
1–aa/2a/24.1参数估计的基本原理(五)影响置信区间宽度的因素1. 总体数据的离散程度,用
来测度样本容量3. 置信水平(1-
),影响z的大小4.1参数估计的基本原理三、评价估计量的标准(一)无偏性(unbiasedness)
估计量的数学期望等于被估计的总体参数,即P(
)BA无偏有偏4.1参数估计的基本原理(二)有效性(efficiency)
对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效,即
AB
的抽样分布
的抽样分布P(
)4.1参数估计的基本原理(三)一致性(consistency)随着样本容量的增大,估计量的值越来越接近被估计的总体参数,即AB较小的样本容量较大的样本容量P(
)4.2一个总体参数的区间估计一、总体均值的区间估计二、总体比率的区间估计三、总体方差的区间估计4.2一个总体参数的区间估计总体参数符号表示样本统计量均值比率方差4.2一个总体参数的区间估计一、总体均值的估计(一)利用Z统计量对总体均值进行区间估计1. 假定条件总体服从正态分布,且方差(
2)
已知总体不是正态分布或
2未知,当n
30时,可由正态分布来近似代替2.使用正态分布统计量z总体均值
在1-
置信水平下的置信区间为
2已知:
2未知:标准正态分布的上侧分为点
(图示)01-αzzα/2-zα/2α/2α/2总体均值的区间估计
(例题分析)【例】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%25袋食品的重量112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3总体均值的区间估计
(例题分析)解:已知X~N(
,102),n=25,1-
=95%,z
/2=z0.025=1.96。根据样本数据计算得:
总体均值
在1-
置信水平下的置信区间为该食品平均重量的置信区间为101.44g~109.28g总体均值的区间估计
(例题分析)【例】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间
36个投保人年龄的数据233539273644364246433133425345544724342839364440394938344850343945484532总体均值的区间估计
(例题分析)解:已知n=36,1-
=90%,z
/2=z0.051.645。根据样本数据计算得:
总体均值
在1-
置信水平下的置信区间为投保人平均年龄的置信区间为37.37岁~41.63岁4.2一个总体参数的区间估计(二)利用t统计量对总体均值进行区间估计1. 假定条件总体服从正态分布,方差(
2)
未知,小样本(n<30)使用t
分布统计量总体均值
在1-
置信水平下的置信区间为
t分布的上侧分位点
(图示)01-αttα/2-tα/2α/2α/2总体均值的区间估计
(例题分析)【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间16灯泡使用寿命的数据1510152014801500145014801510152014801490153015101460146014701470总体均值的区间估计
(例题分析)解:已知X~N(
,2),n=16,1-
=95%,t
/2(n-1)=t0.025(15)=2.131,根据样本数据计算得:该种灯泡平均使用寿命的置信区间为1476.8小时~1503.2小时总体均值
在1-
置信水平下的置信区间为4.2一个总体参数的区间估计二、总体比例的区间估计1. 假定条件总体服从二项分布,当样本容量充分大,即np≥5,n(1-p)≥5时,可以由正态分布来近似2.使用正态分布统计量z
总体比率
在1-
置信水平下的置信区间为总体比率的区间估计
(例题分析)【例】某城市想要估计下岗职工中女性所占的比率,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比率的置信区间解:已知n=100,p=65%,np=65≥5,n(1-p)=35≥5,1-=95%,z/2=z0.025=1.96该城市下岗职工中女性比率的置信区间为55.65%~74.35%
4.2一个总体参数的区间估计三、总体方差的区间估计1. 估计一个总体的方差或标准差2. 假设总体服从正态分布3.总体方差
2
的点估计量为s2,且4.总体方差在1-
置信水平下的置信区间为
χ2分布的上侧分位点
(图示)
2
21-
2
总体方差1-
的置信区间自由度为n-1的
2分布α/2α/2
总体方差的区间估计
(例题分析)【例】一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间
25袋食品的重量112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3总体方差的区间估计
(例题分析)解:已知n=25,1-
=95%,根据样本数据计算得
s2=93.21该企业生产的食品总体重量标准差的的置信区间为7.54g~13.43g
2置信度为95%的置信区间为4.3
两个总体参数的区间估计一、两个总体均值之差的区间估计二、两个总体比率之差的区间估计三、两个总体方差比的区间估计4.3两个总体参数的区间估计总体参数符号表示样本统计量均值之差比率之差方差比4.3两个总体参数的区间估计一、两个独立样本总体均值之差的区间估计(一)利用Z统计量对两总体均值差进行区间估计1. 假定条件两个总体都服从正态分布,
12、
22已知,两个样本是独立的随机样本若不是正态分布或
12、
22未知,两个样本是独立的随机样本,当n1
30和n2
30时,可用正态分布来近似2.使用正态分布统计量z(1)当
12、
22已知时:(2)当
12、
22未知时:4.3两个总体参数的区间估计3.
12,
22已知时,两个总体均值之差
1-
2在1-
置信水平下的置信区间为4.12、
22未知,当n1≥30,n2≥30时,两个总体均值之差
1-
2在1-
置信水平下的置信区间为两个总体均值之差的估计
(例题分析)【例】某地区教育委员会想估计两所中学的学生高考时的英语平均分数之差,为此在两所中学独立抽取两个随机样本,有关数据如右表。建立两所中学高考英语平均分数之差95%的置信区间
两个样本的有关数据
中学1中学2n1=46n1=33S1=5.8S2=7.2两个总体均值之差的估计
(例题分析)解:由1-
=95%得z/2=z0.025=1.96,故两个总体均值之差在1-
置信水平下的置信区间为两所中学高考英语平均分数之差的置信区间为5.03分~10.97分4.3两个总体参数的区间估计(二)利用t统计量对两总体均值差的区间估计1.当
12=
22时(1) 假定条件两个总体都服从正态分布,两个总体方差未知但相等:
12=
22,两个独立的小样本(n1<30和n2<30)(2)总体方差的合并估计量(3)估计量
x1-x2的抽样标准差4.3两个总体参数的区间估计(4)两个样本均值之差的标准化(5)两个总体均值之差
1-
2在1-
置信水平下的置信区间为两个总体均值之差的估计
(例题分析)【例】为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排12名工人,每个工人组装一件产品所需的时间(分钟)下如表。假定两种方法组装产品的时间服从正态分布,且方差相等。试以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间。两个方法组装产品所需的时间方法1方法228.336.027.631.730.137.222.226.029.038.531.032.037.634.433.831.232.128.020.033.428.830.030.226.521两个总体均值之差的区间估计
(例题分析)解:由1-
=95%得t/2(n1+n2-2)=t0.025(22)=2.0739,根据样本数据计算得两种方法组装产品所需平均时间之差的置信区间为0.14分钟~7.26分钟合并估计量为:4.3两个总体参数的区间估计2.当σ12
≠σ22但n1=n2=n时(1)假定条件两个总体都是正态分布,独立小样本,
12,
22未知且不相等:即
12
22,样本容量相等:即n1=n2=n(2)检验统计量自由度:~4.3两个总体参数的区间估计(3)两个总体均值之差
1-
2在1-
置信水平下的置信区间为两个总体均值之差的区间估计
(例题分析)【例】为检验两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排12个工人,每个工人组装一件产品所需的时间(分钟)下如表。假定两种方法组装产品的时间服从正态分布,但方差未知且不相等。取显著性水平0.05,能否认为方法1组装产品的平均数量明显地高于方法2?两个方法组装产品所需的时间方法1方法228.336.027.631.730.137.222.226.029.038.531.032.037.634.433.831.232.128.020.033.428.830.030.226.521两个总体均值之差的区间估计
(例题分析)解:由1-
=95%得t/2(n1+n2-2)=t0.025(22)=2.0739,根据样本数据计算得两种方法组装产品所需平均时间之差的置信区间为0.14分钟~7.26分钟所求的置信区间为:4.3两个总体参数的区间估计3.当
12
22,n1n2时(1) 假定条件两个总体都服从正态分布,两个总体方差未知且不相等:即
12
22,两个样本容量不等:即n1n2,两个独立的小样本(n1<30和n2<30)(2)使用统计量4.3两个总体参数的区间估计(3)两个总体均值之差
1-
2在1-
置信水平下的置信区间为自由度两个总体均值之差的估计
(例题分析)【例】沿用前例。假定第一种方法随机安排12名工人,第二种方法随机安排名工人,即n1=12,n2=8,所得的有关数据如表。假定两种方法组装产品的时间服从正态分布,且方差不相等。以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间两个方法组装产品所需的时间方法1方法228.336.027.631.730.137.222.226.529.038.531.037.634.433.832.128.020.028.830.030.221两个总体均值之差的估计
(例题分析)解:根据样本数据计算得两种方法组装产品所需平均时间之差的置信区间为0.192分钟~9.058分钟自由度为:由1-
=95%得t/2(v)=t0.025(13)=2.1604,故所求的置信区间为:4.3两个总体参数的区间估计(三)匹配样本的总体均值差的区间估计1.利用Z统计量对匹配样本的总体均值差的区间估计(1)假定条件两个匹配的大样本(n1=n2=n
30)两个总体各观察值的配对差服从正态分布,σd已知
(2)两个总体均值之差
d=
1-
2在1-
置信水平下的置信区间为对应差值的样本均值对应差值的总体标准差对应差值的样本标准差σd已知:σd未知:4.3两个总体参数的区间估计2.利用t统计量对匹配小样本的总体均值差的区间估计(1)假定条件两个总体各观察值的配对差服从正态分布,两个匹配的小样本(n1<30和n2<30)(2)两个总体均值之差
d=
1-
2在1-
置信水平下的置信区间为两个总体均值之差的估计
(例题分析)【例】由10名学生组成一个随机样本,让他们分别采用A和B两套试卷进行测试,结果如下表。试建立两种试卷分数之差
d=
1-
2
95%的置信区间
10名学生两套试卷的得分学生编号试卷A试卷B差值d17871726344193726111489845691741754951-27685513876601698577810553916两个总体均值之差的估计
(例题分析)解:由1-
=95%得t/2(n-1)=t0.025(9)=2.2622,根据样本数据计算得两种试卷所产生的分数之差的置信区间为6.33分~15.67分二、两个总体比例之差的区间估计1. 假定条件两个总体服从二项分布,两个样本是独立的,且n1、n2充分大:即n1p1≥5,n1(1-p1)≥5,n2p2≥5,n2(1-p2)≥5,可以用正态分布来近似2. 两个总体比率之差
1-
2在1-
置信水平下的置信区间为4.3两个总体参数的区间估计两个总体比率之差的估计
(例题分析)【例】在某个电视节目的收视率调查中,农村随机调查了400人,有32%的人收看了该节目;城市随机调查了500人,有45%的人收看了该节
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 卫生管理证书考试技巧总结试题及答案
- 老人残疾测试题及答案
- 教师资格考试全要素复习与试题及答案
- 税务师考试考场应对策略试题及答案
- 系统架构设计师考证方式试题及答案
- 理解专利权的转让与继承问题试题及答案
- 网络规划设计师考试内容总结与解析试题及答案
- 掌握技艺的计算机二级试题及答案
- 激光设备的运行管理准则考题试题及答案
- 药剂学教育的改革与展望试题及答案
- 眼解剖(简单版)课件
- 施工进度计划网络图-练习题知识讲解
- 厨房隔油池清理记录
- 常见生物相容性实验汇总
- 综合探究三 探寻丝绸之路(课堂运用)
- 企业重组相关税收政策培训教学课件(38张)
- 肝癌的防治(大众科普版本)-PPT课件
- 成都高新区小学数学五年级下册半期考试数学试卷
- 职业危害防治实施管理台账
- 2018年人教版九年级英语单词表
- 毕业设计U型管换热器设计说明书
评论
0/150
提交评论