管理统计学 (2)课件_第1页
管理统计学 (2)课件_第2页
管理统计学 (2)课件_第3页
管理统计学 (2)课件_第4页
管理统计学 (2)课件_第5页
已阅读5页,还剩476页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

管理统计学天津大学管理学院杨宝臣1授课教师杨宝臣博士天津大学管理学院教授、博士生导师技术经济研究所所长美国密西根大学富布莱特高级研究学者新加坡南洋理工大学、德国康斯坦茨大学博士后电话mail:bchyang@2第一章统计概述………………………4第二章统计数据整理与显示…………18第一节数据的计量与类型第二节统计数据的来源第三节定性数据的整理与显示第四节数值型数据的整理与显示第三章数据分布特征的测度………83第一节集中趋势的测度第二节离散程度的测度第三节偏态与峰度的测度第四章概率与概率分布………………153第一节概率基础第二节随机变量及其分布第五章抽样与参数估计………………273第一节抽样与抽样分布第二节参数估计基本方法第三节总体均值和总体比例的区间估计第六章假设检验…………340第一节假设检验的一般问题第二节一个正态总体的参数检验第三节统计过程控制第七章相关与回归分析………………412第一节变量间的相关关系第二节一元线性回归第三节多元线性回归目录3什么是统计?1.统计工作收集数据的活动2.统计数据对现象计量的结果3.统计学分析数据的方法与技术4什么是统计学?1.数据搜集:例如,调查与试验2.数据整理:例如,分组3.数据展示:例如,图和表4.数据分析:例如,回归分析统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。5统计数据的内在规律

(一些例子)正常条件下新生婴儿的性别比为107:100投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现1~6点的频率各为1/6农作物的产量与施肥量之间存在相关关系7统计学的分科描述统计推断统计统计学的分科理论统计应用统计8描述统计内容搜集数据整理数据展示数据

目的描述数据特征找出数据的基本规律02550Q1Q2Q3Q4¥x=30s2=10510推断统计内容参数估计假设检验目的对总体特征作出推断样本总体11描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(包括分布理论、大数定律和中心极限定理等)描述统计(统计数据的搜集、整理、显示和分析等)总体数据样本数据统计学探索现象数量规律性的过程12参数估计假设检验方差分析回归分析时间序列分析推断性统计学14统计学的应用领域统计学经济学管理学医学工程学社会学…15几种常用的统计软件

(Software)典型的统计软件SPSSSASMINITABSTATISTICAExcelMINITABSTATISTICAExcelSASSPSS17第二章统计数据整理与显示第一节数据的计量与类型第二节统计数据的来源第三节定性数据的整理与显示第四节数值型数据的整理与显示18第一节数据的计量与类型定义:统计数据统计数据(Statisticaldata)是指可用以推导出某项结论的一些事实或数字。它有三个基本的构成要素:元素、变量、观测值19基本构成要

素元素(Element)变量(Variable)观测(Observation)关于元素的一种属性或特征研究对象由各元素组成数据中关于某一元素所有各变量的信息

统计数据20变量(Variable)定量变量(Quantitativevariable) 结果可用数字表示定性变量(QualitativeVariable) 结果不可用数字表示

统计数据21表1-1员工个人数据表统计数据22四种计量尺度数据的计量尺度定类尺度定序尺度定距尺度定比尺度24定类尺度

计量层次最低对事物进行平行的分类各类别可以指定数字代码表示使用时必须符合类别穷尽和互斥的要求数据表现为“类别”具有=或的数学特性比如:性别分男女25定距尺度

1.对事物的准确测度2.比定序尺度精确3.数据表现为“数值”4.没有绝对零点5.具有+或-的数学特性 例如:

张三的SAT成绩为1205,而李四的SAT成绩为1090。所以张三的成绩比李四高115个点27定比尺度

1. 对事物的准确测度2. 与定距尺度处于同一层次3. 数据表现为“数值”4.有绝对零点5.具有或的数学特性例如:

M的在大学期间修满了36个学分,而K在大学期间修满了72个学分。所以K所修的学分是M的2倍。28四种计量尺度的比较计量尺度数学特性“√”表示该尺度所具有的特性29数据类型和分析方法30数据类型与统计方法数据类型与统计方法定类数据定序数据定性数据定量数据定距数据定比数据参数方法非参数方法31F.W.Taylor的科学管理理论中的工作定额原理,用实验式的方法获得工人合理的日工作量数据。气象数据收集,商品价格的变化对商品需求量的影响。统计资料的收集间接引用直接收集实验式收集统计数据非实验式收集统计数据第二节统计数据的收集32

第三节定性数据的整理与显示一.定类数据的整理与显示二.定序数据的整理与显示33定类数据的整理与显示

(基本问题)要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的对定类数据和定序数据主要是做分类整理对定距数据和定比数据则主要是做分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据34定类数据的整理

(基本过程)1. 列出各类别2.计算各类别的频数3.制作频数分布表4.用图形显示数据35定类数据的整理

(可计算的指标)1.频数:落在各类别中的数据个数2.比例:某一类别数据占全部数据的比值3.百分比:将对比的基数作为100而计算的比值4.比率:不同类别数值的比值36定类数据整理—频数分布表

(实例)【例2.1】为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?”

1.商品广告;2.服务广告;3.金融广告;4.房地产广告;5.招生招聘广告;6.其他广告。37定类数据的图示—条形图

(条形图的制作)条形图是用宽度相同的条形的高度或长短来表示数据变动的图形条形图有单式、复式等形式在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图38定类数据的图示—条形图

人数(人)5191610211204080120

商品广告

服务广告

金融广告

房地产广告

招生招聘广告

其他广告广告类型

图3-1某城市居民关注不同类型广告的人数分布39定类数据的图示—圆形图

(圆形图的制作)也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为3600×25.5%=91.80,其余类推40定类数据的图示—圆形图

其他广告1.0%

房地产广告8.0%

商品广告56.0%

金融广告4.5%

服务广告25.5%

招生招聘广告5.8%图3-2某城市居民关注不同类型广告的人数构成41定序数据的整理

(可计算的指标)1.累计频数:将各类别的频数逐级累加2.累计频率:将各类别的频率(百分比)逐级累加42定序数据频数分布表

(实例)【例2.2】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?

1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。

43定序数据频数分布表

(实例)44定序数据的图示—累计频数分布图

243001322252700100200300400

非常不满意

不满意

一般

满意

非常满意累积户数(户)(a)向下累积27616830300750100200300400

非常不满意

不满意

一般

满意

非常满意累积户数(户)(b)向上累积图3-3甲城市家庭对住房状况评价的累积频数分布45定类数据的图示—环形图

(环形图的制作)环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于进行比较研究环形图可用于展示定类和定序的数据46品质数据的图示—环形图

8%36%31%15%7%33%26%21%13%10%

非常不满意

不满意

一般

满意

非常满意

图3-4甲乙两城市家庭对住房状况的评价47第四节定量数据的整理与显示一.数据的分组二.定量数据的图示三.频数分布的类型48频数分布表的编制确定组数编制频数分布表的步骤确定组距计算频数编制表格49频数分布表的编制

(实例)117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121【例2.3】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。

50分组方法分组方法等距分组异距分组单变量值分组组距分组51单变量值分组

(要点)1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况52单变量值分组表

(实例)53组距分组

(要点)将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组~~~~~54组距分组

(步骤)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数K确定各组的组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即

组距=(最大值-最小值)÷组数根据分组整理成频数分布表55组距分组

(几个概念)1.下限:一个组的最小值2.上限:一个组的最大值3.组距:上限与下限之差4.组中值:下限与上限之间的中点值下限值+上限值2组中值=56等距分组表

(上下组限重叠)57等距分组表

(上下组限间断)58等距分组表

(使用开口组)59组距分组与不等距分组

(在表现频数分布上的差异)等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况60定量数据的图示

61分组数据—直方图

(直方图的制作)用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)直方图下的总面积等于162分组数据—直方图

(直方图的绘制)频数(人)1512963105110115120125130135140日加工零件数(个)图3-5某车间工人日加工零件数的直方图我一眼就看出来了,大多数人的日加工零件数在120~125之间!63分组数据—直方图

(直方图与条形图的区别)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列64分组数据—折线图

(折线图的制作)折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的651512963105110115120125130135140日加工零件数(个)频数(人)折线图下的面积与直方图的面积相等!分组数据—折线图

(折线图的绘制)图3-6某车间工人日加工零件数的折线图66未分组数据—箱线图

(箱线图的制作)用于显示未分组的原始数据或分组数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接67未分组数据—单批数据箱线图

(箱线图的构成)中位数4681012QUQLX最大值X最小值图3-9简单箱线图68未分组数据—单批数据箱线图

(实例)最小值107最大值139中位数123下四分位数117.75上四分位数128105110115120125130135140图3-1050名工人日加工零件数的箱线图69未分组数据—多批数据箱线图

(实例)【例2.4】

从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表3-8。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征70未分组数据—多批数据箱线图

图3-128门课程考试成绩的箱线图71图3-1311名学生8门课程考试成绩的箱线图Min-Max25%-75%Medianvalue455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据—箱线图

72时间序列数据—线图

(线图的制作)绘制线图时应注意以下几点时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断73时间序列数据—线图

(实例)【例2.5】已知1991~1998年我国城乡居民家庭的人均收入数据如表3-11。试绘制线图¥

74时间序列数据

020004000600019911992199319941995199619971998城镇居民农村居民收入

(元)

图3-14城乡居民家庭人均收入75雷达图(RadarChart)是显示多个变量的常用图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度多变量数据—雷达图

(要点)76设有n组样本S1,S2,…Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是多变量数据—雷达图

(雷达图的制作)

先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图77多变量数据—雷达图

(实例)【例2.6】1997年我国城乡居民家庭平均每人各项生活消费支出数据如表3-12。试绘制雷达图。今天的主食是面包780500100015002000

食品

衣着

家庭设备用

品及服务

医疗保健

交通通讯

娱乐教育

文化服务

居住

杂项商品

与服务城镇居民农村居民

图3-151997年城镇居民家庭消费支出

(元)多变量数据—雷达图

(由Excel绘制的雷达图)79多变量数据—雷达图

(实例)【例2.7】为研究某条河流的污染程度,环保局分别在上游、中游和下游设立取样点,每个取样点化验水中的五项污染指标,所得数据如表3-13。将各指标用雷达图表示出来,并分析该河流的主要污染源。

80多变量数据—雷达图

0.11101001000指标1指标2指标3指标4指标5上游中游下游图3-16河流污染指标雷达图

81数据类型及图示

(小结)数据类型与显示数值型数据品质数据分组数据总计表茎叶图条形图圆形图环形图直方图箱线图折线图原始数据时序数据线图雷达图多元数据82第三章数据分布特征的测度第一节集中趋势的测度第二节离散程度的测度第三节偏态与峰度的测度83数据分布的特征集中趋势(位置)离中趋势

(分散程度)偏态和峰度(形状)84数据分布的特征和测度数据的特征和测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差峰度四分位差异众比率偏态85第一节集中趋势的测度一.众数二.中位数和分位数三.均值四.众数、中位数和均值的比较86数据特征分布的和测度

数据的特征和测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差峰度四分位差异众比率偏态87集中趋势

(Centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定88众数

集中趋势的测度值之一一组数据中出现次数最多的变量值不受极端值的影响可能没有众数或有几个众数主要用于定类数据,也可用于定序数据和数值型数据89众数

(众数的不唯一性)无众数

原始数据:10591268一个众数

原始数据:65

9855多于一个众数

原始数据:252828

36424290定类数据的众数

(算例)【例】根据第三章表3-1中的数据,计算众数解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即

Mo=商品广告91定序数据的众数

(算例)【例】根据第三章表3-2中的数据,计算众数解:这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即

Mo=不满意92定量分组数据的众数

(要点及计算公式)1.众数的值与相邻两组频数的分布有关4.该公式假定众数组的频数在众数组内均匀分布2.相邻两组的频数相等时,众数组的组中值即为众数Mo3.相邻两组的频数不相等时,众数采用下列近似公式计算MoMoL为众数的下限值,i为组距定量分组数据的众数

(算例)【例3.1】根据第三章表3-5中的数据,计算50名工人日加工零件数的众数中位数和分位数95中位数

集中趋势的测度值之一排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即96中位数

(位置的确定)未分组数据:组距分组数据:97未分组数据的中位数

(计算公式)定序数据的中位数

(算例)【例3.2】根据第三章表3-2中的数据,计算甲城市家庭对住房满意状况评价的中位数解:中位数的位置为:

300/2=150从累计频数看,中位数的在“一般”这一组别中。因此

Me=一般99定量数据的中位数

(5个数据的算例)原始数据: 2422212620排序: 2021222426位置: 123 45中位数22100定量组数据的中位数

(6个数据的算例)原始数据:105 91268排序: 56891012位置: 123 456位置N+126+123.5中位数8+928.5101根据位置公式确定中位数所在的组采用下列近似公式计算:4.该公式假定中位数组的频数在该组内均匀分布定量分组数据的中位数

(要点及计算公式)L为中位数所在组的下限值,S为上一组累积频数,f为所在组的频数,i为组距定量分组数据的中位数

(算例)【例3.3】根据第三章表3-5中的数据,计算50名工人日加工零件数的中位数四分位数

1. 集中趋势的测度值之一2. 排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据QLQMQU25%25%25%25%104四分位数

(位置的确定)未分组数据:组距分组数据:下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4下四分位数(QL)位置=N4上四分位数(QL)位置=3N4105定序数据的四分位数

(算例)【例3.4】根据第三章表3-2中的数据,计算甲城市家庭对住房满意状况评价的四分位数解:下四分位数(QL)的位置为:

QL位置=(300)/4=75

上四分位数(QL)的位置为:

QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此

QL

=不满意

QU

=一般106定量数据的四分位数

(7个数据的算例)原始数据:2321 3032 282526排序:21232526283032位置:1 23 4567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30107定量数据的四分位数

(6个数据的算例)原始数据:2321 30 282526排序:212325262830位置:1 2 3 4 56QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)

=28.5108均值

1. 集中趋势的测度值之一2. 最常用的测度值3. 一组数据的均衡点所在4. 易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据109均值

(计算公式)设一组数据为:X1,X2,…,XN简单均值的计算公式为设分组后的数据为:X1,X2,…,XK

相应的频数为:F1,F2,…,FK加权均值的计算公式为简单均值

(算例)原始数据: 10 5 9 13 6 8111加权均值

(算例)【例3.7】根据第三章表3-5中的数据,计算50名工人日加工零件数的均值112加权均值

(权数对均值的影响)

甲乙两组各有10名学生,他们的考试成绩及其分布数据如下

甲组:考试成绩(X): 020100人数分布(F):118乙组:考试成绩(X): 020100人数分布(F):811X甲0×1+20×1+100×8n10i=1Xi82(分)X乙0×8+20×1+100×1n10i=1Xi12(分)113均值

(数学性质)1. 各变量值与均值的离差之和等于零2.各变量值与均值的离差平方和最小114几何平均数

1.集中趋势的测度值之一2.N

个变量值乘积的N

次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为6.可看作是均值的一种变形115几何平均数

(算例)【例3.10】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率=103.84%-1=3.84%116众数、中位数和均值的比较117众数、中位数和均值的关系对称分布

均值=中位数=众数左偏分布均值

中位数

众数右偏分布众数

中位数

均值数据类型与集中趋势测度值119第二节离散程度的测度一.四分位差二.方差及标准差三.相对离散程度:离散系数120离中趋势数据分布的另一个重要特征离中趋势的各测度值是对数据离散程度所作的描述反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值121数据的特征和测度

数据的特征和测度分布的形状离散程度集中趋势众数中位数均值离散系数方差和标准差峰度四分位差偏态122四分位差123四分位差

1. 离散程度的测度值之一2. 也称为内距或四分间距3. 上四分位数与下四分位数之差

QD

=QU-QL4. 反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性124四分位差

(定序数据的算例)【例3.12】根据第三章表3-2中的数据,计算甲城市家庭对住房满意状况评价的四分位差解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5已知QL=不满意=2,

QU=

一般=

3四分位差:

QD

=QU

=

QL

=3–2

=1125方差和标准差126极差

1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7891078910未分组数据R=max(Xi)-min(Xi).=组距分组数据R最高组上限-最低组下限5.计算公式为127方差和标准差

1. 离散程度的测度值之一2. 最常用的测度值3. 反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4681012X=8.3128总体方差和标准差

(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式总体标准差

(计算过程及结果)【例3.14】根据第三章表3-5中的数据,计算工人日加工零件数的标准差130样本方差和标准差

(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!样本方差

自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x

=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量132样本方差

(算例)原始数据:10 591368133样本标准差

(算例)样本标准差原始数据: 10591368134方差

(简化计算公式)样本方差总体方差标准化值

(概念要点和计算公式)1.也称标准分数2. 给出某一个值在一组数据中的相对位置3. 可用于判断一组数据是否有离群点4. 用于对变量的标准化处理5.计算公式为136相对离散程度:变异系数137变异系数

(概念要点和计算公式)1. 标准差与其相应的均值之比2. 消除了数据水平高低和计量单位的影响3. 测度了数据的相对离散程度4. 用于对不同组别数据离散程度的比较5.计算公式为138变异系数

(实例和计算过程)【例3.16】某管理局抽查了所属的8家企业,其产品销售数据如表3.7。试比较产品销售额与销售利润的离散程度139变异系数

(计算结果)X1=536.25(万元)S1=309.19(万元)V1=536.25309.19=0.577S2=23.09(万元)V2=32.521523.09=0.710X2=32.5215(万元)结论:计算结果表明,V1<V2,说明产品销售额的离散程度小于销售利润的离散程度140数据类型与离散程度测度值141第三节偏态与峰度的测度一.偏态及其测度二.峰度及其测度142数据的特征和测度

数据的特征和测度分布的形状离散程度众数中位数均值离散系数方差和标准差峰度四分位差异众比率偏态集中趋势143偏态与峰度分布的形状扁平分布尖峰分布偏态峰度左偏分布右偏分布与标准正态分布比较!144偏态

(概念要点)1. 数据分布偏斜程度的测度2. 偏态系数=0为对称分布3. 偏态系数>0为右偏分布4. 偏态系数<0为左偏分布5.计算公式为145偏态

(实例)【例3.17】已知1997年我国农村居民家庭按纯收入分组的有关数据如表3.9。试计算偏态系数146户数比重(%)252015105农村居民家庭村收入数据的直方图偏态与峰度

(从直方图上观察)按纯收入分组(元)1000500←15002000250030003500400045005000→结论:1.为右偏分布

2.峰度适中147偏态系数

(计算过程)148偏态系数

(计算结果)根据上表数据计算得将计算结果代入公式得结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大149峰度

(概念要点)1. 数据分布扁平程度的测度2. 峰度系数=3扁平程度适中3. 峰度系数<3为扁平分布4. 峰度系数>3为尖峰分布5.计算公式为150峰度系数系数

(实例计算结果)代入公式得【例3.18】根据表3-10中的计算结果,计算农村居民家庭纯收入分布的峰度系数

结论:由于=3.4>3,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重

151由Excel输出的描述统计量152第四章概率与概率分布第一节概率基础第二节随机变量及其分布153第一节概率基础一.随机事件及其概率二.概率的性质与运算法则154随机事件的几个基本概念155试验在相同条件下,对事物或现象所进行的观察例如:掷一枚骰子,观察其出现的点数试验具有以下特点可以在相同的条件下重复进行每次试验的可能结果可能不止一个,但试验的所有可能结果在试验之前是确切知道的在试验结束之前,不能确定该次试验的确切结果156事件的概念事件:随机试验的每一个可能结果(任何样本点集合)例如:掷一枚骰子出现的点数为3随机事件:每次试验可能出现也可能不出现的事件例如:掷一枚骰子可能出现的点数必然事件:每次试验一定出现的事件,用表示例如:掷一枚骰子出现的点数小于7不可能事件:每次试验一定不出现的事件,用表示例如:掷一枚骰子出现的点数大于6157事件与样本空间基本事件一个不可能再分的随机事件例如:掷一枚骰子出现的点数样本空间一个试验中所有基本事件的集合,用表示例如:在掷枚骰子的试验中,{1,2,3,4,5,6}在投掷硬币的试验中,{正面,反面}158事件的关系和运算

(事件的包含)ABBA若事件A发生必然导致事件B发生,则称事件B包含事件A,或事件A包含于事件B,记作或AB或B

A159事件的关系和运算

(事件的并或和)事件A和事件B中至少有一个发生的事件称为事件A与事件B

的并。它是由属于事件A或事件B的所有的样本点组成的集合,记为A∪B或A+BBAA∪B160事件的关系和运算

(事件的交或积)ABA∩B事件A与事件B同时发生的事件称为事件A与事件B的交,它是由属于事件A也属于事件B的所有公共样本点所组成的集合,记为B∩A

或AB161事件的关系和运算

(互斥事件)ABA

与B互不相容事件A与事件B中,若有一个发生,另一个必定不发生,则称事件A与事件B是互斥的,否则称两个事件是相容的。显然,事件A与事件B互斥的充分必要条件是事件A与事件B没有公共的样本点162事件的关系和运算

(事件的逆)A

A一个事件B与事件A互斥,且它与事件A的并是整个样本空间,则称事件B是事件A的逆事件。它是由样本空间中所有不属于事件A的样本点所组成的集合,记为A163事件的关系和运算

(事件的差)A-BAB事件A发生但事件B不发生的事件称为事件A与事件B的差,它是由属于事件A而不属于事件B的那些样本点构成的集合,记为A-B

164事件的概率165事件的概率事件A的概率是对事件A在试验中出现的可能性大小的一种度量表示事件A出现可能性大小的数值事件A的概率表示为P(A)概率的定义有:古典定义、统计定义和主观概率定义166事件的概率例如,投掷一枚硬币,出现正面和反面的频率,随着投掷次数n的增大,出现正面和反面的频率稳定在1/2左右试验的次数正面/试验次数1.000.000.250.500.750255075100125167概率的古典定义如果某一随机试验的结果有限,而且各个结果在每次试验中出现的可能性相同,则事件A发生的概率为该事件所包含的基本事件个数m与样本空间中所包含的基本事件个数n的比值,记为168概率的古典定义

(实例)【例】某钢铁公司所属三个工厂的职工人数如下表。从该公司中随机抽取1人,问:(1)该职工为男性的概率(2)该职工为炼钢厂职工的概率169概率的古典定义

(计算结果)解:(1)用A表示“抽中的职工为男性”这一事件;A为全公司男职工的集合;基本空间为全公司职工的集合。则(2)用B表示“抽中的职工为炼钢厂职工”;B为炼钢厂全体职工的集合;基本空间为全体职工的集合。则170概率的统计定义在相同条件下进行n次随机试验,事件A出现m次,则比值m/n称为事件A发生的频率。随着n的增大,该频率围绕某一常数P上下摆动,且波动的幅度逐渐减小,取向于稳定,这个频率的稳定值即为事件A的概率,记为171概率的统计定义

(实例)【例】:某工厂为节约用电,规定每天的用电量指标为1000度。按照上个月的用电记录,30天中有12天的用电量超过规定指标,若第二个月仍没有具体的节电措施,试问该厂第一天用电量超过指标的概率。解:上个月30天的记录可以看作是重复进行了30次试验,试验A表示用电超过指标出现了12次。根据概率的统计定义有172主观概率定义对一些无法重复的试验,确定其结果的概率只能根据以往的经验人为确定概率是一个决策者对某事件是否发生,根据个人掌握的信息对该事件发生可能性的判断例如,我认为2009年的中国股市是一个盘整年173概率的性质与运算法则174概率的性质非负性对任意事件A,有0P1规范性必然事件的概率为1;不可能事件的概率为0。即P()=1;P()=0可加性若A与B互斥,则P(A∪B)=P(A)+P(B)推广到多个两两互斥事件A1,A2,…,An,有P

(A1∪A2

∪…∪An)=P(A1

)+P(A2

)+…+P(An

)175概率的加法法则法则一两个互斥事件之和的概率,等于两个事件概率之和。设A和B为两个互斥事件,则

P(A∪B)=P(A)+P(B)事件A1,A2,…,An两两互斥,则有

P(A1∪A2

∪…∪An)=P(A1

)+P(A2

)+…+P(An

)176概率的加法法则

(实例)【例】根据钢铁公司职工的例子,随机抽取一名职工,计算该职工为炼钢厂或轧钢厂职工的概率解:用A表示“抽中的为炼钢厂职工”这一事件;B表示“抽中的为轧钢厂职工”这一事件。随机抽取一人为炼钢厂或轧钢厂职工的事件为互斥事件A与B的和,其发生的概率为177概率的加法法则法则二对任意两个随机事件A和B,它们和的概率为两个事件分别概率的和减去两个事件交的概率,即

P(A∪B)=P(A)+P(B)-P(A∩B)

178概率的加法法则

(实例)【例】设某地有甲、乙两种报纸,该地成年人中有20%读甲报纸,16%读乙报纸,8%两种报纸都读。问成年人中有百分之几至少读一种报纸。解:设A={读甲报纸},B={读乙报纸},C={至少读一种报纸}。则

P(C

)=P(A∪B)=P(A)+P(B)-P(A∩B)=0.2

+

0.16

-

0.08

=

0.28179条件概率与独立事件180条件概率在事件B已经发生的条件下,求事件A发生的概率,称这种概率为事件B发生条件下事件A发生的条件概率,记为

P(B)P(AB)P(A|B)=181条件概率的图示事件AB及其概率P(AB)事件B及其概率P(B)事件A

事件B一旦事件B发生182概率的乘法公式用来计算两事件交的概率以条件概率的定义为基础设A、B为两个事件,若P(B)>0,则P(AB)=P(B)P(A|B),或P(AB)=P(A)P(B|A)183概率的乘法公式

(实例)【例】设有1000中产品,其中850件是正品,150件是次品,从中依次抽取2件,两件都是次品的概率是多少?解:设Ai表示“第i次抽到的是次品”(i=1,2),所求概率为P(A1A2)

184事件的独立性一个事件的发生与否并不影响另一个事件发生的概率,则称两个事件独立若事件A与B独立,则P(B|A)=P(B),P(A|B)=P(A)此时概率的乘法公式可简化为

P(AB)=P(B)·P(B)推广到n个独立事件,有

P(A1A2

…An)=P(A1)P(A2)…P(An)185事件的独立性

(实例)【例】某工人同时看管三台机床,每单位时间(如30分钟)内机床不需要看管的概率:甲机床为0.9,乙机床为0.8,丙机床为0.85。若机床是自动且独立地工作,求(1)在30分钟内三台机床都不需要看管的概率(2)在30分钟内甲、乙机床不需要看管,且丙机床需要看管的概率解:设A1,A2,A3为甲、乙、丙三台机床不需要看管的事件,A3

为丙机床需要看管的事件,依题意有

(1)P(A1A2A3)=P(A1)P(A2)

P(A3)=5=0.612

(2)

P(A1A2A3)=P(A1)P(A2)

P(A3)=0.90.8(1-0.85)=0.108186全概公式设事件A1,A2,…,An两两互斥,A1+A2+…+

An=(满足这两个条件的事件组称为一个完备事件组),且P(Ai)>0(i=1,2,…,n),则对任意事件B,有我们把事件A1,A2,…,An

看作是引起事件B发生的所有可能原因,事件B能且只能在原有A1,A2,…,An

之一发生的条件下发生,求事件B

的概率就是上面的全概公式187全概公式

(实例)【例】某车间用甲、乙、丙三台机床进行生产,各种机床的次品率分别为5%、4%、2%,它们各自的产品分别占总产量的25%、35%、40%,将它们的产品组合在一起,求任取一个是次品的概率。解:设A1表示“产品来自甲台机床”,A2表示“产品来自乙台机床”,A3表示“产品来自丙台机床”,B表示“取到次品”。根据全概公式有188贝叶斯公式

(逆概公式)与全概公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因设n个事件A1,A2,…,An

两两互斥,A1+A2+…+

An=(满足这两个条件的事件组称为一个完备事件组),且P(Ai)>0(i=1,2,…,n),则189贝叶斯公式

(实例)【例】某车间用甲、乙、丙三台机床进行生产,各种机床的次品率分别为5%、4%、2%,它们各自的产品分别占总产量的25%、35%、40%,将它们的产品组合在一起,如果取到的一件产品是次品,分别求这一产品是甲、乙、丙生产的概率解:设A1表示“产品来自甲台机床”,A2表示“产品来自乙台机床”,A3表示“产品来自丙台机床”,B表示“取到次品”。根据贝叶斯公式有:190第二节随机变量及其分布一.随机变量的概念离散型随机变量的概率分布连续型随机变量的概率分布191随机变量的概念192随机变量的概念一次试验的结果的数值性描述一般用X、Y、Z来表示例如:投掷两枚硬币出现正面的数量根据取值情况的不同分为离散型随机变量和连续型随机变量193离散型随机变量随机变量X取有限个值或所有取值都可以逐个列举出来X1,X2,…以确定的概率取这些不同的值离散型随机变量的一些例子194连续型随机变量随机变量X取无限个值所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点连续型随机变量的一些例子195离散型随机变量的概率分布196离散型随机变量的概率分布列出离散型随机变量X的所有可能取值列出随机变量取这些值的概率通常用下面的表格来表示

P(X=xi)=pi称为离散型随机变量的概率函数pi00197离散型随机变量的概率分布

(实例)【例】如规定打靶中域Ⅰ得3分,中域Ⅱ得2分,中域Ⅲ得1分,中域外得0分。今某射手每100次射击,平均有30次中域Ⅰ,55次中域Ⅱ,10次中Ⅲ,5次中域外。则考察每次射击得分为0,1,2,3这一离散型随机变量,其概率分布为198离散型随机变量的概率分布

(0—1分布)一个离散型随机变量X只取两个可能的值例如,男性用1表示,女性用0表示;合格品用1表示,不合格品用0表示列出随机变量取这两个值的概率199离散型随机变量的概率分布

(0—1分布实例)【例】已知一批产品的次品率为p=0.05,合格率为q=1-p=1-0.5=0.95。并指定废品用1表示,合格品用0表示。则任取一件为废品或合格品这一离散型随机变量,其概率分布为0.5011xP(x)200离散型随机变量的概率分布

(均匀分布)一个离散型随机变量取各个值的概率相同列出随机变量取值及其取值的概率例如,投掷一枚骰子,出现的点数及其出现各点的概率201离散型随机变量的概率分布

(均匀分布实例)【例】投掷一枚骰子,出现的点数是个离散型随机变量,其概率分布为01/6P(x)1x23456202离散型随机变量的数学期望和方差203离散型随机变量的数学期望在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其取相对应的概率pi乘积之和描述离散型随机变量取值的集中程度计算公式为204离散型随机变量的方差随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X)描述离散型随机变量取值的分散程度计算公式为205离散型随机变量的方差

(实例)【例】投掷一枚骰子,出现的点数是个离散型随机变量,其概率分布为如下。计算数学期望和方差解:数学期望为:方差为:206常见的离散型概率分布207二项试验

(贝努里试验)二项分布与贝努里试验有关贝努里试验具有如下属性试验包含了n

个相同的试验每次试验只有两个可能的结果,即“成功”和“失败”出现“成功”的概率p对每次试验结果是相同的;“失败”的概率q也相同,且p+q=1试验是相互独立的试验“成功”或“失败”可以计数208二项分布进行n

次重复试验,出现“成功”的次数的概率分布称为二项分布设X为n次重复试验中事件A出现的次数,X取x

的概率为209二项分布显然,对于P{X=x}0,x=1,2,…,n,有同样有当n=1时,二项分布化简为210二项分布的数学期望和方差二项分布的数学期望为

E(X)=np方差为

D(X)=npq211二项分布

(实例1)【例1】已知某生产线产品的次品率为5%,现从生产线上随机抽查3件。求在所抽取的3件产品中恰好有2件次品的概率。解:设X为所抽取的3件产品中的次品数,则X~B(3,0.05),根据二项分布公式有212例2:雇工问题二项分布

某公司希望雇佣比较少的员工,根据以往经验每年有10%的员工被辞退。因此,随机抽取一名工人,他就有10%的可能性明年离开公司。那么,如果随机抽取3名工人,他们当中有一个人离开公司的可能性是多少呢?

213例2:雇工问题应用二项公式,令 令:p=.10,n=3,x=1 =(3)(0.1)(0.81) =0.243例2:雇工问题应用二项分布表

215树图例2:雇工问题

第一个工人第二个工人第三个工人x可能性.辞退(.1)留下(.9)32022辞退(.1)辞退(.1)留下(.9)留下(.9)辞退(.9)留下(.9)留下(.9)留下(.9)辞退(.1)辞退(.1)辞退(.1)辞退(.1).0010.0090.0090.7290.0090111.0810.0810.0810216例2:雇工问题二项式分布三个雇员中被辞退的员工数量的期望值

E(x)==3(.1)=.3方差 Var(x)=2=3(.1)(.9)=.27标准差217泊松分布用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布泊松分布的例子一个城市在一个月内发生的交通事故次数消费者协会一个星期内收到的消费者投诉次数人寿保险公司每天收到的死亡声明的人数218泊松概率分布函数—给定的时间间隔、长度、面积、体积内“成功”的平均数e=2.71828x—给定的时间间隔、长度、面积、体积内“成功”的次数219泊松概率分布的期望和方差泊松分布的数学期望为

E(X)=方差为

D(X)=

220应用泊松公式 医院急诊室平均每小时6个人。那么在30分钟里来4个人的概率是多少?

=6/小时=3/半小时,x=4例子:医院问题221例子:医院问题应用泊松分布表222泊松分布

(实例)【例】假定某企业的职工中在周一请假的人数X服从泊松分布,且设周一请事假的平均人数为2.5人。求(1)X

的均值及标准差(2)在给定的某周一正好请事假是5人的概率解:(1)E(X)==2.5;D(X)==2.5=1.581(2)223泊松分布

(作为二项分布的近似)当试验的次数n

很大,成功的概率p

很小时,可用泊松分布来近似地计算二项分布的概率,即实际应用中,当P0.25,n>20,np5时,近似效果良好224连续型随机变量的概率分布225连续型随机变量的概率分布连续型随机变量可以取某一区间或整个实数轴上的任意一个值它取任何一个特定的值的概率都等于0不能列出每一个值及其相应的概率通常研究它取某一区间值的概率在反映连续型随机变量的概率分布时,可以用分布密度函数来描述。概率密度函数f(x):

在连续型概率分布中,描述其概率分布的函数称为概率密度函数。如果曲线f(x)在x轴上围成的面积等于1,则f(x)为一个概率密度函数。226概率密度函数设X为一连续型随机变量,x

为任意实数,X的概率密度函数记为f(x),它满足条件

f(x)不是概率227概率密度函数密度函数f(x)表示X的所有取值x及其频数f(x)值(值,频数)频数f(x)abx228概率密度函数在平面直角坐标系中画出f(x)的图形,则对于任何实数x1

<x2,P(x1<Xx2)是该曲线下从x1

到x2的面积f(x)xab概率是曲线下的面积229分布函数连续型随机变量的概率也可以用分布函数F(x)来表示分布函数定义为230分布函数与密度函数的图示密度函数曲线下的面积等于1分布函数是曲线下小于x0

的面积f(x)xx0F(x0

)231连续型随机变量的期望和方差连续型随机变量的数学期望为方差为232均匀分布233均匀分布若随机变量X的概率密度函数为称X在区间[a,b]上均匀分布数学期望和方差分别为xf(x)ba例子:行车问题 开车从甲地到乙地的时间服从5小时到7小时之间的均匀分布概率密度函数是

f(x)=1/25<

x

<7 =0 其他 这里:x=行车时间235例子:行车问题

行车时间服从均匀概率分布

f(x)x5671/2行车时间236例子:行车问题 从甲地到乙地用6小时到6.3小时的概率是多少?f(x)x5676.31/2行车时间P(6<

x

<6.3)=1/2(0.3)=.15237例子:行车问题x的均值 E(x)=(a+b)/2 =(5+7)/2 =6x的方差

Var(x)=(b-a)2/12 =(7–5)2/12 =0.33238正态分布239正态分布的重要性1. 描述连续型随机变量的最重要的分布2. 它应用广泛人的身高和重量考试成绩产品产量投资收益测量误差等等

3. 经典统计推断的基础240概率密度函数f(x)=随机变量X的频数=总体方差

=3.14159;e=2.71828x=随机变量的取值(-<x<)

=总体均值241正态分布正态分布图xf(x)242正态分布函数的性质概率密度函数在x

的上方,即f(x)>0正态曲线的最高点在均值,它也是分布的中位数和众数每一特定正态分布通过均值的标准差来区分。决定曲线的高度,决定曲线的平缓程度,即宽度曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交正态曲线下的总面积等于1随机变量的概率由曲线下的面积给出记成:

和对正态曲线的影响CAB244正态分布的概率概率是曲线下的面积!abxf(x)标准正态分布的重要性一般的正态分布取决于均值和标准差计算概率时,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表246标准正态分布函数

标准正态分布的概率密度函数任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布

标准正态分布的分布函数247标准正态分布xms一般正态分布=1Z标准正态分布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论