应用统计学全套ppt课件(完整版)_第1页
应用统计学全套ppt课件(完整版)_第2页
应用统计学全套ppt课件(完整版)_第3页
应用统计学全套ppt课件(完整版)_第4页
应用统计学全套ppt课件(完整版)_第5页
已阅读5页,还剩676页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1应用统计学2几种常用的统计软件典型的统计软件SASSPSSMINITABSTATISTICAExcel3本章教学目标:了解统计学的基本知识;统计数据的收集、调查; 第1章 统计和统计数据收集4本章主要内容1.1 统计学概述1.2 统计数据的收集1.3 问卷设计1.4 变量类型 51.1 什么是统计学? 统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识6Statistics的定义 Statistics: the science of collecting, analyzing, presenting, and interpreting d

2、ata. Copyright 1994-2000 Encyclopaedia Britannica, Inc. (不列颠百科全书)7统计数据的内在规律正常条件下新生婴儿的性别比为107:100投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现16点的频率各为1/6农作物的产量与施肥量之间存在相关关系8统计学的应用领域统计学经济学管理学医学工程学社会学9 基于统计学的数据转换应用 10应用统计的领域actuarial work (精算)agriculture (农业)animal science (动物学)anthropology (人类学)archaeology (考古学)a

3、uditing (审计学)crystallography (晶体学)demography (人口统计学)dentistry (牙医学)ecology (生态学)econometrics (经济计量学)education (教育学) engineering (工程)epidemiology (流行病学)finance (金融)gambling (赌博)genetics (遗传学)geography (地理学) geology (地质学)election forecasting and projection (选举预测和策划)fisheries research (水产渔业研究)historica

4、l research (历史研究)human genetics (人类遗传学)11应用统计的领域(续)hydrology (水文学) Industry (工业) linguistics (语言学) literature (文学)manpower planning (劳动力计划)management science (管理科学)marketing (市场营销学) medical diagnosis (医学诊断)meteorology (气象学) military science (军事科学)nuclear material safeguards (核材料安全管理)ophthalmology (眼

5、科学) pharmaceutics (制药学)physics (物理学) political science (政治学)psychology (心理学) psychophysics (心理物理学)quality control (质量控制) religious studies (宗教研究)sociology (社会学) survey sampling (调查抽样)taxonomy (分类学) weather modification (气象改善)12统计研究对象的特点1.数量性 统计学研究的对象是客观现象的数量特征和规律性。2.总体性 统计学研究的是客观现象总体的数量特征与规律性,而不是个体的

6、量。3.具体性 统计的对象是一定时间、地点、条件下事物的量,而不是抽象对象的量,这是统计学和数学的一个重要区别。4.差异性 组成统计研究对象总体的个体是有差异的,否则就不需要进行统计分析。统计研究中需要对总体中大量的个体进行观察并进行综合分析,由此才能获得总体的数量分布特征。 13统计学的分类 统计学大致有以下两种主要的分类方法。1.描述统计学和推断统计学 这一分类方法既反映了统计学发展的两个主要阶段,同时也反映了各自不同的侧重。 描述统计学是研究如何对客观现象进行数量的计量、加工、概括和表示的方法。在二十世纪之前统计学基本上处于描述阶段。描述统计学是统计学的基础。 推断统计学是研究如何根据样

7、本数据去推断总体的情况,概率论是其理论基础。推断统计学是近代统计学的核心,也是统计学中的主要内容。 14统计学的分科描述统计推断统计统计学的分科理论统计应用统计15描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(包括分布理论、大数定律和中心极限定理等)描述统计(统计数据的搜集、整理、显示和分析等)总体数据样本数据统计学探索现象数量规律性的过程16理论统计学和应用统计学理论统计学 是研究统计学的数学原理,它基于概率论的原理,还包括不属于传统概率论的一些内容,如随机化原则的理论、各种估计的原理、假设检验的原理以及

8、一般决策的原理。 在统计实践中经常会遇到一些原有的统计方法不能适应的新问题,需要创造新的统计模型和统计分析方法,这就需要统计理论的研究与指导。应用统计学 将统计学的基本原理应用于各个领域就形成各种应用统计学的分支。它包括适用于各个领域的一般性的统计方法,如参数估计、假设检验、方差分析、回归分析等,还包括在某一领域中特定的分析方法,如经济统计中的时间数列分析和指数分析等。 应用统计学侧重于阐明统计学的基本原理,并将理论统计学的成果作为工具应用于各个领域。17统计基本术语变量:事物的特征,是运用统计方法所分析的对象。例如,在商业模型中,销售额、每年的开支和每年的净利润都是企业想要分析的变量。数据

9、:是与变量相关的值。变量可能随时间变动,如某一公司的期望销售额、开支和净利润每年都有所不同。这些不同的值就是与变量相关的数据,或者简单地说,就是统计所要分析的“数据”。注意:变量需赋予可操作定义 ,否则会产生歧义。如:对销售额的操作性定义可能会发生这样错误的理解:一个人认为年销售额是指全部连锁店的年销售额,而另一个人则认为是每家店的年销售额。 18统计基本术语总体:所研究对象的全体。个体:指总体中的每个元素或单元。总体依其所包含的个体总数分为有限总体和无限总体。样本:从总体中挑选出来用于分析的一部分。这种挑选通常是相对独立的。样本是进行推断统计的依据。参数:参数是描述总体特征的数值。统计量:是

10、描述样本特征的数值19 统计数据的收集是统计整理和分析,以及统计推断和预测的基础。社会经济统计中所需要的数据与资料主要来源于统计调查。 统计数据的收集就是根据统计研究的目的和要求,有组织、有计划地向调查对象搜集原始资料的过程。 确定数据最合适的来源和收集数据的合理方法是非常重要的任务,因为如果收集的数据有偏差,模糊不清或有其他类型的错误时,即使最复杂的统计方法也无法得到有用的信息,即需要避免“Garbage In Garbage Out(垃圾数据产生垃圾统计结果)”的统计应用情况。 1.2 统计数据的收集20一.数据采集的基本要求准确性及时性完整性系统性 统计调查的数据资料应配套,要能从不同侧

11、面反映所研究总体的特征,才能为科学的判断和决策提供依据。 在实际应用中,我们要依据特定的研究目的或工作任务,结合研究对象所具有的性质和特点,相应地选择适合的调查方法,必要时也可以几种调查方法结合使用。 21二.普遍调查普遍调查简称普查,是专门组织的一次性的全面调查 。如全国的人口普查、能源普查、工业普查等。 组织方式有两种:1.建立专门的普查机构2.利用调查单位的原始记录和核算资料,发放调查表,由登记单位填报。普查时注意的原则:规定统一的标准时点 规定统一的普查期限规定普查的项目和指标。 22普遍调查实例【例1.1】 2002年在国务院统一部署下,开展全国“基本单位普查”。关于这次普查的部分重

12、要要求与规定如下:调查目的:统计分析全国和各省市地区的单位总数、性质、隶属关系、分布情况等。标准时间:2001年12月31日。调查对象:各类法人单位,各类法人单位所属的产业活动单位。调查项目:单位总数; 性质分类(企业法人、事业法人、社团法人、机关法人、其他法人); 基本情况 性质划分、隶属关系(中央、省市、区县、街道等); 主要构成(产业结构、行业分布、地区分布、经济成分、规模结构); 分布情况。 23三.重点调查 在总体中选择部分重点单位进行调查,以了解总体基本情况的一种非全面调查。重点调查的特点:(1) 重点调查适用于调查对象的标志值比较集中于某些单位的场合,这些单位的管理比较健全,统计

13、力量比较充实,能够及时取得准确资料。(2) 重点调查的目的在于了解总体现象某些方面的基本情况,而不要求全面准确地推算总体数字。(3) 重点调查比实际调查的单位数目少,在满足调查目的所要求的前提下,可以比全面调查节省人力、物力和时间。 24四.典型调查 也是专门组织的一种非全面调查,在总体中选择有代表性的典型单位进行深入细致的调查。典型调查的作用和目的(1) 研究新事物或某种倾向性的社会问题 通过对典型单位深入细致的调查,可以发现新情况、新问题,探测事物发展变化的趋势,形成科学的预见。(2) 分析事物的不同类型 通过研究造成它们间差别的原因,总结经验教训,研究对策,促进事物的转化和发展。(3)

14、典型调查可用来研究事务的变化规律。(4) 典型调查的资料可用来补充和验证全面统计的数字,推论和测算有关现象的总体。 25六.抽样调查 是指按随机原则从总体中抽取部分单位组成样本。目的是利用样本数据推断(估计)总体的数量分布特征。 抽样调查是现代推断统计的核心,也是最重要的统计调查方法。 26抽样调查中四种误差涵盖误差 :当某一组代表性的样本被排除在抽样调查之外时所引起的选择偏差。无回应误差 :抽样时,对样本个体数据收集失败会导致无回应偏差。 抽样误差:选择抽样调查是因为这种方法简单、低成本和有效。但同时也意味着有的个体被抽中,有的个体没有被抽中。 测量误差:测量误差是指由于样本数据测量程序的设

15、计和应用不当所引起的误差。 课堂讨论:举例说明这几种误差。 27七.网上调查 截至2009年6月底,中国网民规模达到3.38亿人,较2008年底增长13.4%,上网普及率达到25.5%。网民规模持续扩大,互联网普及率平稳上升。其中宽带网民数达到3.2亿,占比高达94.3%,较2008年底上升了3.7个百分点。另外,截至2009年6月底,作为国家域名,CN域名总计达到1,296万个。作为我国互联网的重要基础资源,CN域名已经广泛地应用在金融、汽车等各个行业中。截止2009年6月我国互联网用户发展情况如图1.2所示。28图 2008-2009年我国互联网用户发展情况(资料来源:第23次中国互联网络

16、发展状况统计报告)29网上调查优势及时性和共享性 便捷性和低成本 可靠性和客观性 更好的接触性 穿越时空性 30 问卷是一种特殊形式的调查表。其特点是表中用一系列按照严密逻辑结构组成的问题,向被调查者调查具体事实和个人对某问题的反映、看法,它不要求被调查者填写姓名。问卷设计一般要遵循以下原则。合理性:合理性指的是问卷必须紧密与调查主题相关。 一般性:即问题的设置是否具有普遍意义。 逻辑性:问卷的设计要有整体感,这种整体感即是问题与问题之间要具有逻辑性,独立的问题本身也不能出现逻辑上的谬误。 明确性:所谓明确性,事实上是问题设置的规范性。 非诱导性:非诱导性指的是问题要设置在中性位置、不参与提示

17、或主观臆断,完全将被访问者的独立性与客观性摆在问卷操作的限制条件的位置上。 便于整理和分析 1.3 问卷设计31统计学中将变量分为分类变量或数值变量。 分类变量(也称为定性变量)的值只能按类别分开。数值变量(也称为定量变量)的值表示数量。数值变量可进一步分为离散变量和连续变量。 1.4 变量类型32四种计量尺度数据的计量尺度定类尺度定序尺度定距尺度定比尺度33计量层次最低对事物进行平行的分类各类别可以指定数字代码表示使用时必须符合类别穷尽和互斥的要求数据表现为“类别”具有=或的数学特性定类尺度(概念要点)34对事物分类的同时给出各类别的顺序比定类尺度精确未测量出类别之间的准确差值数据表现为“类

18、别”,但有序具有或的数学特性定序尺度(概念要点)351.对事物的准确测度2.比定序尺度精确3.数据表现为“数值”4. 没有绝对零点5.具有 + 或 - 的数学特性定距尺度(概念要点)361.对事物的准确测度2.与定距尺度处于同一层次3.数据表现为“数值”4. 有绝对零点5.具有 或 的数学特性定比尺度(概念要点)37四种计量尺度的比较四种计量尺度的比较定类尺度定序尺度定距尺度定比尺度 分类(, ) 排序( ) 间距( + ,- ) 比值( ,) 计量尺度数学特性“”表示该尺度所具有的特性38数据类型与统计方法数据类型与统计方法定类数据定序数据品质数据数量数据定距数据定比数据39本章教学目标:掌

19、握利用统计图表整理和表示统计数据的基本方法;掌握利用 Office 软件绘制各种统计图表、计算各种统计综合指标。掌握分类数据图表的制作方法。掌握数值数据图表的制作方法。了解图表汇总和制作原则。 第2章 统计表和统计图40 在获得原始数据资料之后,需要使用一定的方法对数据进行整理和综合,目的是从大量的原始数据资料中提炼所需要的信息,使之可以提供概要信息并能反映对象总体的基本数量特征,便于人们的理解和使用。表格和图形是整理和反映统计资料的主要工具。 当数据是分类数据时,可以对每一分类数据制作频率或百分比表格和图表。2.1 分类数据的图表 41 频数分布表列出了一系列分类数据的频率、总数或百分比,可

20、以看出不同类别数据间的区别。 表2-1 1 000美元用途的频数分布表用钱做什么百分比/%购买奢侈品、旅游或礼物20向慈善机构捐款2还贷24储蓄31购买必需品16其他71.频数分布表422.条形图433.圆饼图44 在帕累托图中,不同类别的数据是按其频率降序排列的,并在同一张图中画出累积百分比图。帕累托图可以体现帕累托原则:数据的绝大部分存在于很少类别中,极少剩下剩余的数据分散在大部分类别中。这两组经常被称为“至关重要的极少数”和“微不足道的大多数” 4.帕累托图45 当数据量很大时,首先可以将数值数据进行排序或用茎叶图描述以获得初步信息。 (1) 排序 从没有排序的数据中很难看出数据的整体范

21、围。排序是把数据从小到大(或从大到小)进行排列。 (2) 茎叶图 茎叶图就是将数据分成几组(称为茎),每组中数据的值(称为叶)放置在每行的右边。结果可以显示出数据是如何分布的,以及数据中心在哪里。 为了制作茎叶图,可以将整数作为茎,把小数(叶)化整。例如,数值5.40,它的茎(行)是5,叶是4;数值4.30,它的茎(行)是4,叶是3。也可以将数据的十位数作为茎,个位数作为叶。 2.2 数值数据的整理 46 当数据量很大时,排序和茎叶图都很难得出结论。此时需要使用图表。有多种不同类型的图表可以用来精确描述数值数据,包括频数分布表、折线图、面积图、柱形图、条形图、直方图、频数多边形、圆饼图、散点图

22、、时间序列、曲线图以及对数图等等。 2.3 数值数据的图表 47例:某公司汽车销售量 (单位:辆) 481.频数分布表 分组统计整理后, 将杂乱无章的 60 个原始数据压缩到8组,清晰地反映了更多的有用信息。 49制作频数分布表的注意事项分组的数量 实际应用中分组的数量和组距应根据对象的特点和分析的需要决定。如果分组是为了揭示数据的分布规律,则分组不能过多和过少。通常应在515 之间。在绘制直方图时可以参照下表: 样本容量 n 参考分组数 2050 56 51100 78 101200 89 201500 910 5011000 1011 1000以上 112050制作频数分布表的注意事项2)

23、 分组的方法 分组的方法可以有等距分组和不等距分组两类。采用哪种分组方法应根据数据的分布特点而定。通常,当数据在一定范围内基本呈对称分布时,宜采用等距分组;而当数据的分布状态极度偏斜时,则宜采用不等距分组。 51例: 按雇工人数分组的私营企业规模统计 52制作频数分布表的注意事项3)组限:组限也即各组区间的上、下限。确定各组区间的上限和下限时,应保证各组之间既不重叠,又不能遗漏任一数据,使每一个数据都属于某一确定的分组。重叠和组限不重叠组限重叠组限相邻组的上下限重合。适用于连续型变量。但各组上、下限中有一个不包含再内。通常按“上限不在内”处理,即组区间是 a, b)的形式。注意:Excel在制

24、作频数分布表时采用的是“上限在内”的规则。不重叠组限相邻组的上下限不重合。适用于离散型变量。53例:离散型变量的分组(不重叠组限)某公司某月汽车销售量的频数分布表 54例:连续型变量的分组(上限不在内)某企业职工工资的分组统计55制作频数分布表的注意事项4) 组中值组中值是各组的代表值,在计算分组数据的许多统计指标时要用到。通常取该组上限和下限的平均值为组中值。如表2-7所示,1019的组中值是14.5,2029的组中值是24.5,等等。5) 表格线统计表中的表格线应当是两边开口的表格。56使用 Excel 制作频数分布表利用 Excel 的 FREQUENCY 函数语法规则:格式:FREQU

25、ENCY(,) 接收区间各组上限值组成的一列区域功能:返回各组的频数。使用【工具】“数据分析”“直方图”功能 57 统计图可以形象、直观、生动、简洁地显示数据的特征。 常用的统计图有以下几种:1.折线图 通常用来描述时间序列数据,用以表示某些指标的变化趋势。 制作折线图时应正确选择坐标轴轴的刻度。对同样的统计资料,延伸或压缩某一坐标轴可能传达不同的甚至是误导的印象。 其它数值数据统计图58图1.2 失业人数统计图过分压缩了Y轴59图1.3 失业人数统计图过分压缩了X轴602.面积图 面积图可以直观地表示时间序列各组成部分的变化情况。图 某地区各产业增加值构成比例的变化情况613.柱形图、条形图

26、和直方图 柱形图、条形图和直方图是使用的最为广泛的统计图表。通常将横向绘制的柱形图称为条形图,而将各柱形之间没有间隔的称为直方图,但在Office中将直方图和柱形图统称为柱形图。 (1)柱形图 主要用于表示时间序列数据。 62图1.4 各类进口商品的变化情况柱形图示例63(2)直方图用以表示数据的频数分布规律。图1.5 比特公司啤酒销售量的频数分布64未分组数据的茎叶图用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶对于n(20n300)个数据,茎叶图最大行数不超过 L = 10 log 10 n 茎叶图类似于横置的直方图

27、,但又有区别 直方图可大体上看出一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息65树茎树叶7880223477788890012222333344466777889013344579910111213数据个数3132410茎叶图类似横置的直方图未分组数据茎叶图(茎叶图的制作)某车间工人日加工零件数的茎叶图664.频数多边形 频数多边形是直方图的另一种表现形式,是由直方图的顶端中点(各组的组中值)连线而成,其中两边都要连接到横轴上的某点,以便通过覆盖的面积反映总频数。当希望在一个图上比较两种频数分布的特征时,就需要使用频数多边

28、形。 男、女学生的体重分布特征 675.圆饼图 当要表示总体各组成部分的个体数量在总体中占的比率时,经常使用圆饼图,圆饼中各扇形的大小代表了不同组成部分的相对重要性。 某企业资产、负债与所有者权益的构成情况 686.散点图、时间序列图和曲线图Microsoft Office中的曲线图属于平滑线散点图 。散点图:在回归分析中,经常需要用样本数据的散点图来分析两个变量之间大致的曲线关系,如正相关关系,即一个变量的增长引起另一个变量的增长;负相关关系,即一个变量的增长引起另一个变量的减少。时间序列图:研究数值变量随时间变化的趋势。X轴代表时间,Y轴代表数值。时间序列图可用折线图来实现。曲线图:当变量

29、是连续型数据时,通常使用曲线图来描述数据的分布情况,如连续型随机变量的密度函数和分布函数曲线。 696.散点图、时间序列图和曲线图 Office 中曲线图的绘制方法一:使用“平滑线散点图”绘制方法二:将折线图转换为曲线图右击折线后选择“数据系列格式”,在“图案”标签下选“平滑线”复选框,就将折线图转换为曲线图。 70经济管理中几种常见的频数分布曲线正态分布曲线这是客观事物数量特征上表现得最为普遍的一类频数分布曲线。如人的身高、体重、智商,钢的含碳量、抗拉强度,某种农作物的产量等等。正态分布曲线71偏态曲线图1.8 偏态曲线右偏(正偏)左偏(负偏) 例如收入和财富的频数分配曲线就是右偏的,大量财

30、富都集中在极少数富豪手中,而多数人则是低收入者。 此外,在产品质量管理中也普遍存在这种现象,如多数次品都集中出在少数工人手中;次品也大都出在少数几道工序上。这就要求在管理和控制上需要突出重点、抓住关键因素。 按其长尾拖向哪一方又可分为右偏(正偏)和左偏(负偏)两类。72 J 形曲线其典型的应用分别是经济学中的供给曲线和需求曲线。供给曲线(正 J 形)表现为随着价格的增加,供给量以更快的速度增加;需求曲线(倒 J 形)表现为随着价格的增加,需求量以更快的速度减少。供给和需求曲线的交点即供求平衡点。 正 J 形倒 J 形图1.9 J 形曲线73 U形曲线 人和动物的的死亡率、设备的故障率等通常都服

31、从于 U 形曲线分布。图1.10 U形曲线 又称生命曲线或浴盆曲线747.对数图 人们经常对时间序列变量的相对变化率而不是绝对数值的变化感兴趣,如各种经济变量的环比发展速度。此时若要用统计图直观反映增长率等现象的变动趋势,就需要使用对数图。 对数图是以时间为横轴,以10为底的对数比率刻度为纵轴的折线图。可以通过对数图中各线段的斜率比较各时期增长率的大小。考虑以下统计数据:75对数图可以直观反映时间序列的环比变化趋势 可以在Office图表类型中选择自定义类型中的“对数图”,也可通过将一般折线图纵轴“坐标轴格式” 中的“刻度”设为“对数刻度”来绘制对数图。76例:某公司总成本和劳动成本的增长 该

32、公司总成本和劳动成本每年增加相同的数量,因而用绝对数据作图时两条线是平行的,不小心可能会得出劳动成本占总成本固定比例的误解。实际上第1年占40%,第6年占60%。使用对数图就可以清晰反映劳动成本有更高的增长率。77对数图反映了劳动成本增长率大于总成本增长率78交叉表可以由列联表和并行条形图来表示。1.列联表列联表表示两类变量的结果。横轴表示一类变量,纵轴表示另一类变量。值位于横纵轴的交叉处,称为单元。根据列联表的结构类型,每横纵轴组合单元包含频率、总值的百分比、横行的百分比或列的百分比。2.并行条形图一个更有效的显示交叉分类数据的方式是作并行条形图。 2.4 交叉表 79分析类型数据类型数值分

33、类单变量值的图表排序,茎叶图,频数分布表,折线图,直方图,面积图,柱形图和条形图,圆饼图,频数多边形汇总表,条形图,圆饼图,帕累托图两变量关系的图表散点图,时间序列图,曲线图列联表,并行条形图图表选择指导2.5 图表汇总和制作原则 80图表制作原则 对于分类数据和数值数据,有些图表是专用的,如帕累托图专门用于分类数据的单变量值描述;而有些图表是通用的,如条形图既可以描述单变量的数值数据,也可以描述单变量的分类数据。为了提供图表表述的合理性,在日常的统计数据整理中,应该遵循下列一些基本原则,以更精确、更形象地抽取统计数据中所蕴含的特征信息和意义:图表不能扭曲数据。图表不应有不必要的修饰图(有时是

34、图表垃圾)。任何两维图标应尽可能地在坐标轴上标上刻度。纵轴的起始点应该合理。所有的轴应合理布置。图表应包含标题。使用最简单的图表。81本章主要介绍以下 3类综合统计指标:度量中心(集中)趋势的平均指标度量离散程度(变异性)的指标度量偏斜程度的指标度量两种数值变量关系的指标 第3章 统计数据的描述度量82 常用的这类指标有以下五种:算术平均数、中位数、众数、四分位数、几何平均数、五数汇总和箱线图。3.1 度量集中趋势的指标83(1)基本公式:1.算术平均数84 (1)简单算术平均数(2)算术平均数的计算 n 总体单位总数;xi 第 i 个单位的标志值。 (2)加权算术平均数 xi 第 i 组的代

35、表值(组中值或该组变量值); f i 第 i 组的频数。 85使用 Excel 函数求加权算术平均数 利用 Excel“数学和三角函数”中的SUMPRODUCT 函数可以方便地计算出分组数据的加权算术平均数。 语法规则: 格式:SUMPRODUCT(,) 功能:返回两个或多个区域中对应元素乘积之和。 例:利用比特啤酒公司各销售点分组频数分布数据,求各销售点的平均销售量。 862.几何平均数 当统计资料是各时期的发展速度等前后期的两两比环数据,要求每时期的平均发展速度时,就需要使用几何平均数。 几何平均数是 n 个数连乘积的 n 次方根。 (1) 简单几何平均数 (2) 加权几何平均数f i 各

36、比率出现的频数 87例:某公司原料成本随时间增长的情况如下表求原料成本的平均年增长率。 解一:解二: 年平均增长率 = 1.0688 - 1 = 6.88% 88(3)使用 Excel 求几何平均数 可以使用 Excel 统计函数中的 GEOMEAN 函数返回几何平均数。 语法规则: 格式:GEOMEAN(,) 功能:返回所有参数中数据的几何平均数。 89 将总体各单位标志值按由小到大的顺序排列后处于中间位置的标志值称为中位数,记为Me 。 中位数是一种位置平均数,不受极端数据的影响。当统计资料中含有异常的或极端的数据时,中位数比算术平均数更具有代表性。 比如有 5 笔付款:9元,10元,10

37、元,11元,60元 付款的均值为 20 元,显然这并不是一个很好的代表值,而中位数 Me = 10 元则更能代表平均每笔的付款数。3.中位数90 (1) 使用 Excel 的统计函数返回未分组数据的中位数 可以使用 Excel 统计函数中的 MEDIAN 函数返回未分组数据的中位数。 格式:MEDIAN(,) 功能:返回所有参数中数据的中位数。 91(2)分组数据中位数的确定 对于分组数据的统计资料,中位数要用插值法来估算。 (1)计算各组的累计频数; (2)确定中位数所在的组 是累计频数首次包含中位数位次f /2的组。其中:L 中位数所在组的下限; Sm-1 中位数所在组前一组的累计频数;

38、fm 中位数所在组的频数; d 中位数所在组的组距。 92例:计算下表数据的中位数解:f/2 = 27.5,中位数在“15-25”的组中, 934.众数 是总体中出现次数最多的标志值,记为M 0。 众数明确反映了数据分布的集中趋势,也是一种位置平均数,不受极端数据的影响。但并非所有数据集合都有众数,也可能存在多个众数。 在某些情况下,众数是一个较好的代表值。 例如在服装行业中,生产商、批发商和零售商在进行生产和存货决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。 又如,当要了解大多数家庭的收入状况时,也要用到众数。 94(1) 未分组数据众数的确定在数据量很大的时候,可以使用 Excel 统计

39、函数中的 MODE 函数返回众数。格式:MODE(,)功能:返回所有参数中数据的众数。 95(2) 分组数据众数的确定对于分组数据的统计资料,众数也要用插值法来估算。(1)确定众数所在的组 对于等距分组,众数组是频数最高的组;(2)使用以下插值公式计算其中:L 众数组的下限1 众数组与前一组的频数之差2 众数组与后一组的频数之差 d 众数组的组距12众数Ld96例:计算下表数据的众数解:众数组是“15-25”的组,则 97算术平均数、中位数和众数间的关系 0 xf(Me,M0)0 xfMeM00 xfMeM02.频数分布为右偏态 时,众数小于中位数,算术平均数大于中位数。3.频数分布为左偏态时

40、,众数大于中位数,算术平均数小于中位数。1.频数分布呈完全对称的单峰分布,算术平均数、中位数和众数三者相同。98补充习题补充题3:某地区私营企业注册资金分组资料如下,求该地区私营企业注册资金的平均数、中位数和众数。99 补充题3答案f/2=143/2=71.5,中位数所在组为“100150”的组,众数组为“100150”的组,1005.四分位数 (概念要点)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值 3. 不受极端值的影响 4. 可用于定序数据,也可用于数值型数据,但不能用于定类数据QLQMQU25%25%25%25%101未分组数据:组距分组数据:下四分位数(QL)位置

41、=N+14上四分位数(QU)位置 =3(N+1)4下四分位数(QL)位置 =N4上四分位数(QL)位置 =3N4四分位数位置的确定102数值型未分组数据的四分位数 (7个数据的算例)原始数据: 23 21 30 32 28 25 26排 序: 21 23 25 26 28 30 32位 置: 1 2 3 4 5 6 7 N+1QL= 237+1QL位置 =4=4= 2QU位置 =3(N+1)43(7+1)4 = 6QU = 30103数值型未分组数据的四分位数(6个数据的算例)原始数据: 23 21 30 28 25 26排 序: 21 23 25 26 28 30位 置: 1 2 3 4 5

42、 6QL= 21+0.75(23-21) = 22. 5QL位置 =N+14=6+14= 1.75QU位置 =3(N+1)43(6+1)4= 5.25QU = 28+0.25(30-28) = 28.5104数值型分组数据的四分位数上四分位数: 下四分位数: 105数值型分组数据的四分位数QL位置50/412.5QU位置350/437.5表 某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105110110115115120120125125130130135135140358141064381630404650合计50【例】根据表中的数据,计算50名工人日加工零件数的四分位数

43、106使用Excel统计函数中的QUARTILE函数 在数据量很大的时候,可以使用Excel统计函数中的QUARTILE函数返回四分位数,语法规则如下:格式:QUARTILE (数据集, 第nthquart分位数) 功能:返回不同nthquart的四分位数。如果nthquart等于函数QUARTILE的返回值0最小值1第一四分位数(第25 个百分点值)2中位数(第 50个百分点值)3第三四分位数(第 75 个百分点值)4最大值1076.五数汇总和箱线图 五数汇总包括最小值、第一分位数、中位数、第三分位数和最大值这样五个数据,即 箱线图(亦称箱须图)提供了基于五数汇总的几何图形 108箱线图和四

44、种不同类型分布图的联系 c)右偏分布a)钟形分布b)左偏分布d)矩形分布109x频数 要分析总体的分布规律,仅了解中心趋势指标是不够的,还需要了解数据的离散程度或差异状况。几个总体可以有相同的均值,但取值情况却可以相差很大。 变异指标就是用来表示数据离散程度特征的。变异指标主要有:极差、平均差、标准差和变异系数。 3.2 度量离散程度的指标110【案例】道格拉斯公司应如何选择供应商 道森公司和克拉克公司是道格拉斯公司的两家供货商。两家供货商都表示大约需要10个工作日交付定货。下表是两家供应商定货交付时间的历史数据。今后道格拉斯公司应选择哪家供应商供货?1111.极差 极差也称全距,是一组数据的

45、最大值和最小值之差,通常记为R。显然,一组数据的差异越大,其极差也越大。 极差是最简单的变异指标,它广泛应用于产品质量管理中控制质量的差异,一旦发现超过控制范围,就采取措施加以纠正,以保证产品质量的稳定。 但极差有很大的局限性,它仅考虑了两个极端的数据,没有利用其余数据的信息,因而是一种比较粗糙的变异指标。 1122.平均差 平均差是各数据与其均值离差绝对值的算术平均数,通常记为A.D。 平均差越大,反映数据间的差异越大。 但由于使用了绝对值,其数学性质很差,因而很少使用。 1133.四分位差1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD = QU - Q

46、L4.反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性1144.方差和标准差 方差和标准差是应用得最为广泛的变异指标。标准差是方差的算术平方根,也称均方差或根方差。 应注意总体方差、标准差与样本方差、标准差是有区别的。(1)总体方差和总体标准差 总体方差是各总体数据与其均值离差平方的均值,记为 2,总体标准差记为。 115(2)样本方差与样本标准差 样本方差记为 S 2,样本标准差记为 S,在推断统计中,它们分别是总体方差和标准差的优良估计。其中:n 为样本容量,Xi 为样本观察值为样本均值。 116未分组数据方差和标准差的计算方差和标准差的手工计算非常烦琐,只要求掌握以下

47、两种方法。使用计算器的统计功能(SD或STAT功能)使用 Excel 的统计函数VARP(,) 功能:返回所有参数中数据的总体方差。STDEVP(,) 功能:返回所有参数中数据的总体标准差。VAR(,) 功能:返回所有参数中数据的样本方差。STDEV(,) 功能:返回所有参数中数据的样本标准差。 1175.变异系数当需要比较不同总体的离散程度时,如果使用的度量单位不同,或它们在数量级上相差很大,则用绝对数值表示的方差和标准差就缺乏可比性,此时就应使用相对变异指标(变异系数)。例如,对汽车发动机的汽缸而言,0.05毫米的标准差就很大了,但对建筑工程而言则可完全忽略不记。相对变异指标中最重要的是标

48、准差系数,是标准差与均值之比,记为V。1186.Z值极端值是远离均值的量。Z值有助于定义极端值。Z值越大,数据远离均值的距离越大。Z值记为,是数据与均值的差再除以标准差。其计算公式如下:通常,Z值小于3.0或大于+3.0时,认为数据中含有极端值。 119 总体分布的特征不仅与均值和变异指标有关,而且与分布的偏斜程度有关,如对称分布、右偏分布和左偏分布。这种分布形态上的数量特征,往往具有重要的社会经济意义。偏度系数是度量偏斜程度的指标,主要有以下两种计算方法:一、用标准差为单位计量的偏度系数 该偏度系数记为SK,计算公式为 SK是无量纲的量,取值通常在-3+3之间,其绝对值越大,表明偏斜程度越大

49、。当分布呈右偏态时,SK0,故也称正偏态;当分布为左偏态时,SK0,故也称负偏态。 3.3 度量偏斜程度的指标120二、使用三阶中心矩计量的偏度系数 该偏度系数是用三阶中心矩除以标准差的三次方来度量偏斜程度,记为,计算公式为 称为三阶中心矩。偏度系数 可以适用任何数据。 和SK的计算方法 不同,因此根据同一资料计算的结果也不相同。可以使用Excel统计函数中的SKEW函数返回数据的偏度系数,语法规则如下:格式:SKEW(,)功能:返回所有参数中数据的偏度系数。 1211. 协方差:协方差测试了两数值变量(和)的线性联系,表示为Cov(X,Y)。其计算用下列公式表示。2. 相关系数:相关系数测定

50、了两数值变量间的线性相关强度。相关系数的值从完全负相关1到完全正相关+1。 3.4 度量两种数值变量关系的指标122使用 Excel 求各种统计指标 当数据量很大时,手工计算统计指标是非常烦琐的,尤其是标准差、方差数等的计算量很大。 使用Excel【工具】“数据分析”“描述统计”功能,可以方便地计算出各种综合统计指标。123本章教学目标:简要介绍概率的基础知识,主要供学员回顾复习概率知识的参考,为统计学内容的学习提供所需的基础知识;掌握查各种概率分布表时Excel统计函数的使用;能运用概率知识解决企业经营管理中的实际问题。运用动态模拟方法验证中心极限定理;项目投资决策的应用案例分析。第4章 概

51、率论基础124本章主要内容4.1 随机试验与随机事件4.2 概 率4.3 随机变量及其分布函数4.4 离散型随机变量4.5 连续型随机变量4.6 随机变量的数学期望和方差4.7 大数定律和中心极限定理4.8 新产品投资决策案例分析 本章内容的重点:条件概率、事件的独立性、二项分布、正态分布、Excel统计函数的使用。125 在市场经济环境下,企业所面临的是充满不确定因素的市场经济环境,企业的任何决策都存在不同程度的风险。正确的决策可以为企业带来巨大的经济效益和发展机遇,但重大的决策失误也会给企业造成巨大的经济损失,并有可能使企业从此陷入困境甚至破产倒闭。因此,如何提高决策的科学性,并尽可能降低

52、和规避决策的风险,是所有企业的高层经营管理决策者都面临的共性问题。 利用概率论的知识,可以帮助决策者进行风险型决策分析,利用所能获得的各种信息,还可以大大降低决策的风险程度,尽可能避免重大的经济损失,并为企业带来可观的经济效益和良好的发展机遇。引言126光大电器公司开发了一种新型洗衣机,生产该洗衣机的经济规模为100万台/年,需要投入的生产线设备、模具、工装等固定投资费用为2000万元,项目的建设期为一年,固定投资费用在建设期初一次投入。产品投产时还需投入生产流动资金1000万元。由于洗衣机产品的技术进步较快,估计该产品的市场寿命期为5年,5年末固定资产残值为固定投资额的20%,流动资金可在寿

53、命期末全部收回。由于洗衣机的市场竞争非常激烈,该新型洗衣机投入生产后的经济效益具有很大的不确定性。为了提高产品投资决策的科学性,该公司在决定是否投资生产该新型洗衣机之前,进行了一些市场调查预测和项目的经济可行性研究。项目投资实例127 市场调查和预测分析估计,产品上市后销售量将达到生产能力的80%以上(畅销)、50%80%(销售一般)、不足50%(滞销)的可能性分别为40%、30%、30%。 另经财务部门所作的财务预测分析,在产品出现”滞销”、”一般”和”畅销”三种销售状况下,该项目投产后的年净现金流量将分别为100万元、600万元和1000万元。 考虑到筹资成本和资金的机会成本,贴现率应取6

54、%。128为使对该新产品项目的投资决策更具科学性,总经理召开了有销售、生产、财务、技术等部门负责人参加的会议。会上销售部经理建议,为减小决策风险,应在决定是否投资生产前先利用原有设备进行少量试生产(100台),并将试生产的洗衣机免费赠送给不同地区的一些用户进行为期3个月的试用,以取得用户的反馈信息。为此,销售部经理还设计了用户试用后的信息反馈表,包括功能、使用效果、方便程度、外观、可靠性五大类共25个指标,每项指标都由用户按15分打分,加权平均后的满分为100分。根据用户试用后反馈结果的总平均分,可将用户对该洗衣机的评价分为”不满意”(低于60分)、”尚可”(6090分)和”满意”(高于90分

55、)三种可能结果。销售部经理的建议129 销售部经理认为,为减少决策风险,应根据对用户试用反馈情况进行分析后再作是否投资生产该洗衣机的决定。销售部经理还提供了过去许多企业在产品正式投产之前采用类似试用或试销方法的用户反馈结果与产品正式生产上市后销售状况之间的统计数据,见表1表1 销售状况与试用结果间的统计资料130总经理指示财务部经理对销售部经理所提方案的费用进行估算。在下一次的会议上,财务部经理给出了试生产、分发用户试用及收集用户反馈信息等项工作的总费用估算结果,估计需要100万元。会上有人提出是否值得花100万元进行试生产并免费赠送用户试用,并展开了激烈的争论。总经理希望能对各种可行方案的风

56、险及经济效益进行科学的分析与评价。如何进行科学决策?131 以上案例属于“有追加信息的风险型决策”问题,案例的分析需要用到一些概率知识,包括条件概率、全概率公式、贝叶斯公式和数学期望等,以及项目净现值等知识。在本章的最后一节,我们将运用所学的概率知识对该例进行分析,并且还将讨论信息的价值问题。132 一随机试验 人们在研究经济管理以及其他社会问题中,通常总是通过调查或对社会现象的观察来获取所研究问题的有关数据;在自然科学领域中,人们也是通过科学实验或对自然现象的观察来获取所需要的资料。 对社会现象的观察和对自然现象的科学实验在概率论和统计学中都统称为试验。如果试验可在相同的条件下重复进行,而且

57、试验的结果不止一个,每次试验前不能确定将会出现哪一结果,这样的试验就称为随机试验,简称试验。 例如,在一批产品中任意抽取一件进行检验;企业市场调查人员就本企业的产品和服务进行的用户满意度调查;对某产品进行的寿命试验等等都是随机试验。4.1 随机试验与随机事件1331基本事件试验中每一可能出现的结果,称为该试验的一个基本事件或样本点。2复合事件由多个基本事件构成的集合。 基本事件和复合事件统称为随机事件,常用字母A,B,C, 表示。3样本空间由试验E所有基本事件组成的集合,称为E的样本空间,常用字母S表示。4必然事件每次试验中必然发生的事件;样本空间S是必然事件。5不可能事件试验中不可能发生的事

58、件;不含任何基本事件的空集是不可能事件;记为。二. 随机事件134【例1】掷一枚骰子,观察出现的点数. 记A1为出现偶数点;A2为小于4的点,A3为不超过6的点,A4为大于6的点。 则:S =1,2,3,4,5,6; A1=2,4,6; A2=1,2,3; A3=S; A4=【例2】在一批产品中连续抽取二次,每次任取一件进行检验,分别记T、F为抽到正品和次品,并记A1为第一次抽到的是正品,A2为抽到一个正品,A3为两次抽到的质量相同,则: S = (T,T),(T,F),(F,T),(F,F); A1=(T,T),(T,F); A2=(T,F),(F,T); A3=(T,T),(F,F)135

59、A BBASABABS1事件的包含若A发生必然导致B发生,则称B包含A或A包含于B,记为BA或AB。 2事件的并 “A与B至少有一个发生”的事件,称为A并B,记为AB三. 事件间的关系和运算136A与B互斥AB 3.事件的交“A与B同时发生”,称为A交B,记为 AB或AB。ABAB4.互斥(互不相容)事件 若A与B不能同时发生,即AB=,则称A与B互斥。 显然,基本事件都是互斥的。137 5.事件的差“A发生而B不发生”的事件,称为A与B的差,记为A-B。 A-BBA互逆事件A6.互逆(对立)事件 若试验中,A与B必有且仅有一个发生,即同时满足AB=S和AB=,则称A与B互逆(对立), 并称A

60、是B的逆事件,反之亦然,记为1387事件运算的性质(1)交换律:AB=BA; AB=BA(2)结合律:(AB)C=A(BC) (AB)C=A(BC)(3)分配律: (AB)C=(AC)(BC) (AB)C=(AC)(BC)(4)对偶律:ABC(AB)CABC(AB)C139【例3】如何表示复杂事件 在一批产品中连续抽检3个产品,记Ai=第i个是次品,i=1,2,3, 用Ai间的关系表示以下事件: (1) 至少有一个次品:A1A2A3A1A2A3(4) 至少有一个正品:(3) 3个都是正品:(2) 3个都是次品: 其中(1)与(3)是互逆事件,(2)与(4)也是互逆事件。140课堂练习1 在一批

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论