统计学基础知识-4课件_第1页
统计学基础知识-4课件_第2页
统计学基础知识-4课件_第3页
统计学基础知识-4课件_第4页
统计学基础知识-4课件_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、統計學基礎知識山西財經大學米子川1第四囘 統計學初步什麽是統計學統計學的概念及統計思想導入基本統計量:均值、方差和標準差統計學解決問題的方式工業生產過程中的統計技術練習:分析一組資料的統計分佈和正態概率紙的應用。2質量管理的第一基礎統計學是什麽?3统计是什么?统计是人类思维的一个归纳过程站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过而且平均每10个轿车载有12个人于是,你认为小汽车和自行车在这个路口的运载能力为24:100这是一个典型的统计思维过程4统计是什么?一般来说,统计先从现实世界收集数据(信息),如观测路口的交通然后,根据数据作出判断,称为模型模型是从数据产生的模型也需

2、要根据新的信息来改进不存在完美的模型模型的最终结局都是被更能够说明现实世界的新模型所取代5统计是什么?一句话,统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。7以归纳为主要思维方式的统计统计可应用于各个不同学科,在有些学科已经有其特有的方法和特点;如生物统计(biostatistics)、经济计量学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计質量管理和工業生産領域是統計學的一大重要應用領域8现实中的随机性和规律性,概率和机会再如,一般来说,白种人身材比黄种

3、人要高些,这就是规律性但对于具体的一个白人和一个黄种人,就很难说谁高谁矮了,这体现随机性10我們在前面的課程中,引進了概率隨機變量及其分佈常用的統計分佈這些都是統計學研究的數學基礎,也是質量管理的重要知識準備。統計學研究的基礎在於11統計學的基本工具統計變量和數据12統計变量和数据一个学校的注册在校男女生比例是固定的,为常量但是,该校任意一群学生的男女生比例就不一定和全校的比例一样了,它为变量(variable)。14有了变量,何谓数据?不同机构调查所得到的太原市收入万元以上市民的比例都不一样,这是变量而这些调查产生一些数目,这些数目就是数据(data)数据是关于变量的观测值。數據是什麽?15

4、变量之间的关系现实世界紧密联系的人们想知道投资方式和经济效益之间的关系、旅客人数和经济发展之间的关系等等不讨论变量之间的关系,就无从谈起任何有深度的应用,统计的基本概念就仅仅是摆设而已。17定量变量间的关系例 广告投入和销售之间的关系。下表显示了某企业广告投入和销售额之间的关系(万元)。广告1.03.23.25.55.97.17.39.210.812.1销售9.431.833.252.453.556.056.959.260.163.518横坐标代表广告投入,而纵坐标代表销售收入。看得出有何种关系吗?19定量变量间的关系能否从该数据回答下面问题:这两个变量是否有关系?如果有,它们的关系是否显著?

5、这些关系是什么关系,能否用数学模型来描述?这个关系是否带有普遍性?这个关系是不是因果关系?20定量变量间的关系关于因果关系在可控制的试验中,较容易找到因果关系;比如治疗方式和疗效的关系等但是,一般来说,变量之间有关系这个事实并不意味着一定存在明确的因果关系。21思考一下工業生産中的變量關係一般會是怎樣的?生産出一個不合格品和什麽因素有關係?必然的還是偶然的?公鷄打鳴和太陽升起的關係22数据是怎样得到的?在自然的未被控制的条件下观测到的数据,称为观测数据(observational data)。在人工干预和操作情况下收集的数据就称为试验数据(experimental data)。請你根據自己的工

6、作,举出观测数据和试验数据的例子。24个体、总体和样本需要调查太原市民对交通规则的观点;对象是所有市民,目的是希望知道市民中对该问题的不同看法各自占有的比例显然,不可能去问所有的北京市民,而只能够问一部分;并且根据这一部分的观点来理解整个太原市民的总体观点。25个体、总体和样本而调查时问到的那部分市民的观点(也就是部分个体)称为该总体的一个样本(sample),是总体的一部分。也有可能试图调查所有的人(比如人口普查),那叫做普查(census)。27工業管理通常情況下,工業生産中的縂體指一個檢驗批,要求在相同時間、地點、設備、技術和原材料儅要素前提下,完成生産。樣本是指部分個體的集合;單件產品

7、是研究的個體。28均值、方差和標準差基本統計量29在对数据进行深入加工之前,总应该对数据有所印象。可以借助于图形和简单的运算,来了解数据的一些特征。由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。30如何用图来表示数据?31直方图32盒型图盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线(边)为上下四分位数(点);按照SPSS的默认选项,如果所有样本中的数目都在离四分位点1.5倍盒子长度之内,则线的端点为最大和最小值,否则线长就是1.5倍的盒子长度(盒子长度称为四分位间距),在其外面的度量单独点出33散点图34饼图35如何用少量数

8、字来概括数据?大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化我们可以用 “平均”,“差距”或百分比等来概括大量数字。由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。36 如何用少量数字来概括数据?可用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。这些数字是从样本数据得来的,因而也是样本的函数,任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic)。样本的随机性决定统计量的随机性(统计量也是随机变量)37如何用少量数字来概括数据?概括统计量经常对应于总体的无法观测

9、到的某些参数。这时,统计量可作为这些参数的估计。一些统计量还可以用来检验样本和假设的总体是否一致。38如何用少量数字来概括数据?注:一些统计量前面有时加上“样本”二字,以区别于总体的同名参数。如“样本均值”和“样本标准差”,以区别于总体均值和总体标准差;但在不会混淆时可以只说“均值”和“标准差”。39数据的“位置”数据有位置吗?这里三个数据的位置一样吗?40数据的“位置”“位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心(center或center tendency)。和这种“位置”有关的统计量就称为位置统计量(location statistic)。位置统计量当然不一定都是

10、描述“中心”了,比如后面要讲的k百分位数(或k分位数)。41数据的“位置”最常用的位置统计量就是小学时所学到的算术平均数,它在统计中叫做均值(mean);严格地说叫做样本均值(sample mean),以区别于总体均值。如果记样本中的观测值为x1,xn,则样本均值定义为42(样本)中位数(median) 是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。由于中位数不易被极端值影响,所以中位数比均值稳健(robust)。数据的“位置”43上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile, third quant

11、ile)则分别位于(按大小排列的)数据的上下四分之一的地方。数据的“位置”44数据的“位置”一般地还称上四分位数为75百分位数(75 pecentile,有75的观测值小于它),下四分位数为25百分位数(有25的观测值小于它)。一般地,k百分位数(k-pecentile)意味着有k的观测值小于它。如果令a=k%,则k百分位数也称为a分位数(a-quantile)。样本中出现最多的数目,称为众数(mode)45数据的“尺度”这两个数据“胖瘦”一样吗?46数据的“尺度”数据中数目的分散程度由尺度统计量(scale statistic)来描述。尺度统计量是描述数据散布,即描述集中与分散程度或变化(s

12、pread或variability)的度量。47 数据的“尺度”从前面两个高三男生身高数据的盒形图。左边的数据平均要高些,但右边的数据散布范围要小得多。统计中有许多尺度统计量。一般来说,数据越分散,尺度统计量的值越大。48数据的“尺度”极差(range);就是极大值和极小值之间的差。前面两个高三男生身高数据的极差分别为50cm和32cm。盒形图盒子的长度为两个四分位数之差,称为四分位数极差或四分位间距(interquantile range);它描述了中间半数观测值的散布情况。极差和四分位极差实际上各自只依赖于两个值,信息量太少。49数据的“尺度”另一个常用的尺度统计量为(样本)标准差(sta

13、ndard deviation)。度量样本中各数值到均值距离的平均。标准差实际上是方差(variance)的平方根。如果记样本中的观测值为x1,xn,则样本方差为50数据的“尺度”两个均值一样,但右边的要“胖”些,方差为左边的一倍51 数据的标准得分假定两个水平类似的班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样。52数据的标准得分一班分数的均值和标准差分别为78.53和9.43,而二班的均值和标准差分别为70.19和7.00。那么得到90分的一班的张颖是不是比得到82分的二班的刘威成绩更好呢?怎么比较才能合理呢?53数据的标准得分虽然这

14、种均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,再比较标准化后的数据。一个标准化的方法是把某样本原始观测值(亦称得分,score)和该样本均值之差除以该样本的标准差;得到的度量称为标准得分(standard score,又称为z-score)。54 数据的标准得分即,某观测值xi的标准得分定义为55 数据的标准得分在我们的例子中,张颖的标准得分为(90-78.53)/9.431.22,而刘威的标准得分为(82-70.19)/71.69。显然如果两个班级平均水平差不多,刘疏的成绩应该优于张颖的成绩;这是在标准化之前的数据中不易看到的。56可以看出,原始数据是在各自的均值附近,而

15、散布也不一样。但它们的标准得分则在0周围散布,而且散布也差不多。实际上,任何样本经过这样的标准化后,就都变换成均值为0、方差为1的样本。标准化后不同样本观测值的比较只有相对意义,没有绝对意义。57直方图统计学在质量管理中的应用58频数分布表频数分布表是一种把分散和不规则的数据,整理成一个能顺着其度量的尺度,清楚地显示出该数据的集中趋势和离散程度的一种统计方法。59频数分布表测定100只螺栓的外径所得到的100个计量值数据(略)。频数分布表60频数分布表编制步骤11、从数据中找出最小值S和最大值L。S = 11.45L = 12.3561频数分布表编制步骤22、决定组数。m = 1 + 3.3l

16、gn 当 n = 100 时m = 1 + 3.3 lg100 = 1 + 6.6 = 7.6 862频数分布表编制步骤33、计算组距。组距 h = = 全距组数L - Sm组距 尽可能取为10、5、1、0.5、0.1、0.05组距 h = = = 0.1125 0.112.35-11.4580.9863频数分布表编制步骤44、求界限值。在划分界限时,必须明确端点的归属,所以在决定组的界限值时,可以从每一个界限值上加上或减去1/2测量单位。64频数分布表编制步骤55、计算组中值。各组的下界限值与上界限值的平均值称为该组的组中值。65频数分布表编制步骤66、统计频数。落在各组中的数据的个数称为频

17、数。66频数分布表编制步骤77、列频数分布表。67频数直方图以坐标横轴表示组距,坐标纵轴表示频数,所画出的矩形图称为频数直方图,简称直方图。外径尺寸11.405 11.505 11.605 11.705 11.805 11.905 12.005 12.105 12.205 12.305 12.405 频数68直方图在质量管理中应用1、判断分布类型产品质量特性值的分布,一般都是服从正态分布或近似正态分布。当产品质量特性值的分布不具有正态性时,往往是生产过程不稳定,或生产工序的加工能力不足。因而,由产品质量特性值所作的直方图的形状,可以推测生产过程是否稳定,或工序能力是否充足,由此可对产品的质量状

18、况作出初步判断。根据产品质量特性值的频数分布,可将直方图分为正常型直方图和异常型直方图两种类型。69正常型直方图看直方图时应着眼于图形的整体形状,根据形状判断它是正常型还是异常型。正常型直方图具有“中间高,两边低,左右对称”的特征,它的形状像“山”,字。因此,根据产品质量特性值的频数分布所画出来的直方图是正常型时,就可初步判断为生产过程是稳定的,或工序加工能力是充足的。70不正常直方图孤岛型直方图双峰型直方图折齿型直方图绝壁型直方图71孤岛型直方图在主体直方图的左侧或右侧出现孤立的小块,像一个孤立的小岛。出现孤岛型直方图,说明有特殊事件发生。造成原因可能是一时原材料发生变化,或者一段时间内设备

19、发生故障,或者短时间内由不熟练的工人替班等。所以,只要找出原因,就能使直方图恢复到正常型。72双峰型直方图双峰型直方图是指在直方图中有左右两个峰,出现双峰型直方图,这是由于观测值来自两个总体、两种分布,数据混在一起。往往是由于将两个工人或两台机床等加工的相同规格的产品混在一起所造成的。73折齿型直方图折齿型直方图形状凹凸相隔,象梳子折断齿一样。出现折齿型直方图,多数是由于测量方法,或读数存在问题,或处理数据时分组不适当等原因造成。应重新收集和整理数据。74绝壁型直方图绝壁型直方图左右不对称,并且其中一侧像高山绝壁的形状,当用剔除了不合格品的产品质量特性值数据作直方图时,往往会出现绝壁型直方图。

20、此外,亦可能是操作者的工作习惯,习惯于偏标准下限,于是出现左边绝壁的直方图。75偏态型直方图某种原因使下(上)限受到限制时,容易发生“偏左型”(偏右型)。76平顶型直方图与双峰型类似,由于多个总体、多种分布混在一起。77直方图与标准比较对于正常型直方图,将其分布范围B=S,L(S为一批数据中的最小值,L为一批数据中的最大值)与标准范围T=SL,Su, SL为标准下界限, Su为标准上界限)进行比较,就可以看出产品质量特性值的分布是否在标准范围内,从而可以了解生产过程或工序加工能力是否处于所希望的状态。为了方便,可在直方图上标出标准下界限值和标准上界限值。78直方图在标准范围内的情况当产品质量特

21、性值符合规定标准时,其对应的直方图,必定在标准范围之内。符合规定的直方图大致有下面四种类型:TB SL ( S )( L ) SuTB SL ( S ) ( L ) SuTB SL ( S ) ( L ) Su TB SL ( S ) ( L ) Su79直方图在标准范围内的情况直方图的分布范围B位于标准范围T内,旦有余量;直方图的分布中心与标准中心近似重合,这是理想的直方图。此时,全部产品合格,工序处于正常管理状态。TB SL ( S )( L ) Su80直方图在标准范围内的情况直方图的分布范围B位于标准范围T内,数据变化仍比较集中,但分布中心偏移标准中心,并且直方图的一侧已达到标准界限, 此时状态稍有变化,产品就可能超出标准,出现不合格品。因此,需要采取措施,使得分布中心与标准中心重合。TB SL ( S ) ( L ) SuTB SL ( S ) ( L ) Su 81直方图在标准范围内的情况直方图的分布范围B没有超出标准范围T,但没有余量。此时分布中心稍有偏移便会出现不合格品,所以应及时采取措施,缩小产品质量特性值的分布范围。TB SL ( S ) ( L ) Su82直方图在标准范围内的情况产品质量特性值的分布非常集中,致使直方图的分布范围B与标准范围T之间的余量过大。此时,可对原材料、设备、工艺等适当放宽要求,从而降低生产成本;或者加严标准,提高产

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论