《统计学》(第四版)课件_第1页
《统计学》(第四版)课件_第2页
《统计学》(第四版)课件_第3页
《统计学》(第四版)课件_第4页
《统计学》(第四版)课件_第5页
已阅读5页,还剩272页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学主讲:合肥学院经济系 凌斌电话箱:时间:2011年8月29日起 一、约法三章(一)对教师的约法三章章序约法三章内容1认真备课2理论联系实际3传道授业解惑1、每课必有新内容2、力争案例化教学3、传道授业解惑(二)对学生的约法三章章序约法三章内容1认真笔记2勤学多问3切勿做假做笔记专业知识诚实第五章统计抽样 Sampling 8学时第六章统计相关与回归分析 Correlation and regression 10学时第七章时间数列分析 Time series analysis 8学时第八章统计指数分析 Index numbers analysis 8学时四、参考书

2、目:示范:1罗美萍.我国高校大学生创业教育的现状与对策J.浙江工商大学学报.2006(2):74-782张志娟,李世兵.省城学校垃圾蕴藏10亿“蛋糕”N.安徽商报,2008-09-02(B04)3贾俊平.统计学(第三版)M.北京:中国人民大学出版社,2008.五、学习准备(我国进出口贸易)2006年我国进出口贸易结构考证:报关员;报检员;外销员;国际商务师;单证员;跟单员。第一章 总 论 Introduction第一节 统计学的产生和发展一、统计学的产生(一)统计实践 古埃及:公元前3000年,有文献记载,存在人口财产统计; 古希腊:公元前600年,有人口普查 ; 中国:公元前2000年有人口

3、、土地、贡赋统计。(二)统计学起源的两大流派:记述学派(德) 政治算术学派(英)由于Achenwall是德国哥廷根大学的教授,因此,此派又称为德意志大学教授派 ,Statistiks在德语中意为国势又是统计。d代表文章:G.Achenwall的近代欧洲各国国势学概论。2、政治算术学派 a代表人物:威廉.配第(英国人16231687)William Petty 约翰.格朗特(英国人16201674)Johan Grunt b主要观点:是用“数量、重量尺度来说话”。因为首创了数量对比分析方法(统计学的方法论基础)所以此派有统计之实,无统计之名。c代表文章:J.Grunt的对死亡率公报的自然观察和政

4、治观察(1662),J.Grunt是名商人,W.Petty的好朋友。d有人认为1850年德国人克尼斯 A.Knies定义了名称:分别为国势学与统计学,结束了近200年的争论。也有人认为是18世纪后期齐默尔曼(E.A.W.Zimmerman)将英语Statistics作为德语的释文传入英国。二、统计学的发展 数理统计学派 社会统计学派(一)数理统计学派 a.代表人物:阿道夫凯特勒(比利时人,1796-1874) Lambert Adolphe Jacques Quetelet,凯特勒师从 P.S.Laplace学习概率论。b.三本著作:论人类(1835)、概率论书简(1846)、社会物理学(18

5、69)。c.最大贡献:把概率论引进统计学,产生数理统计,使统计学产生质的飞跃。d.自19世纪起,F.Galton,高尔登提出了回归与相关的概念,K.Pearson皮尔逊发展了这个理论;戈塞特(W.S.Gosset)发展了抽样原理和实践。(二)社会统计学派 代表人物:恩格尔(德国人)(1821-1896)Christian Lonrenz Ernst Engel,和梅尔(德国人)Georg Von Mayr。 恩格尔系数(结构相对数)食品消费开支占生活消费开支的比重。是针对城镇居民而言。60为贫困线,50为温饱线;40为小康线;30为富裕线。(2006年长沙市32.6%)GDP指标、CPI指数等

6、CPI:居民消费价格指数Consumer Price Index,是反映与居民生活有关的产品及劳务价格统计出来的物价变动指标,通常作为观察通货膨胀水平。一般说来当CPI3%的增幅时我们称为INFLATION,就是通货膨胀;而当CPI5%的增幅时,我们把他称为SERIOUS INFLATION,就是严重的通货膨胀。 (注:我国2008年7月是6.3。)三、统计学的研究对象(The objects of study of statistics)(一)统计的含义 (The concepts of statistics)统计一词有三个含义:统计工作 例:统计一下今天到多少人?统计资料 例:请把今天的统

7、计结果给我。统计学 例:今天上“统计学”课第二节统计学的基本概念(The basic concepts of STAT)一、统计总体与总体单位统计总体(Population):凡是客观存在的、在同一性质基础上结合起来的许多个别事物的整体。总体单位(Population units):构成统计总体的个别事物称为总体单位。二、统计标志和标志表现(Mark and Mark Expression)标志:说明总体单位特征的名称。是总体单位共同具有的属性和特征,有数量标志和品质标志之分。品质标志(Qualitative Marks):不能用数量值表现的标志数量标志(Quantitative Marks)

8、:可用数量值表现的标志 例:前三个是Qualitative Marks,后三个是Quantitative Marks 姓名年龄性别身高籍贯体重问题:填入的内容是什么?如:凌斌,男,合肥。是不是Qualitative Marks?45岁,171厘米,71公斤。是不是Quantitative Marks ?三、变量与变异变量:可变的数量标志。按性质分为确定性与随机性;按变量值分为连续与离散。变异:标志之间的差异。四、统计指标(Statistical Indicator )指标:说明社会经济现象总体的数量特征的概念。可以用数值来表现。指标的构成要素:例 2006年我国国内生产总值209407亿元。

9、指标名称:GDP;指标数值:209407;计量单位:亿元;时间要素(限制) 2006年;空间限制:我国(不包括港澳台);计算方法:加总。例:到2020年末我国人均GNP达到8000美元或者:合肥市到2010年GDP要达到2000亿元区别:具备指标六要素,但不具备客观性,它不是统计指标。是计划或规划指标。 五、统计指标的分类 (一)统计指标按其所说明的总体现象内容的不同分为:1、数量指标:反映社会经济现象范围的广度、规模大小和数量多少的指标,表现绝对数。例如GDP、全社会固定资产投资总额、全社会零售品消费总额。2、质量指标:反映社会经济现象的相对水平或工作质量的统计指标,表现为相对值和平均值。例

10、如城镇居民人均可支配收入、农民人均纯收入。(二)统计指标按其功能不同可以分为:描述指标、评价指标和预警指标。1、描述指标是用于反映社会经济现实状况,反映社会生产生活的过程和结果的统计指标;如:GDP,进出口贸易总额等。2、评价指标是用于对社会经济行为的结果进行比较、评估、考核,以检查其工作质量和经济效益的统计指标;如:出勤率、资金周转率、劳动生产率、单位产品成本、资金利润率等企业经济评价指标;以及GDP增长率、社会积累率、投资使用率等国民经济平均指标。 3、预警指标主要用于对宏观经济运行的监测,并根据指标数值的变化预报国民经济即将出现的不平衡状态、突发事件以及某些结构性障碍。如:我国GDP的增

11、长速度与经济过热或过冷的现象;基尼系数与分配不公平现象;恩格尔系数与城镇居民的生活水平等等。(三)按作用和表现形式的不同分为:总量指标、相对指标、平均指标。(四)按其在管理上所起作用不同分为:考核指标和非考核指标。 第二章 统计调查(Statistical surveys)统计工作的一般程序:统计设计统计调查统计整理统计分析第一节统计调查的种类 Types of statistical surveys一、统计调查的基本概念(一)统计调查:按照预定的任务,采用科学方法,有计划、有组织地向客观实际搜集各种原始资料的过程。它是统计工作的基础环节,是统计整理的前提。统计调查的要求:准确、及时、全面、系

12、统(二)按照包含总体单位的范围分有:全面性调查和非全面性调查。按调查的组织方式分有:统计报表制度和专门调查。统计报表:根据国家有关法规,自上而下统一的布置,以一定的原始记录为依据,按照统一的表式,统一的指标项目、统一的报送时间和报送程序,自下而上地逐级定期提供基本统计资料的一种调查方式。目前,是我国搜集统计资料的主要方式。专门调查:有普查,重点调查,抽样调查三种。 二、按调查方法分有直接观察法;报告法(美国的人口普查);采访法或访问法(我国的人口普查)。第二节统计调查方案 Statistical survey plans一般包含的内容一、调查目的 Survey objectives二、调查对象

13、和单位 Survey objects and survey units (一)调查对象:需要调查的社会经济现象的总体。(二)调查单位:构成上述总体的个体。 三、调查项目和调查表 Survey items and enumeration forms(一)调查项目是能反映调查单位统计特征的标志。这是调查方案的主体。例1982年第三次全国人口普查有19项项目,其中按人登记的有13项,按户登记的有6项。(二)调查项目通常以表格形式表示,即调查表,调查表有两种:单一表:它反映一个调查单位的情况,内容可以深入。单一表如体检表、学籍表表等。一览表:反映多个调查多个情况内容不深入。一览表如工资表、考勤表等。设

14、立调查项目的原则:少而精城镇职工家庭生活调查(1984年开始实行)四、调查时间和调查方法 Survey time and survey methods(一)调查时间有两个客观时间:资料所属时间主观时间:调查工作时间(二)调查方法有直接观察法、报告法、采访法。五、调查的组织实施计划 Plans of organizing and implementing a survey有组织领导、机构设置、工作步骤、人员培训、经费开支等。示例:第三节专门调查及问卷设计一、普查(General surveys):普查是专门组织的一次性的全面性调查。主要用于全面性统计报表不宜或不能反映的全面性资料的调查。如人口普

15、查、工业普查、经济普查等。普查的项目多、资料较细、工作量大,花费多,不能经常进行。二、重点调查(Key point surveys)是非全面性调查,是对等标志量占绝大比重的单位进行的非全面性调查。三、抽样调查用样本指标来推及总体相应指标的非全面性调查。四、调查问卷及设计 调查问卷是指按询问提纲及要求选择填写答案的调查表,基本结构有四个部分组成:开头部分、甄别部分、主体部分、背景部分。 开头部分有问候语、说明词、编号等。甄别部分 一般以S编号打头。主体部分 一般以Q编号打头,有单选题;多选题;排序题;评分题;封闭题;限制题等。背景部分 一般以T编号打头,有联系电话; 地址等。/(一)、问卷提问的

16、主要类型 (二)、提问应注意的事项(三)、问卷答案设计的基本方法大学生消费调查问卷的错误范例本人因写毕业论文,急需大学生消费数据,希望大家抽出宝贵的时间填写下面的问卷。1.您所在年级?A.大一 B.大二 C.大三 D.大四 ( )2.您平均一个月用去多少生活费?A.300元以下 B.300500元(包含500元)C.5001000元(包含1000元) D.1000-1500元 E 1500元以上 ( )3.您每月消费的主要项目是什么?(可多选)A.伙食 B.交通、通讯(电话、上网) C.购物(服装、饰品)D.学习费用(书籍)E.娱乐 F.交际 G.其他 ( ) 4. 您平均每月购买衣物的花费?

17、 A50元以下 B50-100元 C100-150元 D150- 200元 E 200-250元 F 250-300元 G 300元以上 ( )5. 您平均每月的伙食费(包括零食饮料)为多少?A150元以下 B150-200元 C200-250元 D250- 280元 E 280-300元 F 300-350元 G 350-400元 H400-450元 I 450-500 J 500-550元 K550-650元 L 650-800元 M 800元以上 ( )6. 您平均每周上网的次数 A.从不上网 B.2次以下 C.2次-5次 D. 5次以上 ( )如果你上网,平均每周上网_ _小时,费用_

18、 _元 7.您平均每月的电话费(公用电话、电话卡)为多少? A. 10元以下 B. 10-20元 C.20-30元 D 30-40元 E 40-60元 F 60-100元 G 100元以上 ( )8您平均每月购买日常用品的花费为多少? A 20元以下 B 20-40元 C 40-60元 D 60-100元 E 100元以上 ( )9.您平均每月的交通费为多少?A 10元以下 B 10-20元 C 20-30元 D 30-40元 E 40-50元 F 50-70元 G 70-100元 H 100-150元 I 150元以上 ( )10.您目前是否拥有手机?A是 B 否 ( ) 若上题选A ,您在

19、大学期间更换过几部手机? 11.您平均每月的手机费为多少?A 20元以下 B 20-30元 C 30-40元 D 40-50元 E 50-70元F 70-100元 G 100-150元 H 150-250元 I 250元以上 ( ) 12.若您拥有电脑,其价格为 元,何时购买?A 大一 B 大二 C 大三 D 大四( )13.您平均每月购买化妆品的消费为多少? A 10元以下 B 10-20元 C20-30元 D 30-50元 E 50-80元 F 80-100元 G 100-150元 H 150元以上 ( )14. 您平均每月的娱乐(包括电影、KTV、打球等)费用为多少?A 20元以下 B

20、20-40元 C 40-60元 D 60-100元 E 100-200元 F 200元以上 ( )15. 您每月学习方面的花费(包括文具、书籍、复印等)为多少?A 20元以下 B 20-50元 C 50-80元 D 80-120元 E 120-200元 F 200元以上 ( ) 16. 您一个学期的旅游费用为多少?A 50元以下 B 50-100元 C100-150元 D 150-200元 E 200-250元 F250-300元 G 300-400元 H 400-600元 I 600-800元 J 800-1500元 K1500元以上 ( )17.若您上过课外培训班,平均每学期的培训费用为多

21、少?A 50元以下 B 50-200元 C 200-300元 D300-500元 E 500-800元 F 800-1500元 G 1500-2500元 H 2500元以上 ( )18.您平均每学期赠送给朋友礼物的费用为多少?A 50元以下 B 50-80元 C 80-150元 D 150-250元 E 250-400元 F 400-800元 G 800元以上 ( ) 19.您是否有定期出去聚餐的习惯或请朋友吃饭的行为?如果有,平均每月用于这方面的支出为多少?A.20以下 B.20-50 C.50-100 D.100-150 E150-200 F 200以上 ( )20. 您目前是否拥有电子词

22、典?A是 B 否 ( ) 若上题选A ,其价格为多少? 何时购买?A 大一 B 大二 C 大三 D 大四 ( )21. 您目前是否拥有MP3?A是 B 否 ( ) 若上题选A ,其价格为多少? 何时购买?A 大一 B 大二 C 大三 D 大四 ( )22. . 您目前是否拥有复读机?A是 B 否 ( ) 若上题选A ,其价格为多少? 何时购买?A 大一 B 大二 C 大三 D 大四 ( )23.其他花费(请写明原因及每月花费金额): 第三章 统计整理 Statistical Date Arrangement第一节 统计整理的基本概念一、统计整理的概念根据统计研究的目的,将统计调查所得的原始结果

23、(raw date)加以分组、汇总、列表的过程。二、统计整理的内容:分组、汇总、编表三、统计整理的作用:从对个体资料具体表现的认识上升到对总体资料的数量表现的认识。从对现象的感性认识上升到对现象的理性认识。 第二节 统计分组 Statistical grouping一、统计分组的概念 (definition):根据统计研究目的与任务,按一定标志区分总体的方法。二、统计分组的作用(purpose)区分现象质的差异(统计分组 date grouping)(一)发现统计资料的特点与规律;如高中低收入。(二)将资料划分为性质不同的各种类型; 如第一、二、三产业的划分。(三)分析总体中各个组成部分的结构

24、情况; 如第三产业的比重占60。(四)揭示现象间的依存关系。产量与成本 三、统计分组的关键选择分组的标志;划分各组的界限。四、统计分组和体系(一)简单分组和平行分组体系简单分组:将总体按一个标志进行的分组平行分组体系:对同一个总体选择两个或两个以上标志分别进行的简单分组。(二)复合分组和复合分组体系:将总体按两个或两个以上标志进行层叠分组。gm第三节 次数分配、次数分布 Frequency distribution一、次数分布的概念:在统计分组的基础上,将总体所有单位按各组归类整理,形成总体中各个单位数在各组中的分布。各组的总体单位数叫次数、频数、权数(权衡轻重的影响)。 二、分配数列的种类

25、按分组标志不同可分为品质数列、变量数列;按变量值不同可分为离散型数列、连续型数列。前者可编成单项式或者组距式,后者只可以编成组距式。 三、影响次数分布的要素(一)组距与组数(成反比)1、组距 I (class width)=本组上限 (upper limit) 本组下限(low limit)全距 R=变量最大质变量最小值例:本班上学期管理学成绩最高分=100分,最低分=50分,全距=100-50=50全距常见于产品的质量与控制如:75020ml2、组数=全距 /组距 每组组距均相等称为等距数列,反之则为异距数列 在比较等距数列与异距数列的次数分布时常用:次数密度=本组次数/本组组距 例1:06

26、国贸统计学考试成绩如下: 89 88 76 99 74 60 82 60 89 8693 99 94 92 77 79 97 78 95 8287 84 79 65 98 67 59 72 84 8556 81 77 73 65 66 83 63 79 70要求:等距数列,组距10分,5组,闭口数列分析。 06国贸统计学考试成绩表考分人数向上累计向下累计50-60224060-70793870-8011203180-9012322090-1008408合计40-要求:等距数列,组距10分,5组,开口数列分析。 06国贸统计学考试成绩表考分人数向上累计向下累计60以下224060-7079387

27、0-8011203180-9012322090以上8408合计40-(二)组限与组中值1.组限例:10名学生每周生活费分别为45、49、54、56、58、60、62、64、69、69元。要求:分为高端、中端、低端消费三个组,组距为10元。方法一:消费额(元)学生数40-50250-60360-705合计10方法二:消费额(元)学生数45-55355-65565-752合计10问:方法一与方法二的结果不同,哪一个正确?为什么?2.组中值 class midpoint 组中值=(本组上限+本组下限)/2或:组中值=(本组假定上限+本组假定下限)/2例:西瓜重量(斤/500克)个数组中值2斤以下50

28、?2-6斤15046-10斤300810斤以上200?合计700-第四章 统计指标分析Statistical Indicator Analysis 4-1总量指标一、总量指标的概念(definition):反映社会经济现象的总体规模和水平的指标。用绝对数表示。常见:销售额=销售数量单价=营业员人数营业员人均销售额(两因素构成的总量指标)=营业员人数营业员人均工作小时营业员人均每小时销售额 (多因素构成的总量指标)总成本=产品产量单位成本 =产量单位产品消耗单价 二、总量指标作用:The Functions of total amount indicator1、是我们认识社会经济现象的起点。例如

29、:我国石油进口资料 年份石油进口量(万吨)200164902002694120039112世界能源机构预测,我国的石油进口量2010年为1.5亿吨,2020年为4亿吨。 2、是管理国民经济的依据例如:2002年人均石油消费量国别人均石油消费(吨)美国3.75日本2.227中国0.177我国GDP消耗石油量比美国高30,是日本的2倍。节约能源势在必行。 3、计算相对指标和平均指标基础 2003年中部六个省会城市数据表 城市GDP(亿元)占全省比重%合肥48512.2武汉166230.8长沙92820郑州110215.6太原51621南昌64122.6城市2009年GDP(亿元)合肥2102.12

30、武汉4560.62长沙3744.76郑州3300.40太原1545.24南昌1837.50三、总量指标的种类(Variety)(一)、按总量指标反映的时间分:时期总量指标(time period indicator):钢产量、营业额等。时点总量指标(time point indicator):仓库里库存钢材数量;出勤人数等。区别:相加有无意义,能否直接相加。(二)、反映总体内容不同分:总体单位总量指标(population size)。例:市交行储蓄网点18个。总体标志总量指标(population mark)。例:市交行储蓄余额200亿 。四、总量指标的计量单位Measure Unit of

31、 Total Amount Indicator例:GDP(国内生产总值)的不变价格可以以“0”年为基准,故2003年GDP有两个计量单位:以当年价为计算标准与以2000年价为计算标准。 总量指标的计量单位还有实物单位、劳动时间单位等。 总量指标的线性的推算法。/gm 4-2相对指标Relative Indicator一、相对指标的概念(definition):两个有联系的总量指标的比率,表现为相对数。是相关事物间数量联系程度的综合指标。二、相对指标表现形式:有名数 人/Km2:人口密度; 全员劳动生产率:元/人无名数: 系数、倍数、成数、百分数和千分数等。常见的相对数:Dow Jones,St

32、andard &Poors,NASDAQ ,上证指数,深证指数。三、相对指标的种类 (一)结构相对数structure relative indicator(二)比例相对数ratio relative indicator(三)比较相对数comparison relative indicator(四)强度相对数intensity relative indicator(五)计划完成相对数relative quantities of fulfillment of plan 例:建筑单位成本计划下降5%,实际下降6%,计划完成情况如何?解答一:单位成本比计划要求多(少)1%完成了。解答二:单位成本计划

33、完成程度=5%/6%=83.33% 即单位成本计划比要求降低了16.67%完成了。解答三:单位成本计划完成程度=106%/105%=100.95%单位成本计划完成程度=94%/95%=98.95%4-3算术平均数与调和平均数Arithmetical Average and Harmonic Mean一、Arithmetical Average 计算形式: =总体标志总量/总体单位总量(一)简单均数Simple Mean(二)加权均数Weighted Mean二、Arithmetical Average的数学性质三、调和平均数Harmonic Mean(一)简单调和平均数(二)加权调和平均数例1

34、:某集团辖下有三个子公司,2006年资金利润率情况如下,求集团的资金利润率。子公司资金利润率%资金占用额(万元)甲12500乙15800丙241500合计?2800分析:集团的资金利润率=集团的资金利润总额/集团的资金占用总额 集团的资金占用总额已知(2800万元,分母项)。利润总额需要求知,可以用加权算术平均数的公式求解。即jr 解:列表计算有子公司 x(%)fxf甲1250060乙15800120丙241500360合计19.28572800540例:如果题目改为子公司资金利润率%利润额(万元)甲1260乙15120丙24360合计?540求集团的资金利润率。 集团的利润总额已知(540万

35、元,分子项)。资金占用总额需要求知,可以用加权调和平均数的公式求解。即gm 子公司 x(%)mm/x甲1260500乙15120800丙243601500合计19.28575403600解:列表计算有例2:大学生消费情况调查4-4几何平均数、众数、中位数Geometric Mean、Mode、Median一、几何平均数 统计学中一般用G表示。有:简单几何平均数与加权几何平均数之分。例:某汽车发动机厂有四个流水作业车间:铸造车间、粗加工车间、精加工车间、总装车间,各车间的产品合格率分别为95%、90%、93%、97%,则产品的平均合格率?解: =93.71416%例:某工程使用银行贷款。一年之中

36、,头三个月的贷款利率为6.39%,后五个月的贷款利率为7.10%,其余四个月的贷款利率为7.45%,问:平均贷款利率为多少?附:复利计息公式 Future=Present(1+i)n解:设平均贷款利率为i,有(1+i)12 =(1+6.39%)3(1+7.1%)5(1+7.45%)4 =2.261910729 有i=7.038403%二、 Mode and Median 众数与中位数(一)众数:是一组数据中频数最大的变量值,直观地反映了数据的集中趋势。是度量定类数据集中趋势的测度。一般用Mo表示。(二)中位数:是位于有序数据正中间位置上的变量值,体现集中趋势的中心数值的特征。一般用Me表示。(

37、三) Mean、Median、Mode 的关系。1、对称(正态)分布是三者相等;2、左偏(负偏)分布是小于顺序;3、右偏(正偏)分布是大于顺序。4-5 Variance and Standard Deviation方差和标准差一、方差:是度量数值变量离散程度的基本测度,一般用 表示,或V(x)表示。计算公式有简单式与加权式之分:分别为:由于方差的量纲是变量原有量纲的平方,所以为保持量纲一致,有时会选择标准差 来进行测度。二、方差的重要数学性质最小二乘法的数学根据3.n个同性质独立变量和的方差等于各个变量方差之和。4.n个同性质独立变量平均数的方差等于各变量方差平均数的1/n。例:调查30名同学

38、每天的生活费用,有15、20、25、9、11、13、12、30、18、6、14、10、11、14、15、12、19、17、16、15、16、15、11、7、40、45、10、12、15、18、19、20、21。求:1.每天平均生活费用;2.每天平均生活费用的方差;3.每天平均生活费用的标准差。/jr解:练习使用Excel工具整理数据并求解。例:假设调查结果如下,使用Excel有:要求:1.按加权平均法计算这500名大学生的月伙食费。(10分)2.计算这500名大学生月伙食费的标准差。(10分)解:1、月伙食费 (元)2、月伙食费的标准差/gm =65.76(元) 三、离散系数标准差有量纲,存在

39、不可比的问题。因此有选择离散系数作为测度。例:甲企业劳动生产率为15000元,标准差为600元;乙企业劳动生产率为36000元,标准差为1200元。哪个企业的技术水平比较均衡?甲=4%;乙=3.33%四、偏态系数与峰度系数Skewness and Kurtosis(一)偏态系数。计算公式有两个偏态系数为0时,数据是对称分布;偏态系数为负数时,数据是左偏分布,也称为负偏态;偏态系数为正数时,数据是右偏分布,也称为正偏态。偏态系数越大表明偏离程度越大。(二)峰度系数。计算公式峰度系数为3时,数据是对称分布;峰度系数大于3时,数据是尖峰分布;峰度系数小于3时,数据是平峰分布。案例分析:五、是非标志的

40、标准差 例:某机械厂铸造车间生产300吨铸件,合格的27吨,铸件合格率为90%, 求合格是非标志的平均数和标志差。 令“1”表示“是” (合格) 令“0”表示“非” (不合格) 令“N”表示“总付单位数300吨 N1 具有“是”标志值的单位数 N0 具有“非”标志值的单位数 P=N1/N=270/300=90%q=N0/N=30/300=10%有p+q=1 第五章统计抽样 Sampling 5-1 统计抽样的基础一、什么是统计抽样 按随机原理,从总体中抽出部分单位取得的数据,以取得的数据推及总体的全面的相应数量特征并做出具有一定可靠性估计的方法。1891年由挪威人基也尔提出实施(称为统计抽样第

41、一人);1897年,第六届国际统计年会成立论证小组;1903年第九届国际统计年会在全世界推广应用。 二、统计抽样的特点(一)按照随机原理从总体中抽取样本单位,样本单位具有同等可能性,排除了主观因素的作用。而重点调查是根据统计任务有选择的抽取调查单位,带有主观性。(二)以部分实际资料对全部总体的数量特征做出估计。属于非全面调查。相比全面调查可以节约人力、物力、财力。(三)抽样推断的误差可以人为计算并加以控制。 三、统计抽样的理论基础简介 (一)车比雪夫定理 (Chebyshev Theorem)设随机变量X具有数学期望MX= ,方差DX= ,且对于任意小正数 (常数),不等式为:例:100捆编织

42、带,平均长度90米,标准差0.6米,求1、实际长度与平均长度超过3米的概率?2、实际长度与平均长度不超过3米的概率?解:1、 即实际长度与平均长度超过3米的概率小于4;2、解即实际长度与平均长度不超过3米的概率肯定大于或等于96。(二)正态分布直线函数;指数曲线函数;抛物线函数的介绍。 1、正态分布函数 称x服从参数 的正态分布。记随机变量XN( ) 2、标准正态分布函数 时,有: 记随机变量XN(0,1) 图形:3、中心极限定理(Central Limit Theorem )中的李亚普罗夫定理如果x服从N( ),则 在标准正态分布中,设当t1=-t t2=+t时(两个相反的定数),有查正态分

43、布概率表(有些书本未列)。t1时,有F(1)=0.6827=68.27%t2时,有F(2)=0.9545=95.45%t3时,有F (3)=0.9973=99.73% t=1.96,F(1.96)=0.95=95%例:大学生伙食消费中,样本(500名)平均数500为196元,标准差为65.76元。假设消费是正态分布,t=1时,总体(1万)平均数的区间为130.24元至261.76元,在这个范围内的可靠性为68.27%;t=2时,64.48元327.52元,可靠性为95.45%;t=3时,0393.28元,可靠性为99.73%。/gm例:上例87米93米的概率 例:某小型电站供应一万台空调用电,

44、已知夜间每台空调开机的概率是0.7,并且开和关的时间彼此孤立,求同时开着的空调的数量在6800台-7200台的概率。(二项分布的正态近似)解:(1). 车比雪夫定理方法 Chebyshev Theorem =10000*p=10000*0.7=7000(台),210000*pq=10000*0.7*0.321007200-7000200或 7000-6800200则1 2/ 2=12100/2002=10.052594.75%即概率大于或等于94.75 (2)中心极限定理方法 Central Limit Theorem = F(4.3644)=查正态分布概率表99.999即只要发7000台空调

45、的电力,可以满足10000台空调的运行。在统计抽样中,双侧检验(Two-sides test)属于此类型。 4、非对称的x取值条件下,标准正态分布概率函数 (讲解图形)。例:水果一批,重量符合正态分布(非标准化)测得平均重量为140克,标准差12.2克。问水果不小于130克的概率。 解:F(X130),取标准有P( )即P(x-0.82)P(x-0.82)1P(xZa)= 1- = 有 =1-常见 0.05, =1-0.05=0.95查正态分布分位表,有Z0.05=1.644854; =0.01,查表 =1-0.010.99有Z0.01=2.326348;常见还有: 0.90;0.975;统计

46、抽样中的单侧检验(One-sides Test)常用。 (三)正态分布的派生(t、 、 K)1、t分布小样本条件下(样本单位数小于30个)的正态分布 出自1908年W.S.Gosset(1876-1937)用笔名Student发表小样本条件下的正态分布研究的论文。t分布也是左右对称的钟形图形。t分布与标准正态分布相比,中心部位较低,两尾部分较高。 n-1称为自由度,自由度越小,t分布越趋于扁平;自由度越大,越趋于正态分布。t分布可用于总体方差未知时正态总体均值的估计与检验,及线形回归模型中回归系数的显著性检验。2、 分布及图形。kai 1863年Abbe首先提出;1875年Hermert;19

47、00年Karl Pearson分别推导出。一般为正偏分布,用于方差估计与检验,及非参数统计中拟和优度检验和独立性检验。图形:3、F分布 随即变量X (n),Y (m)且相互独立,则F=X/n/Y/m的分布为F分布。 F分布一般用于两个正态总体方差的比较检验、方差分析和线性回归模型的检验。常见为正偏分布。jgx四、随机变量的概率分布(一)离散型随机变量的概率分布(二项分布、超几何分布、泊松分布)1、二项分布(binomial distribution):互斥现象;独立事件;每次成功概率为p(不成功概率为q)。n次试验,成功x次,每次成功的概率p,则成功x次的概率P为例:某公司金牌业务员业务成功的

48、平均概率为0.2。现在王伟(金牌业务员)在与6名客户洽谈业务,则恰好成功4次业务的概率是:2、超几何分布(hyper geometric distribution)样本抽取后不放回时的离散型概率分布。N个总体有T次成功次数,则抽取n次中有x次成功的概率。例:6名业务骨干中的3人在职时间超过了5年。随机抽取这6人中的4人,恰好有2人在职时间超过了5年的概率。3、泊松分布(Poisson distribution)事件在一段时(空)间内连续发生时指定次数事件的概率。例:某网店平均每小时接单5个。现在随机抽取1小时观察,恰好接3个定单的概率是(二)连续性随机变量的概率分布(正态分布、指数分布)1、正

49、态概率分布(normal probability distribution)2、指数概率分布(exponential probability distribution) 5-2 统计抽样误差 一、统计抽样指标(一)、总体(Population);总体容量(Population Size); 样本(Sample);样本容量(Sample Size);抽样(Sampling)(二)、总体单位数N 抽样单位数n 二、统计抽样的方法(一)按样本是否从重复分1、重复抽样:2、不重复抽样:(二)调查方案的设计分1、简单随即抽样(纯随即抽样);2、机械抽样(等距抽样)3、类型抽样;4、整群抽样; 5、阶段抽

50、样三、统计抽样误差(一)抽样平均误差1、抽样平均数的平均误差(抽样平均数的标准差)直接公式: (1)重复抽样条件下平均误差公式 (2)不重复抽样条件下平均误差公式 N是总体单位数。 是样本标准差;n是样本单位数2、抽样成数的平均误差 (1)重复抽样条件下平均误差公式 是样本成数(2)不重复抽样条件下平均误差公式3、抽样极限误差 t是置信度,在3 规则中分别取1、2、3 t1时,有F(1)=0.6827=68.27%t2时,有F(2)=0.9545=95.45%t3时,有F (3)=0.9973=99.73% t=1.96,F(1.96)=0.95=95%总结:1、涉及抽样平均数的抽样公式2、涉

51、及抽样成数的抽样公式例1:学生伙食费用求:1、伙食费的均值;2、伙食费的方差;3.假设该学校大学生有10000人,求:平均月伙食费的抽样平均误差;4.用99.73的概率计算平均月伙食费的抽样极限误差;5.用99.73的概率进行总体平均数的区间估计;6.每个月伙食费用在270元以上的比重p;抽样平均误差;7.用99.73的概率,计算全校学生每个月平均费用在270元以上的抽样极限误差;8.用99.73的概率进行总体成数的区间估计.1、月伙食费用 (元)2、伙食费标准差65.76(元)3、因为属于不重复抽样,所以平均月伙食费的抽样误差 = =2.866(元)4、t3 ,平均月伙食费的 3*2.866

52、8.598(元) 5、区间估计196-8.598196+8.598即187.402元204.598元 之间。6、每个月伙食费用在270元以上的比重 p100/50020抽样平均误差= =1.7436%/7、t3,抽样成数的极限误差3*1.74365.23088、区间估计20-5.230820+5.2308即14.769225.2308 回顾:例2、某外贸公司出口一种名茶,抽样检查结果如下表。求:1、100包样本的平均重量;2、平均重量的标准差;3、抽样的平均误差;4、用99.73的把握估计总体平均数的区间 。解:1、平均重量 150.3(克)2、平均重量标准差 =0.8718(克) 3、抽样的

53、平均误差抽样的平均误差 0.76有 0.08718(克)4、用99.73的把握估计总体平均数的区间 。解:t3, 3*0.087180.26154(克)总体平均数:150.3-0.26154150.3+0.26154即150.038克150.562克。回顾:例3:某大学4500名学生随机抽选20%,调查每学年听学术报告的次数,资料如下表: 求:1、该校大学生平均每人每学年听学术报告的次数; 2、确定该校学生每学年听学术报告在4次以上的比重。(t=2) 次数0-22-44-66-88-10比重%82240255解:1、平均次数=总次数/总人数 =494/100=4.94次x13579合计比重82

54、240255100-86620017545494样本标准差:列表求有: =3.9564 = =0.059次 =2*0.059=0.118次4.94-0.118=4.822;4.94+0.118=5.058次回顾: 5-2 统计抽样的参数估计与假设检验一、统计抽样的参数估计(一)单一总体参数的区间估计(Interval Estimate) 例1:合肥轴承厂生产某型号滚珠,滚珠直径服从正态分布,方差是0.05。如今随机抽6个滚珠直径是14.6,15.1,14.9,14.8,15.2,15.1mm,试对 0.05,找出滚珠平均直径的区间估计。解:平均直径14.95mm 总体方差0.05 0.05,查

55、正态分布表 =14.771mm15.129mm 例2:某批黄金制品的重量符合正态分布。随机抽取16个,重量是(g): 4.8、4.7、5.0、5.2、4.7、4.9、5.0、5.0、4.6、4.7、5.0、5.1、4.7、4.5、4.9、4.9求: 0.05的平均重量区间。或置信系数95解:得16个平均重量4.856g,标准差0.2g区间有 =4.749g4.963g 例3:自动流水线灌装产品,随机抽取50袋。平均重量为249.9克,标准差为3.5克。 0.05时能否认为平均重量不小于249克。(分布不知,大样本)解: 平均重量248.93克250.87克,即不能够用 0.05认为面粉的平均重

56、量不低于249克。例4:大课堂教育活动。随机抽取100人,22人赞成。 0.01,赞成率超过12吗?解:p=22% 查表上限22+4.14*2.57532.66;下限22-4.14*2.57511.34下限值不到12。(二)、两个总体参数的区间估计。总结如表:二、统计抽样的假设检验(Hypothesis Test)假设检验是先对研究总体的参数作出某种假设,然后通过样本的观察来决定假设是否成立。(一)总体方差已知的假设检验步骤1、提出原来假设(Null hypothesis)和备择假设(Alternative hypothesis);(1)(2)(3) 通常将研究者想收集证据予以支持的假设称为备

57、择假设;将研究者想收集证据予以反对的假设称为原假设。2、确定统计量Z;3、确定显著性水平 ;4、计算统计量5、做出决策 。 例1、钓鱼线的强度。生产厂商称:平均强度8kgf,标准差0.5kgf。随机抽取50条,测得平均强度7.8kgf。在显著性水平为0.05时,能否接受厂商的说法? 解:已知(1)提出原假设和替换假设。 没有显著差异 存在显著差异(2)确定并且计算适当的检验统计值(Z)(3) 0.05时,查表得到临界值( ) (4)做出统计决策。当Z为正值时,接受域的范围是Z 。 检验统计值(量)-2.829,小于检验临界值(量)-1.96,拒绝原假设H0(落入阴影范围),接受备择假设H1。说

58、明钓鱼线不如厂商声称的那样。例2、规定电视机平均寿命1200小时,标准差300小时。正态分布, 0.05。厂商宣称某批产品的寿命大大超过规定。现在抽取100件,得平均寿命1245小时。解:(1)提出原假设和替换假设。(2)确定并且计算适当的检验统计值(Z) (3) 0.05时,查表得到临界值 =1.645(4)做出统计决策。Z小于 ,接受原假设H0,拒绝备择H1 ,即 不成立。例3、废水处理。要求废水处理后,有毒物质浓度小于19mg/L,方差8.5, 0.05。废水有毒物质浓度的含量服从正态分布。现在抽取10个样本,得到有毒物质浓度为17.1mg/L。废水是否合格?解:(1)提出原假设和替换假

59、设。(2)确定并且计算适当的检验统计值(Z)(3) 0.05时,查表得到临界值- = -1.645(4)做出统计决策。Z小于 ,拒绝原假设H0,接受备择H1 ,即 成立。 -1.645(二)总体比例已知的假设检验1、2、3、例:某稽查人员判定小企业的发票经常有20%以上的错误。现在随机抽查了*公司400张发票,发现有100张有差错。如果 =0.05,则稽查人员的判定是否正确?解:(1)提出原假设和替换假设。(2)确定并且计算适当的检验统计值(Z) (3) 0.05时,查表得到临界值 =1.645(4)做出统计决策。Z大于 ,拒绝原假设H0,接受备择H1 ,即稽查人员判定成立。三、总体方差未知的

60、假设检验(检验统计量为t)。检验统计量是 t统计量服从自由度n-1的t分布。tf(t)对于对于例:汽车*轮胎商广告:销售的一等品轮胎在正常情况下平均寿命高于国家标准(25000公里)。现在随机抽取15个轮胎,测得平均寿命和标准差分别为27000公里、5000公里。 =0.05,广告真实吗?解:(1)提出原假设和替换假设。(2)确定并且计算适当的检验统计值(t)(3) 0.05时,查表得到临界值(4)做出统计决策。接受原假设H0,拒绝备择H1,即 不成立。广告不可信。5-4 方差分析(Analysis of Variance) ANOVA是指对数据变动的来源进行分解与检验的过程。主要有单因素方差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论