SPSS其实很简单课件_第1页
SPSS其实很简单课件_第2页
SPSS其实很简单课件_第3页
SPSS其实很简单课件_第4页
SPSS其实很简单课件_第5页
已阅读5页,还剩609页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统 计 学(含SPSS) 实 验 室 机 房 版,建议在WindowsXP操作系统下安装SPSS11.0或SPSS11.0以上的版本,以便于全面展开本课程的学习,课程简介 统计是搜集、分析、表述和解释数据的一门艺术和科学。研究随机现象的数量规律性。它在许多学科领域都有着重要的应用。它是解决社会经济实践活动中各种问题的有力工具之一。 统计学概念体系十分繁杂,大体可区分为基础统计与高级统计两个层次。基础统计主要研究截面数据中单变量数据的搜集、描述与推断,以及两个变量之间协变关系的描述与推断。高级统计则主要研究多变量数据的描述与推断,此外还包括序列数据的描述与推断。高级统计具体应包括:多元统计、非参

2、数统计、时间序列等。 无论是基础统计还是高级统计,都贯穿着描述与推断两条基本线索。本课程集中介绍基础统计的内容。这将为同学们今后的学习打下一个基础。 基础统计的内容主要包括:图表描述、统计量描述、参数估计、假设检验、方差分析、卡方分析、回归分析。其中:图表描述和统计量描述属于描述统计的内容;参数估计、假设检验、方差分析、卡方分析和回归分析属于推断统计的内容。同学们在本课程的学习中,要紧紧抓住描述与推断这两条线索,重点理解和掌握各种统计方法的原理。 统计实践活动要与大量的数据打交道,涉及十分繁杂的计算。统计软件在人们日常的统计工作中扮演着不可缺少的关键性角色。学会一两种统计分析软件的实际操作,是

3、十分必要的。目前的统计软件有:SAS、SPSS、S-PLUS、MINITAB、EXCEL等。其中,SAS与 SPSS是最为流行的两种统计软件。特别是SPSS,在各类院校以及科研机构中更为流行。 本课程根据SPSS自身的特点,以实际数据为纽带,将统计方法基本思想的理解与SPSS的实际操作做了有机的结合,力求使同学们在理解常用统计分析方法原理的同时,能够将统计软件灵活运用到实际的统计分析工作中去,浏览向导 为充分体现统计学概念体系的内在关联性,本课程中的课件制作,打破了传统教材和课件中“章”、“节”、“目”的编排体例,而采用了“图形链接”的编排方法。在浏览课件的过程中,同学们要善于运用这些图形的链

4、接规律,以便展开整个课程的学习。现将本课程“课程讲解”课件的浏览方法简介如下: 一、 “概述”中出现了4个图形。第一图-“统计基本程序图”,概括了统计的基本程序和基础统计学的全部内容,是本课程的总图。图中的每一个对象,都设有链接。您将“鼠标箭头”指向某一对象,如果出现“小白手”,就表明此处设有链接,点入浏览就可获得有关此对象的内容讲解,这些都是统计学中处于核心地位的重要概念。 第一图中的“抽样”字样链接第二图-“抽样方法构成图”,概括了样本抽取的基本方法。根据课程大纲的要求,本课程并未对此展开介绍。第一图中的“描述”字样链接第三图-”统计描述方法构成图“,概括了统计描述的基本方法,包括两类方法

5、,图表描述与统计量描述。统计描述的具体方法由此图展开介绍。 第一图中的“推断”字样链接第四图-“统计推断方法构成图”,包括“参数估计”、“假设检验”、“方差分析”、“回归分析”等项。统计推断的具体方法由此图展开介绍。 二、本课程的课程讲解由8个部分构成(不包括“指数”和”时间序列”)。“1概述”、“2图表描述”、“3统计量描述”、“4参数估计”、“5假设检验”、“6列联分析”、7“方差分析”、“8回归分析”。每一部分中的第一张幻灯片中都设有一个“SPSS操作方法”链接。您可在学习了本部分所介绍的方法原理之后,再点击浏览“SPSS操作方法”。 三、每一张幻灯片中的有关链接都是“隐藏着的”,这主要

6、是为了保持版面的清晰和整洁。建议您在浏览每一张幻灯片时,经常用“鼠标箭头”去寻找设有链接的“小白手”, “小白手”会引导您看到更多的内容。“返回”的链接都设在幻灯片的左上角。右上角,左下角没有设置链接。右下角偶尔设有“继续”的链接。幻灯片的左上角或右下角以及版面中的各个对象如果没有设置链接,空点“鼠标箭头” 即可进入下一张幻灯片。 课件中 “图形链接” 和”链接暗设 “的编排方法,开始可能会使您觉着不习惯,但我们相信这一定难不着您。我们采取这种编排方法,还有另一个用意,就是希望您在对“图形”和“链接”的浏览过程中,能够玩索而有得,用SPSS作数据集,概 述,从总体中抽取样本,由样本测得变量的观

7、测值,从而获取样本数据,根据样本数据计算有关的统计量,并由此来推断总体参数。 样本数据的整理过程与统计量的计算的过程同时也是对样本数据的描述过程,因此统计方法包括抽样、描述与推断三个方面的内容,一个典型的统计问题 某电子公司采用新技术生产出一批高亮度灯泡。这批灯泡的使用寿命多长?合格率是多少?与传统技术相比,灯泡的使用寿命是否有所提高,总 体,总体参数,样 本,图 表,统计量,样本数据,描述,推断,抽 样,统计的基本程序图,描述,推断,总体由我们所感兴趣的所有个体的集合构成,个体,总体,200只灯泡样本的可使用小时数,某电子公司从其灯泡产品中随机抽取二百只,测得其使用小时数数据如下,我们对总体

8、中众多个体某一个或几个方面的属性感兴趣,这些属性称为变量(variable) 。如本例中灯泡的“使用小时数”就是一个变量,样本数据是就某一个或某几个变量,对样本中的个体集得到的数据。本例表中的数据就是一个典型的样本数据,np项观测值(observation,数据阵列的一般结构,10青少年身高体重表,编码,为方便计算机操作可对品质型变量的取值进行编码,10名青少年身高体重表,关于投票选举一次抽样调查的数据阵列,关于投票选举一次抽样调查的数据阵列,数据的误差,登记性误差,代表性误差,调查者造成的登记性误差,被调查者登记性误差,系统误差,随机误差,理论上可以避免,理论上不可避免,背离随机原则的样本会

9、造成数据的系统误差。抽样的随机性造成随机误差,好的样本,总体,背离随机原则的坏的样本会造成数据的系统误差,抽样误差(sampling error,抽样随机性造成的随机误差,5种软饮料购买频数原始记录,三十名学生的身高与体重数据,某地一星期申请结婚女性年龄原始数据,11名学生各科成绩,食物中热量与脂肪两个变量的样本数据,10家饭店附近学生人数与季销售收入,行驶里数、运货次数和行驶时间样本数据,关于改革方案调查结果的样本数据,关于计算机课程教学意见的样本数据,四种颜色饮料销售量样本数据,男性与女性饮者啤酒偏好的样本数据,国籍与对等陌生人的态度样本数据,原料等级与产地分布抽样数据,数据的计量有四种尺

10、度,定类尺度nominal scale,定序尺度ordinal scale,定距尺度interval scale,定比尺度ratio scale,按照某属性对事物进行平行的分类。(,对事物类别间等级或顺序差别的测度。(,对事物类别或次序之间差距的测度。(+、,对事物类别或次序之间差距及差别程度的测度。(,变量,变量值,编码,性别,男 女,1,2,人种,白 黄 棕 黑,1,2,3,4,定类尺度数据没有顺序和大小区别,定类尺度,变量,编码,定序尺度数据不能测量差别的多少,定序尺度,产品等级,一等品,二等品,三等品,1,2,3,对事物的态度,很满意,满 意,中 立,不满意,反 对,1,2,3,4,5

11、,变量值,定距尺度数据不能计算比值,定距尺度,3点,6点,定比尺度数据可以计算比值,定比尺度,6枚,3枚,变量类型的划分,品质型变量,数量型变量,10青少年身高体重表,品质型变量,品质型变量,数量型变量,关于投票选举一次抽样调查的数据阵列,某城市家庭对住房状况评价频数分布表,定序,数量型变量,定类,品质型变量,数量型变量,200只灯泡使用寿命频数分布表,表格使大量零散的原始数据更容易理解,200只灯泡的使用寿命频数分布表,除表格和图形外,我们还可以计算有关的描述性统计量对样本数据加以概括,如:通过计算可得二百只灯泡使用小时数均值为 76.1,用以概括地说明灯泡使用寿命的一般水平,关于灯泡总体平

12、均使用寿命的统计推断过程,随机抽样,非随机抽样,简单抽样,复杂抽样,重复抽样,不重复抽样,分层抽样,整群抽样,系统抽样,样 本,抽 样,样本数据,抽样方法构成图,图表 描述,统计量描述,条 形 图,直 方 图,盒形 图,饼形 图,品质型变量,数量型变量,集中趋势,离散趋势,分布形态,均 值,极 差,中位数,众 数,方 差,偏 度,峰 度,总体,样本,统计描述方法构成图,分类型变量 与 分类型变量,数量型变量 与 数量型变量,顺序型变量 与 顺序型变量,分类型变量 与 数量型变量,数量型变量 与 分类型变量,分类型变量,顺序型变量,数量型变量,参数 估计,逻辑斯蒂分析,假设 检验,回归 分析,秩

13、的 方法,列联 分析,方差 分析,统计推断方法构成图,结 束,用SPSS作数据集,Statistical package for the social science (简写spss)是美国spss公司在20世纪80年代开发的大型统计学软件包。在全世界的范围内的科研活动中应用十分广泛。Spss for windows 11.0是其在90年代未推出的新版本。与其它统计软件相比,spss不用记忆繁琐、枯燥的语句和命令,只要用户具有一般的计算机和统计学知识,就能运用鼠标进行操作,得到所需要的统计分析结果。以下简明扼要地介绍定的具体使用方法,Spss 对环境的要求,Spss 的安装,Spss 的界面,

14、建立数据集,编辑数据集,数据运算,Spss for windows 版具有如下特点,Sample data 1MB Help files 11MB Basic scripting 2MB Production mode facility 1MB Statistics coach 2MB Syntax guide 16MB,Spss 对环境的要求,启动计算机,将Spss 11.0光盘插入光驱,第一步,在“我的电脑”中点击“E”或“F”盘,找到spss文件夹,点击“ setup.exe”,启动安装程序,第二步,根据安装程序的提示向导,依次进行安装, 并输入软件系列号码、用户姓名和单位名称,第三步,

15、退出安装程序,第四步,SPSS安装步骤,SPSS的安装,Spss的主窗口- Data view 数据浏览界面,SPSS的界面,Spss的主窗口- variable view变量浏览界面,SPSS的界面,File: 文件操作 完成文件的调入、存储、显示和打印等操作,SPSS的界面,edit: 文件编辑 完成文本或数据内容的选择、拷贝、剪贴、寻找 和替换等操作,SPSS的界面,view: 浏览编辑 完成文本或数据内容的状态栏、工具栏、字体、网格线和数值标签等功能的操作,SPSS的界面,data: 数据管理 完成数据变量名称和格式的定义,数据资料的选择、排序、加权、数据文件的转换、连接和汇总等操作,

16、SPSS的界面,transform: 数据转换 完成数据值的计算、重新编码和缺失值替代等操作,SPSS的界面,analyze:统计分析 完成一系列统计分析的选择和应用,SPSS的界面,graphs:统计图表 完成统计图表的建立和编辑,SPSS的界面,utilities:实用程序 有关命令解释、字体选择、文件信息、定义输出标题和窗口设计等,SPSS的界面,window: 窗口控制 可进行窗口的排列、选择和显示等操作,SPSS的界面,Help: 帮助 帮助文件的调用、查询和显示等,SPSS的界面,Spss的结果输出窗口,输出Spss的统计分析程序的结果,SPSS的界面,三十名学生的身高与体重数据,

17、建立数据集,数据集1,Spss的主窗口有两个界面:数据浏览界面(data view)与变量浏览界面(variable view)建立数据文件首先要定义变量,建立数据集,Name: 变量名 在该栏输入变量名(只能用字母) 本例定义5个变量: Number Sex Age Height weight,建立数据集,type: 变量类型 系统默认为数值型 有8种类型可供选择: 1.Numeric:数值型变量 2.Comma:带逗号的数值型变量 3.Dot:带圆点的数值型变量 4.Scientific:科学记数法 5.Date:日期型变量 6.Dollar:货币型变量 7.Custom currency

18、: 自定义型变量 8.String:字符型变量,为便于统计,本例全部定义为数值型,建立数据集,width: 宽度 本例中各变量的宽度: Number 2 Sex 1 Age 2 Height 5 Weight 4,建立数据集,decimals: 小数位数 本例中各变量的小数位数: Number 0 Sex 0 Age 0 Height 1 Weight 1,建立数据集,label: 变量标签 本例中各变量的标签: Number编号 Sex 性别 Age 年龄 Height 身高 Weight 体重,建立数据集,value: 数值标签 本例定义“sex”数值标签: “男”“1” “女”“0,建立

19、数据集,missing: 缺失值 本例选择无缺值,建立数据集,columns: 列宽 本例中各变量数据管理器纵列宽全部定义为8,建立数据集,align: 字符排列方向 有三项选择: left 左对齐 right 右对齐 center 居中 本例中全部选择右对齐,建立数据集,measure: 数据量度 有三项选择: scale 连续型变量 ridinal 有序分类变量 nominal 名义型变量 本例中除 “sex”选为名义型变量外,其余均选连续型变量,建立数据集,编辑数据集,1、插入变量,3、按体重排序,2、插入观测,4、行列互换,5、(按性别)数据拆分,6、分类汇总,编辑数据集,激活变量“a

20、ge”点击“data”菜单点击子菜单“ insert variable” 系统自动插入一个默认名为“var00001”的新变量,编辑数据集,激活第3个观测点击“data”菜单点击子菜单“ insert case” 系统自动插入一个默认为第3的新观测,编辑数据集,点击“data”菜单点击子菜单“ sort(把排序) case”打开 sort case 对话框点击weight进行右侧框内选定ascending(升序) ok,编辑数据集,点击“data”菜单点击子菜单“ transpose(转置)”打开 transpose对话框选中左侧框内的所有变量,点击进入右侧框ok,编辑数据集,点击“data”

21、菜单点击子菜单“ split file”打开split file对话框选中compare groups 选中sort the file by grouping variables 点击sex进入右侧groups based on框ok,编辑数据集,点击“data”菜单点击子菜单“ aggregate”打开aggregate对话框将sex和age选入break variables框 作出相关的选择 ok,编辑数据集,数据运算,1、计算:体重指数=体重/身高2,2、清点:身高160以下的人数,3、分组:按身高将观测分为4组,数据运算,点击“transfom”菜单点击子菜单“ compute”打开c

22、ompute variable对话框在target variable中指定一个变量(可以是新变量) 在typelable中定义生成数据的类型或标签在numeric expression框中键入公式ok,供选择的100余种函数,数据运算,点击“transfom”菜单点击子菜单“ count”打开count occurrences of values within cases对话框在target variable中指定一个变量(如h) 将height点入numeric variables框再点击define values打开count values within cases:values to c

23、ount对话框,来确定清点对象数值ok本例选择range中lowest through160.0为清点范围ok,数据运算,数据运算,点击“transfom”菜单点击子菜单“ categorize variables”打开categorize variables对话框在target variable中指定一个变量(如h)确定分组数(系统默认4组)ok,数据运算,结 束,关键术语,统计学(statistics)搜集、分析、表述和解释数据的艺术和科学,总体(population)研究对象的全体,由个体构成,个体(elements)构成总体的基本单位,是搜集数据的直接对象,样本(sample)总体的一

24、个子集,数据(data)被搜集、分析和解释的事实与数字,统计量(statistic)从样本数据中计算出来的数,参数(parameter)对应于总体的常数,常数(constant)相对于变量而言的不变的数,描述统计学(descriptive statistics)用表图数值汇总数据的方法,统计推断( statistical inference)用从一个样本获得的数据对总 体参数进行估计或假设检验的过程,结 束,图表 描述,用SPSS作图表描述,定类数据的图表描述,定序数据的图表描述,尺矩数据的图表描述,图表 描述,多变量数据的图表描述,5种软饮料购买频数原始记录,定类数据的图表描述,频数是落在各

25、类别中的数据个数。各类别频数与总频数之比称频率。频数和频率分别从绝对数和相对数上,反映出数据在各变量值上的分布状况,0,10,20,可口可乐,雪碧,杏仁露,新 骑士,醒目,条形图(bar chart,定类数据频数分布的图示可采用饼形图或条形图,饼形图(pie chart,用饼形图表示频率分布,频数,38,10,0,10,0,16,0,26,0,38,0,定类数据的图表描述,饼形图的组数不宜太多,38,10,0,10,0,16,0,26,0,38,0,定类数据的图表描述,可口可乐,雪碧,杏仁露,新 骑士,醒目,0,10,20,0,10,20,可口可乐,雪碧,杏仁露,新 骑士,醒目,阿拉伯人的观赏

26、习惯,中国人的观赏习惯,0,10,20,雪碧,新 骑士,醒目,频数,可口可乐,杏仁露,欧美人的观赏习惯,定类数据的图表描述,甲乙两城市家庭对住房状况评价频数分布表,定序数据的图表描述,甲乙两城市家庭对住房状况评价频数分布条形图,甲城市,乙城市,定序数据的图表描述,甲城市,乙城市,甲乙两城市家庭对住房状况评价频数分布饼形图,10,0,15,0,31,0,36,0,8,0,定序数据的图表描述,甲城市家庭对住房状况评价累积频数表,定序数据的图表描述,甲城市家庭对住房状况评价累积频数图,定序数据的图表描述,某地一星期申请结婚女性年龄原始数据,某地一星期申请结婚女性年龄排序,19 22 22 23 23

27、 23 23 24 24 24 25 25 25 25 26 27 27 27 29 29 29 29 30 30 30 31 31 33 33 34 36 37 40 44 46 56 60,某地一星期申请结婚女性年龄频数分布表,尺矩数据的图表描述,点线图简化了数据,而且没有任何信息损失,变量取值较少时,适宜制作点线图,点线图及后面将要介绍的各种图形适宜数量型变量数据的图示,某地一星期申请结婚女性年龄频数分布点线图(line plot,尺矩数据的图表描述,某地一星期申请结婚女性年龄频数分布茎叶图(stem plot,能在变量取值较多的情况下,很好地显示分布状况,同时又没有丢失信息。但不适合观

28、测较多的数据,尺矩数据的图表描述,n =37,年龄,70,60,50,40,30,20,10,14,24,某地一星期申请结婚女性年龄频数盒形图(box plot,最小观测值,中位数,下四分位数,上四分位数,最大观测值,最大观测值,适用变量取值较多和频数较多的情况,但有一定的信息损失,尺矩数据的图表描述,11名学生各科成绩,11,11,11,11,11,n,统计学,营销学,经济学,数学,英语,110,100,90,80,70,60,50,40,盒形图便于变量间频数分特征的比较,11名学生各科成绩频数分布盒形图,尺矩数据的图表描述,直方图通常是等距的,适用于大量观测的情况,能很好地显示次数分布状况

29、。但也丢失了不少数据细节,某地一星期申请结婚女性年龄频数分布直方图(histogram,尺矩数据的图表描述,二百只灯泡样本的可使用小时数,二百只灯泡使用小时数组距频数分布表,尺矩数据的图表描述,上限不在本组内,第一步 确定组数,第二步 确定组距,第三步 汇总频数,如78应汇入78-83组,本例SPSS默认组数为15 组。可见该方法并非绝对,组距宜取整数。最好是5或5的倍数,组距=(最大观测值-最小观测值)组数,二百只灯泡的可使用小时数次数分布直方图,频数,频率,由频率所得的直方图与由频数所得的直方图的特征相同,尺矩数据的图表描述,二百只灯泡的可使用小时数频数分布直方图,113.3,105.0,

30、96.7,88.3,80.0,71.7,63.3,55.0,46.7,60,50,40,30,20,10,0,将数据分为 9 组时的直方图,尺矩数据的图表描述,由直方图看次数分布特征,钟形的对称分布,尺矩数据的图表描述,钟形的右偏分布,由直方图看次数分布特征,尺矩数据的图表描述,钟形的左偏分布,由直方图看次数分布特征,尺矩数据的图表描述,正J形分布,由直方图看次数分布特征,尺矩数据的图表描述,反J形分布,由直方图看次数分布特征,尺矩数据的图表描述,U形分布,由直方图看次数分布特征,尺矩数据的图表描述,几种图示方法优劣比较,尺矩数据的图表描述,三十名学生的身高与体重数据,多变量数据的图表描述,1

31、80,170,160,150,140,60,50,40,30,身高,体重,三十名学生的身高与体重二维散点图(scater,在没有丢失任何数字信息的前提下,直观地显示了两个变量的关系,多变量数据的图表描述,三个变量,两两之间的散点图构成了一个散点图矩阵。 对角线左下(或右上)的三个散点图,已经给出了数据集的全部信息,三岁儿童身高、体重和体表面积数据的散点图矩阵,多变量数据的图表描述,3岁儿童身高、体重和体表面积数据的三维散点图,可同时观察三个变量之间的关系,我们被限制在三维空间内,无法做出四个变量或更多变量之间的散点图,多变量数据的图表描述,城乡居民家庭人均活消费支出(单位元,雷达图可将这种具有

32、8个变量的数据直观地显示出来,多变量数据的图表描述,雷达图(raddar chart,交通通讯,医疗保健,家庭设备用品及服务,衣着,食品,杂项商品与服务,居住,娱乐教育文化服务,多变量数据的图表描述,切尔诺夫脸,切尔诺夫脸随时间的变化,时间,多变量数据的图表描述,结 束,频数统计,饼形图,盒形图,散点图,直方图,茎叶图,条形图,用SPSS作图表描述,例1 5种软饮料购买频数原始记录,数据集2,频数统计,频数统计,选入分析变量,频数统计,四分位数,将数据分为设定的相等分数,百分位数,均值,中位数,众数,合计,偏度,峰度,标准差,方差,全距,最小值,最大值,均值标准误,本例选系统默认项,频数统计,

33、不输出图形,条形图,饼形图,直方图,本例选系统默认项,频数统计,频数统计,本例选系统默认项,条形图,条形图,条形图,条形图,饼形图,选入分析变量,饼形图,饼形图,饼形图,二百只灯泡样本的可使用小时数,例2,数据集3,茎叶图,茎叶图,茎叶图,茎叶图,盒形图,盒形图,盒形图,例3 11名学生各科成绩,盒形图,数据集4,盒形图,盒形图,盒形图,直方图,直方图,直方图,数据集5,例4 12名大学生体重与沛活量,散点图,散点图,散点图,散点图,散点图,三十名学生的身高与体重数据,数据集1,例5,散点图,散点图,散点图,结 束,关键术语,频数分布(frequency distribution)对一数据集的

34、表格汇总法,显示若干无重叠组别中每一组的项目频数(个数) 相对频数分布(频率) (relative frequency distribution)一数据集的表格汇总法,显示在若干无重叠组别的每一组的项目总数的相对频数,即分数或比率 百分数频数分布(percent frequency distribution)用百分数表示的相对频数分布 条形图(bar graph)一种图形方法,描述品质数据的频数分布 饼形图(pie chart)一种描述品质数据频数或频率的图形方法 直方图(histogram)一种通过在横轴上放置组间隔,在纵轴上放置频数来描述数量型数据的频数分布的图形 累积频数分布(cumul

35、ative frequency distribution)对数据的 一种表格汇总,显示数据小于或等于每一组上限的项目个数或比率 组中值(class midpoint)每一组在组下限和组上限正中间的值 茎叶显示(stem and leaf display)一种同时排列数量型数据顺序并提供分布形态的深入信息的探索性数据分析技术 散点图(scatter diagram)表示两个数据型变量之间关系的图形方法。一个变量列在横轴。一个变量列在纵轴上 盒形图(box plot)一种形如盒的显示频数分布的图形 切尔诺夫脸(the face of chernoff)表示多维变量数据的一种图形,结 束,用SPSS

36、作统计量描述,统计量 描 述,集中趋势,分布形态,离散趋势,统计量 描 述,观测值的分布同时具有集中与离散两个方面的趋势,集中趋势,集中趋势的极端情况,离散趋势的极端情况,集中趋势,众数,中位数,均值,众数、中位数、均值的比较,四分位数,集中趋势,0,10,20,可口可乐,雪碧,杏仁露,新 骑士,醒目,Mo=可口可乐,众数是出现次数最多的变量值,50次购买软饮料的频数,众数,某企业工人按日产量分组,甲乙两城市家庭对住房状况评价频数分布,非常不满意,不满意,一般,满意,非常满意,Mo=不满意,甲城市,乙城市,Mo=不满意,200只灯泡使用寿命频数分布表,200只灯泡使用寿命频数分布直方图,众数,

37、由组距式频布表计算众数,众数,观测值从小到大排序后,处于中间位置的变量值就是中位数,Me=一般,甲乙两城市家庭对住房状况评价频数分布,中位数,200只灯泡使用寿命频数分布表,200只灯泡使用寿命频数分布直方图,中位数,中位数,low quartile,upper quartile,50%的观测值小于中位数,50%的观测值位于上下四分位数之间,50%的观测值大于中位数,四分位数,QL=不满意,QU=满意,Me=一般,甲城市家庭对住房增状况的评价,四分位数,Me=75.5,QU=85,QL=67,50%灯泡的寿命在67-85小时之间,200只灯泡使用寿命频数分布表,四分位数,某地一星期申请结婚女性

38、年龄x,所有观测值相加再除以观测值的个数得到样本的均值,又称为算术平均数(Arithmetic mean,简单均值,30(岁,均值,200只灯泡使用寿命频数分布表,均值,均值的性质,1.所有观测值与其均值的离差之和等于0,2.所有观测值与其均值的离差平方和最小,均值,性质1,性质2,均值,统计描述的收益与损失,直方图,数 据,均值=19.2,数据被图示或计算出统计量时,其总体水平和结构状况显示出来了。但数据集的某些信息也丢失了,均值,众数是观测值的重点,中位数是观测值的中心,均值是观测值的重心,众数、中位数、均值的比较,左偏,右偏,对称,三者的近似关系,众数、中位数、均值的比较,不同类型变量适

39、用的集中趋势测度指标,为该类变量最适用的测度指标,众数、中位数、均值的比较,Mo=可口可乐,甲商店,乙商店,Mo=可口可乐,两商店软饮料购买频数的众数都是可口可乐,但数据的离散程度不同,0,10,20,可口可乐,雪碧,杏仁露,新 骑士,醒目,0,10,20,可口可乐,雪碧,杏仁露,新 骑士,醒目,离散趋势,Me=一般,甲城市,乙城市,非常不满意,一般,满意,非常满意,Me=一般,非常不满意,一般,满意,非常满意,两城市对住房条件评价的中位数都是一般,但数据的离散程度不同,不满意,不满意,离散趋势,两组数据均值均为 ,但离散程度不同,离散趋势,异众比,四分位差,极差,平均差,方差与标准差,离散系

40、数,离散趋势,50次购买软饮料的频数分布,异众比率越大,众数的代表性越差;异众比越小,众数的代表性越好。分类型变量适宜计算异众比率,异众比,甲乙两城市家庭对住房状况评价频数分布,QL=不满意,QU=满意,数据编码: 令非常不满意为1;不满意为2;一般为3;满意为4;非常满意为5。则,结果说明 50%的家庭对住房状况在满意与不满意之间,四分位差,QU=85,QL=67,18,200只灯泡使用寿命频数分布表,四分位差与盒形图,50% 的观测值集中于盒子之内。盒子越窄,表明集中程度越高,即离散程度越低,QU=85,QL=67,四分位差,某地一星期申请结婚女性年龄,一般情况下,极差越大,离散程度越大,

41、但其值,易受极端值影响,极差,极差及四分位差均相等,但离散程度不同,平均差,50名工人日产零件数平均差计算表,所有观测值与其均值离差的绝对值的均值,平均差,用于统计描述,n为样本数据的个数,用于统计推断,因为s2为总体方差2 的无偏估计量。n-1称为自由度,方差是所有观测值与其均值离差的平方的均值。标准差是所有观测值与其均值离差的平方的均值的平方根,方差公式1,方差公式2,方差与标准差,此处,自由度是指样本数据中可以自由取值的个数。譬如,样本容量为n,均值确定后,观测数据中只有n-1个可以自由取值,其中必有一个不能自由取值,因此自由度为样本容量减1,均方差公式1,均方差公式2,方差的含义不易理

42、解,它的计量单位是观测值计量单位的平方。 标准差的计量单位与观测值计量单位是一致的,用于统计描述,用于统计推断,50名工人日产零件数方差计算表,方差与标准差,6.00,S=3.00,6.00,S=2.71,6.00,S=0.82,S=0.00,6.00,理解标准差,方差与标准差,在均值上加减标准差,34.4-2s=20.6,34.4,X-s=27.5,34.4+2s=48.2,心跳数,学生数,27名学生每30秒心跳次数,均值=34.4 标准差=6.9,观测值的大小大致不超过均值加减4个标准差的范围。 本例中均值加减2个标准差就几乎包含了所有的观测值,24,21,27,30,33,36,39,4

43、2,45,48,2,4,6,8,51,34.4+s=41.3,方差与标准差,标准得分(standard score,100对新娘和新郎,新娘的平均年龄为30.0岁,标准差为9.0岁;新郎的平均年龄为32.4岁,标准差为10.0岁。其中年龄最小的新娘为19岁,年龄最小的新郎为19岁。问:作为新娘和新郎,俩人哪个更年轻,方差与标准差,标准得分含义的图示,xi (年龄,12,21,30,39,48,Zi (标准得分,2.00,1.00,0,1.00,2.00,方差与标准差,切贝谢夫( Tchebysheff)定理,在任意一个数据集中,至少有(1-1/z2 )的数据项与平均数的距离在 z 个标准差之内

44、,其中z是任意大于1 的值,方差与标准差,68,95,约100,经验法则,如果数据近于钟形分布,则有:约68%的数据项与均值的距离在1个标准差之内;95%的数据项与均值的距离在2个标准差之内;几乎所有的数据项与均值的距离在3个标准差之内,方差与标准差,8个企业产品销售数据,离散系数,离散系数,不同类型变量适用的离散趋势测度指标,为该类变量最适用的测度指标,离散系数,偏度,峰度,分布形态,偏度,三次动差,三次中心统计动差,偏 度,偏度,我国乡村家庭收入数据,偏度,频数分布的峰态,尖顶峰,正态峰,平顶峰,峰度计算公式,43 尖顶峰; 4 =3 正态峰 ; 43 平顶峰,峰度,峰 度,四次中心统计动

45、差,四次动差,峰度,我国乡村家庭收入数据,峰度,结 束,由 Frequencies 计算,由 descriptive statistics 计算,由 Explore 计算,用SPSS作统计量描述,三十名学生的身高与体重数据,数据集1,由 descriptive statistics 计算,由 descriptive statistics 计算,选入分析变量,由 descriptive statistics 计算,均值,合计,偏度,峰度,标准差,方差,全距,最小观测值,最大观测值,均值标准误,离散趋势,分布形态,输出顺序,按均值升序显示统计量,按均值降序显示统计量,按变量名字母顺序显示统计量,按

46、数据集中变量的排列顺序显示统计量,由 descriptive statistics 计算,由 descriptive statistics 计算,由 Frequencies 计算,选入分析变量,由 Frequencies 计算,四分位数,百分位数,均值,中位数,众数,合计,偏度,峰度,标准差,方差,全距,最小值,最大值,均值标准误,由 Frequencies 计算,由 Frequencies 计算,由 Frequencies 计算,由 Frequencies 计算,由 Frequencies 计算,由 Explore 计算,选入分析变量,由 Explore 计算,由 Explore 计算,由

47、Explore 计算,结 束,关键术语,平均数(mean)衡量数据集中心位置的量度。用所有数据值相加的和除以项数计算 中位数(median)衡量数据集中心位置的量度。中位数将所有的数据分为两个相等的部分,一部分的值都大于或等于它,而另一部分都小于或等于它 众数(mode)衡量数据中心位置的量度。它是发生频数最高的数据值 百分位数(percentile)至少有p%的数据项小于等于这个值,且至少有(100-p)%的数据项大于等于这个值。第50百分位数即为中位数 四分位数( quartile )第25、第50、第75百分位数即为第1、第2、第3四分位数。四分位数将数据集分为4个部分。每一部分含有25

48、%的数据 临界点(hinges)下端临界点为第1四分位数,上端临界点为第3四分位数。 全距(range)用以衡量变异程度的量度,它是最大值减最小值的差 四分位内距(interquartile range,IQR)用以衡量变异程度的量度,它是第3四分位数与第1四分位数之差 方差(variance)用以衡量数据集变异程度的量度,是建立在距平均数离差的平方值的基础上的 标准差(standard deviation)用以衡量数据集变异程度的量度,取方差的正的平方根 Z分数(z-score)以距平均数的离差除以标准差所得的值。是标准化的数值,指数据值距离平均数的标准差的个数 切贝谢夫定理(chebysh

49、ers theorem)这一定理可以用于任何数据集,用来描述与平均数的距离在特定数目个标准差范围之内的数据项的百分比 经验法则(empirical rule)这一法则适用于钟形分布的数据,用以描述与平均数的距离在1、2、3个标准差之内的数据项的百分比 异常值(outlier)异常大或异常小的数据值,五数概括法(five-number summary)是一种探索性数据分析的技术。用五个数据值:最小值、第1四分位数、平均数、第3四分位数和最大值来概括数据集 盒形图(box plot)一种用图形概括数据的方法。用一个以第1和第3四分位数为边界的盒来表明在中心位置50%的数据。以一条横线(须线)从方盒

50、两侧延伸以表明大于第3四分位数和小于第1四分位数的数据值的位置。所有异常值民予以标明 协方差(covariance)用以衡量两变量间线性相关关系的数值量度。正值表示正相关,负值表示负相关 相关系数(correlation coefficient)用以衡量两变量间线性相关关系的数值量度。 加权平均数(weighted mean)将每个数据值予以一个权重以反映其在数据集中重要程度。以此获得的平均数即为加权平均数 分组数据(grouped data)将数据分为若干个组并配以频数分布,而不记录原始数据的个体值 偏度(skewness)对分布偏斜方向和程度的测度 峰度(kurtosis)对分布曲线尖削程

51、度的测度,关键术语,结 束,参数 估计,用SPSS作参数估计,抽样与抽样分布,区间估计,点 估 计,参数 估计,抽样方法,样本容量与抽样分布,抽样分布,抽样与抽样分布,样本(sample,总体(population,抽样(sampling,总体容量(population size) N=45,样本容量(sample size) n=10,为推断总体的某些特征,而从总体中按一定方法抽取若干个体,这一过程称为抽样,所抽取的个体称为样本,抽样方法,自有限总体的简单随机抽样,简单随机样本,有限总体,总体中每一个体以相等的概率被抽出,称简单随机抽样。有放回抽样与无放回抽样之分。自有限总体的简单随机抽样,

52、特指有放回抽样,抽样方法,自无限总体的简单随机抽样,无限总体,自无限总体抽取样本,采用无放回抽样。如果满足以下两个条件,则称简单随机抽样: 每个个体来自同一个总体 样本中每个个体的抽取是独立的,简单随机样本,抽样方法,统计量,计算,总 体,确定性,样 本,随机抽样,随机性,随机性,样本统计量做为随机变量,具有特定的概率分布。 把握住他们的分布规律就找到了推断总体参数的依据,总体参数,理论上可计算,确定性,抽样分布,1000名公司员工总体,500个容量为30的简单随机样本的平均年薪、大学毕业生比率、年薪标准差的分布直方图,的分布,抽样分布,随机变量 的数学期望,总体均值,随机变量 的标准差,总体

53、的标准差,样本容量,总体容量,设总体均值为总体方差为2 ,则有,设总体均值为总体方差为2 ,则有,抽样分布,总体为正态概率分布时,对任何样本容 量的 的分布均为正态分布,中心极限定理(central limit theorem,总体为任意分布,当样本容量n时, 的抽样分布为正态分布。 实践中n30, 的分布 即可用正态近似,抽样分布,中心极限定理作用下 的概率密度,标准正态分布,抽样分布,总体X的分布,样 本 均值的 分 布,n=2,n=5,n=30,中心极限定理对三个总体作用的图示,抽样分布,总体比率,随机变量 p 的标准差,总体的方差,样本容量,总体容量,随机变量p的数学期望,对于 ,满足

54、下面两个条件时认为样本容量足够大: 当样本容量足够大时, 的抽样分布可用正态近似,即,抽样分布,0.05,0.10,0.15,0.20,0.25,0.30,2600,3400,4200,5000,的分布,s2 服从卡方分布,但其分布函数不便于用数学式直接表达。可以得出与其相联系的一个服从自由度为 n-1的卡方分布的统计量,抽样分布,与样本容量有关,与样本容量无关,51800,样本容量与抽样分布,点估计的概念,估计量的优良性,点 估 计,某连续生产线上生产的灯泡的使用寿命X服从正态分布N(,2),其中和2是未知总体参数。从中随机抽取5只灯泡,测得使用寿命分别为1529小时、1513小时、1600

55、小时、1527小时、1111小时。试估计和2,从总体中抽取一个样本,构造适当的统计量 ,来估计对应的总体参数,点估计的概念,估计量的优良性,无偏性,有效性,一致性,则称统计量 是总体参数 的无偏估计量,参数不等于抽样分布的均值,有偏估计量,参数等于抽样分布的均值,无偏估计量,偏差,如果,无偏性,有效性,自正态总体抽样时,总体均值与总体中位数相同,而中位数的标准误差大约比均值的标准误差大25%。因此,样本均值更有效,的抽样分布,的抽样分布,有效性,均为一致性估计量,两个无偏点估计量的抽样分布,两个不同容量样本的点估计量的抽样分布,一致性,总体均值的区间估计,总体比率的区间估计,样本容量的确定,总

56、体方差的区间估计,区间估计,总体方差已知时总体均值的区间估计,总体方差未知时总体均值的区间估计,总体均值的区间估计,总体方差已知时总体均值的区间估计,一批零件的长度服从正态分布,从中随机抽取9件,测得其平均长度为21.4毫米。已知该批零件长度的标准差为0.15毫米,试以95%的把握程度,估计该批零件平均长度的存在区间,总体方差已知时总体均值的区间估计,某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36,总体方差已知时总体均值的区间估计,总体方差未知时总体均值的区间估计,某大学从该校学

57、生中随机抽取100人,调查到他们平均每天参加体育锻炼为26分钟,样本方差为34。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间,总体方差未知时总体均值的区间估计,是否为大样本 n30,值是否已知,值是否已知,总体是否近 似正态分布,用样本标准差s 估计,用样本标准差s 估计,将样本容量 增加到n30 以便进行区间 估计,是,是,是,是,否,否,否,否,总体均值区间估计程序,总体均值的区间估计,显著性水平下,P在1- 置信水平下的置信区间,总体比计的区间估计,某企业在一项关于职工流动原因的研究中,从企业前职工的总体中随机抽选了200人组成一个样本。在对其进行访问时,有140说他

58、们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开企业的人员的真正比率构造95%的置信区间,总体比计的区间估计,允许误差(permissible,用历史数据代替。若有若干个历史数据,应以较大者代替,样本容量的确定,一家广告公司想估计某类商店去年所花的平均广告费有多少。经验表明,总体方差为1800000。如置信度取95%,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本,一家市场调研公司想估计某地区有彩色电视机的家庭所占的比率。该公司希望对 P 的估计误差不超过0.05,要求可靠程度为 95%,应取多大容量的样本,总体方差最大值为0.50.5=0.25,总

59、体方差的区间估计,显著性水平下,2 的置信区间,0,8.90655,32.8523,0.025,0.025,自由度为19的2分布,从一批灌装产品中,随机抽取20灌,得样本方差为0.0025。试以95%的置信度,估计总体方差的存在区间,总体方差的区间估计,0,2.7044,19.0228,0.025,0.025,自由度为9的2分布,对某种金属的10个样品所组成的一个随机样本作抗拉强度试验。从试验数据算出的方差为4,试求2 的95%值信区间,总体方差的区间估计,结 束,关键术语,无放回抽样(sampling without replacement)一个元素一旦选入样本,就从总体中剔除,不能再次被选

60、入 放回抽抽样(sampling with replacement)一个元素一旦被选入样本,仍被放回总体中。先前被选入的元素可能再次被抽到,并且在本样中可能出现多次 抽样分布(sampling distribution)样本统计量所有可能值构成的概率分布 点估计(point estimate)用做总体参数估计量的值。它是点估计量的具体的取值 点估计量(point estimator)提供总体参数点估计的样本统计量 标准误差(standard error)点估计量的标准差 中心极限定理(central limit theorem)当样本容量大的时候,用正态分布近似样本均值的分布和样本比率的抽样分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论