版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计学 从数据到结论 第三章数据的描述 在对数据进行深入加工之前,在对数据进行深入加工之前, 总应该对数据有所印象。总应该对数据有所印象。 可以借助于图形和简单的运算,可以借助于图形和简单的运算, 来了解数据的一些特征。来了解数据的一些特征。 由于数据是从总体中产生的,由于数据是从总体中产生的, 其特征也反映了总体的特征。其特征也反映了总体的特征。 对数据的描述也是对其总体的对数据的描述也是对其总体的 一个近似的描述。一个近似的描述。 3.1 如何用图来表示数据?如何用图来表示数据? 3.1.1 定量变量的图表示定量变量的图表示:1.直方图直方图 对于一个定量变量,比如某个地区对于一个定量变量
2、,比如某个地区 (地区(地区1)测量了)测量了163个高三男生的身个高三男生的身 高高(S3height1.txt)。 用图形来表示这个数据,使人们能够用图形来表示这个数据,使人们能够 看出这个数据的大体分布或看出这个数据的大体分布或“形状形状” 的一个办法是画的一个办法是画直方图直方图(histogram)。 图图3.1就是利用这个数据由就是利用这个数据由SPSS软件软件 所画的直方图。所画的直方图。 图3.1 地区1高三男生身高的直方图 200.0195.0190.0185.0180.0175.0170.0165.0160.0155.0150.0 Std. Dev(标准差)=10.91,M
3、ean(均值)=170.9,N(人数)=163 40 30 20 10 0 该图的横坐标是身高区间,这里每一格代表该图的横坐标是身高区间,这里每一格代表5cm的身高范围(格子的身高范围(格子 宽度因不同的数据性质或要求而定,这里的格子宽度为宽度因不同的数据性质或要求而定,这里的格子宽度为5cm),而),而 纵坐标为各种身高区间的身高的频数。纵坐标为各种身高区间的身高的频数。 直方图直方图 3.1.1 定量变量的图表示定量变量的图表示:2.盒型图盒型图 简单一些的是简单一些的是盒形图盒形图(boxplot,又称,又称 箱图、箱线图、盒子图箱图、箱线图、盒子图)。 图图3.2的左边一个是根据地区的
4、左边一个是根据地区1高三男高三男 生的身高数据所绘的盒形图;其右边生的身高数据所绘的盒形图;其右边 的图代表另一个地区(地区的图代表另一个地区(地区2)的高)的高 三学生的身高三学生的身高(height.txt,height.sav,第三章例,第三章例.xls)。 175163N = 地区 地区2地区1 高三男生身高 210 200 190 180 170 160 150 140 323259 250 248 5 96 158 盒型图盒型图 盒子的中间横线是数据的中位数盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线,封闭盒子的上下两横线 (边)为上下四分位数(点);按照(边
5、)为上下四分位数(点);按照SPSS的默认选项,如果所有的默认选项,如果所有 样本中的数目都在离四分位点样本中的数目都在离四分位点1.5倍盒子长度之内,则线的端点为倍盒子长度之内,则线的端点为 最大和最小值,否则线长就是最大和最小值,否则线长就是1.5倍的盒子长度(盒子长度称为四倍的盒子长度(盒子长度称为四 分位间距),在其外面的度量单独点出分位间距),在其外面的度量单独点出 3.1.1 定量变量的图表示定量变量的图表示:3.茎叶图茎叶图 在直方图和盒形图中,很难恢复数据在直方图和盒形图中,很难恢复数据 的原貌。而另一种图:的原貌。而另一种图:茎叶图茎叶图(stem- and-leaf plo
6、ts)可以恢复数据可以恢复数据 以地区以地区1高三男生身高为例(图高三男生身高为例(图3.3),), 茎叶图既展示了分布形状又有原始数茎叶图既展示了分布形状又有原始数 据。它象一片带有茎的叶子。茎为较据。它象一片带有茎的叶子。茎为较 大位数的数字,叶为较小位数的数字。大位数的数字,叶为较小位数的数字。 茎叶图茎叶图 其中茎叶图中茎的单位为其中茎叶图中茎的单位为10cm,而叶子单位为,而叶子单位为1cm。比如,由于。比如,由于 第一行茎为第一行茎为150cm,因此叶子中的九个数字,因此叶子中的九个数字001223344代表九个数代表九个数 目目150、150、151、152、152、153、15
7、3、154、154cm等。每等。每 行左边有一个频数(比如第一行有行左边有一个频数(比如第一行有9个数目,第二行有个数目,第二行有17个等等);个等等); 可以看出最长的一行为从可以看出最长的一行为从165cm到到169cm的一段(有的一段(有35个数)。个数)。 3.1.1 定量变量的图表示定量变量的图表示:4.散点图散点图 数据会有两个变量,如美国男士和女数据会有两个变量,如美国男士和女 士初婚年限数据(士初婚年限数据(marriage.txt)。)。 该数据描述了自该数据描述了自1900年到年到1998年男年男 女第一次婚姻延续的时间。女第一次婚姻延续的时间。 这里年份是一个变量,婚姻延
8、续时间这里年份是一个变量,婚姻延续时间 是第二个变量。由于不可能将所有人是第二个变量。由于不可能将所有人 的婚姻年限都给出来,所以每年就取的婚姻年限都给出来,所以每年就取 了一个中间的值了一个中间的值(中位数中位数)作为代表。作为代表。 200019801960194019201900 28 27 26 25 24 23 22 21 20 女 男 散点图散点图 3.1.2 定性变量的图表示:饼图定性变量的图表示:饼图 定性变量(或属性变量,分类变定性变量(或属性变量,分类变 量)不能点出直方图、散点图或量)不能点出直方图、散点图或 茎叶图,但可以描绘出它们各类茎叶图,但可以描绘出它们各类 的比
9、例。的比例。 下面用下面用SPSS绘的图绘的图3.5(饼图,(饼图, pie chart)表示了说世界各种主表示了说世界各种主 要语言人数的比例要语言人数的比例(language.txt). 饼图饼图 3.1.2 定性变量的图表示:条形图定性变量的图表示:条形图 而用同样数据画的图而用同样数据画的图3.6称为称为条条 形图(形图(bar chart)。 从每一条可以看出讲各种语言从每一条可以看出讲各种语言 的实际人数,而且分别给出了的实际人数,而且分别给出了 每个语种中母语和日常使用的每个语种中母语和日常使用的 人数(在图中并排放置)。条人数(在图中并排放置)。条 形图显示比例不如饼图直观。形
10、图显示比例不如饼图直观。 条形图条形图 3.2 如何用少量数字来概括数据?如何用少量数字来概括数据? 大量的数字既繁琐又不直观;需大量的数字既繁琐又不直观;需 要对数据做人们时间和耐心所允要对数据做人们时间和耐心所允 许的简化许的简化 我们可以用我们可以用 “平均平均”,“差距差距” 或百分比等来概括大量数字。或百分比等来概括大量数字。 由于定性变量主要是计数,比较由于定性变量主要是计数,比较 简单,常用的概括就是比例或百简单,常用的概括就是比例或百 分比。下面主要介绍关于定量变分比。下面主要介绍关于定量变 量的数字描述。量的数字描述。 3.2 如何用少量数字来概括数据?如何用少量数字来概括数
11、据? 可用少量所谓汇总统计量或可用少量所谓汇总统计量或概括概括 统计量统计量(summary statistic)来描来描 述定量变量的数据。述定量变量的数据。 这些数字是从样本数据得来的,这些数字是从样本数据得来的, 因而也是样本的函数,因而也是样本的函数, 任何样本的函数,只要不包含总任何样本的函数,只要不包含总 体的未知参数,都称为体的未知参数,都称为统计量统计量 (statistic)。 样本的随机性决定统计量的随机样本的随机性决定统计量的随机 性(统计量也是随机变量)性(统计量也是随机变量) 3.2 如何用少量数字来概括数据?如何用少量数字来概括数据? 概括统计量经常对应于总体概括统
12、计量经常对应于总体 的无法观测到的某些参数。的无法观测到的某些参数。 这时,统计量可作为这些参这时,统计量可作为这些参 数的估计。一些统计量还可数的估计。一些统计量还可 以用来检验样本和假设的总以用来检验样本和假设的总 体是否一致。体是否一致。 3.2 如何用少量数字来概括数据?如何用少量数字来概括数据? 注:注:一些统计量前面有时加一些统计量前面有时加 上上“样本样本”二字,以区别于二字,以区别于 总体的同名参数。如总体的同名参数。如“样本样本 均值均值”和和“样本标准差样本标准差”, 以区别于总体均值和总体标以区别于总体均值和总体标 准差;但在不会混淆时可以准差;但在不会混淆时可以 只说只
13、说“均值均值”和和“标准差标准差”。 3.2.1 数据的数据的“位置位置” 数据有位置吗?数据有位置吗? 这里三个数据的位置一样吗?这里三个数据的位置一样吗? 3.2.1 数据的数据的“位置位置” “位置位置”一般是关于数据中某变量一般是关于数据中某变量 观测值的观测值的“中心位置中心位置”或者数据或者数据 分布的中心(分布的中心(center或或center tendency)。)。 和这种和这种“位置位置”有关的统计量就有关的统计量就 称为称为位置统计量位置统计量(location statistic)。 位置统计量当然不一定都是描述位置统计量当然不一定都是描述 “中心中心”了,比如后面要
14、讲的了,比如后面要讲的k百百 分位数(或分位数(或k分位数)。分位数)。 3.2.1 数据的数据的“位置位置” 最常用的位置统计量就是小学时所学最常用的位置统计量就是小学时所学 到的算术平均数,它在统计中叫做均到的算术平均数,它在统计中叫做均 值值(mean);严格地说叫做样本均值;严格地说叫做样本均值 (sample mean),以区别于总体均值。,以区别于总体均值。 如果记样本中的观测值为如果记样本中的观测值为x1,xn,则,则 样本均值定义为样本均值定义为 (样本样本)中位数中位数(median) 是数据按照大小排列之是数据按照大小排列之 后位于中间的那个数后位于中间的那个数(如如 果样
15、本量为奇数果样本量为奇数),或者,或者 中间两个数目的平均中间两个数目的平均(如如 果样本量为偶数果样本量为偶数)。 由于中位数不易被极端由于中位数不易被极端 值影响,所以中位数比值影响,所以中位数比 均值稳健均值稳健(robust)。 3.2.1 数据的数据的“位置位置” 上下四分位数(或分 别称为第一四分位数 和第三四分位数, first quantile, third quantile)则分别位 于(按大小排列的) 数据的上下四分之一 的地方。 3.2.1 数据的数据的“位置位置” 3.2.1 数据的数据的“位置位置” 一般地还称上四分位数为一般地还称上四分位数为75百分位数百分位数 (
16、75 pecentile,有,有75的观测值小于的观测值小于 它),下四分位数为它),下四分位数为25百分位数百分位数(有(有 25的观测值小于它)。的观测值小于它)。 一般地,一般地,k百分位数百分位数(k-pecentile)意)意 味着有味着有k的观测值小于它。的观测值小于它。 如果令如果令a a=k%,则则k百分位数也称为百分位数也称为a a 分位数分位数(a a-quantile)。 样本中出现最多的数目,称为样本中出现最多的数目,称为众数众数 (mode) 3.2.2 数据的数据的“尺度尺度” 这两个数据“胖瘦”一样 吗? 3.2.2 数据的数据的“尺度尺度” 数据中数目的分散程度
17、由尺 度统计量(scale statistic) 来描述。 尺度统计量是描述数据散布, 即描述集中与分散程度或变 化(spread或variability) 的度量。 3.2.2 数据的数据的“尺度尺度” 从前面两个高三男生身高数据的盒从前面两个高三男生身高数据的盒 形图。左边的数据平均要高些,但形图。左边的数据平均要高些,但 右边的数据散布范围要小得多。右边的数据散布范围要小得多。 175163N = 地区 地区2地区1 高三男生身高 210 200 190 180 170 160 150 140 323259 250 248 5 96 158 统计中有许多尺度统 计量。一般来说,数 据越分
18、散,尺度统计 量的值越大。 3.2.2 数据的数据的“尺度尺度” 极差极差(range);就是极大值和极小值;就是极大值和极小值 之间的差。之间的差。 前面两个高三男生身高数据的极差分前面两个高三男生身高数据的极差分 别为别为50cm和和32cm。 盒形图盒子的长度为两个四分位数之盒形图盒子的长度为两个四分位数之 差,称为差,称为四分位数极差或四分位间距四分位数极差或四分位间距 (interquantile range);它描述了中;它描述了中 间半数观测值的散布情况。极差和四间半数观测值的散布情况。极差和四 分位极差实际上各自只依赖于两个值,分位极差实际上各自只依赖于两个值, 信息量太少。信
19、息量太少。 3.2.2 数据的数据的“尺度尺度” 另一个常用的尺度统计量为(样本)另一个常用的尺度统计量为(样本) 标准差标准差(standard deviation)。度量样。度量样 本中各数值到均值距离的一种平均。本中各数值到均值距离的一种平均。 标准差实际上是标准差实际上是方差方差(variance)的平方的平方 根。如果记样本中的观测值为根。如果记样本中的观测值为x1,xn, 则样本方差为则样本方差为 3.2.2 数据的数据的“尺度尺度” 两个均值一样,但右边的要两个均值一样,但右边的要 “胖胖”些,方差为左边的一些,方差为左边的一 倍倍 3.2.3 数据的标准得分数据的标准得分 假定
20、两个水平类似的班级(一假定两个水平类似的班级(一 班和二班)上同一门课,班和二班)上同一门课, 但是由于两个任课老师的评分但是由于两个任课老师的评分 标准不同,使得两个班成绩的标准不同,使得两个班成绩的 均值和标准差都不一样均值和标准差都不一样(数据:数据: grade.txt)。 3.2.3 数据的标准得分数据的标准得分 一班分数的均值和标准差分别一班分数的均值和标准差分别 为为78.53和和9.43,而二班的均值,而二班的均值 和标准差分别为和标准差分别为70.19和和7.00。 那么得到那么得到90分的一班的张颖是分的一班的张颖是 不是比得到不是比得到82分的二班的刘疏分的二班的刘疏 成绩更好呢?怎么比较才能合成绩更好呢?怎么比较才能合 理呢?理呢? 3.2.3 数据的标准得分数据的标准得分 虽然这种均值和标准差不同的数据不虽然这种均值和标准差不同的数据不 能够直接比较,但是可以把它们进行能够直接比较,但是可以把它们进行 标准化,再比较标准化后的数据。标准化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度个人别墅二手房买卖合同范本下载4篇
- 二零二五年度国际车展场地租赁及赞助权益合同4篇
- 二零二五年环保污染治理项目投资合同范本
- 2025年度特色果园承包与品牌推广合作合同4篇
- 二零二五年度军人离婚协议书样本下载
- 2024年限量版汽车用品授权销售协议版B版
- 二零二五美容院美容院加盟店开业指导与服务合同4篇
- 2025年度苗木销售渠道拓展合作协议4篇
- 二零二五版美容美发行业员工绩效奖金合同4篇
- 2025版人力资源管理咨询与改革合同3篇
- 2023年上海英语高考卷及答案完整版
- 西北农林科技大学高等数学期末考试试卷(含答案)
- 金红叶纸业简介-2 -纸品及产品知识
- 《连锁经营管理》课程教学大纲
- 《毕淑敏文集》电子书
- 颈椎JOA评分 表格
- 员工岗位能力评价标准
- 定量分析方法-课件
- 朱曦编著设计形态知识点
- 110kV变电站工程预算1
- 某系统安全安全保护设施设计实施方案
评论
0/150
提交评论