统计学原理(第二章)_第1页
统计学原理(第二章)_第2页
统计学原理(第二章)_第3页
统计学原理(第二章)_第4页
统计学原理(第二章)_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章

统计数据的描述描述统计

描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法

一、数据的计量尺度定类尺度定序尺度定距尺度定比尺度

二、数据的类型数据的类型变量及类型

第一节数据的计量和类型一、数据的计量尺度1.定类尺度:又称为类别尺度或列名尺度,它是按照事物的某种属性对其进行平行的分类。定类尺度是最粗略、计算层次最低的计量尺度。

数据的计量和类型性别种族运动项目定类尺度只能按照事物及其现象的某种属性对其进行平行的分类或分组。例如车牌号、学生的学号、运动员号码、身份证号码、人员性别、企业类别等等。特征:(1)只能区分事物的类别,无法比较类别间大小,定类尺度只具有“=”和“≠”运算,“=”具有传递性。(2)对事物的区分必须符合穷尽和互斥的要求。(3)对定类尺度数据进行分析的统计量主要是频数或者频率,或是众数和进行列联分析。

一、数据的计量尺度2.定序尺度:又称为顺序尺度或有序水平,是对事物之间等级差或顺序差别的一种测度。由其构成的量表一般称为顺序量表。

数据的计量和类型定序尺度不仅可以将事物分成不同的类别,还可以确定这些类别的优劣或顺序,例如军阶、职称、工资级别、产品质量等级、受教育水平等。>>大学生中学生小学生特征:(1)不仅能区分事物的类型,而且能够比较各类型间的优劣和顺序,不仅可运算“=”、“≠”,而且可以运算“>”或“<”。但不能测量出类别之间的准确差距,不能进行加减乘除的运算。。(2)对事物的区分同样要求穷尽和互斥。(3)对定序尺度数据进行分析的统计量主要是频数和累积频数,或者频率和累积频率。

-≠-一、数据的计量尺度3.定距尺度:又称为间隔尺度或间隔水平,是对事物类别或者次序之间间距进行的一种测度,由其构成的量表一般称为间隔量表或间距量表。

数据的计量和类型常见的用定距尺度来测度的有考试成绩、各种心理测试的得分、某个地区的温度等。天气预报:南京:最高温度3℃

苏州:最高温度6℃特征:(1)不仅能区分事物的类别、进行排序、比较大小,而且还可以精确地计算大小的差异,可以进行加减运算,但不可以进行乘除运算。(2)没有绝对零点,即可以以任何一个0为起点,“0”不表示“没有”或“不存在”。

两地最高温度相差3℃南京最高温度较苏州最高温度低3℃苏州最高温度是南京最高温度的2倍一、数据的计量尺度4.定比尺度:又称为比例尺度或是比较水平,是对事物之间比值的一种测度,它是最高层次的测量,可用于参数和非参数统计推断。它是与定距尺度属于同一层次的一种计量尺度,但其功能比定距尺度更强一些。

数据的计量和类型在日常生活中,大多数情况下使用的都是定比尺度。例如,年龄、收入、某地区每年的失业人数、罪犯人数等。3000元

工资1500元工资甲乙二人工资之差:3000-1500=1500元特征:(1)除了能够区分类别、排序、比较大小、求出大小差异外,还可以计算两个测度值之间的比值,不仅可以进行定距尺度所能够进行的所有运算,而且在此基础上还增加了乘、除的数学运算功能。(2)具有绝对零点,“0”表示“没有”或“不存在”。

二人工资之比:3000÷1500=2(倍)

四种计量尺度的比较:

在统计分析中,一般要求测量的层次越高越好。二、数据的类型1.数据的类型和分析方法

统计数据是采用某种计量尺度对数据进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据。根据以上四种计量尺度的结果可以将统计数据分成三种类型:

定类数据、定序数据、数值型数据

前两者可以统称为定性数据或品质数据;后者成为定量数据或数量数据。

数据的计量和类型提问:以男女代号分别为0、1,那么这样的数据到底是什么数据?

数据的计量和类型区别的法则是能不能做加减法二、数据的类型2.变量及其类型变量:是说明现象某种特征的概念。变量最基本的特点是在同一总体的不同单位上可取不同的数值,以及同一总体相同单位在不同时间上可取不同的数值,即变量的变异性,或差异性特征。变量的类型:定类变量、定序变量、数值型变量(离散变量、连续变量)

数据的计量和类型一、品质数据的描述二、数据的类型品质数据的图示三、品质数据的分布特征描述

第二节品质数据的描述一、品质数据的描述1.频数:是落在某一特定类别(或组)中的数据的个数。把各个类别及其相应的频数全部列出来则形成频数分布。

频率:把各组的频数与全部频数之和求得的比值,称之为频率。

品质数据的描述一、品质数据的描述2.比例:是一个总体(或样本)中各个部分的数据与全部数据之比,通常用于反映总体(或样本)的构成。

品质数据的描述一、品质数据的描述3.百分比或百分数:是将比例乘以100%得到的数值。是将对比的技术划为100而计算得到的,它表示每100个分母中拥有多少个分子。

品质数据的描述一、品质数据的描述4.比率:是总体中不同类别数值之间的比值。它可以是一个总体(或样本)中个不同部分的数量对比。可以以1作为基数,也可以以100为基数。

品质数据的描述一、品质数据的描述5.累计频数:是将各类别的频数逐级累加得到的频数。有向上累积和向下累积两种方式。

品质数据的描述品质数据的描述家庭人口频数频率向上累积向下累积频数频率频数频率172.75%72.75%255100%23814.90%4517.65%24897.25%310541.18%15058.83%21082.3545421.18%20480.00%10541.17%53112.16%23592.16%5120%6207.84%255100%207.84%合计255100%—100%—二、品质数据的图示1.条形图:是用宽度相同的条形的高度或长短来表示数据变动的图形,横置的称为带形图,纵置的称为柱形图(直方图)。

品质数据的描述柱形图(直方图)二、品质数据的图示2.饼图:又称圆图,是以圆的整体面积代表被研究现象的总体,按各构成部分占总体比重的大小把面积分割成若干扇形,用以表示现象的部分对总体的比例关系统计图,主要表示结构性问题。

品质数据的描述饼图二、品质数据的图示3.折线图:折线图是用直线段将各数据点连接起来而组成的图形,以折线方式显示数据的变化趋势。折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。

品质数据的描述折线图品质数据的描述品质数据的描述三、品质数据的分布特征描述1.集中趋势值①众数:该变量出现次数最多的取值,记为Mo。例:对报名参加全国奥林匹克数学竞赛的47名学生的出生省份进行调查,调查结果见下表:出生省份人数辽宁1北京7湖北10江苏8浙江5安徽2上海8广东6合计47②中位数:是一组数据排序后处于中间位置上的变量值,记为Me。

Me50%50%中位数n为奇数n为偶数例2.2在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元)。要求计算人均月收入的中位数。7507801080850960200012501630解:将上面的数据按从小到大排列,如下:78085096010801250150016302000③四分位数:是一组数据排序后处于25%和75%位置上的变量值,记为QL和QU。

QLQMQU25%25%25%25%下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4

(7个数据的算例)原始数据:2321 3032 282526排序:21232526283032位置:1 23 4567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30

(6个数据的算例)原始数据:

232130 282526排序:212325262830位置:12 34 56QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)

=28.5三、品质数据的分布特征描述2.离散程度测度值①异众比率:非众数组的频数占总频数的比例,计算公式为:其中,表示第i组的频数,表示众数组的频数例2.1对报名参加全国奥林匹克数学竞赛的47名学生的出生省份进行调查,调查结果见下表:出生省份人数辽宁1北京7湖北10江苏8浙江5安徽2上海8广东6合计47异众比率为:三、品质数据的分布特征描述2.离散程度测度值②极差,是变量观测值中最大值与最小值只差,计算公式为:③四分位差:也称为内距或四分间距,是上四分位数与下四分位数的差值计算公式为:一、数值数据的分组二、数值数据的图示三、数值数据的分布特征

第三节数值数据的描述一、数值数据的分组

数值数据的描述为什么要进行数据的分组?品质数据的描述107108108110112112113114115117117117118118118119120120121122122122122123123123123124124124125125126126126127127128128129130131133133134134135139139139某电脑公司50名销售代表某季度电脑销售量按从小到大排序如下表:

数据过多,掩盖数据特征,进行单变量分组得到下表:

50名销售代表的某季度电脑销售量分组表

销售量频数销售量频数销售量频数107111911282108212021291110112111301112212241311113112341332114112431342115112521351117312621371118312731392在数据较多的情况下,单变量分组会使数据较多,仍旧不利于观察数据的特征和规律。

因此我们采用组距分组一、数值数据的分组组距分组:是将全部变量依次划分为若干小区间,并将这一区间的变量值作为一组的分组方法。在组距分组中,一个组的最小值成为下限,最大值成为上限

数值数据的描述数值数据的描述按电脑销售量分组(个)频数(人)频率(%)105~11036110~115510115~120816120~1251428125~1301020130~135612135~14048合计5010050名销售代表的某季度电脑销售量分组表

一、数值数据的分组组距分组的步骤:第一步:确定组数组数不宜太多也不宜太少,一般5≤K≤15Sturges提出的经验公式确定组数:

如:K=1+lg50/lg2=7

数值数据的描述一、数值数据的分组第二步:确定各组的组距组距:是一个组的上限和下限差,可根据全部数据的最大值和最小值确定。

组距=(最大值-最小值)÷组数如:(139-107)÷7=4.6

因此组距可以取到5

数值数据的描述一、数值数据的分组第三步:根据分组整理成频数分布表

数值数据的描述按电脑销售量分组(个)频数(人)频率(%)105~11036110~115510115~120816120~1251428125~1301020130~135612135~14048合计5010050名销售代表的某季度电脑销售量分组表

①全距与组距②等距与异距③组限与组中值④开口组与闭口组⑤连续组距分组和不连续组距分组重叠组限“上限不在内”原则关于组距式分组的几个问题例:学生按成绩分组(分)

(1)50—6060—70

70—8080—9090—100(2)60以下

60—6970—7980—89

90以上组距=80-70=10上限:80下限:70开口组闭口组组中值组中值组中值重叠组限值70归于70—80组不连续组距式分组连续组距式分组

50—6060—8080—9090—100异距分组最典型的例子:对人口年龄分组0~6岁婴幼儿组7~17岁少年儿童组18~59岁中青年组60岁以上老年组

二、数值数据的图示1.直方图:用矩形的宽度和高度来表示频数分布的图形。

数值数据的描述等距分组不等距分组数值数据的描述等距分组

如果是异距分组,则各组次数的数值受组距不同的影响。在研究各组次数的实际分布时,要消除组距不同的影响,要按次数密度来看实际的次数分布情况。例如:按照次数密度作的直方图如下:二、数值数据的图示2.折线图:在直方图的基础上,把直方图顶部的中点用直线连接起来形成的。

二、数值数据的图示3.盒形图:又称箱线图,构成如下:

数值数据的描述中位数4681012QUQLX最大值X最小值最小值107最大值139中位数123下四分位数117.75上四分位数12810511011512012513013514050名工人日加工零件数的箱线图二、数值数据的图示4.茎叶图:由频数、茎和叶构成,茎表示数值的整数部分,叶表示数值的小数部分。

数值数据的描述树茎树叶7880223477788890012222333344466777889013344579910111213数据个数3132410茎叶图类似横置的直方图茎叶图单位:万个某车间工人月加工零件数的茎叶图三、数值数据的分布特征描述1.集中趋势测度值均值:均值是反映数据分布集中趋势十分重要的数据,代表总体单位某一标志值的一般水平。例如:某市中学生每周平均上网时间为2.8小时。某农贸市场2月份牛肉的平均价格为16元/千克。某地区“十五”期间经济平均增长率为9.6%

数值数据的描述常用的几种平均数概念 计算公式 特点 优点:①容易理解,便于计算②灵敏度高③稳定性好④和

缺点:

①易受极值影响1.算术平均数()标志总量与总体单位总数的比值 简单:加权:算术平均数的计算简单算术平均数:

总体平均数

样本平均数简单均值

(算例)原始数据: 10 5 9 13 6 8简单均值

(算例)简单均值

(算例)原始数据: 10 5 9 13 6 8算术平均数的计算

加权算术平均数:是对每个数据都根据其在全组中的重要程度赋予一定权重后得到的算术平均数。

计算公式:

(1)未分组数据

其中,

Fi表示权重。

例:根据某公司四个品牌数码相机的销售资料计算平均利润率。

四个品牌数码相机的利润率和销售额资料所以,四个品牌数码相机的平均销售利润率为:

因为:

⑵分组的加权平均数其中,

Xi表示各组的变量值(组距式数列的组中值);Fi表示各组变量值出现的频数(即权数)。表2-1某车间50名工人日加工零件均值计算表按零件数分组组中值(Xi)频数(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计—506160.0例:根据表2-1中的数据,计算50名工人日加工零件数的均值常用的几种平均数概念 计算公式 特点 优点:①灵敏度高②在某种不能计算的条件下,可以代替

缺点:①不易理解②易受极值影响

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论