版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 描述统计是通过图表或数学方法,对描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进布状态、数字特征和随机变量之间关系进行估计和描述的方法行估计和描述的方法 一、数据的计量尺度一、数据的计量尺度 二、数据的类型二、数据的类型 一、数据的计量尺度一、数据的计量尺度1.定类尺度:定类尺度:又称为类别尺度或列名尺度,又称为类别尺度或列名尺度,它是按照事物的某种属性对其进行平行的分它是按照事物的某种属性对其进行平行的分类。定类尺度是最粗略、计算层次最低的计类。定类尺度是最粗略、计算层次最低的计量尺度。量尺度。 性
2、别性别种族种族运动项目运动项目 定类尺度只能按照事物及其现象的某种属定类尺度只能按照事物及其现象的某种属性对其进行平行的分类或分组。例如车牌号、性对其进行平行的分类或分组。例如车牌号、学生的学号、运动员号码、身份证号码、人员学生的学号、运动员号码、身份证号码、人员性别、企业类别等等性别、企业类别等等。特征:特征:(1)只能区分事物的类别,无法比较类别)只能区分事物的类别,无法比较类别间大小,定类尺度只具有间大小,定类尺度只具有“=”和和“”运算,运算,“=”具有传递性。具有传递性。(2)对事物的区分必须符合穷尽和互斥的)对事物的区分必须符合穷尽和互斥的要求。要求。(3)对定类尺度数据进行分析的
3、统计量主)对定类尺度数据进行分析的统计量主要是频数或者频率,或是众数和进行列联分要是频数或者频率,或是众数和进行列联分析。析。 一、数据的计量尺度一、数据的计量尺度2.定序尺度:定序尺度:又称为顺序尺度或有序水平,又称为顺序尺度或有序水平,是对事物之间等级差或顺序差别的一种测度。是对事物之间等级差或顺序差别的一种测度。由其构成的量表一般称为顺序量表。由其构成的量表一般称为顺序量表。 定序尺度不仅可以将事物分成不同的类别,定序尺度不仅可以将事物分成不同的类别,还可以确定这些类别的优劣或顺序,例如军阶、还可以确定这些类别的优劣或顺序,例如军阶、职称、工资级别、产品质量等级、受教育水平职称、工资级别
4、、产品质量等级、受教育水平等。等。大学生大学生中学生中学生小学生小学生特征:特征:(1)不仅能区分事物的类型,而且能够比较各类)不仅能区分事物的类型,而且能够比较各类型间的优劣和顺序,不仅可运算型间的优劣和顺序,不仅可运算“=”、“ ”,而且可以运算而且可以运算“ ”或或“”。但不能测量出类但不能测量出类别之间的准确差距,不能进行加减乘除的运算。别之间的准确差距,不能进行加减乘除的运算。 。(2)对事物的区分同样要求穷尽和互斥。)对事物的区分同样要求穷尽和互斥。(3)对定序尺度数据进行分析的统计量主要是频)对定序尺度数据进行分析的统计量主要是频数和数和累积累积频数,或者频率和频数,或者频率和累
5、积累积频率。频率。 一、数据的计量尺度一、数据的计量尺度3.定距尺度:定距尺度:又称为间隔尺度或间隔水平,又称为间隔尺度或间隔水平,是对事物类别或者次序之间间距进行的一种是对事物类别或者次序之间间距进行的一种测度,由其构成的量表一般称为间隔量表或测度,由其构成的量表一般称为间隔量表或间距量表。间距量表。 常见的用定距尺度来测度的有考试成绩、常见的用定距尺度来测度的有考试成绩、各种心理测试的得分、某个地区的温度等。各种心理测试的得分、某个地区的温度等。天气预报:南京:最高温度天气预报:南京:最高温度3 苏州:最高温度苏州:最高温度6特征:特征:(1)不仅能区分事物的类别、进行排序、比较大)不仅能
6、区分事物的类别、进行排序、比较大小,而且还可以精确地计算大小的差异,可以进小,而且还可以精确地计算大小的差异,可以进行加减运算,但不可以进行乘除运算。行加减运算,但不可以进行乘除运算。(2)没有绝对零点,即可以以任何一个)没有绝对零点,即可以以任何一个0为起点,为起点,“0”不表示不表示“没有没有”或或“不存在不存在”。 两地最高温度相差两地最高温度相差3南京最高温度较苏州最高温度低南京最高温度较苏州最高温度低3苏州最高温度是南京最高温度的苏州最高温度是南京最高温度的2倍倍 一、数据的计量尺度一、数据的计量尺度4.定比尺度:定比尺度:又称为比例尺度或是比较水平,又称为比例尺度或是比较水平,是对
7、事物之间比值的一种测度,它是最高层是对事物之间比值的一种测度,它是最高层次的测量,可用于参数和非参数统计推断。次的测量,可用于参数和非参数统计推断。它是与定距尺度属于同一层次的一种计量尺它是与定距尺度属于同一层次的一种计量尺度,但其功能比定距尺度更强一些。度,但其功能比定距尺度更强一些。 在日常生活中,大多数情况下使用的都是在日常生活中,大多数情况下使用的都是定比尺度。例如,年龄、收入、某地区每年的定比尺度。例如,年龄、收入、某地区每年的失业人数、罪犯人数等。失业人数、罪犯人数等。3000元元工资工资1500元元工资工资甲甲乙乙二人工资二人工资 之差:之差:3000-1500=1500元元 特
8、征:特征:(1)除了能够区分类别、排序、比较大小、求出)除了能够区分类别、排序、比较大小、求出大小差异外,还可以计算两个测度值之间的比值,大小差异外,还可以计算两个测度值之间的比值,不仅可以进行定距尺度所能够进行的所有运算,不仅可以进行定距尺度所能够进行的所有运算,而且在此基础上还增加了乘、除的数学运算功能。而且在此基础上还增加了乘、除的数学运算功能。(2)具有绝对零点,)具有绝对零点,“0”表示表示“没有没有”或或“不不存在存在”。 二人工资之比:二人工资之比: 30001500=2(倍)(倍) 四种计量尺度的比较:四种计量尺度的比较: 在统计分析中,一般要求测量的层次越高越好。在统计分析中
9、,一般要求测量的层次越高越好。 二、数据的类型二、数据的类型1.数据的类型和分析方法数据的类型和分析方法 统计数据是采用某种计量尺度对数据进行统计数据是采用某种计量尺度对数据进行计量的结果,采用不同的计量尺度会得到不同计量的结果,采用不同的计量尺度会得到不同类型的统计数据。根据以上四种计量尺度的结类型的统计数据。根据以上四种计量尺度的结果可以将统计数据分成三种类型:果可以将统计数据分成三种类型: 定类数据、定类数据、 定序数据、定序数据、 数值型数据数值型数据 前两者可以统称为定性数据或品质数据;前两者可以统称为定性数据或品质数据;后者成为定量数据或数量数据。后者成为定量数据或数量数据。 提问
10、:提问:以男女代号分别为以男女代号分别为0、1,那么这样的数据到底,那么这样的数据到底是什么数据?是什么数据? 区别的法则是能不能做加减法区别的法则是能不能做加减法二、数据的类型二、数据的类型2.变量及其类型变量及其类型变量:变量:是说明现象某种特征的概念。变量最基是说明现象某种特征的概念。变量最基本的特点是在同一总体的不同单位上可取不同本的特点是在同一总体的不同单位上可取不同的数值,以及同一总体相同单位在不同时间上的数值,以及同一总体相同单位在不同时间上可取不同的数值,即变量的变异性,或差异性可取不同的数值,即变量的变异性,或差异性特征。特征。变量的类型:变量的类型:定类变量、定序变量、定类
11、变量、定序变量、数值型变量(离散变量、连续变量)数值型变量(离散变量、连续变量) 一、品质数据的描述一、品质数据的描述二、数据的类型品质数据的图示二、数据的类型品质数据的图示三、品质数据的分布特征描述三、品质数据的分布特征描述 一、品质数据的一、品质数据的 描述描述1.频数频数:是落在某一特定类别(或组)中的:是落在某一特定类别(或组)中的数据的个数。把各个类别及其相应的频数全数据的个数。把各个类别及其相应的频数全部列出来则形成频数分布。部列出来则形成频数分布。 频率:把各组的频数与全部频数之和求得频率:把各组的频数与全部频数之和求得的比值,称之为频率。的比值,称之为频率。 一、品质数据的一、
12、品质数据的 描述描述2.比例比例:是一个总体(或样本)中各个部分:是一个总体(或样本)中各个部分的数据与全部数据之比,通常用于反映总体的数据与全部数据之比,通常用于反映总体(或样本)的构成。(或样本)的构成。 一、品质数据的一、品质数据的 描述描述3.百分比或百分数百分比或百分数:是将比例乘以:是将比例乘以100%得到得到的数值。是将对比的技术划为的数值。是将对比的技术划为100而计算得到而计算得到的,它表示每的,它表示每100个分母中拥有多少个分子。个分母中拥有多少个分子。 一、品质数据的一、品质数据的 描述描述4.比率:比率:是总体中不同类别数值之间的比值。是总体中不同类别数值之间的比值。
13、它可以是一个总体(或样本)中个不同部分它可以是一个总体(或样本)中个不同部分的数量对比。可以以的数量对比。可以以1作为基数,也可以以作为基数,也可以以100为基数。为基数。 一、品质数据的一、品质数据的 描述描述5.累计频数:累计频数:是将各类别的频数逐级累加得是将各类别的频数逐级累加得到的频数。有到的频数。有向上累积向上累积和和向下累积向下累积两种方式。两种方式。 二、品质数据的二、品质数据的 图示图示1.条形图条形图:是用宽度相同的条形的高度或长:是用宽度相同的条形的高度或长短来表示数据变动的图形,横置的称为带形短来表示数据变动的图形,横置的称为带形图,纵置的称为柱形图(直方图)。图,纵置
14、的称为柱形图(直方图)。 柱形图(直方图)柱形图(直方图)二、品质数据的二、品质数据的 图示图示2.饼图饼图:又称圆图,是以圆的整体面积代表:又称圆图,是以圆的整体面积代表被研究现象的总体,按各构成部分占总体比被研究现象的总体,按各构成部分占总体比重的大小把面积分割成若干扇形,用以表示重的大小把面积分割成若干扇形,用以表示现象的部分对总体的比例关系统计图,主要现象的部分对总体的比例关系统计图,主要表示结构性问题。表示结构性问题。 饼图饼图二、品质数据的二、品质数据的 图示图示3.折线图折线图:折线图是用直线段将各数据点连:折线图是用直线段将各数据点连接起来而组成的图形,以折线方式显示数据接起来
15、而组成的图形,以折线方式显示数据的变化趋势。折线图可以显示随时间(根据的变化趋势。折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。常适用于显示在相等时间间隔下数据的趋势。 折线图三、品质数据的三、品质数据的 分布特征描述分布特征描述1.集中趋势值集中趋势值众数众数:该变量出现次数最多的取值,记为:该变量出现次数最多的取值,记为Mo 。例例: 对报名参加全国奥林匹克数学竞赛的对报名参加全国奥林匹克数学竞赛的47名学生的出生省份进行调查,调查结果见下名学生的出生省份进行调查,调查结果见下表:表:出生省份出
16、生省份人数人数辽宁1北京7湖北10江苏8浙江5安徽2上海8广东6合计47中位数中位数:是一组数据排序后处于中间位置:是一组数据排序后处于中间位置上的变量值,记为上的变量值,记为Me。 中中位位数数n为奇数为奇数12nx22(1)2nnxxn为偶数为偶数例例2.2 在某城市中随机抽取在某城市中随机抽取9个家庭,调查得个家庭,调查得到每个家庭的人均月收入数据如下(单位:到每个家庭的人均月收入数据如下(单位:元)。要求计算人均月收入的中位数。元)。要求计算人均月收入的中位数。1500 750 780 1080 850960 2000 1250 1630解:将上面的数据按从小到大排列,如下:解:将上面
17、的数据按从小到大排列,如下:750 780 850 960 1080 1250 1500 1630 2000四分位数四分位数:是一组数据排序后处于:是一组数据排序后处于25%和和75%位置上的位置上的变量值,记为变量值,记为QL和和QU 。 三、品质数据的三、品质数据的 分布特征描述分布特征描述2.离散程度测度值离散程度测度值异众比率:非众数组的频数占总频数的比异众比率:非众数组的频数占总频数的比例,计算公式为:例,计算公式为:1immriifffVff 其中,其中, 表示第表示第i组的频数,组的频数, 表示众数组的频数表示众数组的频数ifmf例例2.1 对报名参加全国奥林匹克数学竞赛的对报名
18、参加全国奥林匹克数学竞赛的47名学生的出生省份进行调查,调查结果见名学生的出生省份进行调查,调查结果见下表:下表:出生省份出生省份人数人数辽宁1北京7湖北10江苏8浙江5安徽2上海8广东6合计47异众比率为:异众比率为:103714747三、品质数据的三、品质数据的 分布特征描述分布特征描述2.离散程度测度值离散程度测度值极差,是变量观测值中最大值与最小值只极差,是变量观测值中最大值与最小值只差,计算公式为:差,计算公式为:四分位差:也称为内距或四分间距,是四分位差:也称为内距或四分间距,是上四分位数与下四分位数的差值计算公式上四分位数与下四分位数的差值计算公式为:为:max( )min( )
19、iiRxxdULQQQ一、数值数据的分组一、数值数据的分组二、数值数据的图示二、数值数据的图示三、数值数据的分布特征三、数值数据的分布特征 一、数值数据的一、数值数据的 分组分组 为什么要进行数据的分组?为什么要进行数据的分组?107108108110112112113114115117117117118118118119120120121122122122122123123123123124124124125125126126126127127128128129130131133133134134135139139139某电脑公司某电脑公司50名销售代表某季度电脑销售量按从小名销售代表某季度
20、电脑销售量按从小到大排序如下表:到大排序如下表: 数据过多,掩盖数据特征,进行单变量分组数据过多,掩盖数据特征,进行单变量分组得到下表:得到下表: 50名销售代表的某季度电脑销售量分组表名销售代表的某季度电脑销售量分组表 销售量销售量频数频数销售量销售量频数频数销售量销售量频数频数107111911282108212021291110112111301112212241311113112341332114112431342115112521351117312621371118312731392在数据较多的情况下,单变量分组会使数据在数据较多的情况下,单变量分组会使数据较多,仍旧不利于观察数据的
21、特征和规律。较多,仍旧不利于观察数据的特征和规律。 因此我们采用组距分组因此我们采用组距分组一、数值数据的一、数值数据的 分组分组组距分组组距分组:是将全部变量依次划分为若干小:是将全部变量依次划分为若干小区间,并将这一区间的变量值作为一组的分区间,并将这一区间的变量值作为一组的分组方法。组方法。在组距分组中,一个组的最小值成为下限,在组距分组中,一个组的最小值成为下限,最大值成为上限最大值成为上限 按电脑销售量分组(个)按电脑销售量分组(个)频数(人)频数(人)频率(频率(%)1051103611011551011512081612012514281251301020130135612135
22、14048合计5010050名销售代表的某季度电脑销售量分组表名销售代表的某季度电脑销售量分组表 一、数值数据的一、数值数据的 分组分组组距分组的步骤:组距分组的步骤:第一步:确定组数第一步:确定组数组数不宜太多也不宜太少,一般组数不宜太多也不宜太少,一般 5 K 15Sturges提出的经验公式确定组数:提出的经验公式确定组数: 如:如:K=1+lg50/lg2=7 lg1lg2nK 一、数值数据的一、数值数据的 分组分组第二步:确定各组的组距第二步:确定各组的组距组距组距:是一个组的上限和下限差,可根据全:是一个组的上限和下限差,可根据全部数据的最大值和最小值确定。部数据的最大值和最小值确
23、定。 组距组距=(最大值最小值)(最大值最小值)组数组数如:如:(139107) 7=4.6 因此组距可以取到因此组距可以取到5 一、数值数据的一、数值数据的 分组分组第三步:根据分组整理成频数分布表第三步:根据分组整理成频数分布表 按电脑销售量分组(个)按电脑销售量分组(个)频数(人)频数(人)频率(频率(%)105110361101155101151208161201251428125130102013013561213514048合计5010050名销售代表的某季度电脑销售量分组表名销售代表的某季度电脑销售量分组表 全距与组距全距与组距等距与异距等距与异距组限与组中值组限与组中值开口组与
24、闭口组开口组与闭口组 连续组距分组连续组距分组 和不连续组距分组和不连续组距分组 重叠组限重叠组限 “上限不在内上限不在内”原则原则 关于组距式分组的几个问题关于组距式分组的几个问题例:学生按成绩分组(分)例:学生按成绩分组(分) (1)5060 6070 7080 8090 90100(2)60以下以下 6069 7079 8089 90以上以上组距=80-70=10上限:80下限:70开口组闭口组组中值组中值75270805 .552960组中值5 .942990重叠组限值70归于7080组不连续组距式分组连续组距式分组 5060 6080 8090 90100异距分组最典型的例子:异距分
25、组最典型的例子:对人口年龄分组对人口年龄分组0 6岁岁 婴幼儿组婴幼儿组7 17岁岁 少年儿童组少年儿童组18 59岁岁 中青年组中青年组60 岁以上岁以上 老年组老年组 二、数值数据的二、数值数据的 图示图示1.直方图直方图:用矩形的宽度和高度来表示频数:用矩形的宽度和高度来表示频数分布的图形。分布的图形。 等距分组等距分组不等距分组不等距分组等距分组等距分组家庭人均生活费收入次数分布图571086321302468101214月收入户数8001 00010001 20012001 40014001 60016001 80018002 00020002 20022002 400如果是异距分组
26、,则各组次数的数值受组距不同如果是异距分组,则各组次数的数值受组距不同的影响。在研究各组次数的实际分布时,要消除的影响。在研究各组次数的实际分布时,要消除组距不同的影响,要按次数密度来看实际的次数组距不同的影响,要按次数密度来看实际的次数分布情况。例如:分布情况。例如:按照次数密度作的直方图如下:按照次数密度作的直方图如下: 二、数值数据的二、数值数据的 图示图示2.折线图折线图:在直方图的基础上,把直方图顶:在直方图的基础上,把直方图顶部的中点用直线连接起来形成的。部的中点用直线连接起来形成的。 二、数值数据的二、数值数据的 图示图示3.盒形图盒形图:又称箱线图,构成如下:又称箱线图,构成如
27、下: 二、数值数据的二、数值数据的 图示图示4.茎叶图茎叶图:由频数、茎和叶构成,茎表示数:由频数、茎和叶构成,茎表示数值的整数部分,叶表示数值的小数部分。值的整数部分,叶表示数值的小数部分。 三、数值数据的分布特征描述三、数值数据的分布特征描述1.集中趋势测度值集中趋势测度值均值均值:均值是反映数据分布集中趋势十分重:均值是反映数据分布集中趋势十分重要的数据,代表总体单位某一标志值的一般要的数据,代表总体单位某一标志值的一般水平。水平。例如:例如:某市中学生每周平均上网时间为某市中学生每周平均上网时间为2.8小时。小时。某农贸市场某农贸市场2月份牛肉的平均价格为月份牛肉的平均价格为16元元/
28、千千克。克。某地区某地区“十五十五”期间经济平均增长率为期间经济平均增长率为9.6% 常用的几种平均数常用的几种平均数概概 念念 计算计算 公公 式式 特特 点点优点:优点: 容易理解,便于计算容易理解,便于计算 灵敏度高灵敏度高 稳定性好稳定性好 和和 缺点:缺点: 易受极值影响易受极值影响1. 算术平均数算术平均数( )标志总量与标志总量与总体单位总总体单位总数的比值数的比值简单:简单:加权:加权:xnxxiiiiffxx最小2xx0 xx112niinXXXXXnn112NiiNXXXXNN Fi 四个品牌数码相机的利润率和销售额资料四个品牌数码相机的利润率和销售额资料1137.246.
29、3%590kiiikiiw XXw销售总额利润总额商品销售利润率1137246.3%590iniiwniiw XXwX Xi iF Fi i表表2-1 某车间某车间50名工人日加工零件均值计算表名工人日加工零件均值计算表按零件数分组按零件数分组组中值(组中值(Xi)频数(频数(Fi)XiFi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计合计506160.0常用的几种平均数常用的几种平均数概概 念念 计算计算 公公 式式 特特 点点优点:优点:灵敏度高灵敏度高在某种不能计算的条件在某种不能计算的条件下,可以代替下,可以代替 缺点:缺点:不易理解不易理解 易受极值影响易受极值影响 有有“ 0”值时不能计算值时不能计算 2. 调和平均数调和平均数( )标志值倒数标志值倒数平均数的倒平均数的倒数数Hx/iHiXiMxM某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格(元元/公斤公斤) Xi成交额成交额(元元) Mi=XiFi成交量成交量(公斤公斤)Fi甲甲
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度环保节能设备全国独家代理销售合同范本
- 2025年心理咨询服务合同(离婚辅导)3篇
- 中期个人住房购买贷款合同(2024版)版B版
- 二零二五版企业代账服务与税务筹划合同2篇
- 2025年湘师大新版选择性必修1地理上册月考试卷
- 机床产品质量监督抽查实施细则
- 2024年贵州建设职业技术学院高职单招语文历年参考题库含答案解析
- 2025年北师大版七年级历史上册月考试卷含答案
- 2024版员工加班费计算合同3篇
- 2024年物业管理费收取标准租赁合同范本3篇
- 《世界史通史温习》课件
- 第2课 各种各样的运动(说课稿)-2023-2024学年三年级下册科学教科版
- 股权质押权借款合同模板
- 2025年中国社区团购行业发展环境、运行态势及投资前景分析报告(智研咨询发布)
- 建材行业绿色建筑材料配送方案
- 使用错误评估报告(可用性工程)模版
- 放射性药物专题知识讲座培训课件
- 山西省2023年中考道德与法治真题试卷(含答案)
- 国货彩瞳美妆化消费趋势洞察报告
- 云南省就业创业失业登记申请表
- UL_标准(1026)家用电器中文版本
评论
0/150
提交评论