版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本资料来源本资料来源1第2章统计数据的描述PowerPoint统计学第2章统计数据的描述PowerPoint统计学22.1数据的整理是统计调查的继续,统计分析的前提和基础
将统计调查得到的数据进行加工整理,使其系统化、条理化,符合分析的需要。2.1数据的整理是统计调查的继续,统计分析的前提和基础3统计数据的预处理统计分组制作统计表或统计图统计整理的步骤统计数据的预处理统计分组制作统计表或统计图统计整理的步骤42.1.1统计数据的分组1、统计分组含义按某个标志把总体划分为若干组,称为统计分组。分组标志是划分数据的标准或依据分组的性质来:兼有分和合双重含义。2、统计分组的原则穷尽原则互斥原则2.1.1统计数据的分组1、统计分组含义53、统计分组方法
品质标志分组数量标志分组3、统计分组方法
6品质分组品质标志:性别、职业、所有制等。分组标志一经确定,组名和组数也随之确定
品质分组所形成的数列称为品质数列品质分组7如不同品牌饮料市场占有率饮料品牌人数百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119693022181218合计50100如不同品牌饮料市场占有率饮料品牌人数百分比(%)可口可乐158数量标志分组
首先,各组数量界限的确定必须能反映事物质的差别。其次,应根据总体的数量特征,采用适当的分组形式。数量标志:年龄、产量、利润等。
数量标志分组数量标志:年龄、产量、利润等。9变量(数量标志)分组单变量值分组组距分组变量(数量标志)分组单变量值分组组距分组10单变量值分组
(要点)1.将一个变量值作为一组2.适合于变量值较少的离散变量单变量值分组
(要点)1.将一个变量值作为一组11组距分组
(要点)将变量值的一个区间作为一组适合于连续变量和变量值较多的离散变量。需要遵循“不重不漏”的原则有等距分组和不等距分组~~~~~组距分组
(要点)将变量值的一个区间作为一组~12组距分组
(几个概念)1.下限(lowlimit):2.上限(upperlimit):3.组距(classwidth):4.组中值(classmidpoint):开口组的组距:以相邻组的组距代替。常以组中值来代表各组平均水平。组距分组
(几个概念)13组距分组
(步骤)确定组数:斯特杰斯经验公式:组数=1+3.3LgN确定组距:(ClassWidth)
组距=(最大值-最小值)÷组数统计出各组的频数并整理成频数分布表组距分组
(步骤)确定组数:确定组距:(ClassWid142.1.2次数分配P17在分组的基础上,将所有单位归类并列出每一组的次数,称为次数分布或频数分布。次数分布数列的两个要素1)按某标志所分的组。2)各组所出现的单位数,即频数,亦称次数。一般用x表示变量;用f表示频数(次数)。
2.1.2次数分配P17在分组的基础上,将所有152.1.3次数分配图Excel分组数据—直方图和折线图2.1.3次数分配图Excel分组数据—直方图和16用直方形的宽度和高度来表示次数分布的图形。绘制直方图时,横轴表示各组组限,纵轴表示次数(一般标在左方)和比率(或频率,一般标在右方)。用直方形的宽度和高度来表示次数分布的图形。17分组数据的图示
140150210直方图下的面积之和等于1某电脑公司销售量分布的直方图我一眼就看出来了,销售量在170~180之间的天数最多!190200180160170频数(天)25201510530220230240分组数据的图示
140150210直方图下的面积之和等于1某18折线图:折线图可以在直方图的基础上,用折线将各组次数高度的坐标连接而成,也可以用组中值与次数求坐标点连接而成折线图:折线图可以在直方图的基础上,用折线将各组次数高度的坐19分组数据的图示
(折线图的绘制)折线图与直方图下的面积相等!140150210某电脑公司销售量分布的折线图190200180160170220230240频数(天)25201510530分组数据的图示
(折线图的绘制)折线图与直方图140150220曲线图:用平滑曲线连接各组次数坐标点即得分布曲线。曲线图:用平滑曲线连接各组次数坐标点即得分布曲线。21频数分布的类型对称分布右偏分布左偏分布正J型分布反J型分布U型分布几种常见的频数分布频数分布的类型对称分布右偏分布左偏分布正J型分布反J型分布U222.1.4洛伦茨曲线与基尼系数2.1.4洛伦茨曲线与基尼系数23洛伦茨曲线20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家巴雷特(V.Pareto)提出的收入分配公式绘制而成描述收入和财富分配性质的曲线分析该国家或地区分配的平均程度
AB累积的人口百分比累积的收入百分比绝对公平线洛伦茨曲线20世纪初美国经济学家、统计学家洛伦茨(M.E.24基尼系数
20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡收入分配平均程度的指标
A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积AB基尼系数20世纪初意大利经济学家基尼(G.Gini)根据25如果A=0,则基尼系数=0,表示收入绝对平均如果B=0,则基尼系数=1,表示收入绝对不平均基尼系数在0和1之间取值一般认为,基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。如果A=0,则基尼系数=0,表示收入绝对平均262.2集中趋势的测度一.众数二.中位数和分位数三.均值四.众数、中位数和均值的比较2.2集中趋势的测度一.众数27集中趋势
(centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值集中趋势
(centraltendency)一组数据向其中282.2.1众数
(mode)集中趋势的测度值之一出现次数最多的变量值不受极端值的影响可能没有众数或有几个众数2.2.1众数
(mode)集中趋势的29众数
(不唯一性)无众数
原始数据:10591268一个众数
原始数据:659855多于一个众数
原始数据:252828364242众数
(不唯一性)无众数
原始数据:105912301、由单项数列求众数
某车间工人日产情
日产量(件)人数(人)11501260139014251515合计2401、由单项数列求众数
312.由组距数列计算
首先确定次数最多的组,即众数组,然后,用公式计算。
下限公式:
上限公式:2.由组距数列计算
首先确定次数最多的组,即众数组,然后,用322.2.2中位数
(median)排序后处于中间位置上的值Me50%50%不受极端值的影响2.2.2中位数
(media331、由未分组资料计算中位数1、由未分组资料计算中位数34
设有六个工人的日产量(件)依次排列为10、11、
12,13、14、15、则:
中位数位次=(n+1)/2
=6+1/2=3.5
设有六个工人的日产量(35(1)由单项数列求中位数2、由分组资料计算中位数:
(1)由单项数列求中位数2、由分组资料计算中位数:
36例10:某生产车间120名工人生产某种零件的日产
量如下表所示,计算该车间工人日产量的中位数。按日产量分组(件)工人数(人)累计次数(向上)20222426303233101225301815101022477795110120合计120—例10:某生产车间120名工人生产某种零件的日产
量如下表所372.由组距数列求中位数,
下限公式:L为中位数所在组下限为中位数所在组以前各组的累计次数为中位数所在组的次数2.由组距数列求中位数,
下限公式:L为中位数所在组下限为中38从某单位抽查800户,取得人均收入资料如下表,
计算该单位人均收入的中位数。人均收入(元)户数(户)累计次数400-500500-600600-700700-800800-900900-10001000以上5451004301684210550150580748790800合计800——从某单位抽查800户,取得人均收入资料如下表,
计算该单位人39中位数位次=∑f/2=800/2=400,中位数组
在700-800这一组中。由下限公式
中位数位次=∑f/2=800/2=400,中位数组
在70040中位数的性质:数据值与中位数之差的绝对值最小.中位数的性质:412.2.3四分位数
(quartile)1. 排序后处于25%和75%位置上的值QLQMQU25%25%25%25%2.2.3四分位数
(q42四分位数
未分组数据:四分位数
未分组数据:432.2.4均值
(mean)1. 集中趋势的最常用的测度值2.2.4均值
(mean)1. 集中44简单算术平均数(simplemean)简单算术平均数(simplemean)45加权算术平均数
(weightedmean)设一组数据为:x1,x2,…,xn相应的频数为:f1,f2,…,fk加权算术平均数
(weightedmean)设一组数据为:46
(例题分析)
(例题分析)47统计学之统计数据的描述48
(权数对均值的影响)P34甲组:考试成绩(x): 020100人数分布(f):118乙组:考试成绩(x): 020100人数分布(f):811
(权数对均值的影响)P34甲组:考试成绩(x): 49算术平均数
(数学性质)1. 各变量值与均值的离差之和等于零
2.各变量值与均值的离差平方和最小算术平均数
(数学性质)1. 各变量值与均值的离差之和等于零50几何平均数
(geometricmean)1.n个变量值乘积的n次方根2.适用于对比率数据的平均3.主要用于计算平均增长率几何平均数
(geometricmean)1.n个变51【例】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率=103.84%-1=3.84%【例】一位投资者持有一种股票,1996年、1997年、19952众数、中位数和均值的比较众数、中位数和均值的比较53众数、中位数和均值的关系左偏分布均值
中位数
众数对称分布
均值=中位数=众数右偏分布众数
中位数均值众数、中位数和均值的关系左偏分布均值中位数众数对称分54众数、中位数和均值的特点和应用众数不受极端值影响具有不唯一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用众数、中位数和均值的特点和应用众数55统计学之统计数据的描述562.3分布离散程度的测度一、极差二、内距三、方差和标准差四、离散系数2.3分布离散程度的测度一、极差57极差
(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布7891078910R
=max(xi)-min(xi)极差
(range)一组数据的最大值与最小值之差78910758内距
(Inter-QuartileRange,IQR)
也称四分位差上四分位数与下四分位数之差
内距=Q3
–Q1反映了中间50%数据的离散程度不受极端值的影响可用于衡量中位数的代表性内距
(Inter-QuartileRange,IQR)59方差和标准差方差和标准差60方差和标准差
(VarianceandStandarddeviation)离散程度最常用的测度值反映了各变量值与均值的平均差异方差和标准差
(VarianceandStandard61总体方差和标准差
(PopulationvarianceandStandarddeviation)未分组数据:组距分组数据:总体方差和标准差
(Populationvariance62样本方差和标准差
(simplevarianceandstandarddeviation)未分组数据:组距分组数据:样本方差和标准差
(simplevarianceand63样本方差P34
自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为n
时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他样本方差P34
自由度(degreeoffreedom64离散系数离散系数65离散系数
(coefficientofvariation)1. 标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较离散系数
(coefficientofvariation66某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)67结论:计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度v1=536.25309.19=0.577v2=32.521523.09=0.710结论:计算结果表明,v1<v2,说明产品销售额的离散程度小682.5统计表与统计图2.5.1统计表把统计数据按一定的顺序排列在表格上,就形成了统计表。2.5统计表与统计图2.5.1统计表69统计表的结构1999~2000年城镇居民家庭抽样调查资料项目单位1999年2000年
调查户数平均每户家庭人口平均每户就业人口平均每户就业面平均一就业者负担人数平均每人全部年收入#可支配收入平均每人消费性支出户人人%元元元元
400443.141.7756.431.775888.775854.024615.91
4222.03.131.6853.671.866316.816279.984998.00资料来源:《中国统计年鉴2001》,中国统计出版社,2001,第305页。注:本表为城市和县城的城镇居民家庭抽样调查材料。
行标题列标题数字资料表头附加统计表的结构1999~2000年城镇居民家庭抽样调查资料项目70统计表的设计
(比较与选用)统计表的设计
(比较与选用)712.5.2统计图2.5.2统计图72数值型数据的图示STATISTICA未分组数据—茎叶图和箱线图数值型数据的图示STATISTICA未分组数据—茎叶图和箱73
74未分组数据—茎叶图
(stem-and-leafdisplay)显示未分组的原始数据的分布由“茎”和“叶”两部分数字组成.以高位数作树茎,低位数作树叶树叶上只保留一位数字未分组数据—茎叶图
(stem-and-leafdispl755.茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息5.茎叶图类似于横置的直方图,但又有区别76未分组数据—茎叶图
(例题分析)未分组数据—茎叶图
(例题分析)77未分组数据—茎叶图
(扩展的茎叶图)未分组数据—茎叶图
(扩展的茎叶图)78未分组数据—箱线图
(boxplot)用于显示未分组的原始数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me
和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接未分组数据—箱线图
(boxplot)用于显示未分组的原始79未分组数据—单批数据箱线图
(箱线图的构成)中位数4681012QUQLX最大值X最小值简单箱线图未分组数据—单批数据箱线图
(箱线图的构成)中位数4681080未分组数据—单批数据箱线图
(例题分析)最小值141最大值237中位数182下四分位数170.25上四分位数197140150160170180190200210220230240某电脑公司销售量数据的箱线图未分组数据—单批数据箱线图
(例题分析)最小值最大值中位数下81分布的形状与箱线图
对称分布QL中位数
QU左偏分布QL中位数
QU右偏分布QL
中位数
QU不同分布的箱线图分布的形状与箱线图对称分布QL中位数QU左偏分布QL82未分组数据—多批数据箱线图
(例题分析)P43【例】
从某大学管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征未分组数据—多批数据箱线图
(例题分析)P43【例】从某83频数分布的类型频数分布的类型84计算分析题
1.某厂400名职工工资如下按月工资分组(元)职工人数(人)450-550550-650650-750750-850850-950601001406040合计400根据上述资料计算该厂职工平均工资和标准差。计算分析题
1.某厂400名职工工资如下按月工资分组(元)职85解:职工人数f组中值xxf60100140604050060070080090030000600009800048000360001944000640005600086400019360004002720005440000解:职工人数f组中值xxf60500300001944000862.某县去年年粮食产量资料如下:按单位面积产量分组(千克/公顷)播种面积比重3000以下3000-37503750-60006000以上0.050.350.400.20根据上表资料计算该县粮食作物平均单位面积产量。2.某县去年年粮食产量资料如下:按单位面积产量分组(千克/公87解:x26253375487571250.050.350.40.2131.251181.251950.001425.001.004687.5解:x26250.05131.251.004687.5883.某地甲、乙两个农贸市场三种主要蔬菜价格及销售资料如下:品种价格(元/千克)甲销售额(万元)乙销售额(万元)ABC0.300.320.3675.040.045.037.580.045.0比较该地区哪个农贸市场蔬菜平均价格高?并说明原因。3.某地甲、乙两个农贸市场三种主要蔬菜价格及销售资料如下:品89解:解:904.某工厂生产一批零件共10万件,为了解这批产品的质量,采取不重复抽样的方法抽取1000件进行检查,其结果如下,根据质量标准,使用寿命800小时及以上者为合格品。计算平均合格率、标准差及标准差系数。使用寿命(小时)零件数(件)700以下700-800800-900900-10001000-12001200-1400106023045019060合计10004.某工厂生产一批零件共10万件,为了解这批产品的质量,采取91统计学之统计数据的描述925、甲、乙两单位工人的生产资料如下:日产量(件人甲单位工人数(人)乙单位总产量(件)112030260120合计180150(1)哪个单位工人的生产水平高?(2)哪个单位工人的生产水平整齐?5、甲、乙两单位工人的生产资料如下:日产量(件人甲单位工人936.甲、乙两班同时对《统计学》课程进行测试,甲班平均成绩为70分,标准差为9.0分;乙班的成绩分组资料如下:
计算乙班学生的平均成绩,并比较甲、乙两班哪个班的平均成绩更有代表性?
6.甲、乙两班同时对《统计学》课程进行测试,甲班平均成绩为7947.有甲、乙两个品种的粮食作物,经播种实验后得知甲品种的平均产量为998斤,标准差为162.7斤;乙品种实验的资料如下:
试研究两个品种的平均亩产量,以确定哪一品种具有较大稳定性,更有推广价值?7.有甲、乙两个品种的粮食作物,经播种实验后
试研究两95演讲完毕,谢谢观看!演讲完毕,谢谢观看!96本资料来源本资料来源97第2章统计数据的描述PowerPoint统计学第2章统计数据的描述PowerPoint统计学982.1数据的整理是统计调查的继续,统计分析的前提和基础
将统计调查得到的数据进行加工整理,使其系统化、条理化,符合分析的需要。2.1数据的整理是统计调查的继续,统计分析的前提和基础99统计数据的预处理统计分组制作统计表或统计图统计整理的步骤统计数据的预处理统计分组制作统计表或统计图统计整理的步骤1002.1.1统计数据的分组1、统计分组含义按某个标志把总体划分为若干组,称为统计分组。分组标志是划分数据的标准或依据分组的性质来:兼有分和合双重含义。2、统计分组的原则穷尽原则互斥原则2.1.1统计数据的分组1、统计分组含义1013、统计分组方法
品质标志分组数量标志分组3、统计分组方法
102品质分组品质标志:性别、职业、所有制等。分组标志一经确定,组名和组数也随之确定
品质分组所形成的数列称为品质数列品质分组103如不同品牌饮料市场占有率饮料品牌人数百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119693022181218合计50100如不同品牌饮料市场占有率饮料品牌人数百分比(%)可口可乐15104数量标志分组
首先,各组数量界限的确定必须能反映事物质的差别。其次,应根据总体的数量特征,采用适当的分组形式。数量标志:年龄、产量、利润等。
数量标志分组数量标志:年龄、产量、利润等。105变量(数量标志)分组单变量值分组组距分组变量(数量标志)分组单变量值分组组距分组106单变量值分组
(要点)1.将一个变量值作为一组2.适合于变量值较少的离散变量单变量值分组
(要点)1.将一个变量值作为一组107组距分组
(要点)将变量值的一个区间作为一组适合于连续变量和变量值较多的离散变量。需要遵循“不重不漏”的原则有等距分组和不等距分组~~~~~组距分组
(要点)将变量值的一个区间作为一组~108组距分组
(几个概念)1.下限(lowlimit):2.上限(upperlimit):3.组距(classwidth):4.组中值(classmidpoint):开口组的组距:以相邻组的组距代替。常以组中值来代表各组平均水平。组距分组
(几个概念)109组距分组
(步骤)确定组数:斯特杰斯经验公式:组数=1+3.3LgN确定组距:(ClassWidth)
组距=(最大值-最小值)÷组数统计出各组的频数并整理成频数分布表组距分组
(步骤)确定组数:确定组距:(ClassWid1102.1.2次数分配P17在分组的基础上,将所有单位归类并列出每一组的次数,称为次数分布或频数分布。次数分布数列的两个要素1)按某标志所分的组。2)各组所出现的单位数,即频数,亦称次数。一般用x表示变量;用f表示频数(次数)。
2.1.2次数分配P17在分组的基础上,将所有1112.1.3次数分配图Excel分组数据—直方图和折线图2.1.3次数分配图Excel分组数据—直方图和112用直方形的宽度和高度来表示次数分布的图形。绘制直方图时,横轴表示各组组限,纵轴表示次数(一般标在左方)和比率(或频率,一般标在右方)。用直方形的宽度和高度来表示次数分布的图形。113分组数据的图示
140150210直方图下的面积之和等于1某电脑公司销售量分布的直方图我一眼就看出来了,销售量在170~180之间的天数最多!190200180160170频数(天)25201510530220230240分组数据的图示
140150210直方图下的面积之和等于1某114折线图:折线图可以在直方图的基础上,用折线将各组次数高度的坐标连接而成,也可以用组中值与次数求坐标点连接而成折线图:折线图可以在直方图的基础上,用折线将各组次数高度的坐115分组数据的图示
(折线图的绘制)折线图与直方图下的面积相等!140150210某电脑公司销售量分布的折线图190200180160170220230240频数(天)25201510530分组数据的图示
(折线图的绘制)折线图与直方图1401502116曲线图:用平滑曲线连接各组次数坐标点即得分布曲线。曲线图:用平滑曲线连接各组次数坐标点即得分布曲线。117频数分布的类型对称分布右偏分布左偏分布正J型分布反J型分布U型分布几种常见的频数分布频数分布的类型对称分布右偏分布左偏分布正J型分布反J型分布U1182.1.4洛伦茨曲线与基尼系数2.1.4洛伦茨曲线与基尼系数119洛伦茨曲线20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家巴雷特(V.Pareto)提出的收入分配公式绘制而成描述收入和财富分配性质的曲线分析该国家或地区分配的平均程度
AB累积的人口百分比累积的收入百分比绝对公平线洛伦茨曲线20世纪初美国经济学家、统计学家洛伦茨(M.E.120基尼系数
20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡收入分配平均程度的指标
A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积AB基尼系数20世纪初意大利经济学家基尼(G.Gini)根据121如果A=0,则基尼系数=0,表示收入绝对平均如果B=0,则基尼系数=1,表示收入绝对不平均基尼系数在0和1之间取值一般认为,基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。如果A=0,则基尼系数=0,表示收入绝对平均1222.2集中趋势的测度一.众数二.中位数和分位数三.均值四.众数、中位数和均值的比较2.2集中趋势的测度一.众数123集中趋势
(centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值集中趋势
(centraltendency)一组数据向其中1242.2.1众数
(mode)集中趋势的测度值之一出现次数最多的变量值不受极端值的影响可能没有众数或有几个众数2.2.1众数
(mode)集中趋势的125众数
(不唯一性)无众数
原始数据:10591268一个众数
原始数据:659855多于一个众数
原始数据:252828364242众数
(不唯一性)无众数
原始数据:1059121261、由单项数列求众数
某车间工人日产情
日产量(件)人数(人)11501260139014251515合计2401、由单项数列求众数
1272.由组距数列计算
首先确定次数最多的组,即众数组,然后,用公式计算。
下限公式:
上限公式:2.由组距数列计算
首先确定次数最多的组,即众数组,然后,用1282.2.2中位数
(median)排序后处于中间位置上的值Me50%50%不受极端值的影响2.2.2中位数
(media1291、由未分组资料计算中位数1、由未分组资料计算中位数130
设有六个工人的日产量(件)依次排列为10、11、
12,13、14、15、则:
中位数位次=(n+1)/2
=6+1/2=3.5
设有六个工人的日产量(131(1)由单项数列求中位数2、由分组资料计算中位数:
(1)由单项数列求中位数2、由分组资料计算中位数:
132例10:某生产车间120名工人生产某种零件的日产
量如下表所示,计算该车间工人日产量的中位数。按日产量分组(件)工人数(人)累计次数(向上)20222426303233101225301815101022477795110120合计120—例10:某生产车间120名工人生产某种零件的日产
量如下表所1332.由组距数列求中位数,
下限公式:L为中位数所在组下限为中位数所在组以前各组的累计次数为中位数所在组的次数2.由组距数列求中位数,
下限公式:L为中位数所在组下限为中134从某单位抽查800户,取得人均收入资料如下表,
计算该单位人均收入的中位数。人均收入(元)户数(户)累计次数400-500500-600600-700700-800800-900900-10001000以上5451004301684210550150580748790800合计800——从某单位抽查800户,取得人均收入资料如下表,
计算该单位人135中位数位次=∑f/2=800/2=400,中位数组
在700-800这一组中。由下限公式
中位数位次=∑f/2=800/2=400,中位数组
在700136中位数的性质:数据值与中位数之差的绝对值最小.中位数的性质:1372.2.3四分位数
(quartile)1. 排序后处于25%和75%位置上的值QLQMQU25%25%25%25%2.2.3四分位数
(q138四分位数
未分组数据:四分位数
未分组数据:1392.2.4均值
(mean)1. 集中趋势的最常用的测度值2.2.4均值
(mean)1. 集中140简单算术平均数(simplemean)简单算术平均数(simplemean)141加权算术平均数
(weightedmean)设一组数据为:x1,x2,…,xn相应的频数为:f1,f2,…,fk加权算术平均数
(weightedmean)设一组数据为:142
(例题分析)
(例题分析)143统计学之统计数据的描述144
(权数对均值的影响)P34甲组:考试成绩(x): 020100人数分布(f):118乙组:考试成绩(x): 020100人数分布(f):811
(权数对均值的影响)P34甲组:考试成绩(x): 145算术平均数
(数学性质)1. 各变量值与均值的离差之和等于零
2.各变量值与均值的离差平方和最小算术平均数
(数学性质)1. 各变量值与均值的离差之和等于零146几何平均数
(geometricmean)1.n个变量值乘积的n次方根2.适用于对比率数据的平均3.主要用于计算平均增长率几何平均数
(geometricmean)1.n个变147【例】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率=103.84%-1=3.84%【例】一位投资者持有一种股票,1996年、1997年、199148众数、中位数和均值的比较众数、中位数和均值的比较149众数、中位数和均值的关系左偏分布均值
中位数
众数对称分布
均值=中位数=众数右偏分布众数
中位数均值众数、中位数和均值的关系左偏分布均值中位数众数对称分150众数、中位数和均值的特点和应用众数不受极端值影响具有不唯一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用众数、中位数和均值的特点和应用众数151统计学之统计数据的描述1522.3分布离散程度的测度一、极差二、内距三、方差和标准差四、离散系数2.3分布离散程度的测度一、极差153极差
(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布7891078910R
=max(xi)-min(xi)极差
(range)一组数据的最大值与最小值之差789107154内距
(Inter-QuartileRange,IQR)
也称四分位差上四分位数与下四分位数之差
内距=Q3
–Q1反映了中间50%数据的离散程度不受极端值的影响可用于衡量中位数的代表性内距
(Inter-QuartileRange,IQR)155方差和标准差方差和标准差156方差和标准差
(VarianceandStandarddeviation)离散程度最常用的测度值反映了各变量值与均值的平均差异方差和标准差
(VarianceandStandard157总体方差和标准差
(PopulationvarianceandStandarddeviation)未分组数据:组距分组数据:总体方差和标准差
(Populationvariance158样本方差和标准差
(simplevarianceandstandarddeviation)未分组数据:组距分组数据:样本方差和标准差
(simplevarianceand159样本方差P34
自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为n
时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他样本方差P34
自由度(degreeoffreedom160离散系数离散系数161离散系数
(coefficientofvariation)1. 标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较离散系数
(coefficientofvariation162某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)163结论:计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度v1=536.25309.19=0.577v2=32.521523.09=0.710结论:计算结果表明,v1<v2,说明产品销售额的离散程度小1642.5统计表与统计图2.5.1统计表把统计数据按一定的顺序排列在表格上,就形成了统计表。2.5统计表与统计图2.5.1统计表165统计表的结构1999~2000年城镇居民家庭抽样调查资料项目单位1999年2000年
调查户数平均每户家庭人口平均每户就业人口平均每户就业面平均一就业者负担人数平均每人全部年收入#可支配收入平均每人消费性支出户人人%元元元元
400443.141.7756.431.775888.775854.024615.91
4222.03.131.6853.671.866316.816279.984998.00资料来源:《中国统计年鉴2001》,中国统计出版社,2001,第305页。注:本表为城市和县城的城镇居民家庭抽样调查材料。
行标题列标题数字资料表头附加统计表的结构1999~2000年城镇居民家庭抽样调查资料项目166统计表的设计
(比较与选用)统计表的设计
(比较与选用)1672.5.2统计图2.5.2统计图168数值型数据的图示STATISTICA未分组数据—茎叶图和箱线图数值型数据的图示STATISTICA未分组数据—茎叶图和箱169
170未分组数据—茎叶图
(stem-and-leafdisplay)显示未分组的原始数据的分布由“茎”和“叶”两部分数字组成.以高位数作树茎,低位数作树叶树叶上只保留一位数字未分组数据—茎叶图
(stem-and-leafdispl1715.茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息5.茎叶图类似于横置的直方图,但又有区别172未分组数据—茎叶图
(例题分析)未分组数据—茎叶图
(例题分析)173未分组数据—茎叶图
(扩展的茎叶图)未分组数据—茎叶图
(扩展的茎叶图)174未分组数据—箱线图
(boxplot)用于显示未分组的原始数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me
和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接未分组数据—箱线图
(boxplot)用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024公园景观设计与绿化采购协议
- 《婚约财产法律问题研究》
- 《特色村寨建设与发展休闲农业研究》
- 《碳系复合电热膜的制备及其热辐射性能的研究》
- 《蓝莓快繁及诱导加倍技术的研究》
- 2024年多功能厅租赁协议范本
- 《YR企业存货审计案例研究》
- 《巢湖流域多环芳烃的分布特征、风险评价及生物质炭对其吸附研究》
- 2024-2030年中国榨菜行业营销模式及投资前景预测报告
- 《基于“痰瘀带脉”选穴埋线治疗PCOS腹型肥胖的思路探讨》
- 交流绕组理论
- 长沙市建筑节能与绿色建筑相关技术措施实施情况表
- 用火用电用气安全
- 心外科工作制度(12项工作制度)
- 课堂大比武活动总结
- 2023学年完整公开课版夜黑黑
- 优雅小主妇的美容养颜经
- 初中艺术鄂教七年级上册漫步艺术长廊舞剧欣赏《永不消逝的电波》
- 第章WindowsServer网络应用服务器
- 景区解说系统
- 注册电子邮箱PT课件
评论
0/150
提交评论