《统计学》辅修-第三章-数据的描述资料_第1页
《统计学》辅修-第三章-数据的描述资料_第2页
《统计学》辅修-第三章-数据的描述资料_第3页
《统计学》辅修-第三章-数据的描述资料_第4页
《统计学》辅修-第三章-数据的描述资料_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章数据的描述

本章分为两部分:

1.数据的图表描述.

2.数据的数字特征描述.§3.1数据的图表描述用收集到的数据来列表和作图要求:

理解图形的意义;学会用SPSS作图。定性数据的图表描述1.频数、频率分布表:例:最喜欢喝哪一种饮料?

原始数据见下表原始数据见数据文件:饮料饮料的频数、频率表(画条形图用)用Excel建立频数表:先排序、再汇总。用SPSS建立频数表:分析

描述性统计

频率表2.定性数据的条形图

用SPSS制作条形图(打开“饮料.sav”文件)

1)选择菜单“图形”中的

“条形图”选项;

2)在对话窗口选择“简单条形图(Simple)”

3)在弹出窗口的“类别轴”框

输入定性变量名(饮料);

4)点击“确定(OK)”即可。条形图可分为:

简单(Simple)条形图;

复杂(Clusered)条形图;

堆积(Stacked)条形图。简单条形图复杂条形图堆积条形图3.定性数据的交叉表:例:最喜欢喝哪一种饮料?

原始数据见“饮料”饮料品种和性别的交叉表交叉表的Excel命令打开数据文件“饮料”;“数据”

“数据透视表和数据透视图(P)”选项;“MicrosoftOfficeExcel数据列表或数据库(M)”,选择“数据透视表(T)”,选择“下一步”;选定区域“a2:b51”,“下一步”;选择“现有工作表”,键入“d5”,选择“完成”;将项目“饮料”拖入行字段,将项目“性别”拖入列字段,然后将“饮料”拖入中间部分。交叉表的SPSS命令分析

描述性统计交叉表4.定性数据的饼图饼图的形状为一圆饼,用不同颜色标出大小不等的扇区,见下图。不同扇区代表定性变量的不同取值,这些取值通常为代表定性变量不同性质的某字符串。扇区的面积大小代表占圆面积的百分比,即为定性变量取相应值的比例。饼图的制作:(打开language.sav文件)

1)选择菜单“图形(Graphs)”中的

“饼图(Pie)”选项,

2)在对话窗口的“定义分区(DefineSlicesby)”

框中输入定性变量名(语种)。3)在对话窗口的“其他摘要函数(Variable)”

框中输入要统计的变量名(母语)。

4)点击“确定(OK)”即可。母语定量数据的图表描述1.直方图直方图的解读——直方图的形状为一个个矩形(直方),这也是其名字的由来,见下图。图的横坐标为变量(数据)的不同取值范围,纵坐标为落在相应范围内的数据个数。图中还附带有三个数字特征,分别为均值、(Mean)标准差(Std.Dev.)和样本容量N。2.定量数据的分组可以等距分组,也可以不等距分组;组数不要太少(5个以上),

也不要太多(20个以下)。不重不漏;左开右闭(ai,ai+1];组中值:(ai+ai+1)/2.3.定量数据的散点图散点图由横坐标和纵坐标两个变量的取值来确定:

二维变量的每一组值由平面中的一个点来描述.例如:美国不同年代男士(或女士)的初婚年龄:可将不同年代作为横坐标,初婚年龄作为纵坐标.散点图的制作:

1)输入数据文件(例marriage.sav);

2)选择菜单“图形”中的

“散点图”选项,

3)在对话框中选择放置在

Y轴的变量名,和X轴的变量名;

4)点击“确定(OK)”即可。散点图允许多个变量的图画在同一张图中.一个变量的选简单散点图(Simple

Scatter).多个变量的选重叠散点图(Overlay

Scatter).4.定量数据的序列图序列图的形状为一条折线;折线的高度(纵坐标)代表变量的值;而横向的位置为这些值(数据)的自然排序.序列图的制作1)输入数据文件(例sales.sav);

2)选择菜单“图形(Graphs)”中的

“序列图(Sequence)”选项,

3)在对话框中选择所要画序列图的变量名,

4)点击“确定(OK)”即可。制作序列图的注意点:在对话框中“时间轴标签(Time

Axis

Labels)”

一般不用人为选择,SPSS软件自动设定其为数

据的序号,见sales.sav

的例子。制作序列图的注意点:时间轴也可以由某个时间变量来确定,见marriage.sav

的例子。

序列图也允许多个变量的图画在同一张图中。§3.2数据的数字特征描述数据的数字特征描述就是借助某些公式,对数据(样本)进行运算,以此得到一些的量来描述数据某方面的性质。数据的特征量分布的形状集中趋势离散程度众数中位数均值变异系数方差,标准差全距(极差)左偏、右偏钟形对称数据的位置特征位置特征是描述数据相对的位置,常用的位置特征量有:

均值、中位数、众数。

平均数(均值)一组数据的“中心点”;最常用的测量值;用于数值型数据,不能用于定性数据。平均数(均值)的计算公式平均数的Excel计算200个圆筒的内径数据放在A列的第1至第200个单元格上,然后在任意一个单元格上输入平均数函数名

“=average(a1:a200)”,则显示45.2915推销员每获得一份订单平均需向顾客提出4.6次成交要求;把一个包裹送到一个陌生人那里去,平均经过6个人的手;上海市平均每个家庭有多少人?

年份1950196019701980199020002010

人数4.64.54.23.83.12.82.49某路口早高峰时,一个绿灯2分10秒能通过250辆车,若有人闯红灯,最多通行120辆。平均数有什么不足之处?平均数受极端数据的影响大2000年江苏省农民人均年纯收入增长了2.9%。2000年江苏农民减收户达60%,平收和增收的农户只占1/3强。中位数(Me)

中位数是将数据按递增的顺序排列后位于中间的数值。在中位数左边有一半的数;在中位数右边有一半的数。Me50%50%假设有

n个数据:x1,x2,…,xn

首先将它们按由小到大的次序排列。n为奇数,中间那个数为中位数;n为偶数,中间两个数的平均为中位数。上海市人口年龄中位数上海居民的年龄中位数1964年19.4

岁1982年29.2岁1990年33.9岁2000年37.6岁2010年36.0岁众数(Mo)众数:数据中出现次数最高的数据值。在“最喜欢喝哪一种饮料”的例子中,

“可口可乐”的频数最高,因而“可口可乐”是众数。男性:“可口可乐”是众数;

女性:“杏仁露”是众数.众数内在因素事故数频率(%)察觉得晚119159.6判断失误69734.8驾驶错误964.8其他190.8合计2000100.0“察觉得晚”和“判断失误”共占94.4%。交通事故驾驶过程因素分析Mo=不满意某城市家庭对住房状况评价的频数分布回答类别某城市户数(户)百分比(%)

非常不满意不满意一般满意非常满意24108934530836311510合计300100.0中心位置的度量众数:数出现的频率;中位数:数的顺序;平均数:数的大小。临终关怀医院病人收容时间(670个病人记录)

平均数:35.7天

中位数:17天

数:1天某企业101位雇员的工资众数、中位数和均值的关系对称分布

相等

左偏分布均值

中位数

众数右偏分布

众数中位数均值50名工人日加工零件均值计算表按零件数分组组中值(Xi)频数(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计—506160.0分组数据的平均数1.先确定中位数所在的组;2.采用下列近似公式计算:分组数据的中位数前一组的累积频数某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—例

计算50名工人日加工零件数的中位数:分组数据的众数1.相邻两组的频数相等时,众数组的组中值即为众数Mo2.相邻两组的频数不相等时,众数采用下列近似公式计算(相似三角形的相似比)MoMoff-1f+1L组距某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—例

计算50名工人日加工零件数的众数:数据的尺度特征量尺度特征量是描述数据的离散程度。常用的尺度特征量有:

极差、方差(标准差)、变异系数(1)样本极差(SampleRange),常记为R

=样本最大值与最小值之间的差。

(2)样本方差(SampleVariance),常记为样本方差越小,数据越集中;样本方差越大,数据越分散。样本方差是一个非负的量。样本方差等于零,则所有数据相同。样本标准差(StandardDeviation):样本方差的(非负)平方根,记为S.

注意:使用标准差的好处在于,其量纲单位与X是一致的。Excel函数用SPSS计算均值和标准差:

(1)

打开Student.sav

数据文件;

(2)从菜单“分析”中选

“描述性统计”,

再选“描述性统计分析”;

(3)在对话窗口中选择要分析的变量。单个数学(math)成绩的分析:数学(math)和物理(phys)成绩同时分析:均值和标准差在实际问题中的应用(一)一种简单的说法:数据中有

68%

落在

(-

S,+

S

)中;

95%

落在

(-

2S,+

2S

)中;

99%

落在

(-

3S,+

3S

)中;-

x

-

x

-

x

-

x

-

x

-

x

均值和标准差在实际问题中的应用(二)数据的标准化(标准得分)假设有两个班级上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样。一班分数的均值和标准差分别为78.53和9.43,而二班的均值和标准差分别为70.19和7.00。问题:得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢?这种均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,然后再比较标准化后的数据。标准化(standardize):

(原数据-均值)/标准差一班张颖的标准得分是(90-78.53)/9.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论