




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 单变量统计描述分析第一节 分布、统计表和统计图,王 荣,分 布,指的是一个概念或变量,它的各个情况出现的次数或频次,又称频次分布。 分布形式一般为:(X1,n1)(X2,n2)(X3,n3).(Xn,nn) 如:家庭结构的分布: (核心家庭,105)(直系家庭,72)(联合家庭,11)(其他,25) n不同名称也不同:频次分布、百分比分布,概率分布。 注意变量取值的完备性和互斥性,统计表和统计图,统计表一般格式,表 2-1 2002、2006年六运调查点人均消费支出构成统计表 (山西省,2007,7,1.91,100.0,4030.0,100.0,2107.0,总支出,1.48,28.
2、2,1144.4,36.7,773.2,文化生活服务,2.12,4.5,172.0,3.8,81.0,交通通讯,1.47,6.2,250.2,8.1,170.0,用品及其他,13.0,19.0,765.7,2.8,58.9,住房,1.65,5.8,233.5,6.7,140.9,燃料,1.89,5.6,226.9,5.7,120.0,衣着,1.62,30.7,1237.6,36.2,763.1,食品,占总支出百分比(,钱数(元,占总支出百分比(,钱数(元,2006年比2002年增长倍数,2006年,2002年,消费构成,资料来源:中国统计年鉴,中国统计出版社,2006,统计表和统计图,几点说明
3、: “”表示数据不存在,“.”表示数据缺失。 统计表中小数点对齐。 一般要有合计一栏。频率合计时有时可能不是100%,考虑四舍五入。 01000,10002000上组界不包括在内的约定,统计表和统计图,变量层次:定类变量 定序变量 定距变量 定比变量 注意:社会统计学中一般将定距、定比变量都当做定距变量处理,统计表定类变量,定类变量,表2-2 家庭结构的百分比统计表 (xx地,1985,6,统计表定类变量,有关意愿、原因等社会调查中,可供选择的答案类别数目,有时与变量的数目不相等。 例1:问卷中“你认为人生最大的乐趣是什么” (1)事业上有成就(2)美满的婚姻(3)经历丰富,统计表定类变量,表
4、2-3 人生最大乐趣统计表,统计表定类变量,例2 你在购房中,主要考虑哪些因素? A 价格适中 B 上班近 C交通方便 D 购物方便 请从中选择三项:第一项: 第二项: 第三项,统计表定类变量,变量1(第一项):A B C D 变量2(第二项):A B C D 变量3(第三项):A B C D,表2-4 100个人购房因素统计表,Xa=60/300=0.2 Xb=90/300=0.3 Xc=10/300=0.03 Xd=140/300=0.47,统计表定类变量,Xa=( 520+340)/100=2.2 Xb=( 560+330)/ 100=3.9 Xc=( 310)/ 100=0.3 Xd=
5、( 520+320+1100)/ 100=2.6 Xb Xd Xa Xc,表2-4 100个人购房因素统计表,统计表定序变量,定序变量统计表制作内容、方法同定类变量。值得注意的是,定序变量的取值有大小、高低之分,因此在制作时应该保留其变化趋势,统计表定序变量,例如某电影厂为了解群众对武打片是否爱看,将喜爱程度分为五等:非常爱看、爱看、一般不爱看、反感,表 2.7 xx单位对武打片的反映统计,统计表定距变量,定距变量:连续型变量和离散型变量。 离散型变量制表方法同定序变量。但是,当如果变量值的变化幅度过大,一一列举,势必形成很长的分类,且每类分类中的频次又变得很少,这时需要采用组距式统计表,统计
6、表定距变量,对于连续型变量,无法使每一个取值对应一个确定的频次或百分比。解决方法是将变量值分为若干个区间和组。例如结婚年龄。 在实际中要考虑如下问题:组数、等距分组与非等距分组、分点精度,统计表定距变量,统计表定距变量,统计表定距变量,统计表定距变量,统计表定距变量,表 2-2 118例13岁女孩身高资料统计表,统计图,根据变量层次可选择不同的统计图 定类变量:圆瓣图、条形图 定序变量:条形图 定距变量:直方图、折线图,统计图圆瓣图,统计图圆瓣图,统计图圆瓣图,统计图圆瓣图,统计图条形图,条形图:主要用于表示离散型数据资料。 可分为:简单条形图、分组条形图(复式)、分段条形图,误差线条形图,分
7、段条形图,单式条形图,图21 某年级操行评定结果条形图,基线,尺度线,图形,复式条形图,图22 某年级操行评定结果条形图,例: 图2-3 三项影响较大的SARS信息对不同文化程度民众的影响,误差条形图,图2-27 四种营养素喂养小白鼠三周后所增体重(克,图2-26 老、中、青三代的结核菌素阳性率与强阳性率(,分段条形图,统计图条形图,绘制条图注意事项 纵轴的刻度必须从“0”开始,否则会改变各对比组间的比例关系。 横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。 各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。 图形区域中条形顶端和下端
8、尽量少用数据标签。 调节过长条形方法。一种方法是调整图尺,改变刻度或采用断裂;另一种是折叠,统计图直方图,横轴:数据分组 纵轴:频次、频率或者频次密度、频率密度。 等距分组数据:矩形的高度可以直接表示频数(或频率)。非等距分组数据需要用频次(或频率)密度表示,这时矩形的面积表示各组的频数(或频率,统计图直方图,图3-5 某车间工人日加工零件数的直方图,统计图直方图,统计图直方图,组织图 20 15 10 5 0 60 63 66 69 72 75 78 81 84 87 90 96 99,统计图直方图,非等距直方图,条形图和直方图有什么区别,条形图与直方图的区别,1)描述的数据不同。 离散型数
9、据;连续性数据。 (2)表示数据多少的方式不同。 长短或高低表示数据的多少和大小;用面积表示。 注意:等距分组数据仍可用矩形高度直接表示频数 (3)坐标轴上标尺分点意义不同。 分类轴;刻度值。 (4)间隔 有间隔,但无意义;无任何间隙,统计图折线图,折线图:把直方图顶部的中点(组中值)用直线段连接起来就是折线图。 多用于连续性资料,凡欲表示两个变量之间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象随另一种现象变化的情形,图3-6 某车间工人日加工零件数的折线图,统计图直方图,例如:对有意义的词汇,小学一年级至初中三年级学生视觉、听觉记忆再现率的情况,图25 有意义的材料再现率比较线形
10、图,累计图和累计表,统计图和统计表告诉我们某一变量值(或某一组)所对应的频次是多少。有时我们需要了解小于某一变量值或者大于某一变量值的总共频次是多少,这时要用到累计图和累计表,累计图和累计表,表2-5 家庭子女数频次分布与累计频次分布,累计图和累计表,向上累计直方图,0,1,3,2,4,5,累计图和累计表,0,1,3,2,4,5,向上累计折线图,累计图和累计表,向下累计频率直方图,0,1,3,2,4,5,累计图和累计表,0,1,3,2,4,5,向下累计频率折线图,累计图和累计表,累计图和累计表的应用,在于通过它比较个体在总体中的位置。 例如,甲、乙两同学在不同班级,他们都是考了80分,谁在班里
11、的成绩更好呢,累计图和累计表,例如:洛伦茨曲线。描述收入分配中平均程度的一种方法,用基尼系数衡量,累计图和累计表,例如:洛伦茨曲线。描述收入分配中平均程度的一种方法,用基尼系数G衡量,累计图和累计表,联合国有关组织规定: 低于0.2表示收入绝对平均; 0.2-0.3表示比较平均; 0.3-0.4表示相对合理; 0.4-0.5表示收入差距较大; 0.6以上表示收入差距悬殊,常见的几种分布图,常见的频数分布曲线有正态分布、偏态分布、J形分布、U形分布等,J形分布,正J形,负J形,欣赏几种有意思的图,茎叶图 雷达图 箱图,茎叶图,对于未分组的数据,可用茎叶图显示其分布特征,由“茎、叶”两部分构成,图
12、形由数字组成,茎在左,叶在右,用小数点(直线)把茎叶隔开,第二章 统计量表,创设情境,建立模型,大学生阿Q毕业后想找一份月薪在1700以上的工作,一天他看见三毛公司门口的招聘广告,上面写着:现因业务需要招员工一名,有意者欢迎前来应聘。于是阿Q走了进去,阿Q应聘,阿Q应聘,阿Q问了三毛公司的所有员工的月薪,列出了如下统计表,1.经理说平均工资有2000元对不对? 2.你觉得用平均数代表三毛公司的员工工资合适吗? 3.你认为阿Q如果在该公司应聘,工资能达到阿Q 预想的要求吗?他的工资很可能是哪个数?试说明 理由,与同伴交流,我们有三种方法选择集中趋势: (1)根据频数:哪个变量值出现次数越 多,就
13、选择哪个变量值,比如民主决策的表决 机制。 (2)根据居中:比如一个城镇居民的生活 水平,居中的是小康家庭,那么就用小康家庭 来代表该城镇的生活水平。 (3)根据平均:用平均数来代表变量的 平均水平,关于集中趋势的一个故事,吉斯莫先生有一个小工厂,生产超级小玩意儿。 管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。 现在吉斯莫先生正在接见萨姆,谈工作问题。 吉斯莫:我们这里报酬不错。平均薪金是每周300美元。你在学徒期间每周得75美元,不过很快就可以加工资。 萨姆工作了几天之后,要求见厂长。 萨姆;你欺骗我!我已经找其他工
14、人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢,吉斯莫:啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。 吉斯莫:这是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是每周6900元,付给23个人,对吧? 萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。 吉斯莫;我不同意!我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。 萨姆:每周100元又是怎么回事呢? 吉斯莫:那称为众数,是大多数人挣的工资。 吉斯
15、莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。 萨姆:好,现在我可懂了。我我辞职,集中量数,常用的集中量数包括算术平均数、中数、众数、加权平均数、几何平均数、调和平均数。 众值(Mo) 定类、定序、定距、定比变量 中位值(Md) 定序、定比、定距变量 平均值 定距、定比变量 集中趋势各测量值计算方法、特点及使用场合,一、 算术平均数(MEAN,用总和除以总个数即得算术平均数。它是真值的最佳估计值,算术平均数是反映集中趋势最常用、 最基本的平均指标,也被称为均值或均数。 用M或者X表示。适用于定距以上的变量,1. 对于未分组资料 注意:对求和符号,此时流动脚标变动范围是1, 2,
16、 ,N ,N是总体 单位数。 例 求74、85、69、9l、87、74、69这些数字的算术平均数。 解 78.4,1. 对于未分组资料 注意:对求和符号,此时流动脚标变动范围是1, 2, ,N ,N是总体 单位数。 例 求74、85、69、9l、87、74、69这些数字的算术平均数。 用估计平均数计算。 解 AM=70。 列出x: 4, 15 ,-1, 21,17, -1,2. 对于分组资料 注意:对求和符号,此时流动脚标的变动范围是1,2,3 ,n, n是组数,而不是总体单位数。 显然,算术平均数不仅受各变量值(X)大小的影响,而且 受各组单位数(频数)的影响。由于对于总体的影响要由频数(
17、f )大小决定,所以 f 也被称为权数。权数有两种表现形式:绝对数(频数)和相对数(频率)。因此凡对应于分组资料的计算式,都被称为加权式,平均值,X=38450550=69.9(分,对于组距数据,要用每一组的组中值充当该组统一的变量值。 例 求下表所示数据的的算术平均数(79.5,平均数的特点及意义,特点: 各变量值与均值的离差之和等于零 各变量值与均值的离差平方和最小 所有的观测值都加上常数C,则平均值也增加常数C 所有观测值都乘以不等于0的常数C,则平均值也增大C倍 意义: 真值的最佳估计值,平均数的优缺点,算术平均数受抽样变动影响较小。 反应灵敏,受极端值影响较大。 分组资料如遇有开放组
18、距时,不经特殊处理,不能进行算术平均数的计算。 计算严密、方法简单易懂,适合进一步代数演算 修剪平均数。比如去掉最高分和最低分。 习惯上平均数保留的小数位数要比原来的测量数据多一位数字,计算和应用平均数的原则,同质性原则 平均数和个体数值相结合的原则 平均数和标准差、方差相结合的原则,二、 中数(Median,也叫中位数,把总体数据按大小顺序排列,位于中间位置的那个数,即为中位数,用Md或Mdn表示。 中位数可用于定序、定距、定比资料,1. 对未分组资料无重复数据 先把所有数据按大小顺序排列,如果总体单位数为奇数,则取第(N+1)/2 位上的变量值为中位数;如果总体单位数为偶数。因为居中的数值
19、不存在,按惯例,取第 N/2位和第(N+1)/2 位上的两个变量值的平均作为中位数。 例 求54,65,78,66,43这些数字的中位数。 例、求54,65,78,66,43,38 这些数字的中位数,对未分组资料有重复数据 (1)重复数值没有位于数列中间 5 5 6 10 12 15 17 (2)重复数值位于数列中间,为奇数(12.66) 11 11 11 11 13 13 17 17 17 (3)重复数值位于数列中间,为偶数(12.83) 11 11 11 11 13 13 17 17 17 18,2. 对于分组资料单项数列,根据N/2在累计频数分布中找到中位数所在组, 该组变量值就是Md,
20、中 位 数,比例插值法先根据N2在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,再用以下任何一种方法求出中位数(注意:此处用的是向上累计)按中位数所在组的下限:按中位数所在组的上限,2. 对于分组资料组距数列,例某年级学生身高如下,求中位数(169.79,中位数的优缺点及应用,优点: 各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值总和。 不受极端值的影响。 分组资料有不确定组距时,仍可求得中位数。 缺点: 中位数受抽样变动的影响较算术平均数略大。 反应不灵敏。 不适合进一步进行代数运算。 应用 一组观测结果中出现两个极端数目时 次数分布的两端数据或个别数据
21、不清楚时,只能取中数 需要快速估计一组数据的代表值时,也常用中数,3 、四分位数,中位数所有单位被等分为两部分,因而被称为二分 位数。类似于求中位数,还可求出四分位数、十分 位数、百分位数。 将总体中的各单位分割成相等的四部分,则这三个 分割的变量值就是四分位数。用Q1、Q2、Q3分别代表 第一、第二、第三四分位数。Q2 即中位数,Q1、Q3的算 法分别是,中位数所有单位被等分为两部分,因而被称为二分 位数。类似于求中位数,还可求出四分位数、十分 位数、百分位数。 将总体中的各单位分割成相等的四部分,则这三个 分割的变量值就是四分位数。用Q1、Q2、Q3分别代表 第一、第二、第三四分位数。Q2
22、 即中位数,Q1、Q3的算 法分别是,请从下表中指出第一四分位数和第三四分位数,求出下表中的第一四分位数和第三四分数,三、 众数(Mode,次数分布中出现次数最多的变量值。 直接观察 公式:皮尔逊经验法,金氏插补法(组距式,Lb为众数组精确下限; fa为高于众数组频数的那组频数; fb为低于众数组频数的那组频数; i为众数组组距,Mo=3Md-2M,无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众数原始数据: 25 28 28 36 42 42,解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值 所调查的50人中,购买可口
23、可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即 Mo可口可乐,求下表中的众数,众数,求下表中的众数,众数的意义和应用,当需要快速而粗略地寻求一组数据的代表值时 当一组数据出现不同质的情况时,可用众数表示典型情况 当次数分布中有两极端的数目,除一般用中数外,有时也用众数 对开口组仍可计算众数 众数不唯一确定 受抽样变动影响大; 当粗略估计次数分布的形态时,有时用平均数与众数之差,作为表示次数分布是否偏态的指标,平均数 中数 众数三者间关系,注意:中数离平均数较近,离中数较远,众数、中位数、平均数的特点和应用,众数 不受极端值影响 具有不惟一性 数据分布偏斜程
24、度较大时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 平均数 易受极端值影响 计算方便,反应灵敏 数据对称分布或接近对称分布时应用,加权平均数(weighted mean)定义:几个作用比重不同的算术平均数的平均数 例:小学三年级举行英语测验。甲班32名学生的平均分为72.6,乙班40名学生平均分为80.2,丙班36名学生的平均分为75分。求全年级英语测验的总平均分数,四、 其他集中量数,已改至此,分组数据:加权平均数,分组数据:加权平均数,两种算法:频数和频率,解:根据公式,可得,根据另一个公式,可得,几何平均数(geometric mean) n 个变量值乘积的 n 次方根 适
25、用于对比率数据的平均;或少数数据偏大或偏小,呈偏态分布,或心理物理学等比等距实验中。 主要用于计算平均增长率或平均进步率,其中,n:数据的个数 X:变化的比例数据,第四节 其他集中量数,几何平均数的应用 直接应用于基本公式计算几何平均数 应用于几何平均数的变式计算 学习方面的进步率 学生或人口增加率的估计 教育经费增加率 其他方面的增长率等,第四节 其他集中量数,某水泥生产企业1999年的水泥产量为100万吨,2000年 与1999年相比增长率为9%,2001年与2000年相比增长 率为16%,2002年与2001年相比增长率为20%。求各年 的年平均增长率,年平均增长率114.91%-1=1
26、4.91,第四节 其他集中量数,一位投资者购持有一种股票,在2000、2001、2002和 2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计 算该投资者在这四年内的平均收益率,比较:算术平均,几何平均,第四节 其他集中量数,某市近几年来高中毕业生人数如下表,试求其平均增长率,照此速度增长,到1995年统计有多少高中生,解:此题是求平均增长率,以1987年为基数,求4年的平均增长率,4年后的高中生人数为,第四节 其他集中量数,调和平均数(harmonic mean) 均值的另一种表现形式,用来描述学习速度方面的问题。 易受极端值的影响 计算公式为,原来只是计算时使用了不同的数据
27、,其中,N:数据个数 X :具体的变量值,例:有一学生15分钟学会生词30个,后10分钟学会生词也是30个,问该生每分钟平均学会多少,离散趋势测量法,集中趋势告诉我们一组数据的集中情况,离散趋势则告诉我们一组数据的分散程度。 异众比率 极差R 四分互差(四分位差) 方差与标准差,异众比率,异众比率:指非众数组的频数占总频数的比率。 Vr=(N-f)/N 与众值相对,异众比率,例:某单位职工婚姻状况统计结果如下 未婚 已婚 离婚 丧偶 20 70 12 18 Mo=已婚 Vr=(N-f)/N=(120-70)/120=42,极差,极差:一组数据中的最大数据与最小数据的差。 适用于定序以上的数据。
28、 与中位值相对,四分互差,四分互差:是用对应于向上累计频次75%的变量值Q75和对应于向上累计频次25%的变量值Q25相减而得。 四分互差计算方法可对应于中位值求法,四分互差,未分组数据 原始数据较少时根据原始资料直接求四分互差(p53) Q25=N+1/4 Q25=3(N+1)/4,四分互差,未分组数据 当原始数据比较多时,可根据频次分布来求四分互差(p53 )。 分组数据 求四分互差Q,必须先求出Q25位置 和Q75位置。 再求对应的值,四分互差,方差和标准差,方差和标准差适用于定距变量资料的分散程度,是应用最广的离散趋势值。 对应于平均值,方差和标准差,当原始资料较少时,可直接使用公式求。 注意:当均值为小数时,为方便计算以及为保证精确度需使用包含有原始数据的公式。 2=(XiX)2 / N 2=Xi2 / N(Xi / N )2,标准差是一组数据中每个数据与其算术平均数之差的算术平均数的算术平方根。用符号表示,方差和标准差,未分组资料计算标准差 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全生产管理制度文本普通货运十七项
- 汽车金融公司风险防范与应对措施考核试卷
- 火工品生产过程中的质量控制与保障考核试卷
- 灯具销售中的市场预测与趋势分析考核试卷
- 抗磨损能力研究考核试卷
- 生物遗传工程与生物技术考核试卷
- 电池管理系统与充电技术考核试卷
- 2025届四川省德阳市第五中学高三下学期第三次(线上)周考数学试题
- 2025医疗设备采购合同协议范本格式
- 2025版锅炉设备购销安装合同(草案)
- 高中文言文教学:从“言”到“文”的理性跨越
- 河北省2024-2025学年高三省级联测考试+化学试卷答案
- 青岛版小学数学四年级下册认识多边形思维导图知识讲解
- 信息技术必修一《数据与计算》第四章第一节《体验计算机视觉应用》教案
- 【年产五万吨乙醛工艺设计7100字(论文)】
- 事业单位离岗创业规定2024年
- 压力容器制造程序文件及表格(符合TSG 07-2019特种设备质量保证管理体系)
- 2024年四川省南充市中考英语试卷真题(含官方答案及解析)
- 圆周角与圆心角的关系 说课 课件2023-2024学年北师大版九年级数学下册
- 举一反三四年级奥数-第19周-解决问题(二)
- 2024年陕西咸阳市县及县以下医疗卫生机构定向招聘医学类毕业生87人(高频重点提升专题训练)共500题附带答案详解
评论
0/150
提交评论