版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、本章概要第一节 统计数据的收集第二节问卷设计第三节 统计数据的整理第四节 SPSS基础第一节 统计数据的收集1. 收集数据的重要性 2. 统计数据的类型和计量3. 统计数据的来源4. 统计数据的误差5. 统计调查的步骤1. 统计数据收集的意义数据是统计学研究的原材料。原材料的好坏决定了统计分析的效果。2. 统计数据的计量与类型例 以下是关于职业调查的几道问题1.您的职业是什么? A.程序猿 B.小编 C.boss D.以卖萌为生2.你对自己职业的收入满意吗? A.很满意 B.较为满意 C.一般 D.不满意 E.很不满意3.你工作城市的平均气温是 度。 4.您每个月的到手收入是 元。2. 统计数
2、据的类型以及计量方式定类尺度、定序尺度、定距尺度、定比尺度2. 统计数据的计量与类型定类数据将数字作为现象总体中不同类别或不同组别的代码。这是最低层次的尺度。如性别:男,女定序数据按照特征等级进行排序,数据之间有大小之分,但没有大多少的概念。 优、良、中、差2. 统计数据的计量与类型定距数据(间隔数据)不仅可以用数值表示现象类(组)别的不同和顺序大小的差异,而且可以用确切的数值反映现象之间在量方面的差别。数据之间可做加减,不能做乘除,只有相对大小。如:摄氏度定比数据(比例数据)不仅有确定的间距,而且有自然确定绝对的零点。数据之间可做加减,也可做乘除,既有相对大小,又有绝对大小。2. 统计数据的
3、计量与类型问题,下面数据按照计量方式?性别体重速度温度兄弟姐妹个数成绩:A,B,C,D按照数据的时间特征划分统计数据横截面数据(时间固定)在同一时间,不同统计单位相同统计指标组成的数据。时间序列数据(事物,现象固定)在不同时间,同一事物、现象岁时间的变化状况。 3、面板数据(横截面数据与时间序列数据)3.统计数据的来源数据来源二手数据原始数据公司内部信息专门机构获取政府机构提供观察法实验法报告法询问法4.统计数据的误差(自己看ppt,课下自学)调查的偏差来自许多方面,分为两类:抽样误差和非抽样误差抽样误差由抽样随机性造成,只存在于概率抽样中。非抽样误差覆盖误差测量误差处理误差无反应误差4.统计
4、数据的误差1.覆盖误差:指由于在抽样框或样本中出现了涵盖不全、过度涵盖、重复以及错误的分类而导致估计的偏倚。2.测量误差:指对一个问题所做的记录与它的真值不同,可能是由于被调查者和调查者对问题的误解、收集数据方式不同或测量工具而造成的。道德误差调查人员缺乏业务培训或职业道德被调查者误差理解有误,有意欺瞒3.处理误差:可能发生在数据编码、数据录入、审核及插补等步骤中。4.统计数据的误差4.无反应误差在抽样调查中,我们希望能取得所要求的全部样本单位的数据或特征记录,但在实践中,常有部分单位的调查结果会因多种原因而出现空缺,即常称的无反应现象。调查中无反应的原因 (1)调查对象联络不上,已经搬走 (
5、2)被调查者不能胜任或无能力 (3)调查期间人不在 (4)拒绝合作 (5)丢失调查表4.统计数据的误差案例Literary Digest杂志自第一次世界大战以来一直进行总统预测,而且每次都预测准了。 1936年美国总统选举前,Literary Digest杂志发出了1000万张调查问卷。回收到240万张,预测共和党候选人兰登(London)和民主党候选人罗斯福(Roosevelt)的得票比例是57:43,预测是根据240万张的民意调查回单作出的。但实际选举结果是罗斯福赢得了这场选举,他与兰登得票比例是62 :38。4.统计数据的误差分析出现预测错误的原因:第一.选取样本的方式不是随机的,它主要
6、是从电话号码簿和各种俱乐部会员名册上去选取的,这些人大多是有钱人,他们支持共和党候选人兰登;第二. 有760万张问卷无反应,在没有寄回的人中支持共和党和支持民主党人的比例一般与寄回来的240万答卷中的支持比例不一样,例如该杂志向芝加哥地区三分之一的登记选民发了调查问卷,有20%的被询问者作了回答,其中一半以上支持兰登,但实际选举的结果是在芝加哥地区是2 : 1有利于罗斯福。4.统计数据的误差由于无反应(等于改变了原先随机抽取的样本)而造成的偏差叫“无反应偏差”。在调查中我们要尽量减少这种偏差。为解决无反应问题,常用的处理方法有:多次调查对调查结果进行估算在无回答者中抽取随机子样本调查对无回答者
7、的替代总体(学生)样本框架(电话簿里的学生)计划选取样本(选定的学生)实际的样本覆盖面误差抽样误差不回答和度量误差4.统计数据的误差5.统计调查的步骤1.明确调查目的(根据目的确定获得数据方法)探测性调研(揭示现象)夏士莲绿茶洗发水受消费者青睐吗?适合的调查方式:对目标顾客进行抽样调查 描述性调研(定量描述)某家电商场在周日的人流量是多少?适合的调查方式:观察法因果性调研(测试因果关系)假如将某一款产品降价10,会不会有大量消费者购买?消费者的数量能增加多少?适合的调查方法:实验法5.统计调查的步骤2、确定调查对象和调查单位。调查对象:是指需要调查的现象总体,该总体是由许多性质相同的调查单位组
8、成的。调查单位:是指所要调查的具体单位。报告单位:报告单位亦称填报单位,它是负责向上报告调查内容、提交统计资料的单位。调查单位与报告单位,有时是一致的,有时不一致。3、确定调查项目。调查项目就是调查中所要登记的调查单位的特征,即调查单位所承担的基本标志,它由一系列定性数据和定数量所构成。5.统计调查的步骤4、调查表格和问卷的设计。调查表:将各个调查项目按照一定的顺序排列在一定的表格上,就构成了调查表。问卷调查:根据调查目的,在调查对象中随机选择或有意识地确定调查单位,以书面文字或表格形式了解被调查者的意见,调查者自愿、自由地回答问卷中所提出的问题。5、确定调查时间。 统计调查时间包括二种涵义,
9、即调查时间和调查期限。调查时间:是指调查资料所属的时间。调查期限:是进行调查工作的时限,包括搜集资料和报送资料的工作所需的时间。5.统计调查的步骤6 、调查的计划实施7 、加工数据8 、分析数据9 、解释发现10 、报告结果第二节问卷设计问卷设计 什么是问卷问卷(Questionnaires)是社会调查中用来收集资料的一种工具,一种类似于体温表、测力器、磅秤、米尺那样的工具。与这些工具不同的是,问卷在形式上是一份精心设计的问题表格,而其用途则是用来测量人们的行为、态度和社会特征的,它所收集的则是有关社会现象和人们社会行为的各种资料。问卷的一般结构(l)封面信,即一封致被调查者的短信。它的作用在
10、于向被调查者介绍和说明调查的目的,调查单位或调查者的身份、调查的大概内容、调查对象的选取方法和对结果保密的措施等。首先,要说明调查者的身份,即说明“我是谁”。其次,要说明调查的大致内容,即“调查什么”。最后,要说明调查对象的选取方法和对调查结果保密的措施。另外,还应该明确地说明“ 本次调查不用填写姓名和单位,答案无对错之分,请你不必有任何顾虑”。在信的结尾处,一定要真诚地感谢被调查者的合作与帮助等。指导语即用来指导被调查者填答问卷的各种解释和说明,其作用和仪器的使用说明相似。有些问卷的填答方法比较简单,指导语很少,常常只在封面信中用一两句话说明即可。有些指导语则集中在封面信之后,并标有“填表说
11、明”的标题,其作用是对填表的方法、要求、注意事项等作一个总的说明。另外,有些指导语则分散在某些较复杂的调查问题后,对填答要求、方式和方法进行说明。(2)指导语(1)请在每一个问题后适合自己情况的答案号码上划圈,或者在处填上适当的内容。(2)若无特殊说明,每一个问题只能选择一个答案。(3)填写问卷时,请不要与他人商量。填表说明是问卷的主体,也是问卷设计的主要内容。问卷中的问题从形式上看,可分为:开放式问题封闭式问题(3)问题及答案编码其他资料(4)编码及其他资料问卷的分类二、 问卷设计的原则明确问卷设计的出发点为了让回答者吐真言。不仅要考虑研究者的需要,还要多为回答者着想。问卷语言通俗易懂。不要
12、诱导被调查者。多使用简单句型。尽量降低调查的敏感性。问题要科学排序:由易到难;先封闭问题再开放式问题;逻辑性。明确阻碍问卷调查的各种因素(1)主观上的障碍。即被调查者因在心理上和思想上对问卷产生的各种不良反应所形成的障碍。 (2)客观上的障碍。即由被调查者自身的能力、条件等方面的限制所形成的障碍。明确与问卷设计紧密相连的各种因素(l)调查的目的(2)调查的内容(问题分解)(3)问卷的分析方式(多考虑一下后期)。问卷设计资料的分析方式,分析方式对问卷有着不同的要求。除上述各种因素外,当然还不能忽视调查经费多少、调查人员多少、调查时间长短等对问卷设计工作的限制。三、 问卷设计的步骤探索性工作先摸摸
13、底,熟悉和了解一些基本的情况探索工作:与各种对象交谈,并留心观察他们的特征、行为和态度。根据前期探索情况设计问题。 设计问卷初稿第一步(汇总问题)第二步(问题分类)第三步(问题顺序)第四步(联成整体)第五步(优化问题)最后(形成初稿)试用试用问卷的具体做法是,将问卷初稿打印若干份,然后采取非随机抽样的方法选取一个小样本,用这些问卷初稿对他们进行调查。最后认真检查和分析成调查的结果,从中发现问题和缺陷并进行修改。试用过程中要注意看以下几个指标。 回收率 有效回收率,即扣除各种废卷后的回收率 填写错误。(答非所问;填答方式错误) 填答不完全。修改定稿并印制四、 问卷设计的具体方法问题的形式常见考试
14、题型?常见考试题型难以回答和处理的题型=问卷的题型问题的形式填空题选择题(单项选择题(2选1,多选1);多项选择题(限选几个,限选排序,多项任选题);矩阵式问题(同类问题集中在一起);问题题)问题的形式(1)填空式。 即在问题后划一短横线,让回答者直接在空自处填写。填空式一般用于那些对回答者来说既容易回答,又容易填写的问题,通常只需填写数字。例1 请问您家有几口人? 口例2 您的年龄有多大? 周岁例3 您有几个孩子? 个例4 您每天上班在路上需要多少时间 分钟(2)二项选择。即问题的答案只有是和不是(或其他肯定形式和否定形式)两种,回答者根据已有的情况选择其一。这种形式的问题有两种不同的情形。
15、一是问题所能列举答案本身就只有两种可能的类别。另一种是在询问人们的态度或看法时进行的两极区分,例5 您是共青团员吗? 是 不是例6 您是否住在本市? 是 不是例7 您家有电视机吗? 有 没有例8 您是否同意民主选举厂长? 同意 不同意例9 您是否同意“主观为自己,客观为他人”的说法? 同意 不同意(3)多项单选式。即给出的答案至少在两个以上,回答者根据自己的情况选择其中一个作为回答。其答案特别适合于进行频数统计和交互分析。在设计上,这种问题形式的关键之处是要保证答案的穷尽性和互斥性。在具体表达方式上,多项单选式又有几种不同的类型。例10 您的文化程度是: (请在何时答案号码上打 )(1) 小学
16、以下 (2)初中 (3)高中或中专 (4)大专以上例11 您的婚姻状况是: (请在合适答案的方框中打 )(1)未婚 (2)已婚 (3)离婚 (4) 丧偶 (5) 其他例12 您最喜欢看哪一类电视节目?(请在合适的答案后的括号里打)(1)新闻节目 ( ) (2)电视剧 ( ) (3)体育节目 ( ) (4)广告节目 ( ) (5)其他(请写明) ( )(4)多项限选式。与多项选一式有所不同的是,我们可以在所列举的多个答案中,要求回答者根据自己的情况从中选择若干个。比如将例12 改成多项限选式,变为例13 。例14 也是多项限选式的一个例子。例13 您最喜欢看哪些电视节目?(请从下列答案中选择三项
17、在括号打)新闻节目( ) 电视剧( ) 体育节目( )广告节目( ) 教育节目( ) 歌舞节目( )少儿节目( ) 其他节目(请写明)( )例14 您生育孩子的主要动机是什么?(请从下列答案中选择三项在括号内打)传宗接代( )完善人生( ) 增加夫妻感情( ) 养儿防老( ) 扩大家族势力( )体验做父母的乐趣( ) 增加劳动力( ) 没考虑过( ) 其他(请写明)( ) 多项限选式的优点是,在有些情况下它比多项选一的方式更能反映被调查者的实际情况。因此在很多方面人们实际上是存在着不止一种选择的,但另一方面,我们却无法从这种形式的问题回答中看出被调查者选择的顺序。(5)多项排序式。这种方式可以
18、说是针对多项限选式的不足而出现的一种问题类型。在一定程度上可以看成是多项单选式和多项限选式的一种结合。它一方面要求被调查者在所给出的多个答案中选择两个以上(但有限)的答案,另一方面又要求被调查者对他所选择的这些答案进行排序,比如例15 。 例15 您认为作为一名企业领导最重要的3条素质是什么?(请将答案填入下表)第一重要第二重要第三重要大公无私 坚持原则 敢想敢干 以身作则 团结群众 业务熟悉 思想敏捷 文化程度高 其他(请写明)-多项任选式。多项任选式则是在所提供的答案中,被调查者可以任意选择各种不同数目答案的一种问题形式。比如例16 需要注意的是,这种形式的问题实际上已不再是“一个”问题了
19、。它在某种意义上已经变成了“多个”类似的问题。即针对每一个具体答案而提出的多个问题。因此,在对问题进行编码的时候,不能像多项选一式那样只给一个码,而是要将每一个答案都看成是一个变量,都给一个编码。这样,此例中的“变量”就有9个,编码时也就要给9个号码。 例16 在以下各种家用物品中,您家有哪些?(请在您家有的物品答案上打)(1)彩色电视机 (2)录像机 (3)影碟机 (4) 空调器 (5)洗衣机 (6)电冰箱 (7)计算机 (8)微波炉 (9)电话 (7)矩阵式。即一种将同类型的若干个问题集中在一起,构成一个问题的表达方式。比如例17。 这种矩阵式的优点是节省问卷的篇幅,同时由于同类问题集中在
20、一起回答方式也相同,因此也节省了回答者阅读和填写的时间。但要注意的是,一定要对这样的问题给出专门的填写说明或填答指导,以免有的回答者不会填写。例17 你觉的下列现象在你们学校是否严重?(请在每一行适当的方框内打) 很严重 比较严重 不太严重 不严重 不知道(1)迟到 (2)早退 (3)请假 (4)旷课 (8)表格式。表格式其实是矩阵式的一种变体,其特点和形式都与矩阵式十分相似。 表格式的问题除了具有矩阵式的特点外,还显得更为整齐、醒目。但应当注意的是,这两种形式虽然具有简单集中的优点,但也容易使人产生呆板、单调的感觉,在一份问卷中这两种形式的问题不宜用得太多。例18 你觉的下列现象在你们学校是
21、否严重?(请在每一行适当的格中打)很严重 比较严重 不太严重不严重不知道迟到早退请假旷课答案的设计例19 您的性别(请选一项打)(1)男 (2) 女例20 你最喜欢看哪类电视节目?(请在合适的答案号码上打)(1)新闻节目 (2) 体育节目 (3)电视剧(4) 教学节目答案要有穷尽性和互斥性。所谓答案的穷尽性,指的是答案包括了所有可能的情况。 所谓答案的互斥性,指的是答案互相之间不能交叉重叠或相互 包含例19和20是否满足答案设计的两个原则?请评价一下例21.例21 您的职业是什么?(请在合适答案号码上打 )(1) 工人 (2) 农民 (3)干部 (4)商业人员 (5)医生 (6)售货员 (7)
22、专业人员 (8)教师 (9)其他相倚问题所谓相倚问题,指的是在前后两个(或多个)相连的问题中,被调查者是否应当回答后一个(或后几个)问题,要由他对前一个问题的回答结果来决定。前一个问题称作“过滤性问题”,后一个问题则称作“相倚问题”。例22 你是个体经营者吗?(1)是 请问你是哪一年开始从事个体经营的?19年。 一般情况下,你每天工作多长时间?小时。(2)不是例23 你有孩子吗?(1) 有 请问你有几个孩子?个。 你最小的孩子上学了吗? (1) 上了 他在上哪级学校?1 小学 2 中学(中专) 3 大学 (2)没上(2) 没有例24 请问你的婚姻情况(1)未婚 请跳过2-8,直接从问题9回答(
23、2)已婚(3)离婚(4)丧偶五、 问卷设计中的常见错误概念抽象1 概念抽象 例25 从总体上看,你认为我国的政治体制如何?(请在合适答案号码上打)(1)基本合理 (2)存在一些弊端()存在严重弊端()不了解 例26 请问你们家属于下列哪一类家庭?(请在合适答案号码打)(1) 核心家庭 (2)主干家庭 (3) 单身家庭 (4) 联合家庭 问题含糊2问题含糊所谓问题含糊,指的是问题的含义不清楚、不明确,或者问题有歧义。这种问题有些是由于设计者对所提问题的目的和用意不明确造成的,有些则是由于问题的语言表达不当或对问题的用语推敲不够造成的。例27 你认为我们国家现在最需要(请在合适答案号码上打)(1)
24、全面迅速的改变 (2) 全面缓慢的改变(3)部分迅速的改变 (4) 部分缓慢的改变例28 有人说,“文革”前青年人对老年人很尊重,现在青年人越来越不尊重老年人了。你认为这种变化发展得请在合适答案号码上打 )(1) 太快了 (2)比较快 (3) 比较慢 (4) 太慢了问题带有倾向性3 问题带倾向性例29 你认为全国职工的平均工资水平是否应当提高呢?(请在合适答案号码上打)(1) 工资偏低,应当大幅度提高 (2) 应当小幅度增加(3)虽然偏低,但为了国家经济建设,可以暂时不增加(4)和劳动生产率相比,工资不算低,不应该增加例30 有人认为,制度改革的结果最终将有利于国家经济繁荣。你的看法:(请在
25、合适答案号码上打)(1)同意 (2)不同意 (3)不知道4.问题的提法不妥例32 你现在的实际文化程度相当于(请在合适答案号码上打)(1)小学 (2) 初中 (3)高中或中专 (4)大学例31 请你判断下列说是否正确(请在合适的格中打)正确错误不知道打和骂是家庭教育不可缺少的方式问题有多重含义5问题有多重含义例33 实行责任制以来,你觉得你家里人的文化水平及生产技术能否满足生产需要?(请在合适答案号码上打)(1) 能 (2) 不能 (3) 不知道问题与答案不协调6问题与答案不协调在封闭式问题中,问题和答案是一个不可分割的整体,二者之间必须相互协调,密切配合。简单地说,就是提什么问题,就准备什么
26、答案,而不能形成“答非所问”的情况。例35 你认为你是否有调离的可能? (请在合适答案号码上打)(1)十分困难 (2)比较困难 (3)不太困难 (4)十分容易 例36 你最喜欢看哪一类报刊? (请在合适答案号码上打)经常看有时看很少看时事政治科普常识人物传记体育娱乐很显然,问题与答案不协调:问题问的是报刊的类别,而答案则是每一类报刊的阅读频率,因此,应该将答案改为:“ 时事政治; 科普常识; 人物传记; 体育娱乐”。如果想要了解每一类报刊的阅读情况,那么就必须将问题改为:“你对下列报刊的阅读情况如何? 六、 问卷的发放与回收如何提高问卷的回收率七、 如何提高问卷设计的质量高质量问卷的标准(l)
27、具有较高的信度和效度。 (2)适合研究的目的和内容。 (3)适合调查对象。 (4)问题少而精。在某种意义上,一份高质量的问卷应该具备法律条款那样的性质:清楚、明确、适合于所有对象。学习问卷设计不能只从书本上学,还要从设计调查问卷的实践中学。要提高设计问卷的水平,除了掌握上述有关知识外,还要在以下3 个方面打下坚实的基础。一是语文知识水平。二是社会调查研究方法的知识。三是社会生活知识。如何设计高标准的问卷第三节 统计数据的整理3.1 数据的表示3.2 统计数据的分布特征3.1 数据的表示3.1.1 列表表示3.1.2 图示法统计表类型将变量所取值按时间顺序排列序列表分类表按数值分类定性分布频数分
28、布时间序列表地域序列将变量所取值按地域排列按性质分类3.1.1 列表表示(统计表)时间序列表的例子:统计表定性分布: 首先建立一个元素的类别系统,使得各类互相排斥,而且是完备的,使被观测的各元素能既不重复又无遗漏地分到各类中去。 然后记录分到同类中的元素个数,或将同类中各元素的观测值加以归并,这样得到定性分布。 元素分类观测值记录与归并定性分布统计表定性分布的例子:统计表频数分布: 按变量所取的值进行分类,于是资料中每个观测值都分到相应类中去。记录各类中观测值出现的次数,制成频数分布表。确定组数k找出xmin与xmax计算组距h确定每组上下限将相应数据归并到各组Xmin 最小值,xmax 最大
29、值统计表分数 计 数 人数(f) 404915059正正146069正正正正正正正正正正正557079正正正正正正正正正正正588089正正正正正正正正正正529099正正正171001093 总数 200 在所属组的记录栏做一记号,按照我国习惯,用写“正”字方法,英文书使用“#”符号 表2-4 某校200个学生高等数学考试成绩统计表表2-5 某校200个学生高等数学考试成绩的频数分布表分数 人数(f) 分数 人数(f) 4045176812546510828742525712889310586329949911646928100105 3 7075 39总 数 200 统计表统计表表2-5与
30、表2-6的对比表2-5中组距等于6,频数分布的规则性,仍然可以维持,同时细节的损失也可减轻表2-6中的组距等于2,各组频数分布就变得很不规则了。由此可见,组数的确定应适当,亦不宜太多统计表累积频数(Cumulative Frequency):由第一组起至第i组止各频数之和称为第i组的累积频数,记为Fi,即:频率(Percent Frequency):就是频数除以总数n:fi/n,经常以百分数表示。累计频数与频率统计表频数表的例子统计表数据的处理步骤1.首先把数据按从小到大的顺序排列起来。 当数据太多时,可以用茎叶法排队 2.确定数据的最大值和最小值,求出极差。 3.确定组数和组距。 4.确定组
31、限和组中值。 5.分别计算各组区间内的频数及频率。 6.列出频数和频率分布表。例1 观察每10分钟进入某超市的人数,144个数据如下:23,23,35, 7, 29, 3,15,20,30,18,23,32,34,40,17, 25,30,33,51,37,43,52,67,34,20,26,46,68,79,82,57,61,96,75,59,64, 77,99,87,48,58,95,96,68,46,73,57,39,45,28,24,35,43,25, 27,30,42,30,22,18,21,26,21, 8,19,15, 24,12, 8, 8, 6, 8, 20, 8,25, 2
32、9, 26,36,26,28,36,22,41,37,30,50,28,35, 24,36, 50,44,48,38,47,55,30,44,50,40,47,83,75,64,66,75,83,90, 87,59,63,78,75,86,86,77,64,70,65,69,56,55,42,47,33,36, 34,29,33,25,16,30,22,18,9,14,16,20, 26,10, 18, 9, 7, 8,枝叶图枝叶频数073888 68899 7812158789 52684 60813233903 50684 57216 14059 66828 49520 631350240
33、 37495 00667 05680 3643025403686 53214 87407 2717512798 70050 96513678148 46345 911795735 5857010827337 6679695605进入超市人数 Stem-and-Leaf Plot Frequency Stem & Leaf 1.00 0 . 3 11.00 0 . 67788888899 3.00 1 . 024 10.00 1 . 5566788889 16.00 2 . 0000011222333444 16.00 2 . 5555666667888999 14.00 3 . 0000000
34、2333444 11.00 3 . 55566667789 9.00 4 . 001223344 8.00 4 . 56677788 4.00 5 . 0012 8.00 5 . 55677899 5.00 6 . 13444 6.00 6 . 567889 2.00 7 . 03 8.00 7 . 55557789 3.00 8 . 233 4.00 8 . 6677 1.00 9 . 0 4.00 9 . 5669 Stem width: 10.00 Each leaf: 1 case(s)茎叶图 用于直接描述未分组原始数据的探索性分析描述数据分布形状,如数据是否集中,是否有极端值等 由茎
35、、叶、每个茎对应叶的个数、茎的宽度这四元素组成茎叶图把每一项观察分解为茎值和叶值茎值确定组别叶值确定频数 (计数)Xi列出频数和频率分布表组组频数组频率【0,10)120.083333【10,20)130.090278【20,30)310.215278【30,40)250.173611【40,50)170.118056【50,60)130.090278【60,70)110.076389【70,80)100.069444【80,90)70.048611【90,100)50.034722合计1441.0000003.1.2 图示法统计图通过点的位置、线段升降、直条的长短或面积大小来表现事物的数量关
36、系,使用统计图代替冗长的文字叙述,可以大大提升统计报告的可读性,达到赏心悦目、事半功倍的效果。3.1.2 图示法常用的统计图有:条形图(Bar Chart) 线图(Line Chart)饼分图(Pie Chart) 直方图(Histogram) 箱式图(Boxplot) 高低图(High-Low) 散点图(Scatter Plot) 序列图(Sequence) 3.1.2 图示法一.条形图 条形图是最初级类型的统计图,常用于描述离散型数据的情况,它是用宽度相等而高度为频数(率)的线段或狭条形表示的。例 某市2004年人才求职人员学历分布资料如下: 编号学历人数1博士802硕士5603本科280
37、04大专22005中专13006其他7803.1.2 图示法3.1.2 图示法二.线图3.1.2 图示法三.饼分图 当数据是分类数据时,饼分图是有用的。饼分图常常用来表示各成分在总体中所占的百分比。只适用于单选问题。例 决定某产品价格的因素很多,它们在总价格中所占百分比如下表所示:因素原材料工资利润税收其他总计百分比552510821003.1.2 图示法3.1.2 图示法四.直方图 以每组的上下限为底,以频率/底宽为高所构成的图形为直方图。直方图中矩形的面积之和为1。3.1.2 图示法由60处地点100元价值货物的年底价值作直方图3.1.2 图示法五.箱式图箱式图显示数据的分布。例:组成住宅
38、房地产样本的25种销售价格(百美元)为: 660 595 1060 500 630 899 1295 749 820 843 710 950 720 575 760 1090 770 682 1016 650 425 367 1480 945 1120 3.1.2 图示法箱线图用于直接描述未分组原始数据的探索性分析描述数据的分布形状,如数据是否集中,是否有极端值等可以比较多组数据分布特征图中包含五个点组成:样本数据的最小值、下四分位数、中位数、上四分位数、最大值 箱线图奇异值最大值最小值中位数大于1.5倍四分位数间距四分位数间距范围箱线图中间的黑粗线为中位数方框为四分位间距的范围离方框上/下界
39、的距离超过四分位数间距1.5倍的为离群值,以 “O” 表示;超过3倍的则为极值,用“*”表示。3.1.2图示法六.高-低图 股票、商品、货币及其他市场数据每周、每日、甚至每时的波动都相当大,为了图示长期变动趋势,同时又能知道短期的变化,必须采用相应的专用图形工具来分析。高-低图就是为此而设计的。3.1.2 图示法例:长虹在2004年9月1324日两周间的股价资料如下:日期最高价最低价收盘价135.655.455.54145.735.545.65156.005.625.96166.105.966.04176.185.896.18206.356.136.34216.356.146.16226.27
40、6.006.06236.185.956.16246.306.066.063.1.2 图示法3.1.2 图示法七.散点图例:观察家庭月收入与月支出之间的关系,随机抽取10个家庭作调查得如下数据:收入(x)支出(y)收入(x)支出(y)6005401500890450450100080070060090075085075075066012508503604203.1.2 图示法3.1.2 图示法八.序列图时间序列图的绘制是以横轴代表时间,以纵轴代表所研究的数据记录。例6 一个发展中国家的经济活力有如下的15年记录:年活力年活力153853254951355105045511485541243653
41、1340753143815353.1.2 图示法3.2 统计数据的分布特征3.2.1 刻画数据集中程度的特征量3.2.2 刻画数据离散程度的特征量3.2.3 分布的偏度和峰度指标(分布形状)数据的特征和度量对于描述统计中的测度,主要可以分为三个方面来描述:一是数据的集中趋势,反映各数据向其中心值靠拢或聚焦的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是数据分布的形状,即数据分布的偏态和峰度。数据的特征和度量数据的特征和度量集中趋势算术平均数调和平均数几何平均数中位数众数百分位数四分位数离散趋势极差四分位距平均差方差与标准差标准分数离散系数分布形状偏态测度峰态测度3.2.1 刻画数
42、据集中程度的特征量集中趋势(General tendency)是指分布的定位,它是表明一组统计数据所具有的一般水平。对集中趋势进行测度也就是寻找数据一般水平的代表值或中心值。平均指标反映同类现象的一般水平,是总体内各单位参差不齐的标志值的代表值,也是对变量分布集中趋势的测定。数据集中区变量x对集中趋势的度量有数值平均数和位置平均数之分。 数值平均数就是对所有各项数据计算的平均数。因此它能够概括反映所有各项数据的平均水平。常用的数值平均数有算术平均数、调和平均数和几何平均数。位置平均数是根据数据集中处于特殊位置的个别单位或部分单位的数据来确定的代表值,因此数据集中某些数据的变动,不一定会影响到位
43、置平均数的水平,尽管如此,位置平均数对于整个数据集仍具有非常直观的代表性。常用的位置平均数有众数、中位数和其他分位数等。一、数值平均数 数值平均数又称均值(Mean),是根据统计资料的数值计算而得到,在统计学中具有重要的作用和地位,是度量集中趋势的最主要的指标之一。平均的对象可理解为变量 ,平均数可记为 。 (一)算术平均数 1简单算术平均数简单算术平均数是根据原始数据直接计算均值。一般地,设一组数据为,其简单算术平均数计算的一般公式可表达为 : (一)算术平均数例如:为了研究目前大学中班级学生人数的情况,从北京某大学抽样五个班级,其学生人数分别为:46,54,42,46,32。我们使用, 分
44、别表示该五个数据,计算其均值,可以写成: (一)算术平均数2加权算术平均数加权算术平均数计算的所依靠的数据是经过一定整理的,即是根据一定规则分组的。可分为(1)由数列计算加权算术平均数(2)根据组距计算加权算术平均数 (一)算术平均数(1)由数列计算加权算术平均数由单项变量数列计算加权算术平均数的基础是要先将数据进行分组,即将n个数据按变量值(xi)进行分组,并统计在各个变量取值出现的次数,或称为频数( fi )。其加权算术平均数的计算公式如下: (一)算术平均数设某班级10名同学的年龄分别为:18,19,17,18,17,18,19,18,18,19。则根据简单平均数的公式,我们可计算得到该
45、班10名同学的平均年龄: (一)算术平均数年龄(岁)人数 人数比重 1722/10 (0.2)1866/10 (0.6)1922/10 (0.2)合计1013个销售科的人员预测明年对本厂产品需求量,三人经验不一样,因此预测量不一样,经验丰富的在预测量中占的份额大一点,设三人权的比例为4 : 2 : 1,预测量分别为900,1000,1200,求平均预测量。(一)算术平均数(2)根据组距计算加权算术平均数 选择适当的组距来对数据进行分组,再求加权平均数往往就简单、容易许多。根据组距计算加权平均数的方法与上面所述的数列加权平均数方法基本相同,只需以各组的组中值来代替相应的x值即可 (二)调和平均数
46、 调和平均数(Harmonic mean)是均值的另一种重要表示形式,由于它是根据变量值倒数计算的,也叫倒数平均数,一般用字母表示 Hm。根据所给资料情况的不同,调和平均数可分为:简单调和平均数和加权调和平均数两种。(二)调和平均数1简单调和平均数 (二)调和平均数2加权调和平均数用公式表示为: 由此可以看出,当权重mi相等时,则加权调和平均数则转换为简单调和平均数。 (三)几何平均数例 我国19982002年我国钢铁产量的发展速度(以上年为基期)分别为:106.1%、107.5%、103.4%、108%和120.3%,求平均发展速度。几何平均数(Geometric mean)是个变量值连乘积
47、的次方根,常用字母G表示。它是平均指标的另一种计算形式。几何平均数是计算平均比率和平均速度最适用的一种方法。根据掌握的数据资料不同,几何平均数可分为简单几何平均数和加权几何平均数两种。(三)几何平均数1简单几何平均数假定有n个变量值x1,x2,xn,则简单几何平均数的基本计算公式为: 例 我国19982002年我国钢铁产量的发展速度(以上年为基期)分别为:106.1%、107.5%、103.4%、108%和120.3%,求平均发展速度。(三)几何平均数2加权几何平均数当掌握的数据资料为分组资料,且各个变量值出现的次数不相同时,应用加权方法计算几何平均数。加权几何平均数的公式为: 二、位置平均数
48、 数值平均数是根据所提供资料的具体数值计算而得到,和我们通常观念中的平均含义比较接近,但结果受极端值的影响而不能真是地反应改组资料的整体集中趋势,在这种情况下,一般可以考虑用位置中位数取代算术中位数来对数据的集中趋势进行描述。常用的位置平均数有:中位数、众数、分位数。 (一)中位数 中位数(Median)是度量数据集中趋势的另一重要测度,它是一组数据按数值的大小从小到大排序后,处于中点位置上的变量值。通常用表示Me。定义表明,中位数就是将某变量的全部数据均等地分为两半的那个变量值。其中,一半数值小于中位数,另一半数值大于中位数。中位数是一个位置代表值,因此它不受极端变量值影响。 (一)中位数1
49、根据未分组数据确定中位数对于未分组的数据,确定其中位数的具体步骤为:(1)将变量按变量值大小从小到大进行排列。(2)确定中位数的位置,即中点位置。一般的,设一组数据的个数为n ,则中点的位置为(n1)/2 。(3)确定中位数。(一)中位数如果观测值的数目n为奇数,则(n1)/2为整数,该位置上所对应的变量即为所求的中位数如果观测值的数目n为偶数,则 (n1)/2为非整数,则取位于中间位置的两个变量值的算术平均数作为中位数。 (一)中位数2根据单项数列确定中位数根据单项数列资料确定中位数与根据未分组资料确定中位数方法基本一致。具体步骤为:(1)计算各组的累计次数(或频数)(2)确定中位数的位置(
50、3)确定中位数。中位数所在组的变量值即为中位数。(一)中位数3根据组距数列确定中位数如果我们掌握的资料是分组后得到的组距数列,则确定中位数的步骤为:(1)确定中位数的位置 。(2)计算累计次数,据以找出中位数所在的组。(3)利用以下公式,确定中位数的近似值 (一)中位数 求比例:250-240/(345-240)=0.095 分割中位数组的组距(1400-1100)0.095=28.5下限公式 加下限,即 Me=1100+28.5=1128.5(元)例:某市500户居民人均月收入数据如下,计算其中位数。分组 500 800 1100 1400 1700 2000 频数 40 90 110 10
51、5 70 50 35累计频数 40 130 240 345 415 465 500中位数位置:500/2=250中位数的特点:(1)不受极端值的影响。(2)具有计算简便,意义明显的优点。其适用的数据类型比数值平均数的范围宽。(3)没有利用数据中的所有信息。(二)众数众数(Mode)是一组数据中出现次数最多的那个变量值,通常用MO表示。如果在一个总体当中,各变量值皆不相同,或各个变量值出现的次数皆相同,则没有众数。如果在一个总体中,有两个标志值出现的次数都最多,称为双众数。只有在总体单位比较多、变量值又有明显集中趋势的条件下确定的众数,才能代表总体的一般水平;在总体单位较少,或虽多但无明显集中趋
52、势的条件下,众数的确定是没有意义的。众数的确定方法要根据给定资料的具体情况而定。(二)众数1未分组资料或单项数列资料众数观察给定的数据,某个变量出现次数最多,则该变量即为所求众数。这样的方法确定比较容易,不需要计算。85 95 75 85 65 85 75 (二)众数2根据组距变量数量确定众数对于列表分组的数据,首先要确定众数所在的组,然后通过公式计算众数的近似值。 计算公式为:(下限公式) mo=I+i(fm-fm-1)/(fm-fm+1+fm-fm-1) 其中:I表示众数所在区间的下限值 i表示众数所在区间的组距 fm表示众数所在区间的组频数 fm+1表示众数所在区间的后一个区间的组频数
53、fm-1表示众数所在区间的前一个区间的组频数分组 500 800 1100 1400 1700 1的任意数.经验表明,不管分布状态如何,按照著名的“切贝舍夫定理”,至少有 75% 的数据位于 ,89的数据位于 ;当一组数据对称分布时,大约有68的数据在范围内 ;大约有95的数据在的范围内 ;而在的范围内大约有98的数据 。 100个同学的英语平均成绩是70分,标准差是5分,则有多少同学的成绩在60-80分之间58-82分之间K分别是2和2.4,则:至少有75个同学的分数在60-80分之间至少有82个同学的分数58-82分之间(二)离散系数 离散系数(Coefficient of variati
54、on)通常是就标准差来计算的,因此,也称为标准差系数.反映数列离散趋势的相对程度,是一组数据的标准差与其对应的平均数之比,是测度数据离散程度的相对指标,其计算公式如下: 离散系数的作用主要用于比较不同总体或样本数据的离散程度。离散系数大的说明数据的离散程度也就大,离散系数小的说明数据的离散程度也就小。 3.2.3 分布的偏度和峰度指标数据的特征和度量集中趋势算术平均数调和平均数几何平均数中位数众数百分位数四分位数离中趋势极差四分位距平均差方差与标准差标准分数离散系数分布形状偏态测度峰态测度一、分布偏态测度 偏态(Skewness)是对分布偏斜方向和程度的测度,是次数分配的非对称程度。它与平均数
55、和标准差一样,是反映次数分布特征的又一重要指标。 一、分布偏态测度 偏态通常分为两种:右偏(或正偏)左偏(或负偏)。它们是与对称的正态分布相比较而言的。 一、分布偏态测度统计分析中测定偏态系数的方法很多,一般采用如下公式: 一、分布偏态测度从上式可以看到,它是离差三次方的平均数再除以标准差的三次方。当分布对称时,离差三次方后正负离差可以相互抵消,因而分子等于0,则=0;当分布不对称时,正负离差不能抵消,就形成了正与负的偏态系数。当为正值时,表示正偏离差值较大,可以判断为正偏或右偏;反之,为负值时,表示负偏离差值较大,可以判断为负偏或左偏。偏态系数的数值一般在0与3之间,越接近0,分布的偏斜度越
56、小;越接近3,分布的偏斜度越大。二、分布峰态测度 峰度(Kurtosis)是分布集中趋势高峰的形状,指次数分配曲线顶端的尖峭程度。在变量数列的分布特征中,常常将数分配曲线与正态曲线相比较,判断是尖顶还是平顶及其尖顶或平顶的程度。峰度通常分为三种:正态峰度、尖顶峰度与平顶峰度。二、分布峰态测度 测度峰度运用四阶中心动差与标准差的四次方对比,以此来判断各分布曲线峰度的尖平程度。公式如下: 二、分布峰态测度 峰度系数是统计中描述次数分布状态的又一个重要特征值,用以测定邻近数值周围变量值分布的集中或分散程度。正态分布的峰度系数为3,当3时为尖峰分布,当3时为平顶分布。 二、分布峰态测度 正态2.4 S
57、PSS基础2.4.1 SPSS软件的基本操作环境2.4.2 SPSS数据文件2.4.3 SPSS数据的统计整理2.4.1 SPSS软件的基本操作环境(1) SPSS软件的启动开始程序SPSS Inc SPSS 16.0 Data Editor window 启动操作对话框Run the tutorial 运行SPSS教程 Type in data 在数据编辑窗口直接输入数据 Run an existing query 使用已经定义的SQL数据源 Create new query using Database Capture Windows 使用数据库向导创立一个新的SQL数据 Open an
58、existing data sourse 使用已有的内部数据 Open another type of file 使用已有的外部数据 Dont show this dialog in the future 以后启动SPSS不再显示该对话框 进入数据编辑窗口直接输入数据 SPSS启动界面(2) SPSS软件的基本窗口数据编辑窗口/SPSS Data EditorSPSS以电子表格形式创建、编辑、浏览数据文件(*.sav)的主程序窗口结果输出窗口/SPSS Viewer在对数据编辑窗口中的数据执行完相应的操作时,系统会自动打开结果输出窗口,用来显示和管理SPSS统计分析结果、图表及各种警告和错误信
59、息编程窗口/SPSS Syntax Editor用户可以在此窗口中编写、调试和运行SPSS程序 数据编辑窗口标题栏菜单栏工具栏Variables变量名栏数据输入栏当前数据栏CasesElements系统状态显示区窗口切换标签数据编辑区数据视图变量视图视窗控制按钮 目录区内容区标题栏菜单栏工具栏系统状态显示区分析结果显示区结果输出窗口视窗控制按钮 标题栏菜单栏工具栏系统状态显示区编程窗口编程区视窗控制按钮 (3) SPSS软件的退出在菜单栏中依次点选 FileExit回答系统提出的有关是否需要存储原始数据、计算结果和SPSS命令之后,即退到Windows的程序管理器中单击视窗控制按钮 双击标题栏
60、图标右键单击标题栏图标下拉菜单关闭AltF42.4.2 SPSS数据文件在数据编辑窗口下编辑的文件可供SPSS进行统计分析,形成SPSS数据文件SPSS数据文件存盘的扩展名为*.savFile Save直接存盘形成*.sav文件File Save as可指定路径、文件名、格式(包括数据库文件、ASCII文件、Excel文件)File New打开数据编辑器建立一个新的数据文件File Open打开一个已经存在的数据文件File Print打印数据文件(1)SPSS数据文件的建立第一步:启动SPSS软件,在启动对话框中选择“Type in data” ,打开数据编辑窗口若数据编辑窗口中已有数据而又
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45013-2024精细陶瓷基片的热疲劳试验方法
- 黄水疮的临床护理
- 《使用布局管理器》课件
- 颌骨膨隆的临床护理
- 减盐控压培训课件
- 函数知识点复习课件
- 孕期肚子阵痛的健康宣教
- 孕期白带黏稠的健康宣教
- 变应性肉芽肿血管炎的健康宣教
- 绝经的健康宣教
- 小学消防安全检查记录表【模板】
- 制氢操作规程6篇
- GB/T 4744-2013纺织品防水性能的检测和评价静水压法
- GB 1886.342-2021食品安全国家标准食品添加剂硫酸铝铵
- 期末复习必背作文 鲁教版八年级上册英语全册
- 《食品毒理学》教学PPT课件整套电子讲义
- 公路机电工程施工规范
- QUALITY MANUAL质量手册(英文版)
- 高考语文复习:诗歌意象专题训练
- 国开经济学(本)1-14章练习试题及答案
- 救助消防安全管理制度
评论
0/150
提交评论