统计模拟实验讲义问卷调查方案设计_第1页
统计模拟实验讲义问卷调查方案设计_第2页
统计模拟实验讲义问卷调查方案设计_第3页
统计模拟实验讲义问卷调查方案设计_第4页
统计模拟实验讲义问卷调查方案设计_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

问卷设计2.1.1问卷的概念和结构1.问卷的概念与种类问卷是依据统计研究目的和要求,按照一定的理论假设设计出来的、由一系列问题、项目、备选答案及说明所组成的、向被调查者搜集资料的一种工具。问卷设计是否科学合理成为问卷调查能否成功的关键。自填式问卷:是由被调查者自己填答的问卷代填式问卷:是由调查者根据被调查者的口头回答来填写的问卷问卷调查问卷调查指非政府性统计机构或个人所从事的对人的主观意见的调查工作,表头表体表脚也称作民意调查或民意测验调查问卷的基本格式:说明词:解释调查意义、表达感激之情等主题问句:被调查者基本情况、调查项目作业记录:时间、操作者等①危害自④容易引⑤破坏家封闭式问题为吸烟有害处?开放式问题容易控②制影,响他调查问卷的问题类型:易滋生腐败烟有

您认?

哪些身健康

容人健康起火灾庭团结您认为吸

您认为吸烟有哪些害处

哪些害处?①危害自身健康②影响他人健康但不易③全浪面费钱财③浪费钱财④容易引起火灾⑤破坏家庭团结⑥其他不易控制,但内容丰富问卷设计的基本要求:问题的提出要紧扣主题问句和标准答案要易于理解和回答先易后难、先封闭后开放、先基本问题后派生问题以不超过20分钟为宜主题明确提问科学逻辑性强容量适度①吸烟 ②不吸⒉您每天大约吸多少支烟③10-15支①5支以下④15-20②5-10支⑤20-25支⒋您是否认为吸烟有害健康(请写出理由)调查单位中吸⒈您是否吸烟(如果选②,则跳过烟⒉人、所占⒊比题例)吸烟人群日吸烟数量情况⑥25支吸以烟上人群吸烟历史情况⒊您的吸烟历史大约有多长①1年以下 ②1-5年 ③5-10年调查④对10象年对以吸上烟的看法①吸烟 ②不吸⒉您每天大约吸多少支烟③10-15支①5支以下④15-20②5-10支⑤20-25支⒊您的吸烟历史大约有多长⒋您是否认为吸烟有害健康(请写出理由)调查单位中吸⒈您是否吸烟(如果选②,则跳过烟⒉人、所占⒊比题例)吸烟人群日吸烟数量情况⑥25支吸以烟上人群吸烟历史情况①1年以下 ②1-5年 ③5-10年

④10年以上2.问卷的结构问卷引言和说明被调查者基本资料问题和答案结语问卷的附件问卷的主要部分也可以放到后面问题种类事实性问题按表现形式分类按回答方式分类开放式问题封闭式问题意见性问题解释性问题2.1.5.2问题的设计问题设计的原则:1、所列问题必须符合客观实际情况2、问题不能太多3、问题必须是被调查者有能力回答的4、不要直接提社会上禁忌的和敏感性的问题5、问题不能带有诱导性6、问题的内容要具体、单一7、问题的语言要简单易懂、标准规范8、问题的排列要讲究逻辑性(二)问题设计中应遵循的原则⒈所选问题必须符合客观实际情况。问句是通过提问来搜集资料的,因此,设计问句

必须从实际情况出发。特别是设计那种涉及大范

围调查的问卷时,一定要做到尽可能详细的研究,使所列的问句符合当前社会经济状况和科学发展

水平,符合大多数人的思想意识、文化素质、语

言习惯、生活水平和生活方式等,即符合调查研

究的实际需要。(二)问题设计中应遵循的原则⒉问题不能太多问题的多少首先应根据调查目的和任务来决定,其次还要考虑整理、分析的方便,调查所拥有的人力、财力、时间等因素。所以问题设计中应考虑:⑴问句要短,提问要明确;⑵问题的答案不宜过多;⑶所提问题应是让被调查者根据他的常识和经验可以回答的,尽量避免被调查者要凭记忆才能回答的问题。根据多数调查研究人员的经验,一般面谈访问调查时间限制在30分钟以内是比较理想的。自填问卷调查,以一般填答者20分钟内能顺利完成为宜,最长不超过30分钟。(二)问题设计中应遵循的原则⒊所列问题必须考虑被调查者的实际能力和条件首先,设计问题时必须考虑被调查者是否有能力准确回

答,这里的能力包括阅读能力、理解及表达能力、文化

知识水平等,凡不太容易理解或不太可能回答的问题不

应提出。如向小学生询问“深化体制改革的重大意义是

什么?”,向男性消费者询问女性化妆品的使用效果等,都是很不合适的。(二)问题设计中应遵循的原则⒊所列问题必须考虑被调查者的实际能力和条件其次,设计问题时必须考虑被调查者是否有条件准确回答。例如,向未通电地区的人们询问“您家中某类家用电器的质量状况如何?”,向未婚人士询问“您家小孩喜欢吃哪种奶粉?”等。对于此类问题,被调查者或者不予回答,或者随便应答,这就必然降低调查资料的可信程度和调查质量。⒋尽可能避免社会上禁忌和敏感性问题问题设计要考虑人们的心理因素和心理承受能力,不提或少提隐私性和敏感性的问题,避免风俗和

民族习惯中忌讳的问题。例如,向回族人士询问

“您认为目前的猪肉价格高吗?”,会被认为你

在有意侮辱他。“您是否有过偷漏税行为?”,

“平均来说,每月你打几次麻将?”,“您一个

月能赚多少钱?”等。对于此类问题,应答者有一种本能的自我防卫心理,其结果要么不予回答,要么不真实回答,有的还会引起应答者反感。当然,并非所有的敏感性问题都不可以调查,关键是要注意方式、方法、措词及场合等,并注明替应答者严格保密。(三)问句的表述方法问句所使用的语言和提问的方式直接影响到被调

查者的理解程度和回答问题的情绪。因此,如何

用恰当的语言和提问方式表达好所要询问的问题,就成为问卷设计中至关重要的问题。一般来说,

对问句的表述有以下几条基本要求:(三)问句的表述方法⒈问句的语言要通俗易懂、简单明确、标准规范。问句中不要用复杂、抽象、过于专业化的术语或缩略语,如“您的消费观念是什么?”就太抽象、笼统,不好回答。再如“您认为知识分子在改革中发挥了什么作用?”,知识分子包括哪些人本身有待争论。(三)问句的表述方法如“经常”指每周至少一次等。对于容易产生异义的概念,则应在使用时给出明确的定义或进行具体的解释,如对于“年龄”一词,为避免有人理解为周岁,有人理解为虚岁,问句应该为“您的实足年龄是多少?”。问句的语言要标准规范,是指问句中使用的词语、概念、指标等,都应是得到了社会公认或符合有关规定的,不

可以随意杜撰或新造,也不可随便用简写语。另外,陈述问题时最好不用长句子,文字应简洁,使问题尽可能清晰、简短,让人容易明白。(三)问句的表述方法⒉问句的内容要具体、单一,避免双重问题。双重问题是指将两个或两个以上的问题合在一起提问,如“你的父母赞同你们的婚姻吗?”不同的人可能有不同的情形,对这类双重问题很难用一个答案做出回答。又如“你为什么不喝牛奶而换喝豆浆?”这一问句包含了三层意思,或者说三个问题:“你为什么不喝牛

奶?”“你为什么改喝豆浆而不改喝其它流食?”“什么原因使你更换流食?”由于对问句理解的不同,答案也会很复杂。(三)问句的表述方法⒊提问的态度要客观,不能带有诱导性或倾向性。问句若带有诱导性或倾向性就会影响被调查者对问题的独立思考,从而不能反映出被调查者的真实意向。最终使回答结果失去客观性。例如“××牌啤酒泡沫丰富、口味清纯,你对它的印象如何?”就带有明显的倾向性客观上引导被调查者朝好的一面回答。因此提问时应保持中立态度,使用中性语言,以便使获取的资料客观、公正、准确。(四)问题设计的技巧和排列⒈常用的技巧方法有些如敏感性强、带有个人隐私等方面的问题,若直接提问往往引起很高的拒答率,最好采用间接询问的方式,并且语气要特别委婉。例如,

“您有多少存款?”直接询问效果不好,可询问“您近期有哪些消费计划?”“您投资计划如何?”“若出现历史上最高的通货膨胀率,您会采取哪些重大消费行为?”再列出一些备选答案。从应答者的选择情况可大致测出对方的存款情况。(四)问题设计的技巧和排列具体来说,以下一些方法是常用的。⑴假定法。即用一个假定性条件句作为问题的前提,然后再询问应答者的看法。例如,“假定允许人员自由调动,您会继续留在原单位吗?”“假定允许自由出境旅游,您选择哪里?”等。这类提问消除了应答者的后顾之忧,能获得一些真实的看法。(四)问题设计的技巧和排列⑵释疑法。即在问题前面写上一段消除疑虑的文字。例如,“麻将是人们喜欢的娱乐活动之一,你一周玩几

次?”麻将往往与赌博联系在一起,直接询问“你打

麻将吗?”往往不愿回答或告诉你一个不真实的答案,这里把它定性为娱乐活动,就消除了应答者的疑虑,气氛融洽了,便能获得真情。(四)问题设计的技巧和排列⑶转移法。即把本应由应答者根据自己实际情况填答的问题,转移到由应答者根据他人的情况来阐述自己的想法。例如:“对于用公款购买物品中拿回扣的问题,有人认为可以拿,有人认为拿了以后应上交,也有人认为不应拿回扣,您同意大利哪一种看法?”这比直接问

对方“您在用公款购买物品时拿回扣吗?”要好得多,也就是说让应答者不以第一人称回答问题,而以第三人称回答问题。又如“有人认为,购买高档商品有时是为了相互攀比或满足虚荣心的需要,你同意这个观点吗?”(四)问题设计的技巧和排列问题的排列是问卷设计中另一个很重要的问题。如果问题排列杂乱无章不恰当,就会影响被调查者的回答效果和资料的准确性,甚至影响自填式问卷的回收率。一般来说,排列问题的基本要求是:便于被调查者自然而顺利地回答问题,便于调查结果的整理和分析。具体可从以下几方面考虑:(四)问题设计的技巧和排列⑴相同性质或同类问题集中排列。⑵问题的排列要由浅入深,先易后难,循序渐进。⑶要按问题的时间前后顺序排列。综上所述,问题的排列要有严密的逻辑性。但在实际设计中,有时为了特别需要,有些问题的排列也可做特殊处理。问题设计案例:一、

您家有等离子电视机吗?1、有

2、没有二、请问您在购买小轿车时,主要考虑哪些因素?(选出您认为合适的答案)1、价格

2、款式

3、品牌

4、耗油量

5、售后服务

6、维修费用

7、乘坐舒适

8、行驶平稳三、您在购买这种牌子的电视机时,主要是考虑哪些因素?(按主要程度进行排序)4、外形1、产品的品牌

2、价格合理

3、售后服务美观

5、维修方便四、您对这款轿车是否感到满意?1、非常满意

2、比较满意

3、一般

4、不太满意5、不满意2.1.5.3问题答案的设计1.问题答案的设计形式是非式(对选式)要求被调查者在两个可能答案中选择一个,例如“是”与“否”,容易发问也容易回答。但只限于搜集简单的

事实或态度,对于既不肯定也不否定的答案就无法表示。多项式列举几个可能的答案,由被调查者选出最符合自己情况和意见的答案。优点是答案有一定的范围,便于被调查者取舍。但是,备选答案不可能穷尽所有可能的情况,因而也容易使被调查者做出随意应付的选择。顺位式列出对某一问题不同层次的答案,由被调查排出次序,表示自己的态度和倾向。程度评价式这是直接测定被调查者主观感觉和意见强弱程度的问句。如:由被调查者根据自己的感觉和意见在上面圈注0

1

2

3

4

5

6

7

8

9

10很赞同

比较赞同

赞同

无意见 反对

相当反对 很反对比较式把若干可比较的事物整理成两两对比的形式,由被调查者进行比较2.问题答案的设计原则1)所列答案应包括所有可能的答案(穷尽)不能遗漏

“其他”来弥补2)不同答案之间不能互相包容(互斥)不能交叉3)答案的表达必须简单易懂、标准规范(简洁)4)每一项答案都应有明确的填答标记,答案与答案之间要留下足够的空格(方便)问卷设计的步骤问卷是根据统计假设,由问题、概念、变量、指标或问答类别等所组成的。问卷设计中最

关键的问题,一是提出假设,二是确定变量

并由此确定具体的衡量指标。前者是问卷设

计的理论框架,后者则是将理论概念操作化

或指标化。(一)确定调查目的和调查主题主要是围绕问卷所要调查的问题进行初步

调查了解,熟悉和掌握有关基本情况。具

体采用的方法有:广泛查阅有关资料,进

行理论上的准备;广泛征求有关专家及实

际工作者的意见,以取得他们的经验指导;与各种类型的被调查者交谈、讨论,打开

设计思路等。问卷设计的步骤(二)设计问卷初稿这是问卷设计的主要工作,包括问题的选择确定、表述方法、排列顺序、版式安排、回答方式及备选答案等方面的具体设计。这一步工作务必细心研究反复推敲。设计的每个问题或项目都要对照回答如下问题:⑴是否符合调查主题;⑵是否必要;⑶能否得到确切答案;⑷词义是否明白无误;⑸文字是否简明扼要。在实际设计工作中,有两种具体的设计方法。一个叫卡片法,另一种叫框图法。问卷设计的步骤卡片法卡片法的具体做法是:第一步,把问卷中所要询问

的问题及备选答案按一个问题一张卡片的方法写在

卡片上。第二步,对卡片进行分组,把主题相同或

相关联的卡片放在一起。第三步,把每一组卡片按

适当的询问顺序进行排序。第四步,根据问卷的整

体结构排出各类卡片的前后顺序,使卡片联成一个

整体。第五步,从被调查者的角度对问卷进行审视,对不当之处逐一调整和补充。最后,加上引言、注

释和结语,形成问卷初稿。卡片法的特点是从具体问题开始,然后到部分,最后到整体。它的优点是调整和修改问题方便;缺点是不利于问卷的整体把握。问卷设计的步骤框图法框图法的具体做法是:第一步,根据调查内容绘制问卷整体结构的框图。第二步,详细写出框图中每一部分的问题及答案,并排好顺序。第三步,从被调查者的角度对问卷进行审视,对不当之处逐一进行调整和补充。最后,加上引言、注释和结语,形成问卷初稿。框图法的特点是从总体结构开始,然后到部分,最后到具体问题。它的优点是问卷的整体安排一目了然;缺点是对具体问题的调整和修改不很方便。问卷设计的步骤(三)问卷的试用和修改由于问卷涉及到的人员或单位复杂,再加上设计者本身的局限,所以,问卷初稿很难将问卷调查可能出现的各种情况和问题都考虑周全,也就是说,问卷设计很难一次成功,往往要经过多次修改。在此过程中,问题的试用是十分重要的。将问卷文稿在少数被调查人中试填,实际上是进行小范围的实地调查。也有把问卷初稿送给有关专家、研究人员和典型的被调查者,请他们对问卷进行分析评价,指出不妥之处,提出改进意见。问卷设计的步骤示例旅游及生活方式调查问卷简单的引言(略)旅游1、您是否喜欢旅游?

是□

否□如果是,在3年内计划去哪?中国□

亚洲□

欧洲□

美国□

澳洲□其他□如:2、当您旅游度假时选择哪种住宿?别墅□公寓□酒店客房□其他□如:3、您通常与谁一同旅游度假?夫妻小孩□

亲友□

朋友□

其他□

如:4、他们有护照吗?

有□

没有□5、您是否希望我们帮助您办护照呢?是□否□6、您旅游度假时通常使用:信用卡□支票□现金□美容院□生活方式1、您是否已成为以下俱乐部的会员?高尔夫俱乐部□

健身俱乐部□

网球俱乐部□其他□(注明)2、您现在的住房是:自购别墅□自购公寓□公司房□租住别墅□租房□与家人亲戚同住□3、您的交通工具是:私家车□公司车□打的□摩托车□其他如:4、婚姻状况:已婚□

单身□

同居□5、您的职业:

您的职务:老板□总裁□经理□职员□其他□如:———您的年龄:低于26岁□26~39岁□40~59岁□60岁以上□6、您配偶的职业:

您配偶的职务:老板□总裁□经理□职员□其他□如:您配偶的年龄:低于26岁□26~39岁□40~59岁□60岁以上□7、你们夫妻双方的月收入合计(人民币/月)1000元~4000元□

4000元~8000元

8000元~15000元□

15000元以上□您的姓名:

您的地址:

您的得奖联系电话为:家庭

手机

幸运号码NO:0012083-----------------------------------------------------------------感谢您的宝贵时间

NO:0012083为了感谢您的帮助,主办人将把所有填写完整的调查问卷存入电脑抽奖系统,该系统将赠一批高质量礼品给幸运中奖者,请保存您的回执单。祝您好运!××公司地址:

×

×

××

联系电话:

×

×大学生婚恋观调查2.2

统计数据的整理统计数据整理的含义与要求统计数据整理的步骤统计分组分布数列某班统计学的成绩表序号成

绩序号成

绩序号成

绩序号成

绩序号成

绩173108119882880377527711792090298538873781275218230743972461137122953174407457314892376328541966921584248933744277778166925953482439188117862686358244829791876275936824551从以上成绩表中,你能看出什么信息?以下是反映月收入增长的两个图,请问谁的收入增长快?A

的月收入增长情况1

2

3

4

5

6

7

8

9 10

11

12月份收入:元B的月收入增长情况1

2

3

4

5

6

7

8

9

10

11

12月份收入:元对统计学的成绩进行统计整理(统计分组)后的表和图序号组

限人数160分以下2260-70分2370-80分18480-90分17590分以上6最高分96分最低分51分平均分76.4分22181762018161412108642060分以下60-70分70-80分80-90分90分以上图1和图2的数据来源相同月份1月2月3月4月5月6月收入1100.01101.21102.51102.91103.41104.2月份7月8月9月10月11月12月收入1105.61106.51106.91107.31108.11108.9B的月收入增长情况1120.01100.01080.01060.01040.01020.01000.01

2

3

4

5

6

7

8 9

10

11

12A的月收入增长情况1110.01108.01106.01104.01102.01100.01

2 3

4

5

6

7

8 9

10

11

122.2.1统计整理的概念统计整理通常是指对调查所得到的原始资料进行分类、汇总,使之系统化、条理化的工作过程。但广义的统计整理也包括对原来已经加工的综合资料的再整理。如历史资料的整理、统计年鉴的编辑、次级资料(如各出版物公布的)的加工整理等。承上启下的作用统计整理是统计工作的第二阶段。这个阶段是统计调查的继续,统计分析的前提。统计调查统计整理统计分析统计工作统计整理的意义原始资料分散,不系统,难以从总体上分析和认识社会经济现象的数量表现。资料在分组方法、总体范围或指标涵义、口径、计算方法等方面不同,而不能满足统计分析的要求。通过统计整理:原始资料或次级资料变为综合资料,能够反映总体特征;发现和弥补调查工作的遗漏与不足,提高资料的准确性。资料的审核资料的分类(分组)资料的汇总结果显示(图或表)2.2.2统计资料整理的基本步骤设计整理方案设计整理方案。与资料收集方案衔接、指标一致审核统计资料。包括:完整性、准确性、及时性进行统计分组。这是统计整理的关键问题。进行资料的汇总。这是统计整理的中心内容。编制统计表或统计图。呈现统计整理的结果。说明:1.统计整理前必须对资料进行审核;2.选择最基本、最重要的指标对资料进行加工整理。2.2.3

统计分组统计分组的含义统计分组的种类统计分组的概念和原则概念根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究对象的总体划分为若干个不同性质的组。原则穷尽原则、互斥原则例1:从业人员按文化程度分组小学毕业中学毕业(含中专)大学毕业(×)25%33%42%文盲或识字不多小学毕业中学毕业(含中专)大专毕业大学及大学以上(

√)例2:某商场把服装分为②

成年装(男女装)儿童装(男女装)统计分组的种类(√)按分组标志的多少不同简单分组复合分组按分组标志的性质不同品质标志分组数量标志分组①男装、女装、童装。(×)对总体只按一个标志进行分组,称为简单分组。如:以产值作为划分企业规模的标志;按文化程度对人口总体进行分组。统计对总体往往要从多方面进行研究,仅仅依赖一个分组标志进行分组是难以满足需要的,必须运用多个分组标志进行多种分组,形成一个分组体系,才能满足需要。1.简单分组对同一总体选择两个或两个以上的标志层叠进行分组,就形成复合分组。例如,为了认识我国高等院校在校学生的基本状况,可以同时选择学科、学制、性别等三个标志进行复

合分组,得到如下分组体系。2.复合分组文科理科本科专科男生女生男生女生本科专科男生女生男生女生按品质标志分组,就是选择反映事物属性差异的品质标志作为分组标志,并在品质标志的变异范围内划定各组界限,将总体划分成为若干个性质不同的组成部分。例如:人口总体按性别,分为男、女两组;再如:企业总体按所有制,分为全民、集体、合营、个体等组。3.按品质标志分组按数量标志分组,就是选择反映事物数量差异的数量标志为分组标志,并在数量标志的变异范围内划定各组界限,将总体划分为性质不同的若干组成部分。例如,居民家庭按子女数分组,可分为0人(无子女)、1人、2人、3人;等等。4.按数量标志分组例

1

为了了解某地区银行存款的构成,可以选用存款性质、期限两个标志分别进行分组:按存款性质分组企业存款储蓄存款

财政性存款按存款期限分组活期存款定期存款简单分组复合分组存款同时按其性质及期限分组企业存款活期

定期储蓄存款活期定期财政性存款活期定期例2

企业职工按工龄分组:5年以下5~10年10~15年15~20年20年以上品质标志分组数量标志分组统计分组的作用1、提示类型:统计分组的根本作用是将复杂的社会经济现象按照统计认识的要求区分为各个性质不同的组成部分。2.说明总体现象的内部结构。现象的内部结构是表明现象本质特点的一个重要方面,将同一总体不同时期的结构联系起来,还可以看到现象的发展趋势和规律。3、反映变化。将总体的分组资料按时间的移动联系起来进行分析,可以反映总体及各组在数量上的变动情况和变动规律。4、分析总体现象之间的依存关系。通过分组将有相互影响的现象联系起来进行研究,反映它们在数量上的变动规律。例如:商品销售额与流通费用率的关系;居民收入与储蓄额的关系。2.2.4

分布数列在统计分组的基础上,将总体中的所有单位按组归类整理,形成总体中各个单位数在各组间的分布,就叫做分布数列(frequency

distribution)。分布在各组的个体单位数叫次数,又称频数。各组次数与总次数之比称比率,又称频率。2.2.4.1分布数列的概念各组名称(常用x

表示)两个构成要素各组次数(有两种表现形式:绝对数也称频数,用f

表示相对数称为频率,用f/∑f表示。)按成绩分组X人数f381210760分以下60-70分70-80分80-90分90分以上合计40各组名称X各组次数f例:2.2.4.2分布数列的种类分布数列由于分组是分布数列的基础,因此有怎样的分组就形成怎样的次数分布。综合上述各种的分组,分布数列的类型,可归纳为:品质数列变量数列单项数列组距数列等距数列异距数列不连续组距数列连续组距数列例:1、某地人口的性别分布按性别分组次数人数(人)比重(%)男女154349271461329751.3748.63合计30048224100.002、学生的成绩分布学生按成绩分组x次数学生数(人)f比重(%)f/∑f60以下2460-7081670-80204080-90153090以上510合计50100变量数列品质数列2.2.4.3变量数列的编制1.单项数列的编制2.组距数列的编制确定变量数列的形式——根据变量的性质及特点选择不同的变量数列。确定组距和组数——注意几个概念:上限、下限、组距、组数。组数过多,组距太小,要避免将相同性质的单位分到不同组中去;反之,如果组数过少,组距太大,要避免将不同性质的单位分到同一组中去。确定组限——(1)客观数量界限。(2)第一组的下限和最后一组的上限。有极端值时,第一组和最后一组可采用开口组。(3)尽可能采用5或10的倍数。“上限不在内原则”确定分配次数——可利用EXCEL表进行汇总。根据总体各单位的变量值进行同类合并,并列出相应的单位数或比重。1)确定组距和组数单项数列不存在组距的问题,如下表所示。此时,组数等于数量标志所包含的变量值的数目。然而当所包括的变量值较多时,单项数列显得十分繁琐,如下表,难以反映总体内不同性质组成部分的分布特征。这就有必要编制组距数列。编制组距数列时,不仅要考虑各组的划分是否能区分总体内各组成部分的性质差别,还需要确定适当的组距和组数,才能准确而清晰地反映总体的分布特征。在实际进行分组时,采用等距数列或异距数列,应决定于现象的性质和研究的目的。标志值分布比较均匀时,一般用等距数据;标志值分布很不均匀时,应采用异距数列。当偏度系数不大时,用斯特吉斯(美国H.A.Sturges)经验公式确定组数:n

=1+

3.3lg

Nd

=

R

=

xmax

-

xminn

1+

3.3lg

Nn为组数,N为总体单位数,d为组距,R为全距,即最大值(xmax)与最小值(xmin)的差。根据这个公式,可得出如下的组数参考标准:N15~2425~4445~8990~179180~359n56789当偏度系数大时,分布明显偏态时,以平均数为中心,以K倍标准差为组距。1)确定组距和组数有时异距数列能比较准确地反映总体内部各组成部分的性质差异。在异距数列中,各组频数或频率不能直接比较。为消除各组组距不同所造成的影响,需要计算频数密度或频率密度。频数密度是频数与组距之比,频率密度是频率与组距之比。各组的频数密度或频率密度可以进行比较。在社会经济统计总体中,有一部分现象性质差异的变动并不均衡,很难用等组距的办法近似地区分性质不同的组。譬如,为研究人口总体在人生各发展阶段上的分布,就需要按照人在一生中自然的和社会的发展规律采用异距分组。例如,整理我国

1982年第三次人口普查资料时采用了如下的异距分组。1)确定组距和组数统计年鉴中按年龄分组为:0-14

少年15-64

中青年65岁以上

老年1)确定组距和组数当组距、组数确定后,只需划定各组数量界限便可编制组距数列。一般讲来,按数量分组标志分组的组限应是决定事物性质的数量界限。然而在具体划分时,尚需在遵循这一原则的前提下,从次数分布特征的角度考虑编成的组距数列是否真实地反映了总体内各个单位的实际分布特征。例如:某小组10名工人的基本工资变量资料如下(单位:元):45

49

54

56

58

60

62

64

69

702)组限的确定设已确定分为低、中、高三个工资组,各组组距为10元(已确定组数和组距)。于是可以有如下两种划分组限的方法,形成两个分布特征不同的组距数列(表4-15、表4-16)。表4-15的分布持征反映着高工资的工人占全小组工人数的一半,中等工资的工人数居中,低工资的工人数最少。表4-16的分布特征反映着中等工资的工人占全小组工人数的一半,低工资的工人数持中,高工资的工人数最少。究竟哪一种分布特征准确?需要依据该小组工人工资变量的实际分布来检验。2)组限的确定工资(元)工人数(人)40-50250-60360-705合计10表

工人按基本工资分组工资(元)工人数(人)45-55355-65565-752合计10表

工人按基本工资分组可以看出,这一数轴可以分为三个区段:其中以55—65元一段变量值分布最为密集;数轴的首段,则是另外一种形态,变量值分布较为稀疏;而在数轴末段,直至70元附近才有两个变量值出现。因而可以判断,表4-15的组距数列正是由于组限划分不当将最密集的55-65段变量值拆散在两个组内,造成了高工资组分布最多的假象。2)组限的确定组距数列掩盖了分布在组内各单位的实际变量值。为了反映各组中个体单位变量值的一般水平,统计工作中往往用组中值来代表它。组中值是组内变量范围的中间数值,通常可根据备组的上限、下限进行简单平均,即:组中值=(上限+下限)/2例如:3)组中值的计算3)组中值的计算在编制组距数列时,为了避免出现空白组,同时又能使个别变量离差较大的单位不致于无组可归,往往在首末两组使用

“××以下”及“××以上”的不确定组限的形式。这种形式叫做“开口组”。为进行统计分析,有时也要假定开口组的组限,并计算其组中值。一般可按相邻组的组距来计算“开口组”的假定的组限.然后再计算组中值。计算式为,首组假定下限=首组上限-邻组组距………………(4)组中值=上限-邻组组距/2末组假定上限=末组下限+邻组组距………………(5)组中值=下限+邻组组距/23)组中值的计算4)分布数列的次数次数是分布在各组中的个体单位数。如用相对数形式表示便是比率。比率是一种结构相对数,各组比率之和应等于1或100%。各组次数或比率的大小意味着相应的变量值在决定总体数量表现中所起的作用不同。次数或比率大的组,其变量值在决定总体数量表现中的作用就大,反之就小。由于社会经济现象性质的不同,各种统计总体都有不同的次数分布,形成各种不同类型的分布特征。频率分布的性质按顺序列出各组的组别及相应的频率,就构成频率分布。频率分布可以比频数分布更好地体现出总体分布特征。频率分布有两个基本性质:一是各组频率都是一个介于0与1之间的分数,即大于0而小于1;二是各组频率之和等于1。累计频率分布在频数分布的基础上,将各组频数依次累计,就形成累计频数分布。各组累计频数与总频数之比,就形成累计频率分布。2.2.4.3

频率分布累计分布有向上累计分布与向下累计分布两种。向上累计分布是将各组的频数或频率由变量值小的组向变量值大的组累计,累计结果分别说明各组上限以下的累计频数或累计频率的分布状况。当累计到最后一组时,其累计频数或累计频率等于总频数或100%。向下累计分布是将各组的频数或频率由变量值大的组向变量值小的组累计,累计结果分别说明各组下限以上的累计频数或累计频率的分布状况。当累计到最后一组时,其累计频数或累计频率等于总频数或100%。2.2.4.3

频率分布表2-4某年年底某高校在职教师年龄累计分布数列教师按年龄分组人数(人)比重(%)

频数向上累计向下累计(人)频率(%)频数(人)频率(%)30岁以下20119.1420119.141050100.0030~40岁31730.1951849.3384980.8640~50岁36634.8688484.1953250.6750~60岁15114.38103598.5716615.8160岁以上151.431050100.00151.43合计1050100.00————2.3

数据的显示统计表统计图统计表将统计数据按一定的顺序排列在表格上,就形成了统计表。从广义讲,统计表包括统计工作各阶段所使用的一切表格,有调查表、汇总表和分析表。本章将侧重就表现统计整理结果所用的统计表进行讨论。1.从统计表的形式上看,可由总标题、横行标题、纵栏标题和指标数值四部分组成。此外有些统计表在表下还增列补充资料、注解、附记、资料来源、某些指标的计算方法、填表单位、填表人员以及填表日期等。统计表的构成统计表的构成横行标题指标数值表2-52005年我国三次产业增加值及增长情况表总标题产业增加值(亿元)占GDP的比重(%)比2004年增长(%)第一产业第二产业第三产业22718862087339512.40%47.30%40.30%5.20%11.40%9.60%合计182321100.00%9.90%资料来源:国统计局,中华人民共和国2005年国民经济和社会发展统计公报,。主词宾词纵栏标题总标题是表的名称,用以概括统计表中全部统计资料的内容。一般写在表的上端中部。横行标题是横行的名称,在统计表中通常用来表示各组的名称,它代表统计表所要说明的对象,一般写在表的左方。纵栏标题是纵栏的名称,在统计表中通常用来表示统计指标的名称。一般写在表的上方。指标数值列在各横行标题与各纵栏标题的交叉处。统计表中任何一个数字的内容由横行标题和纵栏标题所限定。统计表的构成统计表的内容可以分为两个组成部分:一部分是统计表所要说明的总体,它可以是各个总体

单位的名称、总体的各个组,或者是总体单位的全部,这一部分习惯上称为主词。另一部分则是说明总体的统计指标,包括指标名称和指标数值,这一部分习惯上称为宾词。统计表的内容统计表的种类统计表根据主词是否分组以及分组程度不同,可分为:1、简单表,是指对总体未作任何分组而形成的统计表,可以有两种形式:一是按总体单位名称排列的统计表;二是按时间顺序排列的统计表。2、简单分组表,是指总体仅按一个标志分组而形成的统计表。3、复合分组表,是指总体按两个或两个以上标志进行复合分组而形成的统计表。统计表年份国内生产总值(亿元)199667884.6199774462.6199878345.2199982067.5200089403.61、我国近年来国内生产总值资料:2、1999年日均创国内生产总值:按产业和行业分组国内生产总值(亿元)第一产业第二产业工业建筑业39.6110.795.814.9简单表复合表按产业分组国内生产总值(亿元)第三产业交运仓储邮电通信业74.112.2第一产业39.6批发零售贸易餐饮业18.7第二产业110.7其他43.2第三产业74.1合计224.4合计224.4简单分组表简单设计:说明主词的各项指标在表中并列平行排列。复合设计:说明主词的各项指标在表中层叠排列。统计表的宾词设计统计表3、1999年日均创国内生产总值:按产业和行业分组国内生产总值(亿元)比重(%)第一产业39.617.7第二产业110.749.3工业95.886.5建筑业14.913.5第三产业74.133.0交运仓储邮电通信业12.216.5批发零售贸易餐饮业18.725.2其他43.258.3合计224.41004、某市近年从业人员分布表:年份三次产业第一产业第二产业第三产业小计男女小计男女小计男女1997199819992000总计宾词简单设计宾词复合设计统计表的编制规则开口式上下端线要粗表内一般不打横线,但合计栏要打横线主词有计量单位要专列一栏,宾词的计量单位可写在标题旁或下方。主词分栏用(甲)、(乙)、(丙)……宾词分栏用(1)、(2)、(3)

……表中数字应填写整齐,上下位数要对齐。数字为0时要写上,无数字或不用填写数字的要在格内填上“—”,缺数据的格内要填上“……”。如有必要,给表添加注释、说明及资料来源等……1、意义是用来表示统计资料及其相互关系的各种图形。它是用点的多少,线的疏密或粗细、条的长短、颜色的深浅、面积或体积的大小、曲线的起伏来表现统计资料的多少、分布状况、变化趋势和相互关系。统计图生动形象,给人以深刻印象,往往与统计表同时使用,互补不足。2、类型按照形式分:折线(曲线)图、饼图、条形(带形)图、直方图、雷达图、象形图、统计地图等,还有统计中一些特殊的图形如质量控制图。按维数分:平面图、立体图。

Word,Excel中均有相应的图形。2.3.2

统计图直方图是用直方形的宽度和高度来表示频数分布的图形,即在直角坐标系上,以横轴表示变量,以纵轴表示频数或频率,以各个宽度为组距、高度为频数或频率的直方块矩形所构成的图形。(1)直方图绘制直方图时,横轴表示各组组限,纵轴表示次数(一般标在左方)和比率(一般标在右方),没有比率的直方图只保留左侧次数。在直方图的基础上,将各组直方形顶边线的中点(即由组中值与频数或频率确定的坐标点)用直线连接起来,就形成为折线图。(2)折线图当变量值非常多,变量数列的组数无限增多时,折线便近似地表现为一条平滑的曲线。曲线图是组数趋向于无限多时折线图的极限描绘,是一种理论曲线。它实质上是对应于连续变量的次数或比率分布的函数关系图。(3)曲线图变量分布曲线图种类很多,常见的有J型分布、U型分布和钟型分布三种。J型分布有两种类型:一种是变量分布的频数或频率随变量值的增大而变大,称为正J型分布,例如商品供应量随着价格的上升而增加。另一种是变量分布的频数或频率随变量值的增大而变小,称为反J型分布,例如商品需求量随着价格的上升而下降。J型分布曲线如图2-5(a)、2-5(b)所示。(3)曲线图—类型图2-5(a)正J型分布图2-5(b)反J型分布(3)曲线图—类型U型分布是一种“两头大,中间小”的分布,即靠近中间变量值的分布频数小、频率低,靠近两端变量值的分布频数大、频率高,曲线形式犹如英文字母“U”。例如人口死亡率的年龄分布就是幼儿和老年人死亡率高,青少中年的死亡率低,如图2-6所示。死亡率(‰)年龄图2-6U型分布钟型分布与U型分布正好相反,是一种“中间大,两头小”的分布,即靠近中间变量值的分布频数大、频率高,靠近两端变量值的分布频数小、

频率低,形如古钟。在钟型分布中,有一种以变量的平均数为中心,左

右两侧完全对称的分布,称为正态分布,其特点是变量平均数两侧的频

数或频率随着与平均数距离的增大而完全相等地依次减少,如图2-7(a)所示。如果变量平均数两侧的频数或频率分布不完全对称,则称为偏态

分布,分为左(负)偏分布和右(正)偏分布两种,分别如图2-7(b)、2-7(c)所示。(3)曲线图—类型图2-7(a)正态分布图2-7(b)左偏分布图2-7(c)右偏分布钟型分布与U型分布正好相反,是一种“中间大,两头小”的分布,即靠近中间变量值的分布频数大、频率高,靠近两端变量值的分布频数小、

频率低,形如古钟。在钟型分布中,有一种以变量的平均数为中心,左

右两侧完全对称的分布,称为正态分布,其特点是变量平均数两侧的频

数或频率随着与平均数距离的增大而完全相等地依次减少,如图2-7(a)所示。如果变量平均数两侧的频数或频率分布不完全对称,则称为偏态

分布,分为左(负)偏分布和右(正)偏分布两种,分别如图2-7(b)、2-7(c)所示。(3)曲线图—类型图2-7(a)正态分布图2-7(b)左偏分布图2-7(c)右偏分布累计曲线图根据累计频数或累计频率分布数列,可以绘制累计分布图。它以分组变量为横轴,以累计频数或累计频率为纵轴,以各组的上限(下限)与累计频数或累计频率为坐标点,平滑连接各点即成向上(向下)累计曲线。(3)曲线图—类型03040506070年龄累计频数(人)20406080100累计频率(%)105084063042021020累计频数(频率)分布曲线,可用于分析社会财富、土地和工资收入等的分配是否公平的问题。该曲线图是由美国洛伦茨博士提出,故称为洛伦茨曲线。洛伦茨曲线某国家收入所得的分配情况按收入所得水平分组人口收入累计收入的(%)人口数(万人)结构%累计%(亿月收入额美元)结构%实际累计%绝对平等绝对不平等最低128.512.8512.851.575512.850中下等348.034.8047.654.08131847.650中等466.946.6994.3416.33527094.340较高45.64.5698.97.54249498.90最高11.01.11001.886100100100合计1000.0100.031.40100204060806040200100绝对平等线实际收入分配线绝对不平等线80

100人口(%)收入(%)洛伦茨曲线AB洛伦茨曲线与基尼系数实际收入分配曲线和收入分配绝对平等曲线之间的面积为

A,实际收入分配曲线右下方的面积为B。以A除以A+B的商表示不平等程度。这个数值被称为基尼系数或称洛伦茨系数。当A=0时,A/(A+B)=0,则基尼系数为0,收入分配完全平等;当B=0时,A/(A+B)=1,则基尼系数为1,收入分配绝对不平等;所以,基尼系数可在0和1之间取任何值。联合国有关组织规定:若低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.6以上表示收入差距悬殊。基尼系数还可用于财产、资本、资源、产品、市场等资源分配均衡程度的分析。未分组数据—茎叶图(茎叶图的制作)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶对于n(20≤n≤300)个数据,茎叶图最大行数不超过L

=

[

10

×

log

10

n

]茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息13树茎树叶数据个数10788311131200

892410茎叶图类似横置的直方图未分组数据—茎叶图(茎叶图的制作)某车间工人日加工零件数的茎叶图某车间工人日加工零件数的茎叶图未分组数据—茎叶图(扩展的茎叶图)树茎

树叶10s

710.

8

811*

011t

2

2

311f

4

511s

7

7

711.

8

8

8

912*

0

0

112t

2

2

2

2

3

3

3

312f

4

4

4

5

512s

6

6

7

7

712.

8

8

913*

0

113t

3

313f

4

4

513s

713.

9

9树茎

树叶10*10.

7

8

811*

0

2

2

3

411.

5

7

7

7

8

8

8

912*

0

0

1

2

2

2

2

3

3

3

3

4

4

412.

5

5

6

6

7

7

7

8

8

913*

0

1

3

3

4

413.

5

7

9

9扩展后的茎叶图扩展后的茎叶图未分组数据—箱线图(箱线图的制作)用于显示未分组的原始数据或分组数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me

和两个四分位数(下四分位数QL和上四分位

数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接未分组数据—单批数据箱线图(箱线图的构成)中位数46

8

1012QUQLX最大值X

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论