第五章市场调查数据处理_第1页
第五章市场调查数据处理_第2页
第五章市场调查数据处理_第3页
第五章市场调查数据处理_第4页
第五章市场调查数据处理_第5页
已阅读5页,还剩105页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章

市场调查数据处理第一页,共110页。第一页,共110页。第五章市场调查数据处理第一节市场调查数据审核

第二节市场调查资料整理

第二页,共110页。第二页,共110页。教学目标知识目标:理解市场调查资料审核、整理的意义、内容和方法;掌握市场调查数据的排序、分类汇总、分组分析、集中与离中趋势分析以及用Excel制作统计图的方法和技术。能力目标:能够根据基层企事单位管理和决策要求,对市场调查数据进行基本整理和分析。第三页,共110页。第三页,共110页。

调查能否出成果和成果质量高低,很大程度取决于这个阶段的工作。第四页,共110页。第四页,共110页。

第一节市场调查数据审核

一、市场调查资料审核的意义和步骤市场调查资料审核是对调查获取的各种资料(原始资料和次级资料)进行审查和核实。它对于获取有效信息,提高市场调查质量,具体极其重要的意义。(一)意义

1、有利于克服逻辑、登记和计算等方面的错误,保证信息的一致性、客观性和有效性;

2、有利于提高工作效率,避免重复劳动;

3、有利于提高信息资料的质量。

第五页,共110页。第五页,共110页。(二)步骤1)对原始资料进行审核、订正。2)编码。3)数据的录入。4)数据的清洁。5)统计预处理。6)分组与汇总。第六页,共110页。第六页,共110页。补充:调查问卷的回收与审核(一)调查问卷的回收1)与资料收集工作相配合,掌握每天完成的问卷数和接收的问卷数。2)在完成的问卷后面记录下问卷完成的日期和接收的日期,以便有必要时在分析过程中对先接收的资料和后接收的资料作比较。第七页,共110页。第七页,共110页。3)多个项目同时实施时,必须清楚地记录下交付实施的项目数、仍在实施的项目数、已经完成并返回的项目数。4)每一份返回的问卷都要记录一个唯一的、有顺序的识别号码,作为原始的文件。第八页,共110页。第八页,共110页。5)在进行资料的核对、事后的编码、资料的录入等工作时,必须按识别的号码,准确地记录清楚是谁拿着哪些原始文件(返回的问卷)。6)要让所有参与资料整理工作的人员都知道,他们不仅负有保证工作质量的责任,还负有保证不丢失任何原始文件的责任。第九页,共110页。第九页,共110页。(二)问卷资料处理的步骤

调查问卷审核调查问卷校订调查问卷编码调查问卷录入加权处理缺失值的处理变量交换数据净化统计分析第十页,共110页。第十页,共110页。★任务描述某校的一个调研项目小组,在该校的万名在校大学生群体中,随机发放《大学生消费问题调查问卷》500份,对大学生的月消费水平、支出类别及金额、生活资金及来源、社会兼职及目的、家庭收入、自我评价等问题,进行问卷访谈。之后,对问卷进行了回收。对这些回收的问卷,这个项目小组应该怎样处理?第十一页,共110页。第十一页,共110页。任务要点第二步第三步第一步确认数据资料;

对数据进行编码和录入;

对数据进行初步分析。第十二页,共110页。第十二页,共110页。任务一确认数据资料

1调查问卷的回收与登记2调查问卷的审核3处置有问题问卷

第十三页,共110页。第十三页,共110页。一般事先需要专门设计登记表格,具体内容有:一二三四调查地区及编号,调查员姓名及编号;调查实施的时间,问卷交付的日期;问卷编号;实发问卷数、上交问卷数、未答或拒答问卷数、丢失问卷数等。第十四页,共110页。第十四页,共110页。一致性审核及时性审核准确性审核完整性审核

二、调查问卷的审核二、调查数据审核的内容

第十五页,共110页。第十五页,共110页。

三、市场调查资料审核的方法调查资料审查方法主要有经验判断、逻辑检查和计算核对等方法。

(一)经验判断

(二)逻辑检查

(三)计算核对

第十六页,共110页。第十六页,共110页。

(1)经验判断即根据已有经验,判断数据的真实、准确。例如,如果被调查者的年龄填为141岁,根据经验判断,年龄填写肯定有误。又如,某小杂货店营业面积500平方米,根据经验,一个小杂货店这样的营业面积肯定与事实不符。2.审核的主要方法第十七页,共110页。第十七页,共110页。

(2)逻辑检查即根据调查项目之间的内在联系和实际情况,对数据进行逻辑判断,看是否有不合情理或前后矛盾的情况。例如,某被调查者的年龄填写13岁,而婚姻状况却填“已婚”,其中必有一项是错误的。又如某消费者前面说“不知道”某调味品,后面却说“每天都在使用”,显然前后矛盾。第十八页,共110页。第十八页,共110页。

(3)计算审核它是对数据资料的计算技术和有关指标之间的相互关系进行审查,主要审查各数字在计算方法和计算结果上有无错误。第十九页,共110页。第十九页,共110页。l)实地审核又称初步审核、现场审核,一般包括调查员审核和督导审核。2)中心办公室审核这一阶段的审核工作应在资料搜集工作全部结束后立即开始。3.审核的阶段第二十页,共110页。第二十页,共110页。1)收核查问卷(又称一审)(1)查实此人是否真正接受了调查。(2)查实受访者是否符合过滤条件。(3)查实调查是否按规定的方式进行的。(4)查实问卷回答内容是否完整。(5)核查其他方面的问题。4.审核的基本步骤第二十一页,共110页。第二十一页,共110页。

2)编辑检查(又称二审)(1)访员是否没问某些问题,或者没有记录某些问题的答案。(2)访员是否遵循了规定的跳问路线。(3)开放式问题的答案是否真实合理。第二十二页,共110页。第二十二页,共110页。市场调查资料审核时应注意的问题

(一)审核要边调查边进行为了防止因调查结束后审核而造成发现问题全部返工的局面,应将资料审核工作贯穿整个调查过程,做到边调查边审核。

(二)审核要以准确性为重点准确性是信息资料的生命线,是调查质量的体现,也是资料审核的重点。

(三)审核要贯穿调查工作始终资料审核必须伴随着调查的每个步骤。其中,主要是调查项目的登记、各调查单位资料的汇总上报和调查资料的全面汇总。调查登记人员负责调查项目信息的审核,各调查单位调查负责人负责本单位资料的全面审核,调查工作中心办公室负责全面调查资料的审核。

第二十三页,共110页。第二十三页,共110页。四、处置有问题问卷

返回现场重新调查视为缺失数据放弃不用第二十四页,共110页。第二十四页,共110页。缺失数据的处理

对于缺省数据,常用的处理方法是填充法。具体有以下几种形式:

1.均值法。指用样本中对某回答项目的相关数据计算平均值得到的数据填充缺省值。

2.均值加上随机项。此随机项从残差的分布中获的。

3.从回归模型中得到预测值作为缺省值。

4.从回归模型中得到预测值加上随机项作为缺省值。此外,对于少量确实无法通过填充法进行缺省数据处理的项目,则可以采用剔除法,即将缺省的数据信息剔除掉。第二十五页,共110页。第二十五页,共110页。编码

编码、录入数据员录入数据

任务二编码、录入数据员第二十六页,共110页。第二十六页,共110页。问卷的代码

编码设计变量的定义

任务二编码、录入数据员第二十七页,共110页。第二十七页,共110页。编码设计的分类后设计编码

前设计编码数字型开放题结构式问卷中的封闭题任务二编码、录入数据员一是阅读所有问卷对该问题的回答;另一种方法是抽取部分问卷。技术要点方法第二十八页,共110页。第二十八页,共110页。后设计编码让所有的编码员都在同一地点,使用同一编码本进行工作。提供编码员一份空白的“参照问卷”。提供编码指南,说明什么时候以及怎样设立一个新的代码或合并答案。设立较多、较窄的类别要优于设立较少、较宽的类别。提供每一个需要事后编码的项目一份编码表或编码名单。对每一个项目做一份编码本,内含一页或几张单页。技术要点保持编码册的整洁和清晰。第二十九页,共110页。第二十九页,共110页。(二)编码的形式1.编码设计的内容

1、编码表

1)问卷的代码、变量的定义(名称、类型、所占字节、对应问题等)

2)取值的定义(范围、对应含义等)将这些内容列成表格形式,称为编码表

第三十页,共110页。第三十页,共110页。第三十一页,共110页。第三十一页,共110页。2.事前编码1)请问您家有没有电脑?①□有②□没有2)请问您家的电脑是什么牌子?①□联想②□康柏③□IBM④□同创⑤□HP⑥□其他(请注明)3)请问您家的电脑买多久了?①□最近半年②□一年③□二年④□三年以上第三十二页,共110页。第三十二页,共110页。3.事后编码3、事后编码

事后编码指的是研究者在调查已经实施,、问题已经作答之后,给予每一个变量和可能答案一个数字代码或符号。第三十三页,共110页。第三十三页,共110页。通常需要事后编码的有:1)封闭式问答题的“其他”项2)开放式问答题3)无结构问卷第三十四页,共110页。第三十四页,共110页。(三)编码的基本方法

1.封闭题的编码设计

1)对单选题只需规定一个变量,取值为选项号

例如:

Q18请问您最近一年内买过mp3吗?()1.买过2.没买过

变量名--V18,属于数字型变量,变量所占字节数为1,变量取值范围为1,2或9,其中1表示买过,2表示没买过,9表示该题无回答。

第三十五页,共110页。第三十五页,共110页。2)对多选题需规定多个变量对变量与取值的定义一般有两种做法:一种方法是将各个可能回答的答案选项都设为一个0-1指示变量,如被调查者选择了该答案,此变量的值为1,否则为0。第三十六页,共110页。第三十六页,共110页。

Q17请问您随身带的mp3主要来源是什么?()1.自己购买2.别人送的

3.向朋友/同事/亲戚借4.其他第三十七页,共110页。第三十七页,共110页。

另一种做法是-----

将变量定义为所选题号,变量值为选项号,变量排列顺序即为选择答案的顺序。第三十八页,共110页。第三十八页,共110页。3)排序题的编码设计

第一种方法:变量个数即选项个数,按照选项排列顺序,分别定义各变量为对应选项所排次序号,取值即为次序号。第三十九页,共110页。第三十九页,共110页。例如:Q12请您根据信任程度由大到小对下列广告排序(按重要程度排序)1.电视广告

2.报纸广告

3.广播广告

4.杂志广告

5.路牌广告第四十页,共110页。第四十页,共110页。另一种方法:变量个数即要求排序项数,依照次序号排列顺序,分别定义各变量为各次字号对应的选项项数,取值即为选项号。第四十一页,共110页。第四十一页,共110页。Q12请问下列广告中,您最信任哪个广告?()其次呢?()再次呢?()1.电视广告

2.报纸广告

3.广播广告

4.杂志广告

5.路牌广告第四十二页,共110页。第四十二页,共110页。4)数字型开放题的编码设计对直接回答数字的问题,变量取值即为该数字。例如,直接询问被调查者的年龄,设计编码时取变量名为NL,所占字节为2(因为调查对象要求在20-60岁之间),小数点位为0,变量取值即为年龄,单位为“岁”,取值范围为20-60或99(99表示该题缺失)。第四十三页,共110页。第四十三页,共110页。问卷编号001-5001.被访问对象性别:①□男②□女2.请问您的年龄是:

周岁3.请问您的最高学历是:①□小学及小学以下②□初中③□高中(含中专)④□大学专科⑤□大学本科⑥□研究生或研究生以上4.请问您的个人月平均收入大约在:①□500元以下②□500-1000元③□1000-1500元④□1500-2000元⑤□2000-2500元⑥□2500元以上例:第四十四页,共110页。第四十四页,共110页。5.对下面的说法您的意见如何?请按照您的赞同程度圈选答案。非常赞同赞同无所谓不赞同很不赞同①我觉得公司的管理很混乱54321②我们的老板很有人情味54321③呆在这个公司我觉得郁闷54321④我对这份工作很珍惜54321……第四十五页,共110页。第四十五页,共110页。2.开放式问题的编码

对于开放式问题的编码,编码员首先要将回答者的答案浏览一遍,列出所有的可能答案,然后定义这些答案的变量名称和变量表值,再对每一个回答者进行分类。第四十六页,共110页。第四十六页,共110页。

开放式问题的合并与编码回答类别描述表5-7中的回答分类的数字编码质量好l,4,51外形美观22价格便宜33体积小64名牌7,8,95不知道10,11,126第四十七页,共110页。第四十七页,共110页。“您为什么选择那个品牌的电脑?”12个样本的回答为:(1)质量好(2)外形美观(3)价格适中(4)耐用(5)高科技 (6)体积小(7)是名牌(8)大家都买这个牌子(9)经常在广告中见到(10)说不清(11)我不知道(12)没有什么特别的原因

例:第四十八页,共110页。第四十八页,共110页。3.编码手册将事前编码和事后编码所用的编码本合并为一个编码本,即为编码手册.第四十九页,共110页。第四十九页,共110页。(四)实践中的编码技巧

(1).实践中容易导致编码误差的因素主要有:1)被调查者的回答可能不完整、含糊,难以确认其含义,对这类答案无法编码。2)编码表有问题,例如答案类别相互交叉,或缺少重要的答案类别,令编码人员无法准确归类。3)编码人员对语句的理解有误,编码错误,产生误差。4)编码人员疏忽大意,造成漏码、错码,不仅耽误时间,浪费人力,还可能严重破坏数据质量。第五十页,共110页。第五十页,共110页。(2).可采取相应的措施1)设计问卷时,答题说明尽量详细一些。2)编码人员在遇到模棱两可的问题时,不能凭猜测编码,最好询问督导。3)尽量保证编码表的质量,避免由于编码表引起的编码误差。4)在编码表中找不到对应答案时,可以将答案编入“其他”项做好编码人员的选择、培训、监督、审核工作第五十一页,共110页。第五十一页,共110页。第二节市场调查资料整理

资料整理的内容主要有排序、分类(组)、汇总、计算频数和频率,制作统计表、统计图等。一、数据的排序与分类汇总(一)排序排序是按照某个或某些指标的一定顺序对数据进行重新排列。(二)分类汇总分类汇总就是对某个排序指标及相关指标进行计数、求和、计算平均值等。(三)利用Excel进行数据排序与分类汇总第五十二页,共110页。第五十二页,共110页。注:资料整理的方法1、行列选择与数据输入2、汇编、制表和绘图

第五十三页,共110页。第五十三页,共110页。例如,某商业零售企业为了了解顾客对本企业经营服务质量的看法,在一天内随机访问了40名顾客,请他们对企业的满意程度打分(分值从10到100,分为10个档次),得到表5.1资料,试据表中资料用Excel进行排序和分类汇总。1.数据排序(1)打开Excel电子表,录入调查数据,将该数据表命名为“消费者数据调查表”,如图5.1所示。第五十四页,共110页。第五十四页,共110页。

图5.1消费者调查数据表第五十五页,共110页。第五十五页,共110页。

(2)利用鼠标选定单元格A1:B41区域。(3)在菜单中选择“数据”中的“排序”选项,弹出图5.2所示的“排序”对话框。图5.2数据排序对话框第五十六页,共110页。第五十六页,共110页。(4)在排序对话框中,选择“主要关键字”列表中的“分值”作为排序关键字,并选择按“递增”排序。由于所选数据中已经包括标题,所以在“当前数据清单”中选择“有标题行”,然后单击“确定”按钮,即可得到排序结果(见图5.3)。图5.3消费评分排序表第五十七页,共110页。第五十七页,共110页。2.数据分类汇总在数据排序基础上,只须在“数据”菜单中选择“分类汇总”选项,Excel便会自动生成分组显示的数据清单。(1)在数据排序的基础上,选定需要分类汇总的数据区域,本例为A1:B41,然后选择“数据”菜单中的“分类汇总”选项,这时出现如下“分类汇总”对话框(见图5.4)。(2)在“分类字段”的下拉菜单中选择要进行分类的列标题,在“汇总方式”下拉列表中选择进行汇总的方式。本例中选择按“分值”进行分类,选择按“计数”进行汇总。单击“确定”便得到分类汇总的结果(见图5.5)。第五十八页,共110页。第五十八页,共110页。图5.4数据“分类汇总”对话框

第五十九页,共110页。第五十九页,共110页。对数据分类汇总以后,可以观察到给企业打各种分数的被调查者有多少人,给某一相同分数的被调查者的编号各是多少等。如本例中,给20分的只有1名被调查者,他的编号是10;给30分的有6人,他们的编号是1、12、18、20、27、30;给40分的有11人;……;给80分的有3人。第六十页,共110页。第六十页,共110页。图5.5数据分类汇总结果

第六十一页,共110页。第六十一页,共110页。二、数据的分组分析

(一)数据分组分析的一般问题要正确认识统计数据所反映的客观对象的本质特征和发展规律,必须根据研究目的要求,同时考虑现象所处历史条件和经济条件,选择最能反映现象本质特征的标志,对研究对象进行分组。分组标志有数量标志和品质标志两种。按品质标志分组有简单和复杂两种情况。对于简单的品质分组,分组标志一经选定,研究对象可分为多少组,总体中的各个单位应归并于哪一组,都是十分清楚的。对于复杂的品质分组,一般由国家统计部门制定统计的分类目录,所有分类研究都以国家统一分类目录为依据。按数量标志分组最重要的是要通过数量分组去区分事物的质量差别,标志水平不同的组,具有不同的品质(质量)特征。同时,按数量标志分组还要注意不重复、不遗漏,特别要注意反映事物本来的分布特征。第六十二页,共110页。第六十二页,共110页。

(二)Excel数据透视表在分组整理中的应用在统计数据分组整理中,常应用Excel数据透视表编制单向表和交叉表。图5.6数据透视表向导-3步骤之1第六十三页,共110页。第六十三页,共110页。1.单项表单向表即单变量表格,它只研究按某一个标志分组后,总体的分布情况。例如,利用消费者对企业满意程度调查资料(表5.1)建立的Excel工作表(见图5.1),可作如下进一步的分组分析。(1)打开消费者对企业满意程度调查资料工作表(见图5.1);(2)单击“数据”菜单中的“数据透视表和图表报告”选项,Excel弹出“数据透视向导-3步骤之1”对话框(见图5.6);(3)选择“数据列表或数据库”作为数据源,选择“数据透视表”作为报表类型。单击“下一步”,弹出“数据透视向导-3步骤之2”对话框(见图5.7);第六十四页,共110页。第六十四页,共110页。图5.7数据透视表向导-3步骤之2

(4)选定数据覆盖区域,即在图5.7“选定区域(R)”输入框中输入“$A$1:$C$41”,单击“下一步”,弹出“数据透视向导-3步骤之3”对话框(见图5.8);第六十五页,共110页。第六十五页,共110页。

图5.8数据透视向导-3步骤之3第六十六页,共110页。第六十六页,共110页。(5)在图5.8选择现有工作表,并将数据透视表确定在D1单元格中,即在图5.8输入框中输入“$D$1”;在图5.8中可通过“布局”调整工作表的版面,通过“选项”确定页面上的各种设置。图5.9数据透视向导-布局

第六十七页,共110页。第六十七页,共110页。(6)单击“布局”弹出图5.9所示对话框,选择右边的“分值”字段,并将它拖到左边的“行”区;再选择“分值”字段,将其拖到“数据”区域中,显示为“求和项:分值”,以便进行数据汇总。(7)双击数据区域中的“求和项:分值”字段,打开“数据透视表字段”对话框(见图5.10),在“汇总方式”列表中选择“计数”。

图5.10数据透视表字段

第六十八页,共110页。第六十八页,共110页。(8)单击右侧“选项”,Excel弹出选择数据显示方式行序框。在“数据显示方式”下拉选项中选择“占同列数据总和的百分比”,单击“确定”,则版式调整完毕。再单击“确定”,回到数据透视表步骤3(见图5.11)。图5.11选择数据显示方式

第六十九页,共110页。第六十九页,共110页。(9)单击数据透视表步骤3中的“完成”,消费者打分单向表便制作完成(见图5.12)。图5.12消费者满意程度单向表第七十页,共110页。第七十页,共110页。2.交叉表交叉表用于表示两个品质变量之间的关系,在市场研究用于可用于市场细分、市场机会等方面的分析。例如,上述某企业管理部门希望根据调查结果资料,确认不同性别的用户对企业满意程度打分的分值是否存在差别。现用交叉表作如下分析。

(1)打开消费者满意程度调查数据表(见图5.1);

(2)从“数据”菜单中选择“数据透视表和图表报告”选项,得到“数据透视对话框”,在对话框中选择“数据列表或数据库”与“数据透视表”,单击“下一步”;第七十一页,共110页。第七十一页,共110页。(3)在如图5.7所示向导步骤2对话框中,确定数据区域A1:D41,单击“下一步”;

(4)在图5.8所示向导步骤3对话框中,确定数据透视表位置,将其位置调整到“H1”单元格。然后单击“布局”,打开布局对话框;

(5)将对话框右边的“分值”字段拖到左边的“行”区作为分组变量,再将右边的“性别”字段拖到“列”区,作为交叉分析的变量,最后将右边的“性别”字段拖到“数据”区域中,并选择“计数”。若想以百分比的形式显示,则应双击数据区域中的“计数项:性别”,此时弹出“数据透视表字段”最后单击“确定”,又回到“布局”对话框,如图5.13所示。第七十二页,共110页。第七十二页,共110页。图5.13消费者调查数据透视表布局对话模型(6)单击“确定”回到第3步,要注意数据透视表的位置定在单元格G1,最后单击“完成”,得到图5.14所示交叉表。第七十三页,共110页。第七十三页,共110页。图5.14消费者评分分值与性别交叉分组表第五章市场调查数据数据处理交叉表分析表明,消费者对企业满意程度评分存在性别差异,男消费者的满意程度低于女消费者。66%以上的女消费者对该企业的满意程度在50%及以上(打分在50及以上),而有62%的男消费者对该企业的满意程度在50%以下(打分在40及以下)。第七十四页,共110页。第七十四页,共110页。

(三)数据的频数分布1.频数分布的概念在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各个单位在各组间的分布,称为频数分布。通过频数分布,可以研究大量现象的统计规律性。总体各组频数(次数)占总频数(总次数)比率,称为频率。频数分布表可以表明各组在总体中出现的次数或比重,从而描述总体的内部结构,揭示总体的关键因素或本质特征。第七十五页,共110页。第七十五页,共110页。2.累计频数分布按数量标志分组所形成的频数分布,称为变量数列。将变量数列各组的次数和比率依次累加所形成的分布称为累计频数分布。累计频数分布可以说明,总体中在某一标志值上(或下)的总体单位数(或称次数)有多少或占多大比重。累计次数有向上累计和向下累计两种计算方法。向上累计就是由变量值低的组向变量值高的组依次累计各组次数,其结果表明各组上限以下的次数或比率有多少。向下累计就是由标志值高的组向标志值低的组依次累计各组次数,其结果表明各组下限以上的次数和比率是多少。第七十六页,共110页。第七十六页,共110页。

3.变量频数分布的编制

调查数据按数量标志分组以后,形成总体单位在各组的分配,将这种分配结果按各组标志值大小顺序排列便形成变量频数分布(或称变量数列)。

变量数列有单项数列和组距数列两种。单项数列就是各组标志值都是用一个数值表现的数列。当变量是离散型的,且变量值项数较少,变动范围较小,可编制单项数列。如果变量是连续型的,或虽是离散变量,但其变动范围较大,变量值项数也较多,就必须编制组距数列。组距数列的编制大致有以下几个步骤:第七十七页,共110页。第七十七页,共110页。首先,将原始数据按大小顺序排列,并确定最大值、最小值和全距。其次,确定组数和组距。一般来说,组数在5~15之内,资料项数较多时,组数可多一些,资料项数较少时,组数可少一些。确定组距时既要考虑能够反映研究对象的本质特征,又要便于整理加工。能反映事物的本质特征,就是要求性质相同或相近的单位应尽可能归并在一个组或相邻几个组中,而不能将总体分布的集中趋势分散化。便于加工整理是指编制变量数列时,在能反映研究对象特征的前提下,应尽可能使用等距分组,组距最好是5的倍数。组距两端的数值称为组限,其中较大的称为上限,较小的称为下限。确定组限时要注意,最小组的下限要小于或等于最小的变量值,最大组的上限要大于或等于最大的变量值。第七十八页,共110页。第七十八页,共110页。

(四)分组分析案例与Excel软件处理例如,某学院会计专业45名学生第二学期统计学考试成绩如表5.2所示,试用Excel进行分析分析。操作步骤如下:1.打开Excel电子表,输入表5.2资料(见图5.6);图5.6学生统计学成绩表第七十九页,共110页。第七十九页,共110页。2.在单元格C1中输入“分组上限”,在区域C2:C6中输入分组上限59、69、79、89、99;3.在C7与D7的组合单元中输入“成绩汇总分布”;4.在区域C8:C12中,输入组距0-60、60-70、70-80、80-90、90-100;5.选择单元格区域D8:D12作为结果输出区域,并输入公式“=FREQUENCY(B2:B46,C2:C6)”;6.按CTRL+SHIFT+ENTER,得到图5.7所示结果。第八十页,共110页。第八十页,共110页。 图5.7某学院学生成绩分组表第八十一页,共110页。第八十一页,共110页。三、数据的集中趋势与离中趋势分析市场调查数据研究中,常常需要计算数据的集中趋势指标和离中趋势,以反映现象发展的一般水平和差异程度。(一)数据集中趋势分析1.数据集中趋势的测定集中趋势是指研究总体中各单位某一数量标志值向某一中心值靠拢的倾向。研究集中趋势也就是寻找总体各单位某一标志值一般水平的代表值或中心值。数据集中趋势的测定有平均数、众数、中位数等方法。第五章市场调查数据处理第八十二页,共110页。第八十二页,共110页。数据的集中趋势分析指标

均值

众数

二中位数

三一第八十三页,共110页。第八十三页,共110页。

均值(平均值,平均数Mean)表示某变量所有取值的集中趋势或平均水平。包括简单算术平均和加权算术平均。算术平均值加权平均值第八十四页,共110页。第八十四页,共110页。如某教学班50名学生某次考试成绩如下表(见表5.3)所示,则其算术平均数为:加权算术平均数=(分)第八十五页,共110页。第八十五页,共110页。案例:调查泰山游客的满意度,从六个方面入手(吃、住、行、游、购、娱),用5点量表来测量,其中,1=非常不满意,5=非常满意。某游客在吃、住、行、游、购、娱六方面打分分别为:5,4,4,4,2,1,计算该游客的满意度的算术平均值和加权平均值1.算术平均值:x=(5+4+4+4+2+1)÷6=3.672.加权平均值(1)确立各个指标的权数:假设:吃=0.15、住=0.15、行=0.1、游=0.3、购=0.1、娱=0.1(2)加权平均值:

x=(5×0.15+4×0.15+4×0.1+4×0.3+2×0.1+1×0.1)=3.25第八十六页,共110页。第八十六页,共110页。众数(Mode)众数(Mode)是总体中出现次数最多单位的标志值无众数

原始数据:10591268一个众数

原始数据:65

9855多于一个众数

原始数据:252828

364242第八十七页,共110页。第八十七页,共110页。

中位数是将研究总体中各单位的标志值按大小顺序排列,处于中间位子的标志值。如某小组5个学生月生活消费额按大小顺序排列为300、350、390、420、450,390即为这5个学生月生活消费额的中位数。显然,中位数也是反映现象一般水平的重要指标。第八十八页,共110页。第八十八页,共110页。

【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:

1234

5

6789中位数=1080第八十九页,共110页。第八十九页,共110页。2.数据集中趋势分析案例及Excel软件处理仍以某学院学生考试成绩资料(见表5.2)为例,利用Excel进行集中趋势分析。操作步骤如下:(1)打开Excel电子表,在A1与B1联合单元格内输入“45名学生统计学成绩”,A2单元格输入“学号”,B2单元格输入“成绩”;(2)在A3:A46和B3:B46输入学号和统计学成绩;第九十页,共110页。第九十页,共110页。

(3)单击[工具]菜单,选择“数据分析”命令,弹出“数据分析”对话框(见图5.8),选中“描述统计”后单击“确定”弹出描述统计对话框(见图5.9);图5.8第九十一页,共110页。第九十一页,共110页。图5.9第九十二页,共110页。第九十二页,共110页。(4)在“描述统计”对话框的“输入区域”后的输入框中,输入B2:B47;分组方式选中“逐列”;在“标志位于第一行”前的复选框中打“√”,表示选中。(5)在“描述统计”对话框中,选中“输出区域”,并在其后的输入框中输入单元格D1。(6)在“描述统计”对话框中,选中“汇总统计”;选中“平均置信度”,并输入95;再选中“第K大值”和“第K小值”,并分别输入数字“1”。输入完成后,单击“确定”,得到如图5.10所示的结果。第九十三页,共110页。第九十三页,共110页。在图5.10的计算结果中,平均数是74.62分,标准差为2.15,众数和中位数均为75分,最高分是98分,最低分是30分。图5.10

第九十四页,共110页。第九十四页,共110页。

(二)数据离中趋势分析离中趋势是指总体各单位标志值远离中心值的程度。它反映了总体各单位标志值平均离差的程度和平均数代表性的大小。反映现象离中趋势的指标主要有全距、平均差、标准差和变异系数(常用指标是标准差系数)等。

全距又称极差,它是总体各单位标志值中的最大值与最小值之差,它反映了总体各单位标志值的变动范围。在产品质量检验和控制中常用该指标,如极差控制图。

平均差是总体各单位标志值与总体平均数离差绝对值的算术平均数,它准确反映了总体各单位标志值的平均离差程度。但由于它使用绝对值符号,计算较复杂,故使用不方便。志值与总体平均数离差平方平均数的算术平方根。由于它

标准差又称均方根差,它是总体各单位标便于在大规模运算中使用,因此人们常用它作为反映离差的标准指标。第九十五页,共110页。第九十五页,共110页。数据的离散程度分析指标极差平均差

方差、标准差和离散系数第九十六页,共110页。第九十六页,共110页。标准差又称均方根差,它是总体各单位标志值与总体平均数离差平方平均数的算术平方根。由于它便于在大规模运算中使用,因此人们常用它作为反映离差的标准指标,故称标准差。根据这一定义,若用代表各单位标志值,代表各组单位数,代表总体单位数,代表总体平均数,代表标准差,其计算公式可表述如下:标准差=(简单式)标准差=(加权式)

第九十七页,共110页。第九十七页,共110页。变异系数是变异指标与平均数之比,它反映总体各单位某种标志值平均离差的相对程度。当比较两总体平均指标代表大小,总体各单位标志变异程度大小时,如果比较对象的性质不同或两总体规模大小不同,因而不可比时,必须使用变异变异系数(主要是使用标准差系数)。标准差系数()的算式为:上述变异指标都是从下面反映现象离差程度的,即指标数值的大小,直接说明总体各单位平均离差(或称离散)程度的大小。第九十八页,共110页。第九十八页,共110页。例如,市场抽样调查获得A地区居民年消费支出资料如表5.4所示,并知B地区居民平均年消费支出5千元,标准差为2千元。问哪个地区居民年平均消费支出额离差程度大。

第九十九页,共110页。第九十九页,共110页。解:1.求地区居民消费支出额的平均数、标准差和标准差系数A地区居民年平均消费支出额(千元)A地区居民年平均消费支出标准差(千元)A地区居民年平均消费支出标准差系数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论