版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章资料的基础分析:——描述统计1第八章资料的基础分析:——描述统计1学习目标了解资料输入计算机之前的处理工作掌握如何列表(双向交叉列表)了解如何对资料进行统计分析2学习目标了解资料输入计算机之前的处理工作28.1数据的确认、编辑和编码确认访谈是否以适当的方式进行,访问员是否造假(回访10%~20%)电话确认确认此人是否真正接受了调查?被调查者是否符合条件?是否按要求的方式调查?确认调查是否完整?检查其他问题确认的目的38.1数据的确认、编辑和编码确认3编辑对访问员和应答者的错误进行检查确定访问员是否没有问某些问题或者没有记录某些问题的答案核实问卷,以保证遵循了规定的跳跃模式检查开放式问题的答案要求访问员逐字记录答案,不以任何方式重新释义、表达或插入自己的语言。同时对问题的答案进行“追问”4编辑对访问员和应答者的错误进行检查4编辑实地编辑完整性清楚性内容的一致性明确性单位的统一性5编辑实地编辑5编辑办公室编辑更完整、确切地审查和校正回收的资料重点在于所查出问题的如何处理方面不完整答卷的对策大面积不回答,废卷;个别问题无回答,有效问卷并补救;相当多问卷对同一问题无回答,有效。明显回答错误对策无兴趣答卷的对策纠正对开放性问题的打乱顺序的回答。6编辑办公室编辑6编辑开放式问题的记录对于开放式问题的回答,访问员记录不当的例子问题:你为什么在众多的快捷/方便的餐馆中选择经常去肯德基?回答记录:顾客似乎觉的肯德基有更加美味的食物和一流的服务环境服务员没有进一步追问的例子问题:同上回答记录:因为感觉比较好。7编辑开放式问题的记录7编辑适当的记录和追问的例子问题:同上回答记录:因为感觉比较好。那里的服务员态度好,而且环境比较好。8编辑适当的记录和追问的例子8编码编码定义对一个问题的不同回答进行分组和确定数字代码的过程。大多数问卷中的大多数问题是封闭式的,并且已预先编码。编码主要是针对开放式问题进行。编码的原因文字记录对于定量分析不合适:1)对于用计算机分析,文字不太有效;2)调查分析记录不便于计量,100人有100种回答。编码就是把相似的进行归类。9编码编码定义9编码编码过程列出答案合并答案:一些形式上不同的答案,在本质上是一致的,可以被合并为一类。设置编码4、输入编码读取每组问题中每个开放式问题的回答。找出与按步骤2得到的合并类别相符的回答把每个具体的回答得数字编码填入相应的类别中在调查表的适当地方,注明每个问题回答的数字编码10编码编码过程10编码例:对于您最近一次购买体育用品、运动鞋或运动服装,您买的是什么?假设有6位被访者分别购买了一个篮球、一双跑鞋、一副网球拍、一双网球鞋,羽毛球,运动服。“1”代表运动器材;“2”代表运动服装“3”代表运动鞋11编码例:对于您最近一次购买体育用品、运动鞋或运动服装,您买编码明细单为把资料准确地输入计算机,需要制定一套规则,即编码明细单。一份说明文件中各个问题(变量)及其答案,与计算机数据文件中的字段、数码位置及数码之间一一对应关系的文件。12编码明细单为把资料准确地输入计算机,需要制定一套规则,即编码编码明细单需要注意的问题:所有资料转化为数值,不允许有字母或其他字符每一个数值码占据一列,(单选题和多选题)无信息的答案赋予标准代码每条记录的第一个字段都为问卷的编号。例:P14713编码明细单需要注意的问题:138.2资料的初步分析——列表
列表:把调查资料按照一定的目的、用表格的形式展现出来;单项列表:仅计数一个变量不同数值的出现次数的列表;交叉列表:同时计数两个或两个变量的不同数值联合出现的次数的列表。148.2资料的初步分析——列表列表:把调查资料按照一定的8.2.1单因素表格化分析目的:1、弄清无回答现象的程度;2、弄清编误和飞点发生在何处;3、弄清变量的经验分布;4、计算主要的描述指标。158.2.1单因素表格化分析目的:158.2.1单因素表格化分析无回答无回答数目过多会影响调研的数据分析和最终质量指定一些特别的数字表示无回答(缺省值)对于缺省值可用的方法:1.保留下来作为单独的一组;2.临时排除含有缺省值的记录;3.以其它数值替补缺省值(其中趋势量最常用)168.2.1单因素表格化分析无回答168.2.1单因素表格化分析编误与飞点作单项列表时,可能发现一些不正常的数值,经查对原值并非如此,这种误差称之为“编误”,可被纠正。飞点——经查对与原值相符,但是与其他的观察值相比,特别大或者特别小,无法纠正。箱线图有助于发现飞点。(由上四分位数、下四分位数、最大值和最小值决定的)178.2.1单因素表格化分析编误与飞点178.2.1单因素表格化分析频数分布表对于有飞点的数据宜采用不等组距,并设立开口单项列表的主要描述量众数、中位数、平均值和标准差等。(可用相关软件直接进行计算)188.2.1单因素表格化分析频数分布表18描述性统计集中趋势测量类别和顺序量表等距和等比量表均值中位数众数19描述性统计集中趋势测量19描述性统计众数一串数字中出现次数最多的值。通过制作频数分布表,可以较容易的找出。分类变量宜采用众数。中位数一组有序值得列里居中的那个值。其余值中一半要大于这个值,而剩余的一般要小于这个值。n是奇数或偶数。通过计算累计百分数20描述性统计众数20均值:刻画一组数字的算术平均值。描述性统计其中:fi=第i组的频数Xi=组中值h=组数21均值:刻画一组数字的算术平均值。描述性统计其中:fi=离散程度的计量标准差其中S=样本标准差Xi=第i个的观察值X=样本均值n=样本容量描述性统计22离散程度的计量其中S=样本标准差描述性统计22描述性统计离散程度的计量方差标准差的平方全距最大值减去最小值23描述性统计离散程度的计量23例:十名被访者给其电脑速度打分的数据集被访者等级142534425364
738495104“1”表示很慢“5”表示很快24例:十名被访者给其电脑速度打分的数据集被访者对十位被访者的等级分析25对十位被访者的等级分析25对十位被访者的等级分析百分率分布每个不同的数字出现的频率一般分率计算出来等级百分率(%)210320450520总计100累计百分率次数或百分率的动态总合26对十位被访者的等级分析百分率分布累计百分率26对十位被访者的等级分析中位数通过累计百分率计算众数通过百分率计算均值极差标准差27对十位被访者的等级分析中位数均值27描述性统计类别量表:众数,频率或百分率顺序量表:中位数,累积百分率等距量表:极差,均值,方差等等比量表:还可以计算几何平均数P10028描述性统计类别量表:众数,频率或百分率288.2.2多因素列表分析双向交叉列表最常用,应用最广泛的一种方法同时有两个变量参加交叉分组的频数分布表例如研究家庭收入对汽车保有量的影响:家庭收入在平均数之上的家庭是否比收入在平均数以下的家庭拥有更多的汽车298.2.2多因素列表分析双向交叉列表29双向交叉列表
表8.9家庭收入与汽车保有量交叉分组行百分比家庭收入汽车保有量个案数1辆以内1辆以上合计低收入高收入89%59%11%41%100%100%5446
表8.10家庭收入与汽车保有量交叉分组列百分比家庭收入汽车保有量1辆以内1辆以上低收入高收入合计64%36%100%24%76%100%30双向交叉列表表8.9家庭收入与汽车保有量交叉双向交叉列表不同的表格形式有不同的含义,表8.9与8.10提供的信息不同。交叉列表一般都将自变量沿横向展开,将因变量沿纵向展开,相对频数计算行百分比。同样可以做出家庭规模与汽车保有量的交叉列表31双向交叉列表不同的表格形式有不同的含义,表8.9与8.10提双向交叉列表表8.11家庭规模与汽车保有量交叉分组列百分比家庭规模汽车保有量1辆以内1辆以上合计4口以内4口以上70(90%)5(23%)8(10%)17(77%)78(100%)22(100%)合计752510032双向交叉列表表8.11家庭规模与汽车保有量交叉分组列百分三向交叉列表以上的分析发现汽车保有量受到家庭规模和家庭收入的共同影响。如果同时考虑两种因素,汽车保有量会受到什么样的影响?33三向交叉列表以上的分析发现汽车保有量受到家庭规模和家庭收入的三向交叉列表三变量的交叉列表的步骤:1、把其中一个自变量稳定在其各种量值之中的一个量值上,然后对另一自变量与因变量作双向交叉分组;2、再将第一个自变量稳定在下一个量值上,作另外两个变量的交叉列表,以此类推,直至穷尽第一个自变量的所有量值;3、最后列出没有第一个自变量介入的另外两个变量的交叉列表。34三向交叉列表三变量的交叉列表的步骤:34三向交叉列表
表8.13家庭收入、家庭规模与汽车保有量交叉分组频数收入水平家庭规模4口以内4口以上全部家庭1辆以内1辆以上合计1辆以内1辆以上合计1辆以内1辆以上合计低高4496%2681%24%619%46100%32100%450%17%450%1393%8100%14100%4889%2759%611%1941%54100%46100%合计70878517227525100
81%及59%的含义。
35三向交叉列表表8.13家庭收入、家庭规模与汽车保三向交叉列表由上表可知在家庭规模一定的条件下,家庭收入对汽车保有量有一定的影响,但是无法确定家庭规模和家庭收入两个变量中,哪个变量对汽车保有量的影响大。可从上表中取出局部双向交叉进行分析:36三向交叉列表由上表可知在家庭规模一定的条件下,家庭收入对汽车三向交叉列表表8.14按家庭收入和家庭规模交叉分组的拥有1辆以上汽车的家庭百分比家庭收入家庭规模4口以内(78)4口以上(22)合计低(54)高(46)4%19%50%93%11%41%对于4口以内家庭,收入水平的提升是的某户拥有1辆以上汽车的机会增加0.19-0.04=0.15,而对于4口以上家庭,这种机会却有0.43。家庭规模的不同就相应的具有不同的机会,说明自变过来之间有交互作用。可以通过算数加权平均法求得不论家庭规模的大小与否,单纯提升某户收入水平,该户拥有1辆以上汽车的机会所增加的百分点。算式是:(0.15×78+0.43×22)/(78+22)=0.21(纵向)37三向交叉列表表8.14按家庭收入和家庭规模交叉分组的三向交叉列表按照同样的道理,因家庭规模扩大拥有1辆以上汽车机会所增加的百分点为:(0.46×54+0.74×46)/(54+46)=0.59(横向)通过以上两步,可知家庭规模对汽车保有量的影响远比家庭收入水平的影响大。与表8.9相比较,说明附加自变量的引入有助于修正说明第一个自变量对因变量的影响。38三向交叉列表按照同样的道理,因家庭规模扩大拥有1辆以上汽车机三向交叉列表引入附加自变量也可以显示出原先被隐含的关系等。课本p164初始结论认为自变量与因变量间存在某种因果关系,初始结论认为两变量间无关系,39三向交叉列表引入附加自变量也可以显示出原先被隐含的关系等。课数据的图形化线形图最简单的图形饼状图在市场调研中经常常用柱形图1.简明柱形图2.聚类柱形图3.堆积柱形图4.多行三维柱形图40数据的图形化线形图40资料的解释和分析分析与解释对研究者要求最高的就是资料的分析与解释事实本身没有用处,只有经过比较和分析才有用例如:某企业今年的年产值为8000万元。分析是以某种有意义的形式或次序把收集的资料重新展现出来。(找出资料中有什么信息)解释是在资料分析的基础上,找出信息之间或手中信息与其它已知信息的联系。(获得结论)41资料的解释和分析分析与解释41资料的解释和分析季度A牌(万支)B牌(万支)1100229043851547530表8.6两种产品销售量的比较公司的营业部经理从表上资料发现,A牌销售量的下降与B牌销售量的上升相似,因此作出结论,A牌产品顾客转向了B牌,并建议这个时刻将A牌退出市场。上例表明分析适当,解释并一定适当。42资料的解释和分析季度A牌(万支)B牌(万支)11002290案例分析P17043案例分析P17043CDMA调查报告44CDMA调查报告44第八章资料的基础分析:——描述统计45第八章资料的基础分析:——描述统计1学习目标了解资料输入计算机之前的处理工作掌握如何列表(双向交叉列表)了解如何对资料进行统计分析46学习目标了解资料输入计算机之前的处理工作28.1数据的确认、编辑和编码确认访谈是否以适当的方式进行,访问员是否造假(回访10%~20%)电话确认确认此人是否真正接受了调查?被调查者是否符合条件?是否按要求的方式调查?确认调查是否完整?检查其他问题确认的目的478.1数据的确认、编辑和编码确认3编辑对访问员和应答者的错误进行检查确定访问员是否没有问某些问题或者没有记录某些问题的答案核实问卷,以保证遵循了规定的跳跃模式检查开放式问题的答案要求访问员逐字记录答案,不以任何方式重新释义、表达或插入自己的语言。同时对问题的答案进行“追问”48编辑对访问员和应答者的错误进行检查4编辑实地编辑完整性清楚性内容的一致性明确性单位的统一性49编辑实地编辑5编辑办公室编辑更完整、确切地审查和校正回收的资料重点在于所查出问题的如何处理方面不完整答卷的对策大面积不回答,废卷;个别问题无回答,有效问卷并补救;相当多问卷对同一问题无回答,有效。明显回答错误对策无兴趣答卷的对策纠正对开放性问题的打乱顺序的回答。50编辑办公室编辑6编辑开放式问题的记录对于开放式问题的回答,访问员记录不当的例子问题:你为什么在众多的快捷/方便的餐馆中选择经常去肯德基?回答记录:顾客似乎觉的肯德基有更加美味的食物和一流的服务环境服务员没有进一步追问的例子问题:同上回答记录:因为感觉比较好。51编辑开放式问题的记录7编辑适当的记录和追问的例子问题:同上回答记录:因为感觉比较好。那里的服务员态度好,而且环境比较好。52编辑适当的记录和追问的例子8编码编码定义对一个问题的不同回答进行分组和确定数字代码的过程。大多数问卷中的大多数问题是封闭式的,并且已预先编码。编码主要是针对开放式问题进行。编码的原因文字记录对于定量分析不合适:1)对于用计算机分析,文字不太有效;2)调查分析记录不便于计量,100人有100种回答。编码就是把相似的进行归类。53编码编码定义9编码编码过程列出答案合并答案:一些形式上不同的答案,在本质上是一致的,可以被合并为一类。设置编码4、输入编码读取每组问题中每个开放式问题的回答。找出与按步骤2得到的合并类别相符的回答把每个具体的回答得数字编码填入相应的类别中在调查表的适当地方,注明每个问题回答的数字编码54编码编码过程10编码例:对于您最近一次购买体育用品、运动鞋或运动服装,您买的是什么?假设有6位被访者分别购买了一个篮球、一双跑鞋、一副网球拍、一双网球鞋,羽毛球,运动服。“1”代表运动器材;“2”代表运动服装“3”代表运动鞋55编码例:对于您最近一次购买体育用品、运动鞋或运动服装,您买编码明细单为把资料准确地输入计算机,需要制定一套规则,即编码明细单。一份说明文件中各个问题(变量)及其答案,与计算机数据文件中的字段、数码位置及数码之间一一对应关系的文件。56编码明细单为把资料准确地输入计算机,需要制定一套规则,即编码编码明细单需要注意的问题:所有资料转化为数值,不允许有字母或其他字符每一个数值码占据一列,(单选题和多选题)无信息的答案赋予标准代码每条记录的第一个字段都为问卷的编号。例:P14757编码明细单需要注意的问题:138.2资料的初步分析——列表
列表:把调查资料按照一定的目的、用表格的形式展现出来;单项列表:仅计数一个变量不同数值的出现次数的列表;交叉列表:同时计数两个或两个变量的不同数值联合出现的次数的列表。588.2资料的初步分析——列表列表:把调查资料按照一定的8.2.1单因素表格化分析目的:1、弄清无回答现象的程度;2、弄清编误和飞点发生在何处;3、弄清变量的经验分布;4、计算主要的描述指标。598.2.1单因素表格化分析目的:158.2.1单因素表格化分析无回答无回答数目过多会影响调研的数据分析和最终质量指定一些特别的数字表示无回答(缺省值)对于缺省值可用的方法:1.保留下来作为单独的一组;2.临时排除含有缺省值的记录;3.以其它数值替补缺省值(其中趋势量最常用)608.2.1单因素表格化分析无回答168.2.1单因素表格化分析编误与飞点作单项列表时,可能发现一些不正常的数值,经查对原值并非如此,这种误差称之为“编误”,可被纠正。飞点——经查对与原值相符,但是与其他的观察值相比,特别大或者特别小,无法纠正。箱线图有助于发现飞点。(由上四分位数、下四分位数、最大值和最小值决定的)618.2.1单因素表格化分析编误与飞点178.2.1单因素表格化分析频数分布表对于有飞点的数据宜采用不等组距,并设立开口单项列表的主要描述量众数、中位数、平均值和标准差等。(可用相关软件直接进行计算)628.2.1单因素表格化分析频数分布表18描述性统计集中趋势测量类别和顺序量表等距和等比量表均值中位数众数63描述性统计集中趋势测量19描述性统计众数一串数字中出现次数最多的值。通过制作频数分布表,可以较容易的找出。分类变量宜采用众数。中位数一组有序值得列里居中的那个值。其余值中一半要大于这个值,而剩余的一般要小于这个值。n是奇数或偶数。通过计算累计百分数64描述性统计众数20均值:刻画一组数字的算术平均值。描述性统计其中:fi=第i组的频数Xi=组中值h=组数65均值:刻画一组数字的算术平均值。描述性统计其中:fi=离散程度的计量标准差其中S=样本标准差Xi=第i个的观察值X=样本均值n=样本容量描述性统计66离散程度的计量其中S=样本标准差描述性统计22描述性统计离散程度的计量方差标准差的平方全距最大值减去最小值67描述性统计离散程度的计量23例:十名被访者给其电脑速度打分的数据集被访者等级142534425364
738495104“1”表示很慢“5”表示很快68例:十名被访者给其电脑速度打分的数据集被访者对十位被访者的等级分析69对十位被访者的等级分析25对十位被访者的等级分析百分率分布每个不同的数字出现的频率一般分率计算出来等级百分率(%)210320450520总计100累计百分率次数或百分率的动态总合70对十位被访者的等级分析百分率分布累计百分率26对十位被访者的等级分析中位数通过累计百分率计算众数通过百分率计算均值极差标准差71对十位被访者的等级分析中位数均值27描述性统计类别量表:众数,频率或百分率顺序量表:中位数,累积百分率等距量表:极差,均值,方差等等比量表:还可以计算几何平均数P10072描述性统计类别量表:众数,频率或百分率288.2.2多因素列表分析双向交叉列表最常用,应用最广泛的一种方法同时有两个变量参加交叉分组的频数分布表例如研究家庭收入对汽车保有量的影响:家庭收入在平均数之上的家庭是否比收入在平均数以下的家庭拥有更多的汽车738.2.2多因素列表分析双向交叉列表29双向交叉列表
表8.9家庭收入与汽车保有量交叉分组行百分比家庭收入汽车保有量个案数1辆以内1辆以上合计低收入高收入89%59%11%41%100%100%5446
表8.10家庭收入与汽车保有量交叉分组列百分比家庭收入汽车保有量1辆以内1辆以上低收入高收入合计64%36%100%24%76%100%74双向交叉列表表8.9家庭收入与汽车保有量交叉双向交叉列表不同的表格形式有不同的含义,表8.9与8.10提供的信息不同。交叉列表一般都将自变量沿横向展开,将因变量沿纵向展开,相对频数计算行百分比。同样可以做出家庭规模与汽车保有量的交叉列表75双向交叉列表不同的表格形式有不同的含义,表8.9与8.10提双向交叉列表表8.11家庭规模与汽车保有量交叉分组列百分比家庭规模汽车保有量1辆以内1辆以上合计4口以内4口以上70(90%)5(23%)8(10%)17(77%)78(100%)22(100%)合计752510076双向交叉列表表8.11家庭规模与汽车保有量交叉分组列百分三向交叉列表以上的分析发现汽车保有量受到家庭规模和家庭收入的共同影响。如果同时考虑两种因素,汽车保有量会受到什么样的影响?77三向交叉列表以上的分析发现汽车保有量受到家庭规模和家庭收入的三向交叉列表三变量的交叉列表的步骤:1、把其中一个自变量稳定在其各种量值之中的一个量值上,然后对另一自变量与因变量作双向交叉分组;2、再将第一个自变量稳定在下一个量值上,作另外两个变量的交叉列表,以此类推,直至穷尽第一个自变量的所有量值;3、最后列出没有第一个自变量介入的另外两个变量的交叉列表。78三向交叉列表三变量的交叉列表的步骤:34三向交叉列表
表8.13家庭收入、家庭规模与汽车保有量交叉分组频数收入水平家庭规模4口以内4口以上全部家庭1辆以内1辆以上合计1辆以内1辆以上合计1辆以内1辆以上合计低高4496%2681%24%619%46100%32100%450%17%450%1393%8100%14100%4889%2759%611%1941%54100%46100%合计70878517227525100
81%及59%的含义。
79三向交叉列表表8.13家庭收入、家庭规模与汽车保三向交叉列表由上表可知在家庭规模一定的条件下,家庭收入对汽车保有量有一定的影响,但是无法确定家庭规模和家庭收入两个变量中,哪个变量对汽车保有量的影响大。可从上表中取出局部双向交叉进行分析:80三向交叉列表由上表可知在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 木门生产合同范例
- 兼职出纳合同范例
- 2025年吉林货运资格证考试
- 商铺买卖押金合同范例
- 影楼定金合同范例
- 拖斗货车出售合同范例
- 滴滴用车合同范例
- 唐山职业技术学院《生物统计与田间试验设计》2023-2024学年第一学期期末试卷
- 2025年驾校考试货运资格证考试题
- 唐山幼儿师范高等专科学校《虚拟现实设计与制作》2023-2024学年第一学期期末试卷
- 麻醉科临床诊疗指南2020版
- 2024年广西北部湾港集团招聘笔试参考题库含答案解析
- 课程设计电动葫芦设计
- 对高职院校学分银行建设的思考
- 液相色谱法基本原理
- 三查四定表完整版本
- VDA6.5产品审核报告
- 项目部管理人员通讯录
- 足球场天然草坪养护方案
- 人教版高一数学必修一各章节同步练习(含答案)
- 班组长绩效管理课件
评论
0/150
提交评论