第六章资料整理与分析_第1页
第六章资料整理与分析_第2页
第六章资料整理与分析_第3页
第六章资料整理与分析_第4页
第六章资料整理与分析_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章第六章6.16.1资料整理资料整理6.26.2描述性统计分析描述性统计分析6.36.3参数检验和非参数检验参数检验和非参数检验6.16.1资料整理资料整理n校编校编概念概念:对原始资料进行审核校对的过程目的:使资料更加准确原则 易读性易读性 完整性完整性 一致性一致性 准确性准确性校编应注意问题校编应注意问题被调查者是否在规定抽样范围内主要问题是否回答是否有明显的错误和疏漏检查调查员的工作质量检查有效资料份数是否达到要求比例处理方法处理方法作废处理补救调查n分组分组原则分组要有明显差异性相同的资料归于一类分类要适当分类要含义明确 选择分组标志选择分组标志分组标志有:分组标志有:品质标志性

2、别,职业数量标志年龄,家庭人口数单一标志性别多种标志性别,年龄,收入确定分组界限确定分组界限品质标志分组品质标志分组按研究性质目的划分按研究性质目的划分数量标志分组数量标志分组按各组数量变异范围按各组数量变异范围划分划分n编码(coding)概念为每个问题的每种可能答案分配一个代码,通常是一个数字。代码包括数据所占的栏数和位置编码方法事先编码事后编码记录字段栏数1-345-67-826-3577记录1记录11记录21记录31记录2701001002003004271111113131313131010102035565413455355643524754465一个百货商店顾客调查问卷部分数据

3、注:1-3栏代表被调查者的编号,被调查者总数是271;第4栏代表记录栏;5-6是项目代码;7-8是调查员编号,共55个调查员;然后依次是调查日期编号、调查时间编号等等;26-35栏是被调查者对个商店的熟悉程度,取值为1-7分。本例中一共调查了10个商店,一栏代表一个商店,共占用了10栏;最后一栏表示第十家商店(研究对象)的价格排名。编码设计的内容v问卷代码v变量定义(名称、类型、位数、对应问题等)v取值定义(范围、对应含义)v问卷代码包括:调查员代码,问卷代码,与被调查者相关的子总体代码。例:问卷1031102 1-上海航空;03-652次航班 11调查员编号 02完成的第二份问卷事前编码单选

4、题 只要一个变量表示,变量值为选题号。例:你是否看过电影“建国大业”? 1.是 2.否 编码: 变量取值范围:1、2; 变量所占字节数:1多选题v方法1 变量个数与问题选项数相同,取值范围0或1 优点:便于分析 缺点:录入工作量大多选题例:您选择本次航班的原因?1.安全有保障 2.航班时刻适当 3.机型好 4.服务好 5.持常旅客卡 6.航班正点7.折扣票 8.旅行社安排 9无其他航班10.其他变量序号变量名变量所占字节取值范围取值对应含义备注对应题号对应问题67891011V6-1V6-2V6-3V6-4V6-5V6-61111110或10或10或10或10或10或11表示该选项是选择本次航

5、班的原因,0则相反全为零表示无回答6您选择本次航班的原因注意:固定代码:当每个被调查者的记录数相同就用固定代码,且都以相同的栏数记录。缺失值:用标准代码表示,例如用9表示一位数的缺失值,用99表示两位数的缺失值等。多选题例的编码(方法一)v方法2 变量个数为可选项数,取值范围0或所列项数 优点:方便录入 缺点:分析前要转化为各选项的0-1变量v多选题例的编码(方法2):(设题中规定最多只能选3项)变量序号变量名变量所占字节取值范围取值对应含义i=110的整数备注对应题号对应问题678V6-1V6-2V6-31110-100-100-10取值i表示第i项是选择本次航班的原因,0表示其余选项都不是

6、选择本航班的原因全为零表示无回答6您选择本次航班的原因事后编码v面对的是非结构性问题v比事前编码困难v具体做法对问卷答案进行整理、分类编码 样本量较小时:查阅所有问卷的答案 样本量大时:抽部分问卷查阅答案 记录选定问卷中每一个不同类别的答案 记录各答案出现的次数 根据各类答案的频次选择编码项数例:在调查“企管教育与实践的差距”时,提出两个问题:v教育与实践产生差距的原因是什麽?v如何缩短这种差距? 调查结果经过整理后,归并为15个原因和19种缩小差距的方法,则对原因和方法分别编号为1-15,1-19。 编码说明的格式如下表所示:序号及内容序号及内容数据所在列数据所在列编码及说明编码及说明1.性

7、别性别2.职业职业3.年龄年龄第第1列列第第3列列第第5列列1.男男 2.女女1.工人工人 2.农民农民 3.军人军人 4.机关干部机关干部5.学生学生 6.公司职员公司职员 7.教师教师 8.其他其他1.18岁以下岁以下 2.19-30岁岁3.31-45岁岁 4.46岁以上岁以上4.评价评价第第7-8列列1.好好2.差差3.一般一般数据转录将问卷上的编码数据转录到计算机上关键是注意录入错误缺失值的处理(超过10%时)v用中性值代替(平均值)v用估计值代替v整列删除6.2描述性统计分析描述性统计分析7.2.1频数分析法频数分析法n频数分析用途 对单个变量和人口统计特征等定性数据进行分析。如 本

8、品牌使用这种有多少人是品牌忠诚者? 频繁使用者、普通使用者和少量使用者各占多少比例? 购买该品牌计算机的顾客文化程度分布如何?等等。频数分析可以用直方图、饼图等表示频数分析可以用直方图、饼图等表示是否有彩电是否有彩电 户数户数百分比(百分比(%)有有无无 总计总计 80 20 1000.80.2 备注备注被调查户共有被调查户共有120户户例:某市居民家庭彩电拥有率统计例:对互联网熟悉程度的频数分布变量含义变量值频数百分比累计百分比不太熟悉非常熟悉12345679合计02663841300.06.720.020.010.026.713.83.3100.00.06.927.648.358.686.

9、2100.0n列联表分析列联表分析概念:也叫做交叉表,可以同时描述两个或以上变量,相当于把几个频数分布表合并在一张表上列联表分析举例v品牌忠诚者中有多少是男性?v对新产品的熟悉程度与年龄和教育水平有关吗?v使用某产品是否与收入水平有关系?例: 教育程度和收入水平对购买汽车的影响是否已经购买汽车低收人高收入大学及以上学历大学以下学历大学及以上学历大学以下学历是否合计被调查者人数20%80%100%10020%80%100%70040%60%100%15040%60%100%50 20岁以下岁以下 21岁以上岁以上 大学生大学生非大学生非大学生 大学生大学生非大学生非大学生经常看电影经常看电影不常

10、看电影不常看电影9717336%64%6012034%66%176022%78%9338020%80% 总计总计27018077473 备注备注(1)(2)例:受教育程度 、年龄与看电影的关系6.2.2 与描述性分析相关的统计量n集中趋势分析:是反映样本一般水平的分析,指标有 平均值: 中位数:nxXi Xn差异性分析 即离散度分析,指标包括极差、标准差、方差、离散系数 极差: 方差: 标准差: 离散系数: v minmaxXXR122nxxSi12nxxSi%100 xVminmaxXXR 举例 : 某航空公司就服务质量进行了一次顾客调查,有一个打分题为“按照你本次航空旅行的实际体验对本公司

11、的服务质量打分”,(非常差为1分,非常好为10分),攻列出了5项评价内容:办理航班乘机手续;托运行李;乘务员的服务;客舱舒适程度;餐饮质量。调查统计分析结果如下表:NMeanStd.Deviation办理航班乘机手续托运行李乘务员的服务客舱舒适程度餐饮质量121210321239127112148.58.538.419.129.061.771.732.071.311.30v举例:v现需要比较分析甲乙两个公司职工收入水平。已知:甲公司每人每月平均收入1000元,收入标准差为100元;乙公司每人每月平均收入800元,收入标准差为96元。虽然甲公司人均收入大于乙公司,但由于甲公司的标准差大于乙公司,

12、因此不能说明甲公司人均收入水平的代表性。这时就需要进行离散度分析: 甲公司: =100/1000=0.1 乙公司: =96/1000=0.12 结论:甲司收入有代表性%100 xV%100 xV6.2.3 推断性分析 En推断性分析 根据数理统计的有关原理,利用样本统计值推断总体参数。点估计 用样本统计值直接估计总体参数。 优点:简便易行; 缺点:不能给出误差大小和估计的可靠度。 v评价点估计代表性的标准无偏性:样本统计值是否等于总体参数值有效性:考察总体参数的估计值方差是否最小一致性:当样本增加时,估计值与总体之间的离差绝对值小于任意常数的概率为1 区间估计区间估计区间估计是在一定的把握程度

13、下,根据样本统计值和抽样平均误差,对置信区间和置信概率作出估计。即在给出估计值的同时,也给出估计的准确性。v已知总体方差的区间估计 当估计值为 ,实际值为时, 一般落在的附近区域内,即 的范围内。由于抽样的随机性,决定 以一定的概率落入该区间,即 那么,找出与这一概率相关的区间,就是区间估计。 且称区间 为总体参数的置信区间 其中: 置信水平 置信度ap1,a1a1 , 0NnuxZa2aZaZZpa122aZnux当总体方差为已知时,由于x 是u的无偏估计,则统计量 对于给定的,查正态分布表,可得,使下式成立: 得 a1nZxunZxaa2122aZnxxautnZ2则对于总体均值u的的置信

14、区间为 概率度 抽样平均误差 方差未知情况下方差已知时,可用样本方差作相应代替,然后进行计算6.3参数检验和非参数检验n 市场调查中常用的检验方法和种类市场调查中常用的检验方法和种类 统计检验 调查对象总体的性质 存在均值 不存在均值 参数检验 非参数检验 类别结构检验 层次结构检验 总体数 总体数 总体数 3个以下 3个以上 1个 2或2以上 1个 2或2以上 总体间关系 总体间关系 不相关 相关 不相关 相关 Z,t检验 F检验 卡方检验 麦氏检验 马氏检验 魏氏检验参数检验:参数检验:总体有均值时的检验 如对销售额、收入、 市场占有率等的检验非参数检验:非参数检验:总体没有均值或均值无意

15、义时的检验如对消费者的心理偏好、态度、动机等的检验营销调研中需进行假设检验的问题营销调研中需进行假设检验的问题 某商店顾客中某商店顾客中10%以上的家庭有回顾行为;以上的家庭有回顾行为; 某品牌频繁使用者和少量使用者存在心理特征差异;某品牌频繁使用者和少量使用者存在心理特征差异; 某酒店比其他竞争者的形象更好某酒店比其他竞争者的形象更好,等等。等等。 建立H0 、H1选择适当的检验方法选择显著水平拒绝或不拒绝H0收集数据计算检验统计量决定检验统计量的临界值决定检验统计量的概率决定统计量是否位于拒绝假设区域与显著水平比较得出营销研究结论6.3.1 假设检验的一般步骤假设检验的一般步骤n建立假设时

16、需注意的几个问题:零假设零假设是对一种没有差异、没有影响的状态的描述零假设是受检验的假设,是指总体参数的特定数值(,),不是样本统计量(x,s)备择假设是存在一些差异或影响的状态是零假设的对立面是指研究得到的证据所支持的结论单尾检验和双尾检验:营销研究中更常用单尾检验实验结果实验结果决策决策误差类型误差类型零假设是正确的零假设是正确的零假设是错误的零假设是错误的放弃放弃接受接受第第1类错误类错误 第第2类错误类错误 假设检验中的两类错误假设检验中的两类错误控制两类错误的手段控制两类错误的手段 使用足够大的样本; 选择适当地显著性水平,一般有=0.01 =0.05 =0.10 是个未知数,根据总

17、体参数的真实值决定 (1-)被称作检验力度,的大小与 有关。很小时,可能很大 在给定的水平下,增加样本容量能够减小 备择结论大样本小样本H0:1H1:1若Z*Z(1-),拒绝H1否则,拒绝H0 ,接受H1t*t(1-;n-1),接受H0否则,接受H1H0:1H1:1若Z*Z(),拒绝H1否则,拒绝H0 ,接受H1t*t(;n-1),接受H0否则,接受H1H0:=1H1:1若Z*的绝对值Z(1-),接受H0,否则,接受H1t*t(1-/2;n-1),接受H0否则,接受H1 决策规则表临界值右侧的区域为 或 /2单尾检验取 ,双尾检验取 /26.3.2参数检验参数检验nZ检验检验1)单调查总体的均

18、值检验)单调查总体的均值检验例:一个批发企业定向供给一些工厂某种原料,每个工厂月平均购买量为950吨。该企业为了鼓励各个工厂增加购买量,采用了批量作价的价格策略。两个月后,该企业为测量价格策略的实施效果,随机抽出64家工厂作为样本调查,发现64家工厂月平均购买量增加到1000吨,标准差为200吨。现在该企业需得到结论:平均购买量的增加是否价格策略的效果。(设购买量服从正态分布)建立假设 H0:=950 H1:950选择检验方法:购买量服从正态分布,故用Z检验确定显著性水平a: 取a=0.05收集数据并计算样本统计量 已知:=950, =1000, = = 200,n =64 Z= =(1000

19、-950)/(200/64 )=2第五步,确定临界值 查正态分布表:Z0.05/2=1.96第六步,决策 Z=2Z0.05/2=1.96,故拒绝H0,接受H1 即:价格策略改变对销售量的增加有促进作用 ) 1 , 0 (NnuxZnux2)双总体的均值检验)双总体的均值检验例:设有两种商品陈列方案A和B,其销售效果服从正态分布。为测定这两种方案的效果优劣,进行了抽样调查。抽取12家商店采用A方案陈列商品,10家商店采用B方案陈列商品。调查结果为Xa=510.58,Xb=573(销售量均值),其标准差分别为U1=33.28,U2=91.44。现要求对两方案销售效果是否相同进行检验。设A、B两方案

20、销售量均服从正态分布 Xa N(a,a2) Xb N(b,b2)解:H0:a=b H1:ab选择检验方法:Z检验a=0.05 Z =(Xa-Xb)/ a2/na +b2/nb =(510.58-57)/ 33.282/12 +91.442/10 =-2.048查正态分布表:Z0.05/2=1.96 Z=2.048Z0.05/2=1.96,故拒绝H0,接受H1 即:两方案有明显差异 6.3.3非参数检验非参数检验(1)2卡方检验(卡方检验(拟合度检验) 2是对总体分布的检验,即总体的类别结构、层次结构检验2检验的假设为:H0:F()=F0() F0为一给定的分布函数2统计量 2 =(ni - n

21、 pi)2 / n pi 其中:K分组数(类别数、层次数) ni第i个组的样本个数(频数) pi第i组的概率(结构比例) n样本数瓶装白酒重量(斤)100 150 250 500 消费者偏好(%)10 35 25 30 酒重(斤)100 150 250 500消费人数1698 5683 3940 4654n单个总体的卡方检验单个总体的卡方检验单总体是指消费者对某一营销要素(产品,价格等)不同类别的评价与对比关系。例:有关包装的消费结构检验有关包装的消费结构检验某酒厂研究了某市消费者对瓶装白酒重量的心理偏好,获得消费者对各类包装的消费结构资料如下表(估计值)为了检验其偏好结果是否可靠,对1598

22、0个消费者进行调查,得到其购买各类酒的实际分布如下表:现要求对瓶装酒的消费结构进行检验。(a=0.05)解:提出假设: H0 :F()= F0() H1: F()F0() 数据分组:k=4 确定显著性水平:a=0.05计算统计量由 n=15980, p1 =0.1 p2 =0.35 p3 =0.25 p4 =0.3 n1 =1698 n2 =5683 n3 =3945 n4 =4654 得 2=(ni - n pi )2 / n pi =12.43查 2分布表,求2 a(n-1)= 2 0.05(4-1)=7.81 决策 2 =12.43 2 0.05 (4-1)=7.81 拒绝H0,即消费者

23、瓶装酒的实际消费结构与估计值不同 年龄 款式A的购买者 款式B的购买者行总数i 15-25 26-35 36-45 46-60 168 174 150 108 116 108 104 72 284 282 254 180 列总数j 600 4001000n 多总体的卡方检验多总体的卡方检验例:有关两种服装款式的消费者年龄结构差异检验例:有关两种服装款式的消费者年龄结构差异检验某服装企业对两种不同款式的女式服装消费者进行研究,研究内容为购买该两种款式的消费者年龄结构,以便于掌握不同款式的目标市场。为此,对1000名购买者进行了年龄调查。调查资料如下表。问服装款式的选择与年龄有无关系? 消费者年龄

24、结构(人数)年龄购买人数nij预期购买人数npij15-2515-2526-3526-3536-4536-4546-6046-601681161741081501041087217011416911315210210872解:解:这里有两个总体,款式A、B。在检验面临问题时,应先将这种多总体结构转化为单总体结构,然后再用卡方检验法进行检验。具体步骤为将A、B两种款式的购买者按年龄联成一个总体结构,如下表表中:npij =(第i行总数第j列总数)行列总数用卡方检验统计量进行检验假设:H0:F()= F0() 款式选择与年龄无关 H1:F()F0() 款式选择与年龄有关 a=0.05计算统计量 2

25、=8i=12j=1(ni - n pi)2 / n pi=0.9866查 2分布表,求2 a(k-1) a=0.05, 2 0.05(8-1)=14.07 决策 2 =0.9866 2 0.05(8-1)=14.07 接受H0,即消费者购买这两种款式服装的年龄结构无显著差异n2卡方检验在列联表分析中的应用卡方检验在列联表分析中的应用v用于检验列联表中观察到的相关关系的显著性,以判断两变量是否存在系统联系。v检验步骤 提出假设:零假设为检验变量之间无联系如果无法拒绝零假设:证明变量之间无关如果零假设被拒绝计算因变量沿自变量方向的百分比解释两者关系根据检验统计量的符号判断关系的强度和方向 促销前

26、促销后 行总和高购买率低购买率低购买率高购买率70*(A)80(C)180(B)30(D) 250 110列总和 150 210 360(2)麦氏检验)麦氏检验 麦氏检验是一种特殊的卡方检验,用以对多个相关总体类别结构之间的差异或同一总体在不同时间的类别结构之间的变化进行检验。例:某产品的购买结构在促销前后的变化情况如下表,试问促销前后该产品的购买结构有无变化?购买率变化资料注:70表示促销后从低购买率向高购买率转移的人数是70解:提出假设:H0:F()= F0() 宣传促销后购买结构无变化H1:F()F0() 宣传促销后购买结构有变化a=0.05计算麦氏统计量:2=(A-D)-12(A+D)

27、其中:A、B、C、D为购买率在促销前后的具体变动值 2=(70-30)-1 2(70+30)=15.21查2分布表,求2a(k-1) a=0.05, 20.05(2-1)=7.82 决策 2=15.2120.05(2-1)=7.82 故:拒绝H0,即宣传促销后购买结构有变化 评分 评分等级 本市顾客外地顾客 本市 外地 29 76 18 83 88 66 75 90 36 60 19 43 51 17 60 14 52 70 27 55 15418327511485 17 13 12 19 8.5 20 11 6 16 10(3)马氏检验()马氏检验(U检验)检验) 检验多个独立总体层次(等级)结构之间的差异时采用,如不同顾客对服务等级评价之间差异的检验。例:某大型百货商店为了改进服务质量,想了解顾客对该店服务质量的评价。该店认为本市顾客与外地顾客对其服务质量评价的等级可能不同。为此分别对10个本市顾客和10个外地顾客进行调查,请他们对其服务质量打分,结果如下表。检验该店的推断。 两类顾客对商店服务质量评分(百分制)解:提出假设: H0:两类顾客评分等级之间无显著差异 H1:两类顾客评分等级之间有显著差异 a=0.05计算马氏统计量: U1 =n1 n2+ n2(n2+1)2-R2 U2 =n1 n2+ n1(n1+1)2-R1 U=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论