营销调研内容知识与方法_第1页
营销调研内容知识与方法_第2页
营销调研内容知识与方法_第3页
营销调研内容知识与方法_第4页
营销调研内容知识与方法_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

127/127七、资料的基础分析:描述统计

七、资料的基础分析:描述统计资料搜集起来以后,市场营销研究的重点应该转向资料的整理与分析。资料的整理过程包括编辑——检查和修正搜集到的资料;编码——给每个问题的答案配上数字或符号,为列表和统计分析作预备;列表——把相似的数据放在一起来,列表既是资料整理的一个环节,也具有对资料进行初步分析的作用。(一)资料的整理1.编辑编辑是对资料进行筛选,即发觉并剔除搜集起来的营销研究资料中的“水份”,选用真正有用的资料。编辑通常分实地编辑和办公室编辑两步进行。(1)实地编辑实地编辑是初步编辑,其要紧任务是发觉资料中特不明显的遗漏和错误,关心操纵和治理实地调查队伍,及时调整调研方向、程序,关心消除误解及有关专门问题的处理。它应在问卷或其它的资料收集形式实施后尽快执行,以便问卷能在资料收集人员解散之前得到校正。这种初步审核可由现场主管执行。实地编辑对资料检查的项目要紧有以下几项:完整性;清晰性;内容的一致性;明确性,即答案的意义是否明确和单位的统一性。(2)办公室编辑办公室编辑在实地编辑之后。其要紧任务是更完整、确切地审查和校正弄回的全部资料。这工作要求由那些对调研目的和过程有透彻了解,且具有敏锐洞察力者来进行。为了保证资料的一致性,最好由一个人来处理所有的材料。若出于时刻长度的考虑而认为其不可行,该工作可被分割。然而,那个分割必须是每名审核员各分配若干份问卷,对每一份问卷从头审到尾,而不是分段把关、流水作业,尽管后者可能有提高审核效率的一面,但绝对不利于贯彻一致性原则,因而是不可取的。①审核工作的重点关于回收上来的问卷,要紧存在的问题是:不完全回答,明显的错误答案,由于被访人缺乏兴趣而作的搪塞回答。办公室编辑的重点就放在这三类问题的查找、区分和处理上。不完整的答卷分为三种情况,第一种是大面积的无回答,或相当多的问题无回答,对此应宣布为废卷。第二种是个不问题无回答,应为有效问卷,所遗空白待后续工作采取补救措施。第三种是相当多的问卷对同一个问题(群)无回答,仍作为有效问卷。这种“无回答”当然会对整个项目的资料分析工作造成一定的阻碍,然而反过来也让调研组织者和问卷设计者考虑如下问题:什么缘故相当多的被调查者对这一问题(群)采取了“无回答”的方式?是否是那个问题(群)用词含混不清让他们无法理解,依旧该问题(群)太具敏感性或威胁性使他们不情愿回答,亦或是全然就无法给此问题(群)找到现成的答案?明显的错误答案是指那些前后不一致的答案,或其他答非所问的答案。这种错误到了办公室编辑时期专门少存在,但一旦发觉就不行处理。除了能够依照全卷的答案内在逻辑联系对某些前后不一致的地点进行修正外,其他情况只好按“不详值”对待。有些被调查者对问题的回答反映出他显然对所提问题缺乏兴趣。例如有人对连续30个7点量表都选择了“7”的答案。或者有人不按答案要求,在问卷上随笔一勾,一笔带过了若干个问题。假如这种乏兴回答仅属个不问卷,当完全抛弃。倘若这种乏兴回答的答卷有一定的数目,且集中出现在同一个问题群上,就应该把这些问卷作为一个相对独立的子样本看待,在资料分析时给予适当注意。关于最后判定按“不详值”处理的答案,审核员要用记号笔明确注明“不详值”字样或其代码。②对次级资料的审核关于次级资料,能够依照其来源出处再划分成直接整理的资料和多次整理的资料。在审核时应依照资料所注来源出处对之进行区不对待。确认为直接整理的次级资料,能够直接为调研所用。而关于多次整理的次级资料,只能是间接参考,即顺着它的来源去寻求直接整理的次级资料。2.编码(1).定义编码确实是对一个问题的不同回答进行分组和确定数字代码的过程。大多数问卷中的大多数问题是封闭式的,同时已预先编码。这意味对调查中一组问题的不同数字编码已被确定。全部封闭式问题差不多上情况编码。如表7-1的问卷中的第一题,在每种答案的左边都有一个数字代码为制定的编码。封闭式问题中编码的难题是对多选题如何编码。它的方法是将每一回答指定为次级变量,用“1‘表示收放着选择了该答案,用”0“表示未选择。(2)事后编码开放试问题与封闭式问题不同。它只能在资料收集好之后,再依照受访者的答复内容来决定类不的指定号码,亦即只适宜利用事后编码。关于开放式的问题的事后编码,它所依据的不应该仅是答案的文字,更重要的是这些文字所能反映出来的被调查者的思想认识。这项工作能够遵循下述步骤进行。①列出答案。所有答案都一一列出。在大型调研中,这项工作能够作为编辑过程的一部分或单独的一个部分完成。②将所有有意义的答案列成频数分布表。③确定能够同意的分组数。现在要紧是从调研目的动身,考虑分组的标准是否能紧密结合调研目的。④依照拟定的分组数,对列在第(2)步整理出来的答案分布表中的答案进行选择归并。在符合调研目的的前提下,保留频数多的答案,然后把频数较少的答案尽可能归并成含义相近的几组。对那些或含义相距甚远,或者尽管含义相近但合起来频数仍不够多的,最后一并以“其他”来概括,作为一组。这一步能够由一个以上的编码员分不来作。然后凑到一起进行核对、讨论,最终形成一致的分组意见。⑤为所确定的分组选择正式的描述词汇。⑥依照分组结果制订编码规则。⑦对全部回收问卷(的该开放式问题答案)进行编码。例:表7-1所是问卷中,其开放试问题是,您什么缘故选择该品牌?研究者翻阅所有受访者的答复后,将缘有意义列出,而后归并成6类,并指定号码(表7-2,7-3)。3.资料的计算机处理之编码明细单目前,资料分析工作越来越多地应用到了相关软件,而在用计算机处理资料时,面临的第一个问题是如何准确的录入资料。这要求把文字资料传化成数码形式的数据,为此,须制定一套规则——即编码明细单。它有利于减少在数据转录过程中产生大量的录入错误。编码明细单是一份讲明问卷中各个问题(即变量)及其答案,与计算机数据文件中的字段、数码位数及数码之间一一对应关系的文件。有了编码明细单,就能够专门方便地录入资料了。我们能够从表7-1的问卷(片段)、编码明细单来展示这种对应关系(表7-4)。在制订编码明细表时,需要注意以下几个问题:(1)所有的资料都必须转换成数值,不同意使用字母或其他字符。(2)每一个数值码占据一列。要为每个变量留出足够的列数。(3)对无信息的答案给予标准代码。例如能够用“8”表示‘不明白”,“9”表示“无回答”,“0”表示“不适合”。(4)对一条记录所占据的第一行第一个字段都要安排被调查人序号码。

(二)列表把调查资料按照一定的目的,用表格的形式展现出来,即是资料的列表。列表的差不多方法确实是计数变量值的出现次数。假如仅计数一个变量的不同数值的出现次数,这种列表确实是单向列表。假如同时计数两个或多个变量的不同数值联合出现的次数,这种列表确实是交叉列表。现代商务调研和其他社会经济调研往往至少涉及到数十个变量、数百个样本单位,其列表任务相当之繁重,一般都需借助于计算机手段才能在有限的时刻内完成。1.单因素列表最差不多的单因素列表是单向频次表。表7-5中列出了这种表的一个例子。单向频次表显示了对每一问题做出每种可能回答的人的数量。表7-5表明,有114人(占48%)讲他们会选择亚贸广场,有146人(487%)讲他们会选择中南商场,有10人(占3.3%)讲他们不明白选择哪一家商场。电脑输出资料将会显示出调查中每一问题的单向频次表。在大多数情况下,这份表是调查分析人员首先看到的统计结果的概括。表7-5单项频次表(数据为虚构)(1)关于百分比的基数在使用单向频次表时需要解决的一个问题是选择百分比的基数。有三种选择:①全部被调查者人数。假如有300人参加了某项调查,并决定利用所有参加者作为计算百分比的基数,每张单向频次表的百分比都将以300作为基数。②需回答具体问题的人数。在大部分问卷中,不是所有的人都回答全部的问题。例如一项调查的问题4也许会问调查者是否有狗或猫,其中回答有的有200人,而问题5和6是专门问这200人的。在这种情况,用200作为计算百分比的基数较为恰当。③做出回答的人数。在单向频次表中计算百分比的另外一个基数是回答了特定问题的人数。如300人问及某个特定问题,但28人表示“不明白”或没有回答,则要以272作为百分比的基数。一般来讲,需回答问题的人数被作为制表中计算百分比的基数。但也许在一些专门场合,使用其他的基数会更合适。(2)为具有多种答案的单向频次表选定基数对某些问题,被调查者可有多种回答。例如,某问题要求被访者列出所有经历中的商场的名称,多数人会列举不止一家商场。因此,将回答列表时,答案的数量会超过被访者人数。假如200名被调查者中,平均每位列出3家商场,则200名被调查者会给出600个答案。问题是,频次表中的百分比应依照被调查者的人数依旧众多答案的数量?表7-6给出了用两种方法计算百分比的例子。在市场调查中,一般的算法是以被调查者的人数为基数计算百分比,因为我们对给出特定答案的人的数量更感兴趣。表7-6以调查者的总数和实际答案总数为基数计算有多种答案的问题的百分比(数据为虚构)2.多因素列表交叉分组表可能是分析的下一步骤,它们是一种易理解且有效的分析工具。许多市场调查,或许可讲是绝大多数,在分析上都只进行到交叉分组表。这种方法的差不多思想是,结合对其他问题的回答来考对某一问题的答案。表7-7列出了一个简单的交叉分组表,从中能够考察那些情愿在不同商场购物的消费者与其年龄间的关系。那个交叉分组表列出了频次和百分比,而且百分比是以列为基数统计的。表7-7简单交叉分组列表(数据虚构)关于交叉分组表的建立和计算百分比,有许多因素应该考虑,其中一些较重要的因素总结如下:·前面关于合适的百分比基数的选择及多种答案的百分比计算的讨论适用于所有的交叉分组表。·在交叉分组表中,能够为每一单元计算三种不同的百分比:列、行、总的百分比。列百分比是以列总和为计算基数的,行百分比以行总和为基数,而总的百分比以表的总和为基数。·建立交叉分组表的通常做法是设计一个表,在这张表中,各列列出各种不同因素,如人口统计和生活方式特征,它们能够作为各行所列因素如心理、行为或意愿的预测指标。在表中,百分比通常以列总计为基数进行计算。采纳这种方法能够简单比较各种关系,如心理、行为或意愿数据与性不或年龄之间的关系。问题可能是,不同年龄段的人在某些要考察的方面有什么不同?表7-7显示了这种表的一个例子。交叉分组表为总结和分析调查结果提供了一种有效而易明白的方法。然而,假如不进行认真设计的话,它也专门容易由于计算机输出的大量数据而造成混乱。设计交叉分组表时必须牢记调研目标和事先的差不多假设。某项调查的结果可能产生许多个交叉分组表。这表明,分析人员必须加以推断,从所有可能的交叉分组表中选择适合于调研目标的表格形式。大量的电子制表软件(Lotus1-2-3、Excel)和几乎所有的统计软件包(SAS、SPSS、SYSTAT、STATISTICA)都能够生成交叉分组表。下一部分我们将讨χ2检验,这种检验能够用来推断在一特定的交叉分组表中得出的结果是否与我们预期的有显著性差异。换句话讲,男性回答的模式和女性有重大差不吗?利用那个统计程序能够推断两组之间调查结果的差异是由于偶然因素造成的,依旧反映了实际存在的真正差异。(三)资料的分析与解释1.分析与解释概述在市场营销研究过程的所有活动中,对研究者的技能要求最高的是资料的分析与解释。一般来讲,事实本身是没有用处的,一个人在一天中可能会搜集到对他本人并无用处的许多事实。资料只有通过比较和分析才有用。分析是以某种有意义的形式或次序把收集的资料重新展现出来。分析实际上是回答下面的问题:“每组资料里有些什么信息?”分析是分不检查每组资料,以找出其内涵的关键信息,并以有意义的形式表示出来。解释是在资料分析的基础上找出信息之间或手中信息与其它已知信息的联系。解释的要紧目的是从所收集的资料中获得结论。它是把分析过的资料变成跟研究目的有关的有用信息,以使收集的资料能为研究目的服务。2.分析与解释之间的相互依靠性资料的分析与解释是相互联系,相互依靠的。不管是资料的分析依旧资料的解释,任何一个方面的工作开展得不行,都会阻碍到研究结果的有效性以及对资料的充分利用。假设某大型日用化工厂,每个季度要在全国的50个要紧的大百货商场作一次库存检查。表7-8是该厂A牌老产品和B牌新产品在过去4个季度里销售量的变化。公司的营业部经理从上面资料发觉,A牌销售量的下降与B牌销售量的上升有着惊人的吻合,因此作出结论,A牌产品的顾客转向了B牌,并建议那个时刻将A牌牙膏退出市场。表7-8两种产品销售量的比较然而实际上发生的是,有两个竞争对手大力推销他们的与A牌类似的产品以防止他们的顾客转到B牌上来。如此,尽管A牌老产品的市场由于新产品推出而下降了一些,但其销售量的下降要紧是由于其它公司的促销活动引起的。表7-8的资料表明,A牌的销售量在下降而B牌的销售量在上升,这种分析是正确的,但解释是错误的,因为上面两组资料被不适当地联系到一起。假如调查市场上该产品的总销量以及认真研究竞争对手的活动,发觉市场上该产品的需求量在大幅度上升,而竞争对手的促销活动也在不断加强。那么A牌销售下降的真实缘故也许是它的促销措施不得力,而不是由于B牌产品的进入。前面的例子表明分析适当时,解释不一定适当。实际上,分析和解释中任何一个不适当都会阻碍到研究结果的正确性。2.资料的解释上面对分析与解释进行了定义。分析是把每组数据以某种形式重新组合起来以便从中发觉有用的信息,解释是在分析的基础上进行的,即把差不多分析过的资料与其它的一些现存资料放在一起,通过比较,得到与研究目的有关的信息。如从各种分散资料中归纳出结论,然后依照结论提出各种备选的市场营销的方案。在解释资料时尽管没有一个统一的模式可循,但下面两个方面是必须注意的:一是要理解归纳的和演绎的推理方法;二是要保证形成结论时的客观性。(l)归纳推理方法在市场营销研究中的应用归纳推理的方法是,首先产生一系个不的前提,然后把这些前提与其它前提结合在一起,以形成结论。这些个不的前提能够从观看、实验、调查中获得。在归纳方法中,任何结论差不多上基于从调查、实验或观看中得出的证据。市场营销研究中通过对大量个体(或样本)的研究得出一般性结论的方法使用的确实是归纳法。(2)演绎方法在市场营销研究中的应用演绎推理过程包括一系列的语句,其中最后一句是结论,它是从前几句逻辑地推理出来的。结论的正确性取决于前提的正确性。然而在治理方面的应用中,演绎方法的大前提常是不专门可靠的。因此尽管演绎推理方法可用在市场营销中,但必须明白其使用的前提(或由归纳得出的结论)常常是较脆弱的,不能作为作经营决策的唯一参考依据。归纳法和演绎常是相互作用的。演绎方法中的前提常是从归纳推理中得出的。比如通过归纳推理得出结论“春天是旅游旺季”能够作为演绎推理的前提,因为那个归纳结论是通过观看数年来每年各季节旅游人数而得出的。在使用推理方法时,要建立适当的证据,使从这些证据推导出的结论更富有逻辑性。这种逻辑过程不仅对研究者是明显的,对任何其它人也应是明显的。演绎推理方法中的前提必须是有效的,而在归纳推理方法中的前提则需要充分的依据。3.分析解释的客观性评价研究者进行研究时的客观态度对资料的收集是特不重要的,这种对客观性的要求在对资料的解释中更重要。由于研究者操纵着要解释的资料。他们可能会把那些跟他们可能结果相侼的资料搁在一边。理想的研究课题要求研究者始终保持完全客观的态度。但在实际生活中,这是难以完全办到的。要求研究者必须绝对客观,否则研究就不该进行。这种方法是不实际的,因为研究者对研究结果没有自己的意见或没有个人兴趣是不可能的。但要求研究者把这些个人兴趣放在第二位是可能的,也是必需的,因为研究不是为证明某一观点而进行,研究的目的在于客观地调查某个情形的所有方面。八、市场营销研究中的统计推断与方差分析八、市场营销研究中的统计推断与方差分析市场营销中的统计推断与方差分析是通过统计分析技术,对数据本身所包含的隐性事物本质及其规律进行深入研究的方法。这些方法较多地以数学理论为基础,通过定量分析,为市场营销提供相对更为理性客观的决策依据。本部分要紧介绍几类常见的统计分析方法,如假设检验、参数检验、非参数检验和方差分析等。(一)假设检验的概念假设检验是指先对总体提出某项假设,然后利用从总体中抽样所得的样本值来检验所提的假设是否正确,从而做出同意或拒绝的决策。一般而言,市场调研所面对的总体总是庞大而复杂的,即使是观看力专门强的调研人员也难以保证自己的推断准确无误。再加之市场环境中不确定性因素专门多,给市场分析带来更大的难度,这就需要在市场分析中运用假设检验的推断,使营销决策尽可能合理。1.研究假设研究假设的目的是保证通过市场调研获得的资料能满足研究目标的要求。因此研究假设的工件是在研究目标确定以后进行的,一旦研究目标确定,就要针对市场上出现的各种可能情况形成一些合适的假设。例如某企业在分析上季度销售收入显著增长时总结了以下几点:(1)CI战略(CorporateImage)的导入改善了企业形象,导致新客户有专门大增加。(2)SP战略(SalesPromotion)的适时运用刺激了消费者的购买欲望,导致销售量显著增长。(3)国家刺激内需的政策起了专门大的作用。(4)不排除其它偶然因素在起作用。这实际上是对企业销售收入增加提出的几种假设,是对“什么缘故上季度销售收入会显著增长?”这一研究目标的几种揣测,这些假设是否正确还有待下一步的假设检验,但一旦假设得到证实,则可作为经验予以推广;假如仅是偶然因素在起作用,则需立即改变企业的营销策略,以使企业销售收入稳定增长。假设的形成并不是凭想象产生的,它是在市场调研的基础上,通过对研究资料的粗步分析后得出的结论。假设能够是对研究资料的一种陈述性假设,如上例;也能够用于陈述某个行动的不同方案。研究者能够调查每一个假设方案,通过对各类信息的认真分析和假设检验,确定一个最优的开发方案。2.假设检验的原理当研究假设形成以后,就进入假设检验时期,如何利用样本值对一个具体的假设进行检验,一般借助于直观分析和理论分析相结合的做法,其差不多原理确实是人们在实践问题中经常采纳的所谓实际推断原理:小概率事件在一次实验中几乎是不可能发生的。假如小概率事件在一次试验中难道发生了,则有理由首先怀疑原假设的真实性,从而拒绝原假设。因此,从理论上看,小概率事件也有可能发生,只是发生的概率小而已,然而从假设检验的差不多思想看,这就可能导致I、II两类错误,第I类错误也叫“弃真”,第II类错误也叫“取伪”。所谓“弃真”,顾名思义,确实是原假设实际上是正确的,却被当成错误拒绝了。而“取伪”则相反,本来原假设是错误的,却被当成正确的内容同意了。不管是“弃真”依旧“取伪”,在现实中无法幸免的,这确实是我们通常所讲的“次策失误”。因此,我们能够通过增加样本容量的方法来减少犯两类错误的概率,这就要求我们在进行市场调研时应尽可能详尽地把握原始资料。3.假设检验的步骤假设检验一般应遵循以下五个步骤:(1)依照实际情况提出原假设H0和备择假设H1;(2)选择合适的检验统计量;(3)依照样本观看值计算出检验统计量的观看值;(4)选定显著性水平a,并依照相应统计量的统计分布表查出相应的临界值;(5)依照统计观看值和临界值,作出同意或拒绝H0的假设(二)参数检验前面我们简单介绍了假设检验的差不多概念.差不多原理.和差不多步骤,从这节开始,重点介绍几类市场营销中常用的检验方法:参数检验法.非参数检验法.和方差分析。本处具体介绍参数检验。参数检验是在已知总体分布的条件下对一些要紧的参数(如均值、百分数、方差等)进行的检验。检验时一般都假设总体服从正态分布。参数检验包括对平均值的检验和对百分数的检验。1.对平均值的检验对平均值的检验是依照样本均值及标准差来推断总体均值的一种方法。通常采纳Z检验法和t检验法。Z检验法选用于总体方差已知的平均值检验,而t检验法则适用于总体方差未知以及在小样本情况下的平均值检验。下面我们分单个正态总体和两个正态总体来介绍平均值检验。(1)单个正态总体的平均值检验如某冰箱厂为国内一大型冰箱生产基地,产品质量一直比较稳定,返修率为1.1%。但近年来却不断听到消费者抱怨,为了解近年该厂生产冰箱质量情况,随机对其国内36家专卖店及大中型商场专卖柜台中的其中400台冰箱的的返修率进行了调查,结果发觉其样本均值为1.14%,又由同类产品的经验知其标准差为0.2%,是否可由调查结果判定近年来企业生产的冰箱出现了质量问题?即认为该厂冰箱出现了一定的问题,一定有系统性因素在起作用,必须尽快查明缘故;与此同时,要更加注重售后服务,及时修复已出现质量问题的出厂冰箱,幸免因顾客抱怨造成不良舆论而阻碍企业声誉。(2)两个总体的平均值检验例如,某企业为提高产品质量,对部分职工进行了第一期培训.为了解培训效果,特从通过培训的职工的未通过培训的职工中各随机地抽取10名,记录其月产量,有关数据见表8-1。假设这两组职工的实际产量均近似地服从正态分布,且知其标准差分不为s1=140,s2=170。现要求推断培训对职工产量提高有无显著性阻碍。那个地点标准差s1、s2均已知,可采纳Z检验法。第一步:建立假设H0:m1=m2,即培训对职工产量提高无显著性阻碍H1:m1>m2,即培训对职工产量提高有显著性阻碍第二步:选择检验统计量:第三步:选定显著性水平a=0.05,查正态分布表得:Za=Z0.05=1.645第四步:作出推断。由于Z>Z0.05,因此拒绝H0,同意H1,即至少有95%的把握认为培训对职工产量的提高有显著性阻碍,培训效果显著,达到了预期目的。在不考虑其它条件的情况下,对企业治理人员而言,这些信息已足够支持他作出决策。那个案例讲明,对企业职工进行有效的培训,有利于提高职工队伍的科学文化技术水平和经营治理水平,促进劳动生产率的提高,从而增强企业的市场竞争能力。因此,并非所有的培训都一定有效,这就要求治理者在每期培训结束后都要定性、定量地对培训的效果进行总结性的评估,及时发觉问题,总结经验,使企业永久处于良性进展的轨道。上述的Z检验法适用于方差已知的情形;若方差未知时,可改用样本标准差S代替s,实行t检验。2.百分数检验(1)对总体百分数的检验对总体百分数的检验一般采纳Z检验法,选用统计量为:下面我们通过一个例题来分析一下Z检验法在百分数检验中的应用。M企业拟进行新产品开发。为了解市场需求情况,随机地对1000名消费者进行了市场调查,发觉其中有18%的消费者表示情愿购买新产品。依照其它资料显示,新产品投入市场后,市场占用率必须超过15%才能保证获利。假定表示情愿购买新产品的18%的消费者在新产品投入市场后将全部成为现实的消费者。问M企业应否开发那个新产品。从那个案例我们能够看出,取样大小直接阻碍着结论的可靠性。一般而言,样本量越小,随机性越大。因此,要想使作出的推断更加准确,就应尽量保证样本容量的数量。这就要求市场调研人员取样时,一是必须讲究科学的方法,二是必须有耐心,在有限的资金情况下,尽量扩大调查范围,把握尽可能详尽的第一手资料。另外,样本值代替不了总体值。从本题看,样本百分为18%(市场占有率),总体百分数为15%(市场占有率),但不能仅凭此即作出开发新产品的推断,因为调查结果(即18%的市场占有率)大于目标要求(15%以上的市场占有率),也有可能纯属调查中的随机误差造成的,因此是否开发新产品,必须做进一步的假设检验。(2)样本百分数之间差不的检验上例中,假如被调查的1000名消费者中有300来自高、中收入阶层,其中16%的人表示情愿购买新产品;700名来自低收入阶层,其中14%有人表示情愿购买新品。是否能够由此认为高、中收入阶层比低收入阶层更情愿购买产品呢?(三)非参数检验前面几节所讨论的假设检验问题,差不多上假设总体X的分布类型为已知,其中仅含有限个未知参数,我们只是对这些未知参数进行检验。然而,在许多实际问题中,总体分布的类型往往不明白,这就需要引进另一些统计方法,要求这些方法不依靠于总体分布的具体形式,这些方法被称为非参数检验。非参数检验的方法专门多,在此要紧介绍市场营销中较常用的三类方法:c2检验、魏氏检验法和麦氏检验法。1.c2检验c2检验是非参数检验法中最常用的方法之一,要紧用于对独立样本身或不同独立样本之间不同因素的差不进行检验。(1)对单个独立样本的c2检验对单个独立样本进行检验时,可选用统计量:例如,某厂生产一种新型山地车,特推出美观轻便型、经济耐用型和速度型三种款型,为了解用户对三种款型有无显著性偏好,特在若干大都市随机调查了600名消费者,结果表示情愿选择美观轻便型的246人,情愿选择经济耐用型的152人,情愿选择速度型的202人。问能否依照上面的调查结果推断三种款型中有一种受欢迎程度显著地高于其它两种?这是一个适度检验问题。采纳c2检验法:H0:三种款型受欢迎程度一样H1:三种款型受欢迎程度存在显著性差异选择检验统计量:因此拒绝H0,同意H1,即认为三种款型受欢迎程度存在显著性差异,也确实是讲美观轻便型受欢迎程度明显高于其它两类。这讲明,随着人们物质文化生活水平的提高,人们把对美的追求提高到了一定的档次;同时在繁闹的大都市,“轻便省力”也是人们首选的一个考虑因素。针对这种情况,该企业应着重在都市开发“美观轻便型”产品。(2)多个独立样本的c2检验对多个独立样本进行检验适用统计量:下面我们看一个例题。某大学在市民中开展了一项调研活动,拟探究市民文化水平与收入水平之间是否存在着联系。从市民中随机抽取了2764人进行观看,获得资料如表8-2。问能否依照调查结果推断市民文化水平与收入水平之间存在着联系?因此拒绝H0,同意H1,即认为市民文化水平与收入水平之间存在着联系。一般认为,市民文化水平高,其收入水平相应也高一些。2.魏氏(Wilcoxon)检验前面介绍的c2检验法要紧用于对独立样本的非参数检;而魏氏(Wilcoxon)检验法则要紧选用于两个有联系样本的比较。如M企业在实施降价策略前后企业要紧产品市场占有率的变化就构成了一对有联系的观看值,那么我们能否通过对这些观看值的分析来推断降价策略是否有效呢?能够考虑用魏氏检验法。魏氏检验法的差不多思想是首先求出对样本观看值的差值,并按其绝对值大小进行排列,剔除其差值为0的样本,最小者等级为1,依此类推。假如顺序排列中有几个差值的绝对值相等,则取其平均值作为这几个差值的等级。然后恢复其原来的正负号,再分不将正负符号的等级相加,用代表正的等级和,代表负的等级和。选择其中较小的等级和作为检验统计量。其拒绝域为:例,其企业为调动生产工人的生产积极性,提高产品产量,普遍增加了生产工人的工资。但有人却提出异议,认为工资属保健性因素,普遍提高工资并可不能导致产品产量较大幅度的增加。为验证此讲,企业随机抽取了10名工人,比较其涨薪前后的产量水平,得到有关资料如表8-3。问能否由样本资料推断增加工资对产量提高有显著性阻碍?用魏氏检验法进行检验。H0:普遍提高工人工资后,产量有显著性增长H1:普遍提高工人工资后,产量无显著性增长因此拒绝H0,同意H1,即至少有95%的把握认为普遍提高工人的工资并可不能导致产量显著性增加。那个案例讲明,保健性因素,如工资奖励、劳保福利、人群关系等,只能预防职工不满,使职工安于工作,不能起到激励职员的作用而要激发职工的生产积极性,则需重视工作本身,从内部条件着手,如使工作富有挑战性,使人有成就感、提升感。上面我们讨论的魏氏检验法要紧是在小样本(n<10)情况下;假如样本容量较大(n>25),则需采纳Z检验。3.麦氏(McNehmar)检验麦氏检验选用于同一样本在两种不同情况下的比较。比如某企业拟系统地导入CS战略(CustomerSatisfaction)以提升企业形象,为比较导入前后顾客中意程度有无显著性变化,企业特地对同一组顾客(同一样本,200人)作了前后两次市场调研,调查结果见表8-4。现在我们能否从这些统计数据推断企业导入CS战略前后顾客中意程度有了显著性变化?因此拒绝H0,同意H1,即认为CS战略导入后,顾客中意程度有了显著性提高。

(四)方差分析方差分析是比较若干总体均值是否相同时最常用的统计方法。在方差分析中,我们将那些阻碍实验指标的条件称为因素,而将因素所处的条件称为水平。假如所研究的问题只涉及一个阻碍因素,则称如此的方差分析为单因素分析;假如所研究的问题涉及多个阻碍因素,则称为多因素分析。以下我们着重讨论单因素方差分析和双因素方差分析在市场营销中的具体1.单因素方差分析单因素方差分析只检验一个变量的阻碍。例如某服装公司拟通过市场调研检验不同年龄的消费者对该公司生产的T牌休闲服购买量有无显著性差异,以决定是否细分市场。因此选择了一组调查对象,将调查对象按年龄因素分为老(A1)、中(A2)、青(A3)三个水平。随机调查了该公司下辖的五个专卖店在某一段时刻内不同年龄消费者的购买情况,获得资料如表8-5。问不同年龄组对T牌休闲服的购买量有无显著性差异?应否细分市场?因为该题只涉及一个变量:年龄,我们能够采取单因素方差分析法进行检验。H0:不同年龄组对T牌休闲服的购买量无显著性阻碍H1:不同年龄组对T牌休闲服的购买量有显著性阻碍第一步:计算各专卖店销售量总离差平方和(QT);各专卖店销售量之间的离差,即组内离差平方和(QE);各专卖店对不同年龄组销售量之间的离差,即组内离差平方和(QA)。总离差平方和(QT)是实验的总误差,反映数据波动的程度;组内离差平方和(QE)是在水平下,样本值与样本均值之间的差异,这是由随机误差引起的因此QE又称为误差平方和;组内离差平方和(QA)是各水平下样本均值与总体均值之间的差异,这是各水平以及随机误差引起的,反映由因素A的水平变动而产生的误差,即系统误差。可见,方差分析事实上质确实是要将总误差中的随机误差和系统误差加以分离,给予它们数量表示,并将二者在一定的条件下加以比较,如差异不大则认为系统误差对指标的阻碍不大;反之,如系统误差较随机误差大得多,则讲明所考察条件的阻碍大得多。有关总离差平方和、组内离差平方和和组间离差平方和的计算公式如下:第二步:选择检验统计量F:第三步:将以上计算结果列成方差分析表8-6表8-6方差分析表这讲明不同年龄组对T牌休闲服的购买量有一定的阻碍,但显著性不强,因此对厂家而言,假如单从年龄因素考虑的话,没有必要细分市场。2.双因素方差分析前面介绍的单因素方差分析法只考察了一个变量的阻碍,但在许多实际问题中,往往不能只考察单一因素各水平下的阻碍,而必须同时考察几种因素的阻碍作用,比如前面我们差不多验证没年龄的消费者对T牌休闲服的购买量存在一定的阻碍(不显著),事实上除年龄那个因素外,其它因素诸如消费者收入水平、消费者偏好、交通便利情况等也会对销售量产生阻碍,甚至是显著性阻碍。假如人们再将前面15家专卖店按交通便利情况分成5组,每组3家进行考察,则除年龄因素外,交通便利情况也构成了阻碍销售量的一大因素,必须考虑用双因素方差分析进行检验。双因素方差分析法与单因素方差分析法在某些方面尽管存在着本质的区不,但其差不多思想和差不多方法大致相同。那个地点我们把年龄因素设为A因素,交通便利情况设为B因素,则有关计算如下:第一步:建立假设H01:年龄因素(A因素)对T牌休闲服的购买量有显著性阻碍H02:交通因素(B因素)对T牌休闲服的购买量有显著性阻碍九.市场调研中的相关分析与回归分析九.市场调研中的相关分析与回归分析在研究具有相互关联的事件上,我们通常借助于相关分析和回归分析这两种统计方法,度量变量之间关联程度的方法叫相关分析。假如考虑的是两个变量之间关系时,称为简单相关;假如讨论一个变量与两个或多个其他变量的关系时,就称为复相关或偏相关,而回归分析则是依照已知的一个或一个以上变量(自变量)的值来可能另一个变量(因变量)的值,同时算出可能的误差。尽管这两种方法在现实使用时能够互相替代,但仍然存在不同,相关分析只是测定变量之间的相关程度。它考虑的是随机变量之间的共同变动,而不必区分自变量和因变量,而回归分析是希望得出一个有关各个变量之间联系的数字表达式,其中只有目标变量因变量假设为随机变动,而自变量均为已知常数,正如探讨变量之间关联度不必推导出一个方程,我们也能够在不考虑变量关联度情况下做回归分析。一般而言,两种方法是混合使用的,统称为相关回归分析,下面我们将分不介绍这两种方法。(一)相关分析(1)1.简单相关探讨变量Xi,Yi间的相关关系时,能够先做出散点图(ScatterDiagram),以数标轴上的点代表Xi,Yi的一对观看值,这能够直观地考察变量之间联系程度,且有助于选择合适的可能模型。对两个变量X,Y之间的简单相关,需要事先作出如下假设:·两个变量均为随机变量,一个样本观看值同时包括X,Y的值。·两个变量为联合正态分布。即在任何其中一个变量的观看值不变时另一个变量呈正态分布。假如两个变量X,Y的测定值为(X1,Y1),(X2,Y2)……(Xn,Yn),变量X,Y的平均数以,来表示,即:(i=1,2……n)经计算r在-1与+1之间变化。若X,Y完全正相关,一单位X的增加引得Y增加一单位,现在r=+1,反之,若X增加一单位导致Y减少一单位,两者完全负相关时,r=-1,有关情况如下表(9-1)。表9-1R=1完全正相关0<R<1正相关R=0不相关-1<R<0负相关R=-1完全负相关假如数据较多,可把X与Y分不分组,用组的组中值为代表值,由于各组皆有不同的次数f,则X1,X2……Xi…Xk与Y1,Y2……Yj…Ye可作为两个变量的相关表(Correlationtable)。见表(9-2)。XYX1X2……Xi……Xk合计Y1F11F21……Fi1……Fk1F·1Y2F12F22……Fi2……Fk2F·2┇┇┇……┇┇FkjF·jYjF1jF2j……Fij……┇┇YeF1eF2e……Fie……FkeF1合计F1F2……FiFkN表中,F1,F2…Fi…Fk表示与Y无关的X的分布,F·1,F·2…F·j…F·e表示与X无关的Y的分布,这些分布都称为X,Y的边际分布(MarginalDistribution),其中有关符号是:有关相关分析或回归分析的讲明能够通过实例来表达,也方便我们作进一步的探讨,现在有一个生产宝珠笔的全国性生产商家“Click”,正预备对本公司在市场营销方面的策略效率进行调查。该公司借助地区代理商来分销“Click”笔,同时通过派驻公司销售代表和播放电视广告来辅助代理商进行销售。现确定以每年地区销售额作为效率的评价尺度,而且有关各地区销售代表的信息和数据可直接从公司记录中猎取,比较而言其它他们认为与销售额有关的特征因素——电视广告和代理商的绩效的推断就相对困难一些。为获得某一地区电视广告的情况必须对广告的时段和电视频道所覆盖的范围进行分析。代理商的效绩则要求按照一定的标准对代理商进行等级评分并以最后的加总分来进行推断,如4=优秀;3=不错;2=一般;1=差劲,考虑到猎取这些信息所要花费的时刻和费用,最后“Click”公司决定对销售地区进行样本调查。这次随机抽取40个地区的调查结果见表9-3。首先做散点图(9-3),表a表示销售额随每月电视广告时数增加时增加,而表b则显示当该地区销售代表人数变多时,销售额也随之上升,最后表C显示某一地区的销售额与该地区代理商的绩效没有太大的关联。表a和表b进一步表示销售额与各变量之间的关系呈直线关系,以Y表示销售额,X1表示电视广告,X2表示销售代表,现计算Y与X1的相关系数以及Y与X2的相关系数分不为0.87、,表明两者之间存在显著的相关性。表9-3Click宝珠笔的地区调查结果地区销售额(千美元)广告(电视时段/月)X1销售代表人数X2005260.353019286.175033279.463039410.894061438.2126082315.383091565.1117101570.0168115426.1134118315.073133403.6106149220.544162343.694164644.6178178520.4197187329.593189426.0116205343.283222450.4135237421.8145242245.674251503.3166260375.795266265.552279620.6186298450.5185306270.153332368.076347556.1127358570.0136362318.584370260.263391667.0168408618.3198412525.3177430332.2104442393.2125467283.583471376.2105488481.8125图9-2销售Y销售Y(千美元)(千美元)在讨论相关系数时,我们更常使用另外一个概念——可决系数R2,相关系数的平方。通过一系列代数运算,R2的公式可表示如下:正如在统计上要考虑样本值与总体值之间的差异,那个地点我们也必须测定可信程度的大小在我们同意样本值r值为整个销售地区的调查结果,这需要对r的显著性作假设检验。假设p表示相应未知的总体相关系数,我们计算以下的t—统计量:因为置信度а=0.05,自由度为38,则临界值r=2.02或r=-2.02判不的标准为:假如r>2.02或r<-2.02,则拒绝假设,由此可知,不管是Y与X1依旧Y与X2都应拒绝假设H。尽管在推断联合变化的相关度时,简单相关系数专门有用,但仍有二点有关它的运用需要讲明。首先,样本相关系数低或未能通过t-值显著性检验并不意味着两个变量一定没有联系,这只能讲明它们缺乏线性联系,如图9-4所示,该散点图清晰地表示变量X与Y之间存在强的U-型线变化关系。然而在这种情况下得出的简单相关系数却可能接近于0,仅仅由于当将这些样本点联系起来考虑时呈现不出直线性联系。因此,即使简单相关系数特很多或不具备统计意义上的显著性,我们仍能够进一步对可能存在的非线性联系(曲线相关)作探究,尤其是有关经验或理论显示两者应该存在联系。也许研究曲线相关最简单的方法确实是进行描点作散点图分析。图9-3其次,正如有关统计书上指出的,简单相关系数本身的存在并不足以推断变量之关联变动。例如,销售额与电视广告时数之间的相关系数为0.87并不保证当广告时段数上升会导致销售额的上升,尽管它试图得出那个结论,相关所讲明的唯一的事是在所调查的40个地区中有关那个两个变量数据变化的模式是相近的,但这专门有可能源于销售额与电视广告时数间的偶然性联系。比如,关于各个地区销售额的水平的预期会在一定程度上决定各地区广告时数高低水平,因此除非其它相关因素保持不变或其阻碍已计算在内,否则仅依靠简单相关系数来推断变量间的联系是十分危险的。

(一)相关分析(2)2.复相关与偏相关引入更多的因素变量是我们减少推断偏差提高准确度的方法之一,这就涉及到复相关和偏相关。为了方便后面的讲明,那个地点我们先简单引入一下回归分析,借助回归方程来解释复相关系数和偏相关系数。有关回归分析的具体内容我们将在第二节作详细的介绍。如前面所提到的,在利用相关系数讲明销售额Y与电视广告时数X之间联系,我们还能够借助直线方程式来讲明。建立模型(在散点图基础上)假如一方程中所包含自变量个数超过二个,我们该回归为复回归,该方程为复回归方程。即为复相关系数(MultipleCorrelationCoefficient)为复相关可决系数,在关于销售额,电视广告和销售代表人数之间关系的调查中这意味着销售额中87.4%的变动差异与电视广告时数及销售代表人数变化有关,销售代表的引入提高了变量间的相关度,因为87.4%的变动能够用这两个因素讲明而电视广告时数的不同只能讲明77.5%的变动。同时,讲明三者之间存在强的关联度。所谓偏相关(PastialCorelation)是在测定n个独立变量对一个因变量的阻碍时,在排除其他变量的阻碍后,指定一个独立变量对那个因变量计算得的相关系数,称为偏相关系数,也可称为纯相关系数(NetConelationCoefficient),回忆在简单相关分析中有关销售额Y与电视广告X之间简单可决系数能够表示如下:这意味着在销售变动中有42.4%与电视广告无关的变动能够从销售代表数目变化中得出。相应的,在可能销售额与电视广告相关性时所犯的偏差减少了42.4%是源于销售代表数目作为增加项的引入。同样,偏相关可决系数的平方根即(一般只取正平方根)为偏相关系数。在那个例子中存在二个自变量X1,X2,因此我们能够定义有关于销售代表数目X2的偏相关系数为,我们能够类似的方法推算出有关电视广告的偏相关系数。它表示在充分考虑X2与Y相关度后加入因素X1关于Y整个变动差异的阻碍或增加的边际贡献之因此我们要借回归方程来解释复相关和偏相关系数是想讲明各系数所代表的经济意义,并不是求相关系数非要得出回线方程不可。但从计算简便以及经济含义角度,我们经常选择两种方法一起使用。样本相关系数的分布和测验在假定两变量(x,y)的组合总体适合于正态分布(三度空间的立体正态曲面)的条件下,x与y的相关系数r的抽样分布是随着两个因素——样本单位数n与总体相关系数P的不同而变化着,只是总的讲来,r分布的形态是属于各种各样的。如把总体相关系数p分成三类:P=0,P=0.50以及P=0.90,在不同的n条件下,r的分布形态是:图9-3图9-4图9-5由于r分布的偏态形态,作实际测验的计算时,比较困难,英国闻名统计学家埃·爱·费煦为了补救这种复杂计算的缺陷,用变量E代替r,替代公式为:其中ln表示以e为底的自然对数,对E的变量来讲,它的分布接近于正态分布,因此,就可利用正态分布表作出测验。另外,费煦差不多作出了r与E间的变换表格,因此计算就大大地简化了。关于相关系数r的虚无假设的测验以及可信任界限的计算可举例如下:例如:样本为35对数据时,求出r为0.80,试用5%的显著标准来作出总体相关系数ρ=0.90的虚无假设测验。先假定以虚无假设动身,r=0.80可能从总体ρ=0.90中抽出,假如概率超过5%,就同意那个假设,否则,就推翻那个假设。从附表我们查出r=0.80时,Z=1.099,并从同一附表中,找出ρ=0.90时,MZ=1.472,我们明白那个地点,Mz是在0.31与0.87之间,因此,P是在0.30与0.70之间,那个指标是以附表中0.31与0.87的正数值而获得的。

一、相关分析(3)3.等级相关(RankConelation)有些时候,对现象或事物无法以周密数量确定其大小,轻重,只能以等级或次序排列出。例如,才智高低,事态轻重,色泽深浅,效率大小以及味道的好坏等,一般只能以等级排列。即使是周密的数据,有时也采纳等级来测定它们之间的相互关系,这种关系一般是以等级相关系数来表示的,而在这些等级相关系数中,以司庇而曼(C.Spearman)的等级相关运用最为普遍。其公式为:其中:d=各对数据的等级差异n=样本的数据总数司庇而曼相关系数是针关于两个序数变量的,其中每个变量的数据已按一定标准划分成1至n个等级,假如的和为0,那么rs=1。也确实是讲现在两个变量的等级是等价的。rs值由+1(完全正相关)变化到-1(完全负相关),其中若rs=0意味着彼此不相关。现有一个案例:在过去的几年间一家工业品营销公司一直从其总部附近地区的10所商科学校毕业生中招募销售人员,现在想确定这十所学校的相对名气与它的毕业生表现业绩之间是否存在关联。该公司的销售经理自己对这10所学校的声誉以及各自毕业生在本公司的表现进行了分级,这些等级评定情况见表9-4的第二列以及第三列。现在问题是各学校的名气与来自于各学校学生的销售业绩之间究竟有多大的联系呢?借助于司庇而曼相关等级系数公式,我们可知:rs的值为0.661表明两个等级排名之间至少存在一定的联系,那么这种联系在统计上显著吗?回答那个问题我们能够假定这10所学校是以商科学校总体中抽出的随机样本调查,然后检验以下检验:H0:PS=0H1:PS≠0PS为两个等级集总体相关等级系数,当n≥10时,以下的检验数据将是满足自由度为n-2的t-值分布:因为t>2.31,因此我们拒绝H0并认为各商科学校的名气与其毕业生的工作表现存在真实的相关性。换而言之,样本中0.661的相关性不大可能由于偶然性而导致的。值得一提的是我们是依照不同等级对之间的等级差距来计算rs的,这种作法与认为构成序数尺度的数字之间的差距是没有什么意义的观点不同,事实上,在计算rs时我们已假设两个变量同等级的差距是具有可比意义的,假如那个假设前提不成立,那么司庇而曼等级相关系数也就没什么意义了。

(二)回归分析(1)由一个或一组非随机变量来可能或预测某一个随机变量的观看值时,所建立的数学模型及所进行的统计分析,称为回归分析。假如那个模型是线性的就称为线性回归分析;假如模型是曲线的就称为曲线回归分析。这种方法是处理变量间相关关系的有力工具。它不仅告诉人们如何样建立变量间的数学表达式,即经验公式,而且还利用概率统计知识进行分析讨论,推断出所建立的经验公式的有效性,从而能够进行预测式可能。这在实际中的运用是十分普遍的。线性方程是比较容易求出的,即使是曲线方程也多半会转换成线性方程进行求解。我们就从线性方程回归开始,而线性回归中最简单的确实是两个变量,或者称为简单线性回归,借助第一节我们所举的“Click”公司有关销售额,电视广告以及销售代表的案例,关于销售额Y与电视广告时数X1我们能够建立模型(在散点图基础上)这是一种确定性方程,因为当α、β给定,一旦x1的值确定时有且仅有一个Y值与其对应值。然而在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一点我们会在上述方程式上添加一个误差变量,以可能性模型来替代确定方程,即:这正是我们第一节中所提到的方程,误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含到里面去的变量、一种人类行为中不可预测的因素以及偏差的度量。可能性模型在给定а,β值情况下,Yi与Xi不是一一对应的关系;由给Xi值所能确定的只是这种情况Yi分布的平均值,而Yi真实值则围绕其上下波动。我们最终确定的回归方程是一种确定模型,因而我们希望能找到一条“最能代表真实可能性情况的方程或者讲两者偏离最小。最常见的方法是最小二乘法。而该方法又以随机误差符合一定假设为前提的,这些假设条件具体如下:参看表9-3销售额Y和每月电视广告时数X1的有关数据,能够得到:25.3意味着电视广告时段每增长一个单位则销售额会增加25,300美元。正如前面所提到的,这是建立在40个地区的抽样调查基础上得出的对真实总体β值的估算值,不同的样本多半会导出不同的样本值。而且,我们还不明白那个值是否具有统计上的显著性或者它是否是由偶然性引发的。然而,这是一个比较重要的方程因为它有助于我们决定广告费用的回报是否值得。截距参数值字=135.4;这表明当自变量为0时,该回归直线穿过y轴的距离。

(二)回归分析(2)可能标准差对图9-7的认真检查发觉,尽管直线拟合数据拟合得专门好,但仍存在若干点关于直线的偏离,从而实际上这些偏差的大小代表了回归方程直线拟合的优劣,成为推断方程好坏的一个指标。同样我们能够利用统计中的有关知识计算出那个指标。(二)回归分析(3)有关斜率系数的分析前面计算有关斜率系数值为25.3,但我们并不明白那个结果是否源于偶然性,是否具有意义,这就需要对其进显著性检验,依照闻名的Gauss-Markov理论,假如我们要对回归系数进行统计检验我们要假设该变量的离差为随机分布,这与前面我们所提到的矩状型分布是有所出处的,此外,我们还需要设定由最小二乘法所可能出的总体参数是符合有效,无偏,最大拟然可能原则的可能值。假如H0不能被拒绝,情况又会如何样呢?正如我们所指出的,代表样本回归直线的斜率,为变动一单位Y所相应变化的数额,假如不能证明=0的虚无假设不存在,这也不能完全否定Y与X1之间没有联系,可能是我们在检验中犯了第二类错误,没有拒绝不成立的假设。另外一种可能确实是Y与X之间的关联是以某种曲线型方式存在,而我们运用了错误的模式去推算。对Y值的预测假如所求出的回归方程并非为偶然联系,那么我们就能够利用它来对给定的电视广告时下的销售额进行预测,需要考虑两种情况:1.预测给定情况下的Y的平均值。2.预测给定情况下的Y的一个单值。让我们依次来讨论这两种情况。给定的的值记为,由回归方程得出的Y值即为所求的平均值,记为则关于一个每月电视广告时数为10的地区,可能平均销售为:以上告诉我们的是如何计算当电视广告时数每月为10时整个地区的平均销售额水平,但有时候我们希望能对某些特不的地区的销售进行预测。如此预测中包含了一个附加的误差项,其数值等于一个特不值可能造成的偏差。因此预测单个销售能所存在的错误率要比预测整个销售额平均水平常的大。相应地,它所满足的公式为:读者可比较一下两种预测情况下的置信区间的范围,即两者偏差的大小。

(二)回归分析(4)关于使用回归分析需要注意的事项:回归分析方法的普遍性和借助计算机运算的快捷性使得许多研究人员不问该方程与研究现象适合与否或不考虑回归分析的缺陷就盲目使用,事实上使用回归分析法是需要许多假设前提的,假如忽略这些前提,就会导出错误甚至是荒谬的结论,那个地点我们集中讨论一下有关简单回归的缺陷,这些缺陷也同样适用于我们稍后将要提到的多元回归分析。首先,如同在相关分析中看到的,回归分折局限于揭示变量之间的线值关系。假如散点图中所揭示变量之间的规律显著不呈直线变化,那么现在运用回归分析确实是特不不适合的(除非通过变量转换变成线性关系)。因此一般只要可能,都要求事先依照数据划出散点图以推断变量之间的联系。其次,通过了显著性检验或佣有较高R2值的回归方程并不一定保证解释变量与被解释变量之间的因果关系,这一点是特不值得注意的;因变量与自变量的设定可能会让粗心的研究者适应地认为假如回归方程是显著性相关的前者确信可由后者推导出,但事实上两个变量之间是否有在联系必须从往常的经验和有关的知识理论推导出,而不是由对数据运用的数学方法得出,它只是一个验证。因此谁是因变量,谁是自变量要由研究者自己决定,而不足依靠统计工具。设想有人把通过某一地点各女士裙边离地高度与当时太阳黑子变动的数据合在一起进行分析,假如由此得到的回归方程有0.9的可决系数,是不是就要确信后者导致了前者的变化呢?这显然是荒谬的。第三,回归方程关于超过给定范围的自变量对应下因变量的预测也确实是我们常讲的“外推预测”上可信度不高,举一个例子,在研究电视广告与销售额之间关联时电视广告时数变化范围为4~19,关于超过19或低于4的广告时数对应的销售额进行预测时,我们就面临专门大的风险。因为我们并不明白当增加新的数据点后散点图是否仍遵循原来的直线。事实上,甚至在原来的范围内,随首X0值对的偏离,所得到预测的误差都在不断加大(见图9-8)图9-8A.B预测值的上下边界C关于点,yi预测值的偏离D最小的预测值的偏离(现在)第四,建立在小规模样本上的回归方程是不可靠的,极端化而言,仅由两个点推出的简单回归值线方程的可决系数为1,而不论这两点如何样分布,样本的容量进而样本包含的数据点在多元回归中占据着相当重要的地位,在多元回归中假如样本容量不大而又包含太多的自变量的话同样会导致人为形成的高相关度,一般的规则是关于方程中所含的每一个独立变量至少有10个样本数据与之对应。第五,自变量和因变量的数据变化范围能够阻碍回归方程的可用性,假如要令得出的回归方程具有有用性,自变量和因变量的数据范围就应该宽泛。因为假如有关每个变量的数据过于集中想推出一条准确的直线是特不困难的,关于数据要具有足够离散度这一方面Loefher和luciavish有清晰的论述:专门明显,假如因变量没有什么变化,那么没有什么能够需要解释的,因而只需对目标人群的行为做担当少的研究。假定存在一定变动,我们便习探究什么缘故会如此进而引入自变量来解释。假如这些自变量自身没有任何差异那么它们关于整个问题是没有任何关心的,因为假如解释变量没有变化,那么我们所观看到的总是一种状况,全然没法揭示有关因变量所拥有的多种不同状况。

(二)回归分析(5)2.多元回归分析我们考虑了包括一个被解释变量(Y)和唯—一个解释变量(X)的简单线形回归。我们进一步考虑对简单模型进行扩展,使用两个或更多的解释变量来可能Y值。这种扩展确实是多元线性回归。多元回归的应用范围十分广泛,它是所有宏观预测模型的基础。比如对销售量进行预测,相关的几个解释变量被认为是:广告费用、销售代理人的数量、产品价格以及季节因素(用降雨量、温度等来表示)。要明白在包括一个以上解释变量的多元回归的情形,可能的回归线不能用一个简单的二维图形(如图9-1)来表示。多元回归线是多维空间的一条曲线。确定回归方程和测算相关性的计算比在简单回归情形下要苦恼得多。这种计算一般是非人工所能为的。现在,计算机和合适的统计软件包的使用,使得回归方程和相关系数的可能成为简单的任务。多元线性回归方程在有K个解释变量的情形下采纳的一般形式如下:那个地点,Yc是计算的(也确实是可能的)Y值,a为截距,b1,b2,b3,…,bk是估算的相应于解释变量X1,X2,X3,…,Xk的回归系数值。这些系数自然是它们相应的总体参数的可能值(在简单数据资料的基础上)。总体参数用大写字母来表示:A,B1,B2,B3,…,Bk,系数bk的值是用最小二乘法原理推算出来的(参见简单线回归的内容)。回归系数bk是如此定义的,它使得残差(也确实是实际值Y和估算值Yc之差)的平方和尽可能的小。因此,目标确实是使得(Y-Yc)2最小化。推导a,b1,b2等数值的计算现在都能够使用合适的计算机软件包自动地迅速地进行。因此,我们把注意力集中在对计算结果、统计显著性、与多元回归有关的缺点和局限性的阐述上。与简单回归分析类似,在多元回归分析中也有四个方面需要考虑:(1)每个回归系数的讲明。(2)回归系数的统计显著性。(3)回归方程的整体解释力。(4)整体解释力的统计显著性。以下我们依次讨论这些内容。(1)回归系数的解释bi代表在所有其他解释变量保持不变时,xi每变动一个单位Yc相应的变动。例如,考虑太阳镜的月销售情况,销售量(S)可用三个变量来解释:价格P,广告费用E以及每月日照小时数H。因此,销售量与解释变量之间的关系能够表示为:Sc=a+b1p+b2E+b3H那个地点Sc表示通过方程预测的月销售量,系数a,b1,b2和b3从过去的数据资料推导出来,包括过去一段时刻销售量和三个解释变量每月的观测值。在那个地点截距a能够理解为当三个解释变量同时为零时的平均销售量。系数b1表示当其他解释变量保持不变,价格P变动一个单位时销售量的平均变化值。同样;系数b2表示其他变量保持不变广告费用E变动一个单位时,销售量的平均变化值。系数b3表示的意义是类似的。通过这种方法,我们能够把每个解释变量对销售量的阻碍分离出来,不受其他解释变量的干扰和阻碍。b1,b2,和b3的值被称为局部回归系数。

(二)回归分析(6)2.多元回归分析(2)整体解释力和统计显著性在简单线性回归里我们详细的介绍了单个回归总数的显著性检验与回归方程的整体解释力检验,在此不再重复,我们重点对整体解释力的统计显著性检验进行介绍这需要一个不同的过程,即F-统计检验。单个系数(bk)的统计显著性检包括一个零假设检验,HO:Bk=0。整体解释力的检验是检验所有的bk是否都等于零。相关的检验统计量,即F-统计量,也是通过计算机软件包自动计算的,没有必要关怀它的实际计算过程。然而,简而言之,它被定义为被解释的变化与未被解释的变化之比。回忆一下,解释变量的方差能够被分解为两部分,一部分通过回归值来解释,一部分通过残差来解释,。被解释的变化与未被解释的变化的有关表达式简单地等于,总的被解释和未被解释的方差除以各自的自由度(分不是n-k-l)。F-检验在计罢了F-统计量之后,(F-检验)的统计显著性检验依照通常的程序进行。这些程序包括着先讲明假设检验,然后把计算好的F-统计值与临界值相比,临界值取自在一给定概率水平下F-概率分布的F-统计表。假设能够表述为:H0:B1=B2=Bk=0H1:系数B不全为零假如我们拒绝HO,我们就能够断定,在被解释变量和至少一个解释变量之间有显著的关系,回归方程整体来看是显著的。但要注意即使回归整体来看是显著的,某些单个的回归系数可能统计上并不显著。因此检验每一个解释变量的统计显著性是专门重要的,不要只依靠于整体解释力的检验。还值得注意的是,在只有一个解释变量时的简单回归分析的情形下,整体解释力的F-检验必定相当于单个回归系数B的t-检验。这时,能够看到,F=t2。F-统计表和F-分布还需要讲明F-统计表的使用和设计。F-分布的形状如下图所示。注意该分布是不对称的,而且F值不可能为负。分布的实际形状决于F-统计量的表达式相应的分子和分母的自由度(分不是K和n-k-l)。F-统计表中概率值(α)有0·05和0·01两种,对应于相应的自由度,分子和分母分不用VI和V2表示,从1到∞。比如,能够查到,在vl=9和v2=12时,F-统计量的临界值(用表示)在0·05的显著水平下等于2·80,在0·01的显著水产下等于4·39;也确实是讲,只有5%的可能性得到一个大于2·80的F-统计值,只有1%的可能性超过4·39。注意附录分为两个部分,第一部分对应=0.05,第二部分对应于=0·01。如此,回到F-检验中,假如计算的F-统计量超过了临界值,我们拒绝零假设,并断定整个回归在统计上是显著的。在使用多元回归中,容易忽略几个问题。为了引起注意,我们简单地予以评论。详细的讨论能够在关于回归分析的专业书籍中找到。要紧问题与下面这几点有关:·可能的回归方程选择了不恰当的方程形式(即线性或非线性关系),被称为方程形式的错误识不;·两个或更多的解释变量彼此相关的程度,使得可靠地度量它们各自的阻碍成为不可能,那个问题被称为多重共线性;·不同时刻的被解释变量的观测值自身相关的可能性,被称为自相关或序列相关问题,这阻碍到局部回归系数显著性检验的可靠性;·预测误差可能不是常数,相反,它可能与解释变量的由于那个缘故大小相关,那个问题被称为异方差问题,这也可能阻碍到可能回归系数的显著性检验的可靠性;·在回归模型中解释变量含有测量误差的可能性,那个问题被称为变量误差,这将导致回归系数的可能不是无偏的和一致的。举例下表是某公司在过去的12个月中每月太阳镜的销售量、平均价格、广告费用、平均日照小时数。使用这些数据:①可能回归方程,使之能够计算三个解释变量(价格、广告费用以及日照小时数)对太阳镜销售量的阻碍;②对结果进行讲明;③在价格为2.5英镑、广告费用为25000英镑以及平均日照数为5小时的情况下,利用回归方程预测太阳镜的销售量。解答回归方程那个地点,多元线性回归模型为:销售量S=a+b1×(价格P)+b2×(广告费用E)+b3×(日照小时数H)用统计软件包,我们能够得到:S=120-12.2P+2.32E+13.2H讲明·为了对回归果进行讲明,我们注意以下几个方面:·估的回归系数(b1,b2,b3)的大小及符号。·回归系数的统计显著性。·回归整体的统计显著性。·回归模型的整体解释力。·异常观测值(即所谓的异常点)的出现。系数的大小和符号。我们能够事先推测销售量与价格呈反向变动的关系(即销售量随价格的下降而增加),而与广告费用和日照小时数呈正向变动的关系。也确实是讲,事先的可能是价格的回归系数(b1)为负,而广告费用的回归系数(b2)和日照时刻的回归系数(b3)为正。从上述回归方程来看确实如此。在解释回归系数的大小时,要记住原始数据的度量单位。因此有价格每上涨1英镑太

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论