统计应用上常见的谬误_第1页
统计应用上常见的谬误_第2页
统计应用上常见的谬误_第3页
统计应用上常见的谬误_第4页
统计应用上常见的谬误_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统 计 应 用 上 常 见 的 谬 误谢邦昌 辅仁大学统计系教授兼主任 叶瑞铃 辅仁大学应用统计研究所研究生壹、绪论让统计结果更接近事实一、研究动机 统计是一门新兴的科学,可号称是人类在二十世纪的十个伟大发觉之一。自二十世纪初,从Neyman、Pearson及Fisher等人发表一连串开拓性论文之后,统计便不断地蓬勃进展,一直到今天,不论在自然科学或是社会科学的各个领域中,都找得到它的踪迹。事实上,它已成为我们生活中的一部份。 随着现代科学的不断进展,统计学不仅早已从数学中独立出来,而也已成为在社会科学研究上的一种专门的学科。今日在科学研究中,统计分析的应用早已有其不可或缺的重要地位,不仅于此

2、,在一般人的生活周遭上的应用上,甚至在个人理财活动中都少不了统计分析的应用。因此,将统计学当成一种解决问题、寻求真相的工具,咸信将使统计对人们的生活产生更大的阻碍及关心。 统计的应用范围极广,其方式要紧在搜集、整理、陈示、分析及解释资料。并可在较少的成本花费下将吾人有兴趣的事物之全体(注1)抽出一部份来观看与研究(注2),然后依照所得到的信息用科学的数量方法来推测所欲了解的事实。因此依照以上所述,统计学又分为叙述统计与推论统计两大部份。现在各方面的研究工作者无一不将统计学视为最有关心的工具之一,除了在一般的学术研究之外,尤其在工商业的各项业务,如财务、工管、销售等,都需要应用统计资料及统计方法

3、来作分析及推论,方能使各项工作顺利完成(注3)。 近年来,统计确实已受到学界及工商业界的普遍应用;不管是学术研究论文、期刊,或者是政府出版品,乃至于民间企业刊物、杂志等,都可看到统计应用的大幅成长与统计专业程度的要求明显提高。但阅读与参考这些文献、资料的读者往往只专注于统计数字的大小,而忽略了数字背后的涵义,殊不知许多数字可能因为统计分析方法的误用而导致结果推论的错误。因此,探讨一般常见的统计分析应用上的误用情形,为本研究的第一个动机。 研究统计的人都一直深信着统计数字中永久隐藏着某些事实的真相,等待人类的智慧去查找。多年前有位学者讲:Statistics may not tell the t

4、rue, but it never lies.(注4)。这句话反应出统计数字也许不能告诉我们真相,然而它绝对可不能撒谎,只有人们才会这么做。因此,如何使统计数字讲出真话,并找出统计误用的缘故及补救的方法,为本研究的第二个动机。二、研究目的 统计理论接着不断的进展,其所论述的范围及应用的层面愈来愈广,统计除了可叙述数据、推论数据外,更重要的是其预测性的功能。因此,如何善用统计分析工具以关心完成决策与验证实验假设,实已成为企业经营治理与科学研究之重要课题。以周密的设计,搜集完整的有关资料,通过适当的统计分析所得的结果作为依据,才能使所冒的风险与失策的可能愈小,而迅速得到预期的目的(注5)。 综合以

5、上所述与研究动机,遂引发本研究之目的: (1)探讨统计分析应用上常见的错误情形。 (2)了解统计分析误用的缘故及探讨其补救的方法。三、研究范围 统计的应用与分析方法的范围甚广,本研究仅就下列二部份进行探讨: (1)学术研究部份:针对各类学术论文之研究设计、资料分析、论文撰写部份加以讨论。 (2)日常生活应用部份:如民意调查、收视率调查等等生活上常见的统计应用方面加以讨论。 本研究先针对上述二个范畴中常犯的错误情形加以讨论,其次以实际的情形举例讲明,并讨论其改进与补救方法。 此外,文内所提之例子并不列出其出处,一方面维护他人写作之权益,另一方面保障并尊重其隐私权。 注释1.在统计的术语中称之为母

6、体。2.在统计的术语中称为母体的任何部份集合为样本。3.蔡宗儒(淡江大学统计系讲师),统计与生活,社 教资料杂志,第二二期,p4。4.郑天泽(政治大学统计研究所副教授),统计之应用 ,社教资料杂志,第二二期,p3。5.颜月珠(台湾大学财务金融学系教授),商用统计 学,三民书局八版,民国82年8月。 贰、统计应用常犯的谬误 在本部份,将分不针对实务应用上在统计分析时常见之错误情形,经归纳与整理后分述于后。一、抽样方法的不适当样本是否能代表母体 ? 1.抽样方法概论 差不多上,抽样理论包含三个要紧的部份抽样、可能、推论。抽样在于给予从母体抽取样本的规则;可能在于利用样本统计给予母体值的点可能;推论

7、在于给予母体值的区间可能。在本部分仅针对抽样部份进行探讨。 抽样方法在统计中的重要性可由图21中清晰的看出。图21 抽样对统计之重要性图示 为了解母体的性状,经由抽样调查,并以其结果推测母体,此为统计推论的必要过程(注1)。抽样方法选择的适当与否,不仅阻碍着如何可能,而其精确(precision)度及误差(error),皆关系着整个样本是否可有效的推估母体。 此外,在实务应用上,抽样方法也涉及两个重要的因素:即效率与成本。提高效率与降低成本为每个从事研究或调查者所追求的目标。 抽样方法可分为:机率抽样与非机率抽样两种。在此我们可简单的将两者加以区不:机率抽样可推估母体;非机率抽样因其较主观而产

8、生偏歪样本,故只能找出母体的某些特性,而未必能推估母体。故一般较严谨的调查或研究其抽样皆往常者方式为之。而常见的机率抽样又可分成:单纯随机抽样(simple random sampling)、分层随机抽样(stratified random sampling)、部落抽样(cluster sampling)、系统抽样(system sampling)、多时期抽样(multi-stage sampling)。非机率抽样则以任意抽样(convenience sampling)、推断抽样(judgement sampling)、配额抽样(quote sampling)为代表。 选择抽样方法时之差不多考

9、虑为:样本结构是否和母体结构有一致性。因此这也是为何在完成抽样后必须作适合度检定的理由,基于此项大原则我们才可选择适合母体结构的抽样方法。在此对各抽样方法及其专门步骤不作多述,仅将其优、缺点及适用时机列于表21。表21 各种抽样方法之比较抽样方法优点缺点适用时机简单随机抽样法分层抽样法部落抽样法系统抽样法1.母体名册完整时,直接由母体中随机抽出样本,方法简单。2.由于抽出机率均等,较易可能母体总值及抽样误差。1.层间差异愈大,层内差异愈小。2.适当分层抽样推论之误差,恒较简单抽样为低。3.可得到各层之可能值。1.当部落间差异愈小,部落内差异愈大,则抽出样本统计精确度愈高。2.部落内样本较为集中

10、,访查员行动半径不大,可节约调查人力及费用。1.随机起号仅需抽出一个,以后累加即可。2.当个体序列成随机出现时,其推估精确度和简单抽样相同。1.通常推算结果之精确度,较分层集体、分段抽样法为低。2.由于抽出样本较为分散,所需调查人力费用较高。3.无法可能子母体特征。分层后之样本数据,其整理推算工作,通常较简单抽样为繁。1.以部落为抽样单位,各项整理统计费用将会增加,故一般多采成对抽取,便于可能误差。2.通常在各部落内分子无甚差异时,将增加部落间差异,调查结果误差必大。3.各部落内含个体多寡不同时,亦使误差加大。1.当母体名册和个体单位数不完整时,无法采纳。2.遇有个体成某种周期序列,又恰与抽样

11、间隔相近时,则抽样误差较大。1.母体较小且明白抽样单位的数量。2.有较完整的母体名册。3.单位访问成本较为固定。4.母体名册是有关母体信息的唯一来源。1.当样本的分层达到各层的抽样单位的特性尽量接近,而层与层之间的差异尽可能地扩大时使用。2.当母体中的专门单位较多或分布不均匀时,为幸免抽样误差亦使用之。1.当母体成若干部落,且部落与部落间个体同质,而同一部落内个体异质时使用。2.当无法取得母体集团名册或划样样本对象为前提时使用。1.母体有现成次序的场合时使用。2.使用此法时于划分间隔抽取的母体,其所有个体的排列次序必须是随机的。抽样方法优点缺点适用时机多时期抽样法任意抽样法推断抽样法配额抽样法

12、1.多时期抽样法为群集与分层抽样之折衷方法,兼取两者之优点。2.配合行政区域抽样,抽取手续与调查治理均较便利。依照调查者自身的方便程度,不依据特定的抽样原则,具有经济、方便之优点。可由人为意志自由选择调查对象,不受抽样设计条件之各种限制,容易进行调查。适用于母体集团无法取得,且抽样手续简便,为营销研究者所乐于使用。分段抽样之误差可能加大,且整理分析较其它抽样复杂。调查结果容易产生偏误,如盲人摸象。调查结果无法推估母体平均数及抽样误差,如选择不当,其误差可能甚大。合乎条件之样本难得,抽样之误差也未能可能。当母体集团分布广而散时,如以一段式抽样,势必耗时、耗费,现在则以多段式抽样弥补其缺失。由调查

13、者主观决定。由调查者主观决定。由调查者主观决定。 最后要提到的是,选择一个适合的抽样方法当然重要,但抽样过程的处理不当亦可造成人为的疏失,而导致结果的错误增加,亦是值得注意的问题。2.常犯的错误情形 由以上讲明我们可知:抽样方法对整个统计分析的过程与结果阻碍甚大。而一般阻碍调查者对抽样方法之选择的因素不外乎(1)正确性、(2)方便性、(3)时刻、(4)费用。此四项因素往往无法兼顾,这也是为何一些研究者在其研究论文中常会提及因时刻、经费不足等之研究限制了!事实上,在抽样方法上的错误也多半因此四项因素而发生。 我们常发觉:许多以商品之消费行为之研究、与之关系性研究或商品之市场调查等为题之研究或调查

14、,其研究母体为所有消费者或所有某一特定族群,但调查者往往会先将抽样母体定为台北市、台中市、高雄市三区(此一观念类似部落抽样法之部落定义),在从其中用简单随机抽样、分层抽样或部落抽样等方法抽出若干样本数来统计分析,最后则用这些样本来代表所有的母体,如此以偏盖全的讲法,更不讲抽样及可能误差之估罢了! 更甚者,一些如收视率调查、民意调查等的数据数据在此方面的错误与阻碍更大;因为这些数据大多会透过媒体的报导而误导消费者,进而阻碍其推断与决策。在日常生活中这类错误讯息层出不穷,如某报纸报导:电视公司八点文件连续剧收视率突破40,勇冠三台。如某报纸民意测验结果:候选人民众支持率达50,大幅领先其它两位候选

15、人。但在相信这些数字之前,我们至少应先了解其抽样方法是否正确与适当,否则它们全然毫无意义可言!二、样本大小的问题勿又要马儿好,又要马儿不吃草1.决定样本大小 由于任何一种抽样方法都无法包含母体中的每一成员(除普查以外),因此抽样误差由此发生。抽样误差和样本的大小有着紧密的关系;一般来讲,抽样误差通常随样本的大小之增加而降低。此点由中央极限定理(Central Limit Theorem)可看出端倪(注2)。此外,在实务上我们通常如下计算抽样误差(Sampling Error):简而言之; x由 1.期望值:E(P) (n:样本数) n P(1P) 2.变异数:V(P) n 3.机率:P P 故

16、 1.960.50.981 由上可知,抽样误差通常以 来计算,样本愈趋近于无限大,则抽样误差愈小。由此也可看出样本大小对抽样误差之重要性。 话虽如此,由先前所述,我们也应注意:若是抽样打算不行则样本愈大可能偏离母体愈远,造成更大的误差发生,故选择适当的抽样方法则不但可降低抽样误差且可加以可能。2.常犯的错误情形 同样的,在日常生活中我们常发觉:许多统计分析结果往往因为其样本数过少而导致结果的不正确。因为常常研究者或调查者可能因为节约时刻、成本等因素,而以较小的样本进行统计分析,因此也使得结果不正确。因此,当我们阅读某项统计结果时,最差不多上应注意其样本数的大小及其抽样误差的推估,而媒体也应将此

17、差不多要项注明以建立其传播的责任。 此外,在实务上我们从选择了适当的抽样方法到将数据搜集后,接下来确实是如何计算可能值,但在大多数的情况下,研究者或调查者往往忽略了抽样方法的不同而应搜集不同的样本大小数据,而常常采纳在简单随机抽样方法下的计算方式,其结果也就值得怀疑。 在此需要强调:抽样误差的发生和抽样方法的适当与否及样本之大小有紧密的关系,有时过大的样本亦会导致结果的偏差,且会白费时刻与金钞票的成本,因此唯有选择适当的抽样方法、审慎决定抽样样本的大小,并配合研究的方向,方能提高调查结果的正确性,这也是较具实质意义的作法。三、P-值的误用仅以P-值大小来作推论是值得怀疑的1.P-值和样本大小的

18、关系 提到P-值之误用,大部份的研究者或调查者都会认为P-值和抽样样本数目的大小有关。样本数目愈大则会使得P-值变小,虽具有统计分析上的意义,但却不具研究或调查的价值;而抽样样本过小则会导致P-值过大,促使检定力(即所谓统计的power,注3)的不足,进而使得统计假设不易达到其显著水平。 在多数的研究论文中发觉;研究者往往在检定分析时会以P-值0.05作为是否达到统计分析意义之标准。如某一硕士论文以百货公司商店印象与消费者购买决策之相关性研究为题,在其分析结果中提到:以对假设Y:不同百货公司商品消费群与人口统计变量无关做独立性检定,结果在年龄、职业与月平均收入三项之P-值0.05,达到显著水平

19、,故可拒绝上述之虚无假设Y。在此要特不注意的是;在统计分析上对使用P-值时应特不考虑其样本数目是否适中,才能对假设作进一步的推论,如此才有统计上之意义。 以上所云为一般观念上P-值在统计分析上的运用,以下将讨论一些常见的谬误。2.常犯的错误情形 以上述硕士论文为例,本假设是以-独立性检定及Pearson相关系数(或相等之无母数法)来检定不同百货公司商品消费群与人口统计变量无关之假设,它是一种变量以名义尺度表示的相关性测定,故在样本数适中时,这类分析的常犯错误确实是过分引用P-值。需知P-值在此情况下所检定的是母体的相关系数(p)是否为零,亦即是检定不同百货公司商品消费群与人口统计变数有没有相关

20、。当P-值小于显著水平(0.05)时,我们只能推翻虚无假设(),表示两者间有其相关(如上述的年龄、职业与月平均收入等三项),但P-值本身并无讲明相关程度的强弱,且在样本数目不太小时,样本相关系数(r)大于0.2或0.3时都有可能达到统计意义,但大多数的研究者或调查者却都即以P-值0.05已达显著水平而大作文章,关于此点是值得怀疑的。 除此之外,有些人对单尾与双尾P-值之报告会显得没有差异,如上述之以-独立性检定为一右尾之单尾检定,但有些论文中却常以报告中的双尾P-值来做单尾检定的叙述,此乃因为一般统计报表中所显示的多为双尾P-值的因素,而报表研读者对分析报表之经验不足或判读错误又形成了另一个错

21、误。 另一常见的错误是当比较三个或以上不同组不的时候(如MANOVA),研究者或调查者往往只使用一个P-值来报告不同组不的差异情形,尽管ANOVA的P-值特不小(通常0.0001),但因并未进一步实施多重比较(multiple comparison),而却又在结论中提出各组间比较性之关系性叙述(如A组最好,而B组又比C组好),研究者或调查者如此光以ANOVA的P-值来推论多重比较之结果是过于大意的。四、型错误(Type Error )的忽视值太大容易否定两变量既有的关系1.哲学观点与统计学观点 许多统计应用之研究或调查中,研究者或调查者通常着重型错误的机率,而采纳相当严苛的标准,在此情形下,却

22、忽略了型错误的增加,则可能导致统计分析结果的错误。 社会科学与自然科学有一项专门大的差异;自然科学的法则(Law)大差不多上普遍性法则(Universal Laws),它是指每X事件发生后,Y事件就会发生;而社会科学截至今日为止尚未找到符合如此的法则,然在社会科学中所使用的法则仅能被称为统计法则(Statistical Law)(注4)。由此可知统计对社会科学的重要性。 自波普(Poper)提出否证论后,统计学的进展亦受到阻碍。简单来讲,否证论即不论有多少次的成功,只要有一次的失败就足以推翻整套理论。因此,如前所述,在社会科学中并没有普遍性法则存在,任何理论被测试时,或是任何被研究关系被证实时

23、,都会面临机率的问题,为了强调确认程度(the Degree of Confirmation)的提升,因此在欲否定的虚无假设上,即被设定了如此严苛的标准(通常0.05或0.01)。 在此对型错误与型错误之定义不再赘述。在一般的研究中,研究者是在查找一些变量间的关系,因此在统计检定时,会有如下之形式: :A与B无关 :A与B有关 在一般情形中讨论,也确实是在A与B事实上无关的情形下却认为A与B有关。严格的值意味着否定论的讲法不要随意地认定关系。而从另外一方面来考虑,在A与B事实上有关的情形下,而被认为A与B无关,这种错误是比较轻微的。2.常犯的错误情形 依照上述所述,对此必须提出二项批判:第一:

24、从效果面来看,被否定的机会太大,而就此认定研究或调查失败是过于草率的,其缘故可能只是值太大而造成的失败。第二:社会科学研究的范围太大,往往一项关系被否定后再被研究之机率不大,因此,在每次统计检定时,附上值的计算应有其必要性。由此可知,对型错误之重要性忽视而导致值之忽略,是最容易造成的错误。 其次,若是抽样样本不够大,就算达到假设之显著水平,亦无法被证实。以t检定为例: t之计算方式,简单来讲可由两部份组成: t 式中,r表示两个变量间之相关程度,是受两个变量间关系的强弱而定,r/则能够解释成作用力(Effect Size),df则可解释成样本大小对统计值t的贡献度,可称之为研究力(Study

25、Size),将此概念化可转换成下式: 显著性检定作用力研究力 作用力是指变量间关系性之强弱对显著性检定之阻碍,研究力是指样本大小对显著性检定之阻碍。 举一个例子,若在两个变量间关系强度不弱时,假定为0.3,其作用力已达中度之水平(注5)。假如采纳0.05双尾检定,在总样本数只有100个的情况下,则关系被证实出来的机会不到六成,假如0.01时,则机会赶忙下降至不到四成。由此可见,假如研究的样本不够大,就确实是有关系存在的事实,也无法被证实。 Cohen曾提出一套测定及相对严峻性的指标,称之为/比,即在一定的作用力及固定的样本大小下,每设定一个值,就相对产生一个值(注6)。藉此观念,可整理出如表2

26、2的计算值(注7)。表22 作用力与显著水平之关系effectt size() and significance level(.05 and .10) N = r=.10 .05 .10 r=.30 .05 .10 r=.50 .05 .10 1020304050607080901001201401601802003004005006007008009001000 19 9 19 9 18 8 18 8 18 8 18 8 17 8 17 8 17 8 17 7 16 7 16 7 15 6 15 6 14 6 12 5 10 4 8 3 6 2 5 2 4 1 3 2 17 8 15 6 1

27、3 5 10 4 9 3 7 2 6 2 4 1 4 1 3 2 1 13* 5+ 7* 2+ 3 1 2 Note:Entries are to nearest integer;blanks indicate values1.*For r=.70 these ratios would drop to 6 and 1,respectively.+For r=.70 these ratios would drop to 2 and 1,respectively. 由表22可了解到问题的严峻性,当关系强度不是专门高时(r=0.1),假如样本数不是专门大(样本数不超过100),型错误的机率将高出型错

28、误机率专门多,此意味着:专门容易忽略或否认两个变量间既有的关系。五、问卷信度未建立未建立信度或使用不当的判定信度方法,可能以偏概全1.信度评估的概念 可靠度评估(reliability evaluation)在问卷调查时又称为信度评估,在今日各种科学的量化研究中是专门重要的一环,问卷的信度与效度如未建立,则整个投入时刻、人力与金钞票等资源的研究或调查专门可能结果毫无可信之处。 在问卷信度评估的过程中,常用到不同的统计方法加以分析,但是许多研究者或调查者通常不了解信度的内容事实上甚为广泛,可概略分为再测信度(test-retest reliability)、客观性(objectivity)、内部

29、一致性(internal consistency)等多个项目,因此往往在此情况之下其研究或调查结果因为没有建立信度而变得毫无价值。 不同种类的信度、不同种类的数据及不同的实验设计都需要以不同的统计指标作为评估的方式,专门多时候在同一份问卷的审查过程中需要用到多种的指标以判定其可信的程度。 譬如,我们可能需要以内在等级相关(Intra-Class Correlation,简称ICC)系数评定其再测信度;再以Cronbachs 审定其内部一致性;有时候还需要以重复测验变异分析(Repeated Measures ANOVA)来找出是在问卷问题本身、亦或是不同的访员、甚至是不同的研究对象方面发生了不

30、可信的因素。2.常犯的错误情形 在许多研究与调查中发觉:问卷信度未建立的情形不在少数,这使得研究或欲调查问题全然无法得到确实的答案与结果,且未建立信度的问卷所得到的数据往往不仅没有结构可言,其结果更可能过于主观与发生以偏概全的情形。 在此所讲的以偏概全,是指某些研究或调查,仅以一种统计方式来证明整份问卷的可信度。Cronbachs 点可能的方法是在一般研究中最常出现的问卷信度分析法,但许多研究或调查仅以Cronbachs 点可能值超过0.7,就认为问卷可信而实施访问,尽管这些研究者或调查者在Cronbachs 的使用上、计算上或解释上并无错误,但殊不知Cronbachs 这一指针仅显示以一个总

31、分代表类似的问题是否合理,而不能仅以此一指标有信度就认为整份问卷可正式实施访问。 此外,在前面提及的再测信度方面,许多人尽管在通过文献探讨后,能够选择合适的研究方法,如皮尔森相关系数(Pearson Correlation Coefficient)、内在等级相关系数等,然而,在专门多时候他们并没有对这些系数的优劣做更深入的探讨,只由它们高于预设的水平即可(一般常用的临界标准为0.7),在此要提出的是:皮尔森相关系数、内在等级相关系数在问卷不太可信的情况下,其值仍可能偏高而超过0.7的临界点(注8)。比如讲当有系统偏差(systematic bias)时,皮尔森相关系数有时会接近于1;而当问卷中

32、有许多问题属重复性问题时,ICC专门可能高于0.9,且多数使用者在使用ICC时,不明白ICC有好几种,而应在不同的情况下使用不同的ICC(关于ICC之使用在此不多述及)。故以此讲来,研究者与调查者在使用时需格外小心。六、多变量分析中对自变项之选择问题自变项的选择不应先使用单变项方法来决定1.自变项的选择过程 在此以线性复回归来解释在一般使用多变量分析时常见的操作现象,即是因为多变量分析有多个自变项,故大部份人便会在进行多变量分析前,先以单变项方法(如简单线性回归)分析,试图在众多的自变项中先找出具有统计意义之项目纳入复回归分析中。 使用此一方法具有下列两种好处:首先,假如某些变项在单变项或多变

33、量中都具有统计意义或都不具统计意义,则关于结果与解释都可不能造成太大的阻碍。另一方面,某些自变量在简单回归中达到意义,但到了复回归中却意义全失,如此的情形一般也都能找到统计上的缘故,此外,通常假如在分析之前先检查各自变项间的相关矩阵(correlation matrix),也不难发觉其缘故。2.常犯的错误情形 以上所述是多变量分析中自变项之一般选择方法,但我们也发觉许多文献中在应用多变量分析时,其自变项的选择完全仅依照研究者或调查者主观的推断而产生,甚至一般的商业调查中更无文献的探讨而以经验法则来设计问卷,如此大概过于武断而容易主导统计分析的结果,这是一般最常见的谬误情形。 然若依循上述之方法

34、,则最常发生的问题是把单变项分析时,达不到统计意义的变项先行删除掉,研究者或调查者认为专门有可能这些自变项假如被放在复回归中分析的话,专门有可能可不能有意义,但若其一旦有意义而又被先前淘汰掉的话,则数据内的含意便会流失。如此一来,则对统计分析的结果可能造成无法估测的阻碍。七、统计方法正确,但程序编写错误类不性数据在程序编写时须以虚拟变量处理1.问题可能发生的缘故 大部份的人在从事某项研究或调查工作时,都会做充分的资料查证、分析与相关理论、文献的探讨,其中因此免不了会参考其它研究或调查,只要有相同的架构及目的,便采纳数据中所用到的统计方法;既然有例可循,依此分析自然可将统计方法选择错误的机率降至

35、最低。但惋惜的是,一般研究论文或调查资料中对统计分析的过程及其运算过程并无完整且深入的提及,许多研究者或调查者在一知半解的情况下,依样画葫芦的结果却造成了更严峻的错误,而这些错误往往并不是在研究架构或统计方法选择中发生,而是在软件的使用与程序的编写中所犯下的错误。 此外,由于各种统计软件操作使用方法不一,统计报表的研读方法也不尽相同,在使用者对该软件不熟悉且信心缺乏的情况下,在操作过程与研读报表上发生错误的情形也是经常发生的。2.常犯的错误情形 一般发生在统计程序编写错误的情形中,除了人为操作的错误外(如键入字符错误等),较常见的是连续变项与类不变项间的数据转换问题。如某一硕士论文在探讨银行从

36、业人员的工作中意度中的压力与压力来源的问题时,在分析阻碍压力感高低的因素时,因为压力在量化后其值介于0与100分之间,为一种连续性的变项,因此该研究者以逐步线性复回归(stepwise multiple linear regression)分析,若在常态分布、线性关系、相同变异等统计分析前提都符合的情况下,选择此一方法并无不合理之处。但在此要注意的是,在这些自变项中有颇多的类不性数据,有些是两分的(binary,如性不),有些是有排序的(ordered,如教育程度),还有一些是不排序的(unordered,如不同部门),这些自变量在程序编写时均需以虚拟变量(dummy variable)方式处

37、理。然在键入数据的过程中,一般每一个变项都先以1、2、3.,等代号输入,必须先转换成虚拟变量始可放入复回归中,再行检定其统计意义。唯许多人并未做虚拟变量的转换,而直接把输入的类据(即1、2、3.,等)作为自变项的数值,所跑出来的结果自然是错误的。如此的情形,相信应许多见才对。 八、统计方法前后不一致而互相矛盾应用统计方法时须符合前提假设与使用时机1.问题可能发生的缘故 一个研究或者是调查工作,一定有其欲研究、调查之问题与目的,然后依循此问题与目的,通过充分的文献探讨,再进行到研究的设计、数据分析与结论。这是一个个部份环环相扣的过程,而在量化研究中调查问卷的更是需要依照研究的目的、理论的应用等来

38、设计,再以适合的统计分析方法来得到欲知的结果。 但在某些研究或调查中发觉,许多被采纳的研究方法是依照问卷的问题来随意采纳的;比如讲,碰到自变项与依变项皆为连续性的数据时,就应用相关分析、复相关分析等。而当依变项为连续性数据,而自变项为类不性数据时,则立即会考虑变异数分析、t考验等。若依变项与自变项两者皆为类不性数据时,则又会使用考验。但这些使用者往往并不明白各种分析方法之前提假设与使用时机,甚至有些问卷设计毫无理论支持,更遑论使用适当的分析方法了。 归咎缘故,这种统计方法前后矛盾的情形乃是因为研究者或调查者对研究方法或统计分析理论的不熟悉所致,而此种情况,最常出现在一些商业杂志的意向调查中,其

39、结果也常常过于主观而不正确。2.常犯的错误情形 所谓统计方法前后不一致,举例来讲,某商研所之硕士论文研究国中学生对饮料的购买行为,该研究以购买地点为依变项,而该变项之测量以李克五点量表给分(15分),故为一连续性的变项,此外该研究依购买频率将国中生分为高、中、低三种消费群。在此,研究者认为三种消费群的购买地点之变异数差距太大,而购买地点不论在任何消费群都不太依循常态分布,故他以无母数方法之威克森等级和测验(Wilcoxon rank sum test)处理;而当他试着了解购买地点与其它变项(如信息来源等)个不之关系时,都以Pearson相关分析,如此的分析方法看起来是能够同意的。惋惜的是,当他

40、进一步了解在有意义的变项(即上述之信息来源等,在计算Pearson相关分析时之P-值少于0.05者)调整后,各消费群的购买地点是否仍有显示差异时,却使用了复回归分析法。我们明白,在使用复回归时,必须遵循一些统计的前提假设,其中两个假设便是常态分布及相同变异,而这两个假设,尤其是相同变异对统计结果的阻碍甚巨,偏偏在该研究论文内又如前述地使用了威克森等级和测验和Pearson相关分析,直接与间接的否定了这两个假设的可能性。这类型前后互相矛盾的统计方式,也是应当特不注意及幸免发生的。九、统计图表利用不当统计图表应视统计数据的特性来选用1.统计图表之应用 统计图表在统计应用方面亦是特不重要的一部份,因

41、为文图的整合可使阅读数据者能清晰的从图表中明白数据的特性及研究或调查所想要表达的结果,而好的统计图表的运用则更能够吸引读者的视线而增加阅读的兴趣。 更重要的是,在许多趋势分析上,统计图的运用能使读者一目了然,举例而言,在统计图中最简单与常见的要确实是曲线图,它能利用线条的变化性,明白的显示出以往的情况,使读者容易地去预测出以后的进展趋势,如图22所示。图22 公司十年内营运收入统计表 由图22中可知,该企业的营业收入除在1987至1989年间是下降外,整体而言是逐年成长的。另外,在实务的运用上,我们也可由图表中立即来分析分析究竟是何缘故导致该年度区间内使得收入下降,如此一目了然即是统计图表的优

42、点所在。 除此之外,在日常生活中一些常见的统计图表还有如区域图、柱形图、横条图、折线图、茎状图、散布图、饼图等等,然而在运用与解读上应特不注意各种图形的特性,以免造成事倍功半的缺失。2.常犯的错误情形 在运用统计图表时应注意数据本身的特性,要明白并非每一类型的资料都能运用在各类的统计图中,运用不得当,不但无法指导读者了解数据的特性,更反而容易误导读者歪曲数据的正确性。而读者在阅读统计图表时,也应特不注意资料的横轴(X轴)与纵轴(Y轴)的单位,以免误解它所表示的意义。 一般常容易造成读者发生上述错误的确实是:原点不是零的统计图。如图23。图23 市消费者物价指数图 由图23中可清晰的看出,纵轴底

43、端指数从80往上加,并非由零开始,纵使图中的数据并无错误,但往往会让粗心或匆忙的的读者误解,认为该指数是由中途开始攀升的。 其次另一个常见的例子确实是,某些统计图的横坐标或纵坐标所用单位容易让读者混淆,若不认真分析则会产生误解,如图24。图24 地区失业率 由上图可看出,其纵轴为百分比(),而每一单位基数为1累加,光由该图看来会使人觉得地区失业率起伏专门大,但若了解上述讲明,则会发觉事实上是本图使读者产生的误解。 最后要提醒统计图表读者的是,要真正了解统计资料的结果光靠统计图表是不行的,还要熟读统计文献的内容,更甚者,还要弄清晰各项数据所运用的理论及其所代表的意义。尤其在一些生活应用上的财务分

44、析、经济等方面的图表更是如此,例如,你光看着某一项期货日指数曲线节节上升,但要明白有时指数上升未必是利多的的情况,此点相信是更重要的事。 十、其它 最后,提到一些较无法归类的错误。 第一,我们在某些论文中会发觉,在名词的选择上会使人产生误解。举个简单的例子,在专门多研究消费者行为的文献中都会提及知觉(perception)理论与认知(recognition)理论,但往往并没有严格的区不其不同处,使得非此学术领域的读者往往会觉得两者大概是相同的,如此讲来大概对统计分析上的阻碍不大,但有时会发觉连研究者本身都对该名词产生混淆,再作统计推论时则会使结果被误导。而且在一些医学研究中若发生名词选用错误的

45、情形,严峻者,则会产生不可预测的后果。 第二,有些研究或调查所犯的错误,则是在整篇文章中,不论是方法或者是结果部份,都没有提到研究或调查中所使用的统计方法为何?而在结果或讨论中,却有P-值(或其它统计值)的报告,这些P-值等的背后所使用的方法是对是错则全然无法评估,这种情形亦是屡屡见到。注释1.颜月珠(台湾大学财务金融学系教授),商用统计 学,三民书局八版,民国82年8月,P197。2.同注1,P222。 中央极限定理(Central Limit Theorem)的定义: 设一机率函数f(x),其均数为u,变异数为;由其中抽取样本大小为n的样本,得样本均数为,令,则当n时,Z的分配以标准常态分

46、配为其极限。亦即不论母体为何种分配,当样本大小n时,样本均数的抽样分配均以常态分配为其极限,其E()u,V()。3.卢成皆、李瑛慈,医学研究中常见之统计分析谬 误,中国统计学报,第33卷第2期,民国84年6月, P285。4.Shelby D. Hunt, Mondern Marketing Theory:Critical Issues in the philosophy of Marketing Science, Ohio, Cincinnat, U.S.A.:South-western Publishing Co,chap5.5.J. cohen, Statistical power An

47、alysis for Behavioral Sciences, Academic Press, New York, U.S.A.1977.6.同注5。7.同注5。8.同注3。 参、结论与建议非专业的统计方法所得的结果是值得怀疑的一、结论 统计方法在日常生活中或学术领域上能够关心我们从一堆繁杂的数据数据中,藉由一些统计量的计算、可能和检定,来了解母体的特性。但数字本身是死的,重要的是我们如何去解释这些数字,如何给予它们专门的意义,因此,在我们看一个统计数字及不人给它下的推论时,应该不要随便轻易地相信它,因为有时候,数字是专门耸动的,这时就可能会有某些人为了某些目的或因对统计的不了解,而利用统计数

48、字讲谎或误用了统计。我们在阅读统计资料时应做一个聪慧的读者,不要被这些误用统计的情形所蒙骗。 在此提供五项原则来关心我们去省思所得到的统计数字,是不是确实有足够的把握去下那样的结论,及它的正确度有多少。1.原则一:Who Say So? 我们常常可看到,不论在报章或杂志上的文章内容有如此的陈述:依照某某调查显示.或是某某研究报告指出.我们一定要特不注意接下来的结论,确实是所谓正确的统计分析结果吗?就如先前所讲的,统计数字虽能讲话,但它所表达的言语全靠这些研究或调查者来诠释,因往往我们看不到这些分析与推论的过程,而是直接面对他们给我们的结论,那我们如何明白是谁讲的呢?若是有人刻意利用统计数字来歪

49、曲事实,那岂不是让读者误会了无辜的统计数字了。2.原则二:How Does He Know? 你一定看过一些专门明显的大标题,看了让人吓一大跳,例如,在年月日的某报纸刊载了如此的标题:每三对夫妻中,就有一对有婚前性行为。假如我们就如此相信了,那大概这篇报导就有违统计学所应负的社会责任了,因为它并无讲明如何统计分析而得知的结果,而使得读者被欺骗或误导。 因此,在阅读某些乍看是统计的资料时,我们绝对不能依它的结论而下推论,我们应该先想到一个问题:他如何明白的?在一般的研究调查中,这就牵涉到方法与信度的问题,如前章节所述,在此不多做补述。3.原则三:Whats Missing? 在一般的文献中,多数

50、的研究者与调查者在其有限的篇幅中,并可不能详列统计分析的过程与计算步骤,更甚者,在某些文章中亦可不能告诉我们有多少抽样样本、用何种抽样方法、问卷如何设计、研究如何设计、信赖区间为何等等,或许连研究调查的日期都不得而知,但往往这些没有出现的讯息,涵盖了足以让我们分析数据的可信度与其它重要的意义,因此,在我们阅读一份统计资料时,应该察觉它是不是遗漏些什么重要的信息,然后再决定该如何下定论。 作为一个理智的统计资料运用者,应时时警惕资料是否完整,千万不只是随便一翻,如此难保可不能使自己误信了有偏误的统计推论。4.原则四:Did Somebody Change The Subject? 或许,你也曾看

51、过如此的广告词:依照调查,使用品牌的人,其中意度远高于使用其它品牌的人。但这有可能指示广告商的一种营销策略而已。看统计文献的时候,最怕的确实是因不了解统计分析的过程而被误导,要明白,调查的母体不同则推论的结果因此也就不同。许多人会妄将统计的主题改变而使读者有错误的认知。因此,读者必须自己做好把关的工作,因为文章的作者或许不是有意的偏歪事实,但可确信的是,最后将事实偏歪的可能是读者你自己。 举一个例子,在一本家庭社会学中提到:美国1984年的离婚率是47。乍看之下,表示每两对夫妻中,就有一对会离婚,但事实是如何?好险在书中的附注有讲明此一离婚率的计算,是由全年离婚夫妻对数除以该年新婚夫妻对数,再

52、乘以100,但此一算法容易引起读者的恐慌与争议,因为离婚和新婚的人差不多上是没有关连的,因此,另一种较合理的计算方式为:全年的总离婚对数除以该年的总结(已)婚对数,再乘以100,如此大概较合情合理。5.原则五:Does It Make Sense? 这是一个最重要的问题,即是:如此的推论有意义吗?以一个报纸的收视率调查为例;某时刻八点档连续剧收视结果如下,华视36、台视34、中视26,故华视大获全胜。但认真分析之,如此的推论有意义吗?那个地点的数字是否能下如此的推论,其信赖区间并未提及,且抽样是否偏重于某一地区而导致抽样误差,如此光是2的差距,就能分辨出收视情形的优劣大概是太危言耸听了。 由此

53、可知,统计数字本身是无辜的,但看人如何去解释与给予其正确的意义,在阅读统计资料时,千万应警觉该推论是否确实可信。二、建议 最后,针对前述各项统计应用上常见的错误提出几点建议。1.在样本大小与抽样方法方面 一般人常迷信大量的样本,但事实上若大量而有偏差的样本,表面上虽看似不错,但事实上只是一再的重复其偏差而已,反而将导致结论的误差更加严峻。 因此,唯有慎选适当的抽样方法,选取较小规模的随机样本,并尽可能的降低抽样误差、反应误差及无反应误差等,并提高问卷的回收率。故依照所要研究的方向,选取合适的抽样方法才能提高调查结果的正确性,如此也是较具实质意义的。2.在P-值的误用方面 在如前述的P-值和相关

54、系数间的问题,可藉由其它统计方法之计算来增加P-值的引用正确性。 如信赖区间之计算,它除了能够了解样本相关系数的变异情形外,亦能够检查这一区间是否包含可靠度定义之标准,以做出适当的结论。3.在统计检定力方面 型错误被忽视的严峻性是有其讨论的必要的。尽管教科书中常有如下的叙述:型错误比较严峻,故可不理会型错误。但要明白值的计确实是会阻碍整个统计检定力。 欲增加作用力的阻碍可藉由四个方面着手(注1):第一:选用适当的统计值,例如在组间或组内有线性回归关系存在时,选用r比t值好,因为t值无法取得线性回归之趋势。第二:值之设定,在可容许的范围内适度提高值,而使值下降,或是在一般显著水平下,检定结果不具

55、显著性时,应将P值计算出来。第三:样本大小的调整,样本愈大时,值及值能够同时兼顾。第四:作用力大小亦可阻碍检定力,假如作用力愈大,则值愈小,然而作用力是被研究的对象,通常是一个未知数。4.多变量分析中自变项的选择方面 依照一般决定多变量分析中自变项之方法中,发生单变项中不具统计意义,但于多变量分析中有统计意义的缘故,大致可归纳如下:(1)干扰因子(confounding factor)的关系,(2)数据本身的问题。 欲解决此一问题,前者如Y与X1本来是有显著相关的,但却受到干扰因子X2的阻碍,因此当把Y与X1作简单回归分析时,X1不一定有意义,假如把X1与X2都纳入复回归分析的话,再把X2的效

56、果(effect)调整(adjust)后,则X1便会达成统计意义。后者,因为数据本身的问题较常见的为遗漏值(missing value)的删除问题,故减少遗漏值是一条可行的方法。5.程序编写错误方面 欲明白是否发生变量转换上的错误,可使用察看自由度的方法,部份作者会将回归结果以表格方式发表,当以原始数据分析,软件势必将此变项视为连续性数据处理,其自由度等于1,否则自由度自然应是该变项所含之层次(level)数目减1。 除此之外,若没有自由度报告的话,有时亦能够凭参数可能(parameter estimate)推断,因为三个层次(level)之变项会变为两个虚拟变数,而每个虚拟变量均被软件视为一

57、个自变项,因此会有两个参数可能值,连续性自变项则只有一个可能值。 比较困难的是当自变项为两分变项时,不论以虚拟变量或连续性数据方式处理,其自由度均为1,亦只有一个参数估值,现在唯有依经验与察看上下文来推断而已了。6.统计方法前后不一致与统计图表不当利用方面 为幸免此类问题发生,希望使用统计分析之研究者应注意,若对统计方法一知半解,专门容易造成论文内容不同程度的谬误,应该明白光靠参考已发表的论文是不够的,因为论文篇幅有限,详细的数据分析过程往往可不能在论文中介绍,因此应与统计专家合作,请教正确的统计方法、分析过程与结果阐释。 此外,亦建议常用统计图表的作者,在使用图表时亦应提升图表的适合性,幸免

58、图表的误用导致数据特征的偏颇,而使读者蒙受其害。 注释1.Robert Rosenthal and Ralph L. Rosnow, Essentials of Behavioral Research:Methods and Data Analysis, McGRAw-HILL, Inc, New York, U.S.A.,1991,2nd. editor,P452.肆、附录附录一:统计在生活上的应用 一般人对统计的概念大概仍停留在一些主观的刻板印象之中,人们总是误把统计和数学联想在一起;认为统计总是在玩弄一些数字上的游戏,因此认定统计应为某种应用数学,因此统计就应和数学一样没有什么有用的价值

59、可言。这点是必须加以澄清的;实际上,统计确实是以数学中的部份理论为基础,但它仅是以其为运算工具,而配合现实环境中我们所关怀的相关问题,进展出一种透过运用资料搜集、汇总、整理及分析的科学方法,来解决与达成我们的需求。因此,统计和人们确实有着密不可分的关系。 以下,让我们来看看统计究竟在人们日常生活中是如何发挥它的阻碍力。兹将一般常见的应用分述如下:一、民意调查统计: 选举前为了解选民对各政党及候选人的意向所做的调查,或是对某项政府施政与重要公共政策实施前后所做的调查皆属此一范畴。这类调查要紧皆属于对统计抽样理论之实际应用,故抽样母体之代表性往往决定了调查结果的适用范围。二、收视率调查统计: 随着

60、有线电视的快速普及,竞争激烈的电视台间为了解其节目收视率,因此兴起了此一调查,而广告商亦对其相当重视,一方面欲了解广告的收视率,另一方面需了解某一类型的节目收视率,以决定广告推出的时刻是否有较大之效益。而此一调查结果亦往往因抽样母体及资料收集技巧(访员电话访问、计数器等)之好坏而决定调查结果之信度。三、运动统计: 运用于各种球类竞赛中相关资料的搜集,如球员攻守统计、球队战绩胜负等,以做为教练与球迷分析与参考之用。值得一提的是,目前许多职业运动皆成为赌徒一掷千金的工具,此一资料恰可提供他们下注的依据。四、人口统计: 有关出生率、死亡率、妇女生育率、平均生育子女数等与整体人口结构间关系性的探讨都属

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论