statistica全套教程包括数据挖掘_第1页
statistica全套教程包括数据挖掘_第2页
statistica全套教程包括数据挖掘_第3页
statistica全套教程包括数据挖掘_第4页
statistica全套教程包括数据挖掘_第5页
已阅读5页,还剩304页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 basicbasic statisticsstatistics andand tablestables .3 basic statistics and tables-descriptive statistics.3 basic statistics and tables-correlation matrices.5 basic statistics and tables-t-test, independent, by groups.6 basic statistics and tables-t-test for independent samples, by variables.9 bas

2、ic statistics and tables-t-test, dependent samples.10 basic statistics and tables-t-test, single sample.12 basic statistics and tables-frequency tables.14 basic statistics and tables-breakdown and one-way anova.16 basic statistics and tables-crosstabulation tables.17 basic statistics and tables-stub

3、 and banner tables.19 multiplemultiple regressionregression.22 standard multiple regression.22 stepwise multiple regression.23 anovaanova.26 main effects anova.26 factorial anova.29 repeated measures anova.31 nonparametricsnonparametrics.34 (1)observed vs. expected chi-square.34 (2)correlations (spe

4、arman, kendall tau, gamma).35 (3)comparing two independent samples (groups).37 (4)comparing multiple indep. samples (groups).39 (5)comparing two dependent samples (variables).40 (6)comparing multiple dep. samples (variables).42 distributiondistribution fittingfitting.45 advancedadvanced linearlinear

5、 andand nonlinearnonlinear modelsmodels.47 1.general linear models.47 2.generalized linear and nonlinear models.56 3.general regression models.61 4.general partial least squares models.67 5.variance components.71 2 6.survival analysis.73 7.nonlinear estimation.87 8.log-linear analysis of frequency t

6、ables.95 9.time series and forecasting.98 10.structural equation modeling.138 multivariatemultivariate exploratoryexploratory techniquestechniques.142 1.cluster analysis.142 2.factor analysis.151 3.principal components and classification analysis.155 4.canonical correlation.160 5.reliability and ite

7、m analysis.162 5.1、reliability and item analysis.162 6.classification trees.164 7.correspondence analysis.170 8.multidimensional scaling.175 9.discriminant analysis.178 10.general discriminant analysis.183 industrialindustrial statisticsstatistics andand sixsix sigmasigma.191 1.quality control chart

8、s.191 datadata miningmining.195 1.neural networks.195 2.independent component analysis.221 3.generalized cluster analysis.224 4. general classification and regression tree models.230 5.general chaid models.243 6.advanced c and rt, chaid (using interactive trees).261 7.boosted trees.281 8. generalize

9、d additive models.286 9. marsplines.291 10. machine learning.293 11.rapid11.rapid deploymentdeployment .299 12.goodness12.goodness ofof fitfit .301 13.combining13.combining groupsgroups .303 3 basicbasic statisticsstatistics andand tablestables 在许多研究问题中,收集之资料大部份皆杂乱无章,而且当数据笔数过多时无法直接 从观察所有数据去了解数据的情形,因

10、此为了使收集的数据能清楚,知道数据的特质及所 代表的意义,可以透过简单地整理让数据以表格或者图形或者量数的方式出现,则这就是 叙述统计,即对资料本身作简单地说明、分析与解释。 在 statistica 软件中,大致上是由 10 个不同的节点对资料作叙述统计分析。 basicbasic statisticsstatistics andand tables-descriptivetables-descriptive statisticsstatistics 此节点主要是对数据有基本认识,诸如对连续型变量可以做平均数、中位数、标准差 等等,亦可对间断型变量或是连续型变量做次数分配表与直方图。在此一提

11、,statistica 也可对连续型变量做次数分配表或直方图,使用者可依造自己偏好选择分类的方法,前提 是需先把连续型变量分段成数个区段,而 statistica 内建的设定是把连续型变量约分成 10 份区块,使用者也可自己设定。间断变量若是以编码表示,statistica 可以选择要以代 码或是间断符号表示在图表上。另外,statistica 还提供峯度、偏度、众数等;此外,若 还需要更详细的信息,也可用此节点对变量求出常态机率图、做 k-s 检定、做常态性检定 等,对数据有概略性认识。 【范例说明】从 statistica 内建的例子选取”employees.sta” ,总共有 11 个变

12、量,其中 3 个为间断型变量,分别是 gender、depart、educ,其余皆为连续型变量。主要是对此笔 数据有一个概略性的了解,因此我们对此数据做次数分配表与直方图。在此我们也会对连 续型变量做直方图,由 statistica 内建的指令来区分变量。 【范例结果】 a. 对连续型变量做叙述性统计分析,其中包括次数、平均数、中位数、众数、标准差等 等。 4 b. 接下来对连续型变量”age”做分隔,约略分成 9 部分,以次数分配表形式表现出来, 并以此为依据做一直方图。 不管是从次数分配表,或是直方图都可以看出最多人的年龄层是 25-30 岁,人数以此往两 端下降,可以由图上明显发现此变量

13、服从常态性假设。 c. 最后我们对间断型变量”depart”做次数分配表,搭配直方图表示。 5 从次数分配表或是从图上可以发现 bake 与 package 在此笔数据中所占的比例相当,而 ship 的人数略少。 basicbasic statisticsstatistics andand tables-correlationtables-correlation matricesmatrices 在分析数据前,分析者急欲探索变量间的相关性,藉由变量间的关系可以推论出许多 意想不到的论述。很多统计分析的目的就是想了解变量间的关系,因此使用者可以藉由此 节点约略了解变量间的相关性,statisti

14、ca 主要是用矩阵的形式所表现出来,也可搭配散 布图或是对变量做回归估计式。此节点只有在变量均为连续型的情况下才可使用,若想知 道间断型变量间的关系,就须另谋他法。 【范例说明】依旧采用”employees.sta”的例子来说明,此时我们欲知道连续型变量之间 的关系,因此使用 correlation matrices 这个节点。 6 【范例结果】 statistica 会把有显着相关的变量以红字显示出来,因此我们从表中可以发现 age 与 senior、salary 有正相关,与 ini_prof 有负相关,其中 senior 与 salary 的相关程度 高达 95%。在相关矩阵中,其左上右

15、下的对角数值必为 1,因为这是代表自己与自己的相关 程度。 basicbasic statisticsstatistics andand tables-t-test,tables-t-test, independent,independent, byby groupsgroups 此节点是比较在同笔数据中,利用数据中的间断型变量把数据区分为两部分,对这两 部分做一致性检定,比较此两部分是否有差异。此外,在 statistica 还可对数据提供变异 数一致性检定、盒须图与常态机率图等。 【范例说明】在”employees.sta”的例子中,若欲比较男女之间的薪资是否有差异。首先 利用 gende

16、r 把男与女的数据区分开,再使用 t-test, independent, by groups 对此两群 体做分析。 7 【范例结果】 a. statistica 会自动的依照 gender 把数据区分成男与女,group1 是代表女性,group2 是代表男性。接着对此两群体各个连续型变量做比较。 statistica 会把有显着差异的变量用红字表示,从表中可以发现男与女的差异只有发生在 height 这部分(其 p 值小于 0.05),对于其它变量则无显着性差异。 b. 为了清楚显示出 height 所造成的差异,因此画出 height 的盒须图,可以更清楚的显 示出此两群体的相异性。(此

17、只列出有差异性的变量图表) 8 从盒须图发现男性与女性的身高差距非常明显,由图中可以知道男性身高高于女性身 高,女性身高大致上分部于 60 英吋到 69 英吋,大多数人集中在 63 到 65 英吋。而男性身 高分布于 63-73 英吋,大部分人集中在 67-69 英吋。 c. 做此检定之前,必须确定数据服从常态分配。 使用此方法之前,必须确定数据服从常态分配。从上图来看,不管是男性或是女性, 其身高皆服从常态假设,表示使用此分析方法所得出的结果是可信的。 9 basic statistics and tables-t-test for independent samples, by varia

18、bles 此节点与上述节点差异最大的地方在于此节点是比较两变量间的差异。把不同变量视 为不同群体,并且比较两变量间数据的相异性,前提为此变量需为连续型变量。此法提供 变异数一致型检定,statistica 内设是 levene 的变异数一致性的检定方法,另外还有盒 须图与常态机率图提供给使用者参考。 【范例说明】由”employees.sta”的例子中,我们可以发现 ini_prof 与 cur_prof 同构型 较高,因此我们比较此两变量下的数据是否有差异。使用此节点分析在此两个变量之下, 数据是否有差异。 【范例结果】 从表中可以发现在平均数这部分的 p 值小于 0.05,表示在 ini_

19、prof 与 cur_prof 的资 料有显着差异。在标准差的比较上,可以发现并没有太大的不同,之后再用 levene 做一次 标准差的比较,也是得到相同的结果。我们可以解释说在 ini_prof 与 cur_prof 确实会造 成平均数的差异,但就两者的分散情况而言,并没有太大差别。 10 从图形上来看,也可以明显看出平均数的差异确实很大,但是从数据分布的程度来看, 却差异不大。 basic statistics and tables-t-test, dependent samples 许多统计数据中,数据间彼此是有相依性的,举个例子来说,在实验室做实验时,固 定某种状态下,分别对两种物质(

20、a,b)的反应做纪录,这时可以称此数据为两相依母体,因 为在情况 1 之下,所抽取的 a 物质,必须与情况 1 之下的 b 物质做比较。若对分属不同情 况下的物质来做比较,则失去此实验的意义。因此,此节点主要是透过成对抽样的方法比 较两相依母体是否有差异。 【范例说明】选取 statistica 内建的例子”characteristics” ,此例子主要说明不同个体 对于比赛项目的得分是否会造成差异。我们欲比较每个人对 wellness1 与 wellness2 所得 分数是否有差异。 11 【范例结果】 a. 分别比较 wellness1 与 wellness2 的平均数与变异数是否有所差异

21、。 由上表可知,每个个体对于 wellness1 与 wellness2 的得分有显着差距,表示每个个 体在于 wellness1 与 wellness2 的得分上并无前后的相关性。 b. 对这两个变数画盒须图。 12 由盒须图可以发现 wellness1 与 wellness2 在平均数有些微差距,而 wellness1 的散 布程度又比 wellness2 大。 basic statistics and tables-t-test, single sample 前面叙述的方法都是在比较两个不同的群提间的差异,在此提供一个对单一母体做检 定的方法,此节点主要是对一个群体做推论的检定方法,可以

22、比较所搜集到的数据与本身 主观意识的认知上是否有差异。statistica 在此还提供盒须图、直方图或是常态机率图等, 有助使用者对数据有概念性了解。 【范例说明】采用 statistica 内建的”income.sta”的例子,此数据有 3 个变量,其中 county 为间断型变量,asset 与 income 为连续型变量。在此节点中,我们想要把 asset 与 income 分别拿来与常数 3 比较。 13 【范例结果】 a. 若实验者依照自己的主观概念猜测 asset 与 income 约等于 3 左右,把此数值与所搜集 到资料做比较。 由上表可以发现 asset 与我们所猜测的常数

23、3 相差不远,但是对于 income 来说,此数 值就稍小了点。由此可推论,asset 大约在 3 左右,但是 income 普遍来说高于 3。 b. 对两变量做常态性检定。(在此只附上对 asset 的常态性检定) 14 由图可知,asset 大致上来说服从常态性假设。但为了保险起见,我们还是对 asset 做常 态机率图(下图)证。 c. 验证是否符合常态分配。 basic statistics and tables-frequency tables 图表比起文字更能加深阅读者的印象,因此统计上常常使用图表来辅助使用者对数据 的了解。此节主要是用来对变量做次数分配表与直方图,做法与之前雷同

24、,若是间断型变 量则可以选择是否使用编码代替类别符号,若是连续型变量则须加以分段,再用次数分配 表与直方图表示。而 statistica 对于间断型变量内建的设定是以类别符号来替代编码,使 用者可依照自己需要加以调整。 【范例说明】在此使用 statistica 中内建的”fastfood.sta”来当此节点的例子。此笔数 据中接式间断型变量,我们欲利用次数分配表来对这些间断型变量做一个概括性了解。其 中我们针对消费者购买 food1 时,会搭配何种食物。 15 【范例结果】 从表中可以发现消费者在购买 food1 时,约有 34%的消费者会搭配 pizza,其次有 23.5%的消费者会搭配

25、hamburger。接下来我们利用直方图表示出购买 food1 时,会搭配食 物种类的人数。 16 从此图可以更容易发现购买 food1 的消费者大部分会搭配 pizza 与 hamburger,至于搭 配其它食物的人数则不相上下,没有明显差异。 basic statistics and tables-breakdown and one-way anova 主要是利用间断型变量把数据分类分群,对各群做简单的叙述性统计,诸如平均数、 标准差、相关性、百分比等,在此不限制间断型变量只有两类,此节点可以应用到有间断 型变量有多个类别,并且算出各类别的变异数分析。若读者有需要,statistica 可

26、以提供 盒须图、常态机率图,另一个特殊的地方就是可以针对各类别的平均数与标准差做效用图, 以此获得更进一步的信息。 【范例说明】在此依旧采用”employees.sta”的例子,不过此时以 gender 与 educ 为分类 变数,欲探讨其对 salary、senior、ini_prof、cur_prof 的影响。 【范例结果】 a. 先对区分后的资料做叙述性统计分析。 statistica 会先对选取的变量做叙述性统计分析,表格前两列可知 gender 有两个类 别,educ 有三个类别,所以会把数据区分成六部分。上列表格只贴出 gender 对 educ 做 salary 部分的叙述性统计

27、,因为篇幅关系无法贴出对 senior、ini_prof、cur_prof 的叙 述性统计。 b. 再对区分后数据做变异数分析。 17 statistica 对有显着影响的因素会以红字表示。由上表可知,ini_prof 与 cur_prof 对数 据会造成显着差异,因为其 p 值小于 0.05。 c. 利用 levene 的方法做变异数一致性分析。 另外,我们欲了解把资料分成六部分后,彼此间的变异数变化程度是否有差异,因此 会对数据做 levene 的变异数一致性分析。由上表可知,在这四个变数之下,其变异数有一 致性。另外还可对 gender 与 educ 做交互作用图,交互作用图是把文字或数

28、字转换成图表, 用来帮助使用者了解变量间的关联性。 basic statistics and tables-crosstabulation tables 此节点主要是帮助使用者了解间断型型态的数据,比较间断型变量之下每类的情况; 除此之外,也可以交叉比较每个间断型变量的数据。与上述相同,在此不限制间断型变量 只有两类,因此可以进行多为列联分析,并且提供间断型变量间交叉的直方图与交互作用 图,帮助使用者可以由图表快速获得相关讯息。 【范例说明】在此采用的例子为”fastfood.sta” ,为了比较此两个节点的差异,在此比较 gender、car_1、food_1 相互间造成的影响。 18 【范

29、例结果】 a. 对 gender、car_1、food_1 做三维的列联表。 此节点可以同时比较多个变量间的关系,并且用次数分配表表现出来。由上表可知,我们 可以同是比较性别、驾驶车种、购买食物之间的关联性。男性最常驾驶 for_sprt 购买 food_1 时搭配 pizza,至于女性则无此种特征。 b. 对此三个变量以交互作用图表示其关系。 19 其实还可以对此个变量做直方图或是 3d 立体图形,并且可以把次数转换成百分比等, 还可做其它检定,这些全由使用者依照自己需求加以调整。 basic statistics and tables-stub and banner tables 此节点应

30、用的方式与上述节点类似,但是此节点主要是应用在二维列联表,先固定某 间断型变量在行,另一变量则固定在列,交叉比对此两间断型变量的关系,分别可以算出 观察次数、期望次数、百分比等。statistica在此依旧提供最基本的图表,有直方图与交 互作用图表,提供使用者快速浏览数据。 【范例说明】在此采用的例子为”fastfood.sta” ,为了比较此两个节点的差异,因此我们 对两个例子皆是比较 car_1 与 food_1 的交叉关系。 20 【范例结果】 a. 对 car_1 与 food_1 做次数分配表。 由上表可知,此节点主要是二维列联表,大部分的人皆是驾驶着 for_sprt 购买 piz

31、za 的人,与上一个节点有类似的结论。其中差异较大的地方是,上述节点明确的叙述出男性 人数多于女性人数,若单只看此表,所做的结论可能会略有偏差,有可能是因为性别的关 系所以导致此结论产生。常理来说,男女性别比率应该是 1:1,但是此数据男女性别比例 却与正常情况来说有极大差异,因此单看此表可能会造成严重的误导。 b. 利用交互作用图表示 car_1 与 food_1 的关系。 21 从上图所得的结论与上述相差不远,不管驾驶何种车款,此八条线皆有一致的走向, 表示大部分的人皆是购买 pizza 最多。 22 multiplemultiple regressionregression standa

32、rd multiple regression 回归分析的主要用处是寻找两个或两个以上的变量之间的相互变化的关系。通常影响 因变量y的自变量x并不只一个,而有k个,上述应变数(y)与自变量(x)也可用数学模型表示: nixxxy iikkiii , 2 , 1 22110 其中为截距,为回归系数。 0 i 【范例说明范例说明】 23 【范例结果范例结果】: 可看出 r2 2=0.4243 上表为各独立变量的回归系数估计与 t 检定,此报表不但显示数据为标准化的回归系数(b), 且可看出 beta 系数显示每一个独立变量对应变量作预测时相对的贡献,例如上面的报表 可看出变量 pressure ve

33、ssel-ton-weeks*10-3 -3对预测为重要的变量,且在统计上是显着 的,而 pressure vessel-ton-weeks*10-3 -3的回归系数代表变量愈高,则应变量也愈高。 24 偏相关(partial )代表独立变量 xi 对应变量 y 的独特贡献(以除去了其它变量后对 y 的 解释能力);半偏相关(semipart cor.)的平方是该变量解释应变量总变异的比例。 注注: : if 半偏相关很小但偏相关相对很大,则表示此独立变量对应变量仍有很高 的 独特影响力(也就是其它独立变量所未能解释而被此变量所解释的仍大)。 stepwise multiple regress

34、ion 逐步回归法多半用于选择变项(variable-selection) ,从许多的预测变项中, 选出少数几个具有预测力的变项。于多元回归分析中,有 forwardforward stepwisestepwise 和 backwardbackward stepwisestepwise 两种方法。 其中 forwardforward stepwisestepwise 的特性是一次只能允许一个预测变项进入回归公式,第一个被 选入回归公式者,是预测变项与反应变项(y)间相关最高的(如 x1) ,第二个进入回归公 式者乃是其余预测变项,各剔除了第一个预测变项(x1)的影响力之后,与反应变项的部 分相

35、关(part correlation)最高者,此种方式使得每次 r 的增加量为最大,如此循环, 直到 r 的增加量不再达统计上的显着水平为止,则预测变项不再进入回归公式,当预变项 进入公式后则留在该公式中,此即为顺向解法的回归分析。而 backwardbackward stepwisestepwise 是先把 全部的预测变项都丢入公式中,再来一一剔除。 【范例说明范例说明】 在 north carolina,我们将观察空中的 biomass(bio)和五种基底的矿物之间的关联。 25 【范例结果范例结果】 可知放入了两个变量于模型中,r2 2=0.6584。 26 可看出,于 step1 时放

36、入了 ph 变数,又于 step2 时放入了 na 变数,即停止。 可于此表看到 ph 和 na 的回归系数估计与 t 检定,皆为显着的。 也可于此表中看到没有放入模型的三个变量的回归系数估计与 t 检定,皆为不显着的。 anovaanova 变异数分析(analysis of variation , anova):检定母体平均数是否相等的方法, 或检定因子(factor)对依变量是否有影响。 所有的母体皆服从 常态分配 变异数皆相等 常态分配间皆互相独立 27 main effects anova 实验设计皆为每个实验单位仅安排一种处理进行实验(如crd),只是根据实际的限制 上如加上区集(

37、如rbd、lsd)。 完全随机化设计法(completely randomized design, crd) : 自母体分配抽出 n 个随机样本,假设该因子有 k 个水平,则每个样本接受每 一个水平的机率必须相同。 随机化区集设计法(randomized block design ,rbd) : 当无法达到 crd 的要求时,先做成区集,然后再从区集内随机抽样并随机分派。 拉丁方格设计法(latin square design, lsd): 属于两个方向的区集设计,其设计方法如下(以 3x3 拉丁方格为例) 【范例说明范例说明】 有家工厂为了节省物品需要装配的时间,采取了四种方法(a、b、c、

38、d)来实验,一开 始先随机挑选了四名装配员以及四件需要装配的对象。在这里,我们将采取拉丁方格设计 法(latin square design, lsd)。 行 列 123 1abc 2bca 3cab 28 【范例结果范例结果】 从 anova 表中,可看出 method 对于 source of variability 是有显着影响的。 29 从 normal prob. plot 图中,可看出分配是符合常态的,和假设的一样。 从以上三张表,可发现符合了”变异数一致”的假设。 30 factorial anova 当研究者所使用的自变项是类别变项,依变项是连续变项时,所使用的统计分析技术 称

39、为多因子变异数分析(factorial anova)。使用于实验因子有数个时,则必须利用一次实 验而同时完成数个因子本身之差异检定,并检定出因子间相互影响(交互作用)。另外,若 k 个因子皆只有两个水平(level),则称为 2k k factorial design。 【范例说明范例说明】 在这里,我们将探讨的是如何才能得到最高的纸张延展长度。也就是将如何选择硬木 的集中度(2%、4%、8%)、烧烤的时间(3.0hr、4.0hr)和压力(400、500、650),才能做出最 好的纸张。 31 【范例结果范例结果】 所有的 main effects(time,pressure,concentr

40、ation)以及 pressure*concentration 的交互作用项都是显着的。 从此图可以看出,若想得到较高的长度,则应选择 hardwood concentration 在 2 的水 平、pressure 在 650 的水平以及 time 在 4 hr 的水平。 从 normal prob. plot 图中,可看出分配是符合常态的,和假设的一样。 32 repeated measures anova 若依变量有两个或两个以上时,便要使用 repeated measures anova。例如:学生在 time 1 的考试成绩和在 time 2 的考试成积。 【范例说明范例说明】 甲、

41、乙、丙三种英文教学法(b=1 表甲教学法,b=2 表乙教学法,b=3 表丙教学法)与性 别(a=1 表女生,a=2 表男生),每种教学法各有男女生 10 位学生参加,期末成绩(包括 字汇 x1、听力 x2、文法 x3)。 从 statistica 下拉菜单中选择 anova 选项,便出现以下对话框: 33 【范例结果范例结果】 从上图可见,a、b 的交互作用是显着的,因此不再讨论 a、b 的主效用。 其中,我们也发现了期末成绩和教学法以及性别的交互作用是显着的。 我们可以从下图更清楚的看到: a1:女生 a2:男生;b1:甲教学法 b2:乙教学法 b3:丙教学法 x1:字汇 x2:听力 x3:

42、文法 在此图中,我们可以发现一些现象: (1) 在字汇方面,女生以甲教学法表现较差,而男生则以甲教学法较佳。 (2) 在听力方面,男生以乙教学法表现出的成绩较女生稍好。 (3) 在文法方面,男女生不论用何种教学法,成绩不会有太大的差异。 34 nonparametricsnonparametrics 一般常见的统计方法仅适用于母体分配的种类已知时,而只有部分参数未知,这些统 计推论方法就在研讨如何估计这些未知参数,或者这些参数得性质与范围,所以只有在一 定的条件下,这些统计检定才是有效的。然而在实际生活中,并不是很容易或可以清楚母 体的分布为何,或者数据根本不是来自于一个母体,这样在假定母体分

43、布的情况下进行推 断的作法就有可能产生错误的结论,又是甚至造成灾难性的后果。于是人们希望在母体分 布不清楚的情况下,尽量从数据本身获得所需要的信息,这就是无母数统计的宗旨。所以 不以母体中任何参数为估计或检定对象的统计方法称之为无母数统计。无母数检定的假设 条件比较少,并不要求母体服从什么具体的分布,有时甚至不需要什么假定,更适合一般 的情况。无母数检定带有最弱的假设,对模型的限制很少,因而天然地具有稳健性,这也 是它广泛被使用的一个理由。 (1 1)observedobserved vs.vs. expectedexpected chi-squarechi-square 在有母数统计中所讨论

44、的检定方法都是在检定母体的参数之假设,且对母体都会有些 基本假设,但母体假设是否正确却不得而知,所以适合度检定方法是将样本各观察值出现 次数与假设分配之理论次数做比较,看观测次数与理论次数是否一致的检定方法。 此外,此方法只针对单样本且连续型的数据检定,即只抽取一组样本作检定,以期回 答下列问题:观察次数和某种原则下的期望次数是否有显着差异;观察的比例与所期望的 比例是否有差异;样本取自某种类型的总体的假设是否合理等。而此方法为是把样本分成 k个互斥的类,然后根据要检定的理论分布算出每一类的理论次数f,与实际的观察次数f e 进行比较,计算 0 2 e k i e f ff 1 2 0 )(

45、的值,显然f与f之间的差别应该比较小,即的值比较小,因此时拒绝原假 0e 2 2 2 设,不能认为服从这种分布。 此外为使检定之效率高,要求理论次数f,若有小于 5 时须将数据合并,且若分 e 5 组过多会造成检定失效,但分组过少会造成无法检定,这些都是在进行检定时需注意的。 35 【范例说明】 本例采用的数据为 poverty,该数据是美国 1960 年和 1970 年对随机选择的 30 个城市 人口调查结果的比较。在本例中共有七个变量,有可能与贫困相关的六个变量以及一个县 在贫困线以下的家庭比例,此即为第三个变数 pt_poor,也是本范例所采用的变量。此例 子想知道到底一个县在贫困线以下

46、的家庭比例是否服从常态分配。 先透过其它方法算出当数据服从常态分配时的理论次数,再与第三个变数的实际次数 作检定,则操作面板如下所示: 【范例结果】 由上表可以看出,值为 13.53654,p 值为小于 0.633197 比 0.05 大,所以不拒绝虚 2 无假设,即在 95%的信心水平下相信一个县在贫困线以下的家庭比例是服从常态分配。 (2 2)correlationscorrelations (spearman,(spearman, kendallkendall tau,tau, gamma)gamma) 此节点是利用无母数的方法去计算变量间的相关系数。当数据为顺序尺度时,无法计 36 算

47、 pearson 积差相关系数,则利用无母数的方计算两随机变量的样本直线相关程度。而此 节点提供了三种方法,分别为:spearman rank 相关系数、gamma. statistic 及 kendall tau statistic。其中 spearman rank 相关系数的计算方法为将样本观测值分别按其大 i x 小给予等级排序,以表之顺序值,相同地将样本观察值按其大小给予等级排( ) i r x i x i y 序,以表示,则计算() i r y 22 22 ( ) ()( ) ( ) ( )( )()( ) ii ii r x r ynr x r y r xnr xr ynr y 的

48、值,此外需注意若计算结果相关系数为 0 不代表两者无关,仅代表两变量间无直线关系。 【范例说明】 本例采用的数据为 adstudy,该数据是研究广告是否有效。在本数据中共有二五个变数, 一个为性别,一个为两个广告百事与可口可乐,其它 23 个变量为针对这广告问一些问题的 评分,而本范例所采用的变量为测量一的评分结果与测量二的评分结果。此例子想知道到 底这两个变量间是否具有直线关系。 【范例结果】 37 由上表可知测量一的评分结果与测量二的评分两者的相关系数为 0.050911,这代表两 变量间几乎无线性关系。从图中也可以发现这个现象。 (3 3)comparingcomparing twotw

49、o independentindependent samplessamples (groups)(groups) 此节点为比较两群独立的母体间是否有差异,也就是检定两群母体间的分配是否相同, 而这此节点提供了三种检定方法可以使用,分别为 wald-wolfowitz runs test、mann- whitney u test 及 kolmogorov-smirnov two-sample test,而这三种无母数的方法相当于 有母数方法中的 two-sample t test ,此外此节点也可以画箱型图及长条图。 要进行分析前得先注意数据是否符合下面几项性质,符合了才能进行分析: a:两组数

50、据为随机变量 b:两母体皆为连续型资料 c:假设两母体形状和变异数相同 d:数据至少是顺序尺度 38 另外特别注意一点,要进行分析时得有一个分两类的类别型变量,和一个有兴趣的连 续型变量。因为透过类别型变量将目标变量区分成两群,而所得的两群即为想比较的两群。 【范例说明】 本例采用的数据为 adstudy,该数据是研究广告是否有效。在此数据中共有二十五个 变数,一个为性别,一个为两个广告百事与可口可乐,其它 23 个变量为针对这广告问一些 问题的评分,而本范例所采用的变量为测量一的评分(第三个变量 measure01)对于两种 广告是否有差异。 【范例结果】 39 在这个例子中三种方法的检定结

51、果 p-value 值皆大过 0.05,所以在显着水平为 0.05 时,相信这两种广告所得的测量一的评分没有显着地差异。而根据箱型图也可以发现两群 数据的分布是很相近的。 (4 4)comparingcomparing multiplemultiple indep.indep. samplessamples (groups)(groups) 此节点为比较数群独立的母体间是否有差异,这此节点提供了两种检定方法可以使用, 分别为 kruskal-wallis anova 和 median test,此外此节点也可以做多重比较、画箱型图 及长条图。 kruskal-wallis anova 相对应的

52、是有母数方法的一因子变异数分析,目的在检定数个 母体的中位数是否相同,也就是检定数群母体间的分配是否相同,且 要进行分析前得先注意数据是否符合下面几项性质,符合了才能进行分析: a:两组数据为随机变量 b:两母体皆为连续型资料 c:假设两母体形状和变异数相同 d:数据至少是顺序尺度 而 median test 方法类似齐一性检定,其目的也是检定数个母体的中位数是否相同, 但用在母体形状和变异数不相等时。 另外特别注意一点,要进行分析时得有一个分数类的类别型变量,和一个有兴趣的连 续型变量。因为透过类别型变量将目标变量区分成数群,而所得的数群即为想比较的数群。 【范例说明】 本例采用的数据为 c

53、haracteristics,该数据是研究人的各项特征。在此数据中共有 十二个变量,而本范例是想知道不同眼睛颜色的人身高是否有显着地差异,因此利用眼睛 40 的颜色这变量将身高分成三群,去比较三群的身高。 【范例结果】 41 在这个例子中检定结果 p-value 值为 0.6672,所以在显着水平为 0.05 时,相信三种 不同颜色的人在身高上没有显着地差异。而根据箱型图也可以发现三群数据的分布是很相 近的。 (5 5)comparingcomparing twotwo dependentdependent samplessamples (variables)(variables) 此节点是用

54、来处理成对样本的问题,且该节点提供了两种检定方法,分别为 sign test 及 wilcoxon matched pairs test,也可以画箱型图。 无母数中的 sign test 相对应于有母数中的 paired t test,目的在于比较抽取的两 组相关样本所来自母体的中位数是否一致,或者母体分配是否相同。而要进行此检定数据 需为连续型变量。 而 wilcoxon matched pairs test 也相对应于有母数中的 paired t test,使用目的 也是在比较抽取的两组相关样本所来自母体的中位数是否一致,或者母体分配是否相同。 不过使用 wilcoxon matched

55、pairs test 需要较 sign test 要求更严谨,数据须符合下列 几点: 首先先定义一下,数据为成对的数据有与,则 i x i y iii dxy a、的分配需为成对称的形状 i d b、各间是独立的 i d c、各有相同的平均数,亦及即有相同的中位数 i d d、的资料至少是等距尺度的 i d 由于使用 wilcoxon matched pairs test 的基本假设较 sign test 多,因此当所有基 42 本假设皆符合时,wilcoxon matched pairs test 会较 sign test 来得有检定力。 【范例说明】 此范例采用数据为 synchron,此

56、数据是研究婴儿是否和一般 10 到 16 岁的儿童一样, 听人演讲时若该演讲者距离很近可以看见演讲者的表情和可以读演讲者的唇时会较看不清 演讲者时来得专心。而此实验则针对相同的婴儿做两个实验看专心的程度,而两个实验分 别为同部连结和非同部连结,测试婴儿注意屏幕的时间。所以本范例即采用这同部连结和 非同部连结所专注的时间为变量,相比较两者是否有差异。 【范例结果】 43 从报表可以知道不管是 wilcoxon matched pairs test 还是 sign test,两者的检讨 检定结果 p-value 值皆比 0.05 小,所以在 95%的信心水平下相信婴儿对于两种演讲方式的 专注程度是

57、有差异的。根据箱型图也可以发现两者的中位数亦显着地有差。 (6 6)comparingcomparing multiplemultiple dep.dep. samplessamples (variables)(variables) 此节点也是用来处理成对样本的问题,不过处理对象是有数组相关样本,当处理对象 只有两组时则用前面的那一个节点去处理。而该节点提供了两种方法,分别为 friedman anova 及 kendalls concordance,也可以画箱型图。 friedman anova 是用来检定 k 组相关样本所来自母体是否具有相同的中位数或相同的 分配,其相当于有母数方法中的二

58、因子未重复试验之变异数分析,因为 k 组可视为 k 个处 理,而 n 个样本数则视为 n 个集区。而要进行此分析只要求数据至少是顺序尺度。 kendalls concordance 则是类似 spearman rank 相关系数,不过前者是计算多组数 据的相关系数,后者只计算两组资料的相关系数。而要使用此方法只要求数据至少是顺序 尺度。 【范例说明】 本范例采用数据为 mothers,此数据是有 20 位妈妈去参加一个研习营,一个教导训练 妈妈如何照顾小孩的活动,而在活动结束后由 13 位专业人员给各位妈妈妈评分,因此该数 据有 20 个变量,即 20 位妈妈的成绩,而在此想比较 20 位妈妈

59、的成绩间是否有差距,且评 分为来自相同的 13 位评分员,所以为比较多组相关性样本间是否有差异。 44 【范例结果】 从上面报表可知检定结果 p-value 值比 0.05 小,所以在 95%的信心水平下相信不同妈 妈间所获得的分数是有差异的,从图中亦可发现 20 位妈妈的分数差异很大,则这代表这些 45 妈吗对于照顾小孩这方面的能力是有差异的。 distributiondistribution fittingfitting 在 distribution fitting 这数据夹中只有一个节点,就是 distribution fitting 本 身。在这个节点可以针对有兴趣的变量去配适任何分配

60、,可以知道要形成该分配各区间的 合理观察值个数,也可以利用这个节点去检定该变量是否真为研究者有兴趣的分配。 在这个节点内可产生许多的分配,连续型的有下列几项:rectangular distribution、normal distribution 及 chi-square distribution 等,间断型则有: binomial distribution、geometric distribution 及 poisson distribution 等,所以要 配适任何的分配几乎都可行。 46 【范例说明】 此范例是用数据 irisdat,此数据是研究三种 iris 花的花办长与宽,还有萼片的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论