版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第八章相关分析变量之间的相关程度用相数度量,最常用的相数是 Pearson 矩相数。它广泛地用于回归与相关分析,但这个相数有它的局限性。下面列举它的两个局限性。矩相数可用来检验变量之间是否,并有检验的临界值表供使用。事实上,这个检验属于参数数据分析,它的临界值表是在变量服从正态分布的假设下制作的。如果正态分布的假设有疑问,其检验结果显然不,甚至可能是错的。所以有必要引入非参数型的度量变量之间相关程度的统计量,以及检验变量之间是否相互的非参数。 关于相关性一般来说有下面两个定义。第一个定义给出的是线性相关性。若常数a 和正常数b ,使得Y = a + bX + e ,其中e 是随机误差(通常假设
2、e N(0, s2 ) ,或E(e) = 0 ,D(e) = s2 ),则称变量X 与Y 线性正相关。若b 是负常数,则称变量X 与Y 线性负相关。第二个定义给出的是通常意义下的相关性。当X 增加时Y 有增大的趋势,则称变量X 与Y 正相关。当X 增加时Y 有减少的趋势,则称变量X 与Y 负相关。显然,若变量X 与Y 线性正相关,则当X 增加时Y 有增大的趋势。而若X 与Y 线性负相关,则当X 增加时Y 有减少的趋势。所以线性相关性隐含着相关性。反之不一定成立。矩相数用来度量变量之间的线性相关性。当变量X 与Y 的矩相数的绝对值比较小的时候,只是说X 与Y 之间没有线性相关,并不能说当X 增加
3、时Y 没有增大或减少的趋势。在X 与Y 的矩相数接近 0 的时候,有可能这样一个严格单调上升或下降的函数g(×) ,使得g(X)与Y 的矩相数接近 1 或接近- 1 。这就是说g(X)与Y 之间有。所以有可能这样一种情况, X 与Y 之间没有线性相关,但g(X)与线性相关Y 之间有线性相关。这说明在X 与Y 的矩相数接近 0 的时候,当X 增加时Y 仍可能有增大或减少的趋势。由此可见,变量X 与Y 的矩相数只能用来度量它们之间的线性相关性,不能用来度量它们之间的相关性。很自然地,人们希望有这样一个统计量,可以用来度量变量之间的相关性,并且用它度量X 与Y 的相关程度得到的度量值等于用
4、它度量g(X)与Y 的相关程度得到的度量值,其中g(×) 为任意一个严格单调上升的函数。数和§8.2的Kendall t 相本章§8.1的Spearman 秩相数都是非参数型的,都可以用来度量变量之间的相关性,并且X 与Y 之间这两个相数值分别等于135g(X)与Y 之间这两个相数值,其中g(×) 为任意一个严格单调上升的函数。本章§8.3 介绍 Kendall 协和系数,它是 Spearman 秩相数的推广。§8.1 Spearman 秩相数最为著名的秩是 1945 年 F.Wilcoxon 提出的秩和检验,而 1904 年 C.S
5、pearman 提出的秩相数是秩的开始。§8.1.1 秩相数的计算过程设有成对数据æx1 ö æx 2 öæxn öçy÷, ç÷, L,çyy÷(8.1)è 1 ø è 2 øè n ø它的秩相数的计算过程如下: 记 x i 在 x1, x 2 , L, xn 中的秩为 R i , yi 在 y1, y2 , L, yn 中的秩为 Qi ,i =1, 2, L, n 。为简化讨论,不妨假设在x1, x 2
6、 , L, xn ,以及在y1, y2 , L, yn 中都没有重复的观察值,则R i = 1, 2, L, n ,Qi = 1, 2, L, n 。Spearman 秩相R i 和Qi 分别代替x i 和yi ,构造一个新的成对数据数的基本思想就是用æR1 ö æR 2 öæR n öçQ÷, ç÷, L,çQQ÷(8.2)è 1 ø è 2 øè n ø 计算成对数据(8.2)的矩相数(Ri - R )(Qi -
7、 Q)åni=1rs =(Ri - R)2(Qi - Q)2Qi n = (n + 1) 2 。由于ånåni=1i=1Ri n = (n + 1)其中R = ån2 , Q = åni=1i=1(Qi - Q)2 = n(n 2 -1) 12(R - R)2ånn= åi=1ii=1所以Ri Qi - 3n(n + 1)212åni=1rs =(8.3)n(n 2 - 1)g(×)称 rs 为成对数据(8.1) 的秩相数。 显然, 在为严格单调上升函数时,æx1 ö æx
8、2 öæxn öæg(x1 )ö æg(x 2 )öæg(xn )öçy÷, ç÷, L,ç÷ 与çyy÷, çø è÷, L, çøè÷øyyyè 1 ø è 2 øè n øè12n两个变量有没有同时上升(下降),或一个上的秩相数相等,所以秩相数可升、一个下降的趋势
9、。136例 8.1 设有成对数据æö æ1 ö æ3 ö æ8 ö æ 27ç÷, ç÷ , ç÷ , ç ÷ , çè17.5ø è1.5ø è17øè 6øè 2它的矩相数rm = 0.5209。假设这个成对数据的总体为(X, Y) 。由矩相数检验临界值表知,在n = 9 时 5%和 1%的临界值分别为 0.666 和 0.
10、798,所以我们认为 X 与 Y 没有线性相关性,它们相互。事实上,从这批数据的散点图(见图 8.1)看,它们似乎正相关,当X 增加时Y 有增大的趋势。正如我们前面所说的,矩相数检验是基于总体(X, Y) 服从正态分布的假设,在不能确定总体是否服从正态分布时,采用矩相数作检验是不妥的。经计算,这个成对数据的秩相数rs = 0.8 。秩相我们应考虑使用非参数数比较大,但它有没有大到我们可以认为 X 与 Y 正相关?这就是下面将要讨论的秩相数的检验。图 8.1 散点图§8.1.2秩相数检验设成对数据(8.1)为同分布的样本。不妨假设它们的总体(X , Y) 是连续型随量,在x1, x 2
11、 , L, xn ,以及在 y1, y2 , L, yn 中都没有重复的观察数据。记 x i 在x1, x 2 , L, xn 中的秩为R i , Ri = 1, 2, L, n ;记 yi 在y1, y2 , L, yn 中的秩为Qi , Qi =1, 2, L, n 。X 与Y 之间还是相关的检验的原假设和备择假设分别为H0 : X 和Y 相互, H1 : X 和Y 正相关,或H1 : X 和Y 负相关1372018161412108642002取成对数据(8.1)的秩相数rs 为检验统计量。由(8.3)式知,秩相数rs 的性质与ånRi Qi 有关。下面首先讨论ånR
12、i Qi 的性质,然后由它导出秩相数rs 的性质。i=1i=1在我们所讨论的众多性质中,最为关键的是下面这一个性质。时, ån Ri Qi 与ån性质 8.1 在原假设为真,即X 与Y 相互iQi 同分布:i=1i=1d= ånånRi QiiQi(8.4)i=1i=1从而由(8.3)式知,秩相数rs 与 r 同分布,其中siQi - 3n(n + 1)212ånri=1=sn(n 2 - 1)显然,åniQi 是ånRi Qi 在Ri = i, (i = 1, L, n) 时的特殊情况。R i = i, (i = 1, L
13、, n) 意i=1i=1味着n ,所以性质 8.1 我们可以用下面这样的方式去理解。首先把原本的成对数据(x1 , y1 ), (x 2 , y2 ), L, (xn , yn )一对一对地相互交换重新排列,使得n 。这相当于将 (R1 , Q1 ), (R 2 , Q2 ), L, (R n , Qn ) 一对一对地相互交换重新排列, 使得(i = 1, L, n) 。相互交换重新排列后的成对数据的ånRi = i,= ånRi QiiQi 。i=1i=1对例 8.1 的成对数据来说,一对一对地相互交换重新排列后的情况为æ1 ö æ 2
14、46; æ3 ö æ 4ö æ5 ö æ 6ö æö æ8 ö æ9 ö7ç÷ , ç ÷ , ç÷ , ç ÷ , ç ÷ , ç ÷ , ç÷ , ç ÷ , ç÷1.52è17øè3 ø è 4ø è5&
15、#248;è17.5øè 6øè18øèø è ø的成对数据算得的 ånRi Qi = 273 ,而由重新排列后的成对数据算得的由例 8.1i=1ån= ånRi QiiQi 仍等于 273。i=1i=1ån既 然 原 本 的 成 对 数 据 的Ri Qi 与 相 互 交 换 重 新 排 列 后 的 成 对 数 据 的i=1ån= ånRi QiiQi 是相等的,所以性质 8.1 得到证明。事实上,这个证明是有的。i=1i=1所说的,
16、ånRi Qi 与ån iQi 同并没有用到性质 8.1细心的读者会发现,这样的证明i=1i=1分布成立的前提条件:原假设为真,即X 与Y 相互。性质 8.1 并没有就此得到证明。性质 8.1 的证明见附录 16。由性质 8.1 知,ån Ri Qi 的分布的性质与ån iQi 的分布的性质相同。由于ånRi Qii=1i=1i=1,而ån与R1, R 2 , L, R n 和Q1 , Q2 , L, QniQi 仅与Q1 , Q2 , L, Qn 有,所以i=1研究åniQi 的分布的性质比研究ånRi Qi 的
17、分布的性质容易得多。下面我们就首先研究i=1i=1iQ 的分布的性质,然后导出 r 的分布的性质,进而得到秩相数r 的分布的性质。ånsi=1is138在前面几章秩是用字母“ R ”来表示的。为了相互衔接并考虑到ån iQi 与åniRi 同分布,i=1i=1我们转而研究åniRi 的分布的性质。i=1 概率分布由于(R1 , R 2 , L, R n )服从均匀分布:P(R1 = r1 , R 2 = r2 , L, R n = rn ) = 1 n!其中(r1 , r2 , L, rn ) 是(1, 2, L, n) 的任意一个排列,所以有(iRi
18、= d) = Sn (d) n!nPå(8.5)i=1其中d) = ir = d, (r , r , L, r )是(1, 2, L, n)的一个排列S (, L, r )#nr , r: ån1 2ni=1i1 2n时, P(Ri Qi = d) = Sn (d) n!。从nå然后由(8.4)式知,在原假设为真,即X 与Y 相互i=1而由(8.3)式我们得到了秩相数rs 的下一个性质。性质 8.2 在原假设为真,即X 与Y 相互数rs 的概率分布律为时,秩相æ12d - 3n(n + 1)2 öæ12d - 3n(n + 1) 2
19、öPçrs =÷ = Pç rs =÷ç÷ç÷n(n 2 - 1)2n(n - 1)èøèø= P(Ri Qi = d)nåi=1= Sn (d) n!, d = n(n + 1)(n + 2) 6, L, n(n + 1)(2n + 1) 6显然,在(R1 , R 2 , L, R n ) = (1, 2, L, n) 时, åniRi 达到最大值,其最大值为i=112 + 22 +L + n 2 = n(n + 1)(2n + 1) 6这时r
20、达到最大值,最大值为 1;在(R1 , R 2 , L, R n ) = (n, n -1, L,1) 时,åniRi 达到最小i=1s值,其最小值为1× n + 2 × (n - 1) + L + n ×1 = n(n + 1)(n + 2) 6这时r 达到最小值,最小值为-1。由于rs 与 r 同分布,所以r 的取值范围也是从-1到 1,sss并且在Ri = Qi ( i = 1, 2, L, n ),即在 x1, x 2 , L, xn 与y1, y2 , L, yn 同步上升或下降时,rs达到最大值 1;在Ri = n +1- Qi ( i =
21、1, 2, L, n ),即在x1, x 2 , L, xn 与y1, y2 , L, yn 一139个上升而另一个下降时, rs 达到最小值-1。 对称性若(r1 , r2 , L, rn ) 是(1, 2, L, n) 的一个排列,则 (n + 1 - r1 , n + 1 - r2 , L, n + 1 - rn ) 也是i(n + 1 - ri ) = n(n + 1)2(1, 2, L, n) 的一个排列,且若ån= d ,则ån2 - d ,所以有irii=1i=1P(iRi = d)= P(iRi = n(n + 1)2 2 - d)nnåå
22、;i=1i=1iR 服从对称分布,其对称中心为n(n +1)2 4 。从而知,r 服从对称分布,其对这说明ånsi=1i称中心为原点 0。由于rs 与 r 同分布,所以有秩相数r 的下一个性质。ss性质 8.3 在原假设为真,即X 与Y 相互时,秩相数rs 服从对称分布,其对称中心为原点 0。由性质 8.2 和 8.3,人们构造了秩相数检验临界值表(附表 9)。查附表 9 得到的ca 满足条件: P(rs ³ ca ) = a 。ca 是秩相数检验的上端临界值,用来检验是否正相关。由性质 8.2 知,P(rs £ -ca ) = a ,所以- ca 是秩相数检验的
23、下端临界值,用来检验8.1。是否负相关。秩相数检验的表 8.1 秩相数检验的解继续讨论例 8.1。查附表 9 知,在n = 9 时, P(rs ³ 0.783) = 0.01。例 8.1 的成对数据的秩相数rs = 0.8 > 0.783 ,所以检验的p 值为P(rs ³ 0.8) < 0.01。由于p 值很小,所以我们拒绝原假设,认为 X 与 Y 正相关,当X 增加时Y 有增大的趋势。这个结论和矩相数检验的结论不一样。很明显,秩相数检验的结论与数据的实际情况比较相符。 期望和方差与(7.14)式对照,我们发现可以把 åniRi ,从而可以把å
24、;niRi 看成n 个处理 1 个i=1i=1设计的 Page 检验统计量。由 Page 检验统计量的期望和方差的计算公式(见(7.17)和的140原假设H 0备择假设H1水平a 的拒绝域X 与Y 相互X 与Y 正相关rs ³ caX 与Y 负相关rs £ -ca(7.18)两式)知,在原假设为真,即X 与Y 相互时,分别用n 和 1 代换(7.17)和(7.18)两式中的k 和b ,则有E(iRi )= n(n + 1)2(iRi )= n 2 (n + 1)2 (n - 1) 144nnåå4 , Di=1i=1从而可得 r 的期望和方差:s12E(
25、iQi )- 3n(n + 1)2nåE(r ) =i=1= 0sn(n 2 - 1)144D(iQi )nå 1 n - 1D(r ) =i=1=sn 2 (n 2 - 1) 2由性质 8.1 我们得到了秩相数rs 的第三个性质。性质 8.4 在原假设为真,即X 与Y 相互数rs 的期望和方差分别为时,秩相E(rs ) = 0 , D(rs ) = 1 (n - 1)数rs 的期望为 0。事实上,由性质 8.3 即可知道秩相 渐近正态性可以证明:在n ®¥ 时,秩相数rs 有渐近正态性。性质 8.5 在原假设为真,即X 与Y 相互数rs 有渐近正态性:
26、时,秩相n -1 rs ¾¾L® N(0, 1) , n ®¥数检验的临界值时,可用渐近正态性得到检验的 p在n 比较大,附表 9 上没有秩相值。 n 比较大时秩相8.2。数检验的表 8.2 n 比较大时秩相数检验的解§8.1.3 有相等观察值时的秩相数当有结,即有相等的观察值时,秩取平均。这时的秩相数为141原假设H 0备择假设H1p 值的计算X 与Y 相互X 与Y 正相关P(N(0, 1) ³ n - 1rs )X 与Y 负相关P(N(0, 1) £ n - 1rs )(a(Ri ) - R )(b(Qi )
27、- Q)åni=1rs =(a(Ri ) - R)2(b(Qi ) - Q)2ånåni=1i=1åna(Ri )b(Qi ) - nRQ=i=1(a(Ri ) - R)2(b(Qi ) - Q)2ånåni=1i=1其中a(r) , r =1, 2, L, n ,是x i 在x1, x 2 , L, xn 中秩R i 的计分函数,在结的长度为 1 时a(Ri ) = Ri ,而在结的长度超过 1时a(Ri ) 等于秩的平均。 b(r) , r =1, 2, L, n ,是yi 在y1, y2 , L, yn 中秩Qi 的计分函数,在
28、结的长度为 1 时b(Qi ) = Qi ,而结的长度超过 1 时b(Qi ) 等于秩的平均。由(4.13)和(4.14)两式知,R = åna(Ri ) n = (n + 1)2 , Q = ånb(Qi ) n = (n + 1) 2i=1i=1(a(R)2a 2 (R ) - nR 2ånn) - R= åiii=1i=1(t3) 12 - n (n + 1)2 46 - ågx= n(n + 1)(2n + 1)- tx , tx , tt=1= n(n 2 -1) 12 - ågx(t3- t) 12x , tx , tt=
29、1(b(Q ) - Q)2b2 (Q ) - nQ 2ånn= åi=1ii=1i(t3) 12 - n (n + 1)2 46 - ågy= n(n + 1)(2n + 1)- tt=1y, ty, t= n(n 2 -1) 12 - ågy(t3- t) 12t=1y, ty, t其中g x 为样本数据x1, x 2 , L, xn 中结的个数, tx , t 是样本数据x1, x 2 , L, xn 中第t 个结的长度, t = 1, 2, L, gx ;而g y 为样本数据y1, y2 , L, yn 中结的个数, ty , t 是样本数据y1,
30、 y2 , L, yn 中第t 个结的长度, t = 1, 2, L, gy ,所以a(Ri )b(Qi ) - 3n(n + 1)212åni=1rs =(8.6)n(n 2 - 1) - ågx(t3n(n 2 - 1) - ågy(t3- t- t)t=1x , tx , tt=1y , ty , t有重复观察值秩取平均时,在样本数据x1, x 2 , L, xn 中结的个数及其每一个结的长度,和样本数据y1, y2 , L, yn 中结的个数及其每一个结的长度都给定的条件下秩相数服从对称分布,其对称中心为原点 0。由此可见,秩相数的条件期望为 0。经计算,
31、秩相数的条件方差为1421D(rs ) =n - 1n(n - 2)(- t)(t3(t3g- t× ågå)xyt=1x , tx , tt=1y , ty , t+ ()()(8.7)2g(t32g(t3n(n - 1)- å- tn(n - 1)- å- txyt=1x , tx , tt=1y , ty , t有结时秩相数rs 的方差应按(8.7)式进行。有关这些内容的讨论见附录 17。有重复观察值秩取平均时,我们仍由附表 9 得到秩相数检验的临界值。当n 比较大时,我们仍用渐近正态性得到检验的 p 值。有重复观察值秩取平均时,通常简单
32、地将秩相关系数的渐近正态性写成n -1 rs ¾¾L® N(0, 1) , n ®¥用统计Minitab 可以计算秩相数,其步骤如下: 计算数据的秩:a.输入数据(例如将例 8.1 的成对数据分别输入到 C1 和 C2 列);b.选择 Manip 下拉菜单;c.选择 Rank 选项;d.在框的 Rank data in 方框内键入 C1,Store rank in 方框内键入 C3,单击 OK,C3 列就是 C1 列上数据的秩;类似的操作,使得 C4 列是C2 列上数据的秩。计算数据的秩的矩相数:a选择 Stat 下拉菜单;b选择 Basic
33、statistics 下拉菜单;c选择 Correlation 选项;d在框的 Variables 方框内键入 C3 和C4。单击 OK。§8.2 Kendall t 相数设成对数据(8.1)是同分布样本,其总体为(X , Y) 。所谓正相关,就是当X 增加时Y 有增大的趋势。所以在 x 2 > x1 时,y 2 有大于y1 的趋势。这说明,“ (x 2 - x1 )(y2 - y1 ) > 0 ”发生的可能性超过了“ (x 2 - x1 )(y2 - y1 ) < 0 ”发生的可能性。若令q = P(x 2 - x1)(y2 - y1) > 0) - P(x
34、 2 - x1)(y2 - y1) < 0),143则在X 与Y 正相关时,q 的值大于 0。显然,-1£ q £1,并且q 的值越是接近 1,X 与Y 就越是正相关。同理,当X 与Y 负相关时, q 的值小于 0,且q 的值越是接近- 1 , X 与Y 就越是负相关。由此可见,q 的值越是接近 0,X 与Y 就越是不相关。q 是总体(X, Y) 的一个特征量,它是表示X 与Y 相关性的一个参数。§8.2.1 Kendall t 相数既然参数q 表示相关性,那么基于成对数据(8.1),参数q 的估计量就可以用来度量相关性。1938 年M.G. Kendall
35、 给出了统计量t ,并用t 来估计q ,其中t 为sign(x j - xi )(y j - yi )t =2k , k =å1£i<j£n(8.8)n(n - 1)其中sign(×) 是符号函数:在t > 0 , t = 0 和t < 0 时,符号函数sign(t) 分别等于 1,0 和1,所以ì(x j - xi )(y j - yi ) > 01,sign(x - x )(y - y) = ï 0,(x - x )(y - y ) = 0jijiíjiji(x j - xi )(y j - yi
36、 ) < 0ï- 1,î不难,符号函数具有这样的性质: sign(xy) = sign(x)sign(y) 。所以k 还可以表示为sign(x j - xi )sign(y j - yi )k =å1£i<j£n显然, - n(n + 1)2 £ k £ n(n + 1)2 ,所以-1£ t £1。下面证明t 是q 的无偏估计。令= sign(x j - xi )(y j - yi ),1£ i < j £ nw ij则P(w ij = 1) = P(x j - xi
37、 )(y j - yi ) > 0), P(w ij = 0) = P(x j - xi )(y j - yi ) = 0),P(w ij = -1) = P(x j - xi )(y j - yi ) < 0)。所以E(w ij ) = P(x j - xi )(y j - yi ) > 0)- P(x j - xi )(y j - yi ) < 0)= q从而,144E(w ij ) = n(n - 1) qE(k) =å1£i<j£n2E(t) = qt 是参数q 的一个无偏估计。由于q 是表示X 与Y 相关性的参数,所以我们可
38、以用t 来度量相关性。在t 接近 1 时,认为X 与Y 正相关;在t 接近- 1 时,认为它们负相关;在t 接近0 时,认为它们不相关。这个统计量称为 Kendall t 相数。记x i 在x1, x 2 , L, xn 中的秩为R i , yi 在y1, y2 , L, yn 中的秩为Qi ,则k (见(8.8)式)可以表示成sign(R j - Ri )(Q j - Qi )k =å1£i< j£nsign(R j - Ri )sign(Q j - Qi )=å1£i< j£n(8.9)所以k ,进而t统计量。显然,在
39、g(×) 是严格单调上升函数时,æ x1 ö æx 2 öæxn öæö æöæöx1x 2xnçy÷, ç÷, L, ç与yy÷çg(y )÷, çg(y)÷L, çg(y)÷è 1 ø è 2 øè n øè1 ø è2 øèn
40、48;的 Kendall 的t 相数相等,所以t 相数可以两个变量有没有同时上升(下降),或一个上升、一个下降的趋势。可以用 Excel 计算t 相数。例 8.1 的t 相数的计算步骤如下:a将成对数据(8.1)中的数据对(x i , yi ), i = 1, 2, L, n进行调换,使得 x1, x 2 , L, xn 由小到大排列,然后将调换后的 y1, y2 , L, yn 输入例如 A 列。例 8.1 的x1 , x 2 , L, x 9已由小到大排列,因而可立即将y1, y2 , L, y9 输入到 A1 到 A9 单元格;b 在 B2 单元格输入“=sign( a2 -1.5 )”
41、。由于 x1, x 2 , L, xn 已由小到大排列,则在 B2单元格得到了sign(x 2 - x1)(y2 - y1)的值。然后用鼠标往下拉,则在B3, L, B9 等单元格上分别得到sign(x3 - x1)(y3 - y1), L, sign(x9 - x1)(y9 - y1) 等的值。注意:这里的 1.5 是y1 的值,但在 B2 单元格不要输入“=sign( a2 - a1 )”;c 在 C3 单元格输入“=sign( a 3 - 2 )”,则在该单元格得到sign(x3 - x 2 )(y3 - y2 ) 的值。然后用鼠标往下拉,则在 C4, L, C9 等单元格上分别得到 s
42、ign(x 4 - x 2 )(y4 - y2 ), L, sign(x9 - x 2 )(y9 - y2 ) 等的值。注意:这里的 2145是y 2 的值,但在 C3 单元格不要输入“=sign( a 3 - a 2 )”;类似地,在 D4, L, D9 等单元格上分别得到 sign(x 4 - x3 )(y4 - y3 ) 、sign(x 4 - x3 )(y4 - y3 ), L, sign(x9 - x3 )(y9 - y3 )等的值。依此类推,直到在I9 单元格得到sign(x9 - x8 )(y9 - y8 )的值为止;de先用鼠标选中例如 J1 单元格,然后选用常用工具栏上的粘贴
43、函数“ f x ”按钮,在函数分类栏目中选择“数学与三角函数”选项,在函数名栏目中选择“SUM”选项,在“Number1”输入“b2:i9”,则在 J1 单元格上得到k 的值;由于n(n - 1) 2 = 36 ,所以在例如 K1 单元格输入“ = j1 36 ”,则在该单元格上就得f到了t 相数的值。经计算,例 8.1 的k = 26 ,t = 26 36 = 0.72 。t 相数0.72 是不是大到可以认为 X与 Y 正相关?这就是下面将要讨论的t 相数的检验。§8.2.2 Kendall t 相数检验设成对数据(8.1) 的总体 (X, Y) 是连续型随量, 在 x1, x 2
44、 , L, xn ,以及在y1, y2 , L, yn 中都没有重复的观察数据,x i 在x1, x 2 , L, xn 中的秩R i ,Ri = 1, 2, L, n ;yi 在y1, y2 , L, yn 中的秩Qi , Qi =1, 2, L, n 。 X 与Y 之间原假设和备择假设分别为还是相关的检验的H0 : X 与Y 相互, H1 : X 与Y 正相关,或H1 : X 与Y 负相关取 Kendall t 相数为检验统计量。由(8.8)式知,t 相数的性质与k 有关。下面首先讨论k 的性质,然后由它导出t 相数的性质。在附录 18,证明,与(8.4)式相类似地,我们有k =
45、9;sign (R - R )(Q - Q )=åsign (R- R )djijiji1£i< j£n1£i< j£nsign(R j - Ri )=sign(x j - xi ),与性质 8.1 和 8.2 相类似,我们有关å1£i<j£nå1£i<j£n并且由于于t 相数的概率分布律的一个性质。性质 8.6 在原假设为真,即X 与Y 相互时, t 相数和t 同分布,其中146sign(R j - Ri )=2sign(x j - xi )t = 2
46、9;ån(n - 1) 1£i<j£nn(n - 1) 1£i<j£n并且æö2d÷ = P(k = d) = Tn (d) n!, - n(n + 1)Pçt =è2 £ d £ n(n + 1) 2n(n - 1)ø其中# ìüTn ( )sign(rj - ri ) = d, (r1 , r2 , L, rn )()d = í(r1 , r2 , L, rn ):å1£i< j£n是
47、1, 2, L, n 的一个排列ýîþ在附录 18,我们还将证明,与性质 8.3 相类似,我们有t 相数分布对称性的一个性质。性质 8.7 在原假设为真,即X 与Y 相互时,t 相为原点 0。数服从对称分布,其对称中心由性质 8.6 和 8.7,人们构造了 t 相数检验临界值表(附表 10)。查附表 10 得到的ca 满足条件: P(t ³ ca ) = a 。ca 是t 相数检验的上端临界值,用来检验是否正相关。由性质 8.6 知, P(t £ -ca ) = a ,所以- ca 是t 相数检验的下端临界值,用来检验是否负相关。 t 相8.3
48、。数检验的表 8.3 t 相数检验的解继续讨论例 8.1。查表 10 知,在n = 9 时, c0.01 = 0.67。例 8.1 的成对数据的t 相数t = 0.72,其 p 值为P(t ³ 0.72) < 0.01,所以我们拒绝原假设,认为 X 与 Y 正相关,当X数检验的结论相同,t 相增加时Y 有增大的趋势。这个结论与秩相数检验的结论与数据的实际情况也比较相符。当n 比较大时,附表 10 上没有t 相数检验的临界值,可以用渐近正态性得到检验的p 值。为此我们首先求t 相X 与Y 相互时, t 相数的期望和方差。由性质 8.7 即可知道在原假设为真,即数的期望为 0。附录
49、 19 将给出t 相数的方差,从而有性质 8.8。147原假设H 0备择假设H1水平a 的拒绝域X 与Y 相互X 与Y 正相关t ³ caX 与Y 负相关t £ -ca性质 8.8 在原假设为真,即X 与Y 相互时, t 相数的期望和方差分别为E(t) = 0 , D(t) = 2(2n + 5)9n(n - 1)在n ®¥ 时, t 相数有渐近正态性。性质 8.9 在原假设为真,即X 与Y 相互时, t 相数有渐近正态性:n(n -1)t ¾¾L® N(0, 1), n ®¥32(2n + 5)当n 比
50、较大时,附表 10 上没有t 相数检验的临界值,可用渐近正态性得到检验的p值。 n 比较大时t 相8.4。数检验的表 8.4 n 比较大时t 相数检验的解§8.2.3 有相等观察值时的 Kendall t 相数当有结,即有重复的观察值时,秩取平均,则k 的(8.9)表达式需修改为sign(a(R j ) - a(Ri )(b(Q j ) - b(Qi )k =å1£i<j£nsign(a(R j ) - a(Ri )sign(b(Q j ) - b(Qi )=å1£i<j£n其中a(r) , r =1, 2, L
51、, n ,是x i 在x1, x 2 , L, xn 中秩R i 的计分函数,在结的长度为 1 时a(Ri ) = Ri ,在结的长度超过 1 时a(Ri ) 等于秩的平均; b(r) , r =1, 2, L, n ,是 yi 在y1, y2 , L, yn 中秩Qi 的计分函数,在结的长度为 1 时b(Qi ) = Qi ,在结的长度大于 1 时b(Q ) 等于秩的平均。应用不等式: (d )222i£ åådåcc,有iiiisign(a(R j ) - a(Ri )2sign(b(Q j ) - b(Qi )2k 2 £å1&
52、#163;i<j£nå1£i<j£næ n(n - 1)- 1) öæ n(n - 1)- 1) öågxågytx , t (tx , tty , t (ty , t= ç- t=1÷ç- t=1÷ç÷ç÷2222èøèø其中g x 为样本数据x1, x 2 , L, xn 中结的个数,tx , t 是x1, x 2 , L, xn 中第t 个结的长度,148原假
53、设H 0备择假设H1p 值的计算X 与Y 相互X 与Y 正相关æn(n - 1)öPç N(0, 1) ³ 3t÷ç2(2n + 5) ÷èøX 与Y 负相关æn(n - 1)öPç N(0, 1) £ 3t÷ç2(2n + 5) ÷èøt = 1, 2, L, gx ;而g y 为样本数据y1, y2 , L, yn 中结的个数,ty , t 是y1, y2 , L, yn 中第t个结的长度, t = 1, 2,
54、L, gy 。由此可见,在有重复的观察值秩取平均时,为使得t 相数的值在- 1 到 1 之间,将它的定义(见(8.8)式)修改为kt =ågxtx , t (tx , t- 1)ågyty , t (ty , t- 1)n(n - 1)n(n - 1)- t=1 - t=12222sign(a(R j ) - a(Ri )sign(b(Q j ) - b(Qi )å1£i< j£n=ågxtx , t (tx , t- 1)ågyty , t (ty , t- 1)n(n - 1)n(n - 1)- t=12 - t=
55、1222数检验的临界值。当n 比较有重复观察值秩取平均时,我们仍由附表 10 得到 t 相大时,我们仍用渐近正态性得到检验的p 值。有重复观察值秩取平均时,通常简单地将t 相数的渐近正态性写成n(n -1)t ¾¾L® N(0, 1), n ®¥32(2n + 5)有重复观察值秩取平均时,在样本数据x1, x 2 , L, xn 中结的个数及其每一个结的长度,和样本数据y1, y2 , L, yn 中结的个数及其每一个结的长度都给定的条件下t 相数服从对称分布,其对称中心为原点 0(其证明留作本章习题第 7 题)。由此知, t 相数的条件期望为
56、 0。至于它的条件方差相当复杂,从略。对于相关性的度量和检验,使用秩相数还是使用t 相数,没有一个确定的说法。建议在实际中这两种系数都用。这里提请大家注意有这样一种说法,认为 t 相数渐近正态性的收敛速度比秩相数快,所以若使用渐近正态性,在样本容量并不大时,使用t 相数较为可靠。§8.3 Kendall 协和系数数和§8.2 的Kendall t 相§8.1 的Spearman 秩相数都是讨论两个变量之间的相关性,用来检验这两个变量有没有同时上升(下降),或一个上升、一个下降的趋势。本节讨论多个变量之间的相关性,检验这些变量有没有同时上升(下降)的趋势。对多个变量
57、来说,这样的检验称为一致性检验。看下面的的例子。例 8.1. 毛织物的一个重要的质量指标为织物的紧密程度。质量检验员凭手感检测毛织149物的紧密程度。凭手感检测虽然方便,但却带来了一个,不同的检验员的检验结果是否一致。假设设计了五种不同型号的毛织物,制成成品后由九进行手感评级。要求每一将这五种织物的紧密程度由紧到松排序,分别记它们的秩为 1,2,3,4,和 5。秩越小,织物就越是紧密。检验结果如表 8.5。表 8.5 毛织物手感评级数和t如果只有两,那么他们的检验结果是否一致的检验可以用秩相相数进行检验。正相关就意味着这两的检验结果一致。现有九,他们的检验结果是否一致的检验和度量就是本节将要讨论的。这个是 Spearman 秩相数的推广。除了凭手感评定织物的紧密程度,其它如的色泽、光洁度等要用目测,食品的质量要品尝,酒的质量还要嗅闻等来评定。这种类型的检验统称为官感检验。官感检验中的一个重要是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 淮阴师范学院《体育课程与学科教学论》2021-2022学年第一学期期末试卷
- 淮阴师范学院《绿色化工》2023-2024学年第一学期期末试卷
- 淮阴师范学院《钢琴弹唱(2)》2021-2022学年第一学期期末试卷
- 淮阴师范学院《Hadoop大数据技术》2023-2024学年期末试卷
- 淮阴工学院《仪器分析》2021-2022学年第一学期期末试卷
- 淮阴工学院《土木工程材料》2021-2022学年第一学期期末试卷
- DB3711-T 152-2024荒山造林技术规程
- 文书模板-人才培养计划的制订方案
- 人事行政培训企业文化塑造与践行考核试卷
- 未来教育中的在线测评与反馈考核试卷
- 公务员2021年国考《申论》真题(地市级)及参考答案
- 新教科版小学1-6年级科学需做实验目录
- 2024秋期国家开放大学专科《高等数学基础》一平台在线形考(形考任务一至四)试题及答案
- DPtech-FW1000系列防火墙系统操作手册
- 图像学完整分
- 思想道德与法治课件:第五章 第二节 吸收借鉴优秀道德成果
- 灯具施工方案(完整版)
- TKT-Glossary中译版
- 西安作文800字
- (完整版)小学英语教师个人专业发展规划(最新整理)
- 初级养老护理员培训全套ppt课件ppt
评论
0/150
提交评论