第9章 相关分析_第1页
第9章 相关分析_第2页
第9章 相关分析_第3页
第9章 相关分析_第4页
第9章 相关分析_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章普通相关分析《管理统计学》谢湘生广东工业大学管理学院引例销售量的差异设想自己负责某公司的销售部门。假设本公司生产某种产品(比方说某种食品),这种产品已经销售到了全国十个地区。但是从半年的销售数据观察到,该产品在这十个地区的销售情况存在明显的差距。从统计学的角度,如何评价这样的销售情况,如何改变销售不平均的状况。不同地区:人均收入人口结构人均GDP不同的通过相关分析我们可以了解变量之间是否具有线性相关关系,而这种相关关系可以用相关系数来测度。9.1两个随机变量的总体相关与样本相关9.1.1两个随机变量的总体(简单)相关系数定义:X,Y是随机变量,已知二维(X,Y)分布,总体相关系数为对总体相关系数有如下一些结果:相关系数是区间[-1,1]之间的一个量。ρXY=0,则称X与Y不相关。若X与Y相互独立则必不相关,即ρXY=0。X与Y相互独立是指:对事件而言,P{XY}=P{X}P{Y};对随机变量而言,P{X<x,Y<y}=P{X<x}P{Y<y}。所以上述结论就是相互独立的随机变量之间相关系数必然为0。相关系数为0的两个随机变量,不一定相互独立。相关系数为0的两个服从正态分布的随机变量,一定相互独立。例非独立的两个随机变量Y

%Total01TotalX60025025150012.512.525

300016.6733.3350

Total54.1745.83100

调查了某城市某行业的全体员工,用X表示其薪金档次分为600元、1500元与3000元三档;而受教育水平用Y表示,Y=0表示未受过高等教育,Y=1表示受过高等教育。则,P{X=600}=0.25,P{Y=0}=0.5417,但P{X=600,Y=0}=0.25。故X与Y不相互独立。9.1.2样本相关定义:设(X1,Y1),…(Xn,Yn)是(X,Y)的一组样本(这种表示方法意味着样本X、Y是配对的、不可交换次序的),则样本相关系数(或简单相关系数)为在本式中小写的字母x,y表示中心化处理的结果,即也称它们是样本数据的离差。通过这样定义的相关系数刻画的相关关系称为Pearson积矩相关。样本相关系数也是区间[-1,1]之间的一个量。在计算中,简单相关系数也常使用如下的公式:根据第5章的讨论可知,样本相关系数是总体相关系数的估计量。9.1.3样本相关系数的几何解释分别将视为n维欧氏空间中的向量。则上面定义的样本相关系数就是θ其中记号<•,•>表示向量的数量积,其几何意义是其中一个向量的长度乘以另一向量在该向量上的投影;||•||表示向量的模(长度)。9.1.4直观散点图设有配对样本x1,x2,…,xn与y1,y2,…,yn,则在直角坐标平面上用小圆点标示出坐标为(xi,yi)的点,这样得到的图形称为直观散点图。xyxy正相关负相关简单相关系数刻画了两个变量(两组数据)之间的相关关系。这种相关关系是两个变量之间确实存在的一种关系,但这种关系又不象函数关系那样,变量的值之间存在一种确切的对应关系。对两个变量,它们的相关系数的绝对值越大,相关程度就越高,它们之间共同变化的趋势越明显。因此相关系数测度了它们相关的程度。相关系数的意义相关关系的测度

(相关系数取值及其意义)

r

的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关

r=0,不存在线性相关关系-1

r<0,为负相关0<r

1,为正相关|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切相关关系的测度

(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加表10-1我国人均国民收入与人均消费金额数据单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相关关系的测度

(相关系数计算例)【例】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi,yi),i=1,2,…,13,数据见表,计算相关系数。相关关系的测度

(计算结果)解:根据样本相关系数的计算公式有人均国民收入与人均消费金额之间的相关系数为0.99879.2Spearman等级相关9.2.1两组配对的顺序数据的Spearman等级相关系数(又称秩相关或名次相关)对两组配对的顺序样本而言,常使用Spearman等级相关系数。设有配对顺序样本观察值x1,x2,…,xn与y1,y2,…,yn。等级相关系数的公式为:式中而分别表示xi,yi的名次(从大到小或从小到大排名均可)相同名次的处理方法见4.2.2小节。Spearman等级相关系数的一个等价的公式为9.2.2刻度级(Scale)配对样本的等级相关系数刻度级的配对样本,也可以排名次,也可以计算Spearman等级相关系数。计算公式与顺序数据的等级相关系数计算公式完全相同。等级相关,又称为非参数相关。[例]在肝癌病因研究中,某地调查了10个乡的肝癌死亡率(1/10万)X与种子食物中黄曲霉毒素相对含量(最高含量为10)Y,见下表。试求两者的等级相关系数。乡编号XY10.721.52118.931.714.443.746.55427.365.164.675.546.385.734.295.977.6101055.1乡编号XX的秩YY的秩didi^210.7121.532421218.920031.7314.412443.7446.57-3954527.341165.1664.69-3975.5746.361185.7834.253995.9977.6101110101055.1824在excel下进行计算,结果如下θ=1-(6*sum(g2:g11)/(10(10^2-1)))0.745455*例等级相关系数的计算.*Spearmancorrelation:.DATALISTFREE/PlaceXY.BEGINDATA.1 0.7 21.52 1 18.93 1.7 14.44 3.7 46.55 4 27.36 5.1 64.67 5.5 46.38 5.7 34.29 5.9 77.610 10 55.1ENDDATA.NONPARCORR/VARIABLES=XY/PRINT=SPEARMANTWOTAILNOSIG.也可以在SPSS下进行计算,通常是先建立数据文件,然后在调用相关分析的模块计算相关系数,具体过程见后.也可以直接运行下述程序,进行计算.9.3偏相关所谓偏相关,是指在若干个相关的变量中,剔除了(控制了)其中一个或多个变量的影响后,两个变量之间的相关关系。例如年龄、工龄、受教育程度都与工资收入有关,可以剔除年龄和工龄的影响,来讨论工资收入与受教育程度之间的相关性。在比如剔除其他因素(如销售能力)的影响,研究销售量与广告费用之间的关系。在多个变量错综复杂的关系中,偏相关系数可帮助排除假象相关,找到真实联系最为密切的变量.以在三个变量X,Y,Z中控制了变量Z的影响后计算X,Y之间的偏相关系数rxy,z为例。XZYZ对X,Y无影响,rxy,z=rxyXZYX不与Y直接相关,它们之间的相关关系只是由于与Z的协同作用产生的,rxy,z与0无差异,但rxy非零。XZYX与Y相关,并且它们与Z之间还存在协同作用,rxy,z与rxy均非零,但rxy,z≠rxy。9.3.1剔除了一个变量Z的影响后,两个变量X、Y之间的偏相关系数此时偏相关系数为9.3.1剔除了两个变量Z1、Z2的影响后,两个变量X、Y之间的偏相关系数9.4相关系数异于零的显著性检验9.4.1简单样本相关系数(Pearson)显著异于0的T检验在二维总体(X,Y)服从正态分布的前提下,Fisher给出了检验简单相关系数显著异于0的t统计量如下:其中n是样本容量,r是简单相关系数(Pearson)。检验假设:H0:r=0,H1:r0。这是一个双尾检验问题。9.4.2等级相关系数(Spearman)显著异于0的T检验检验等级相关系数显著异于0的t统计量与上面一样,也是:其中n是样本容量,r是等级相关系数(Spearman)。检验假设:H0:r=0,H1:r0。这也是一个双尾检验问题。9.4.3偏相关系数显著异于0的T检验检验偏相关系数显著异于0的t统计量为:其中n是样本容量,r是偏相关系数,k是被剔除的变量的个数。此外对于这里的T检验要注意的是:如果要作正负相关的双向检验,就要作双尾的T检验;如果只作正相关或负相关的检验,就只作单尾的T检验。双尾检验与单尾检验的临界值与p值是有区别的。9.5SPSS对普通相关分析的处理例9.5.1你可以观察到你周围的人,有的人在抄股。抄股的人有的投入的资金多,有的投入的少。如果你的工作与证券业务有关,你可能会关心,是什么因素与投资的多少有关?目的:检验某城市某区散户股民的场外收入与场内投资的相关问题。数据:\管理统计\CH6CH9CH10证券投资额与依据操作过程见教材SPSS操作与结果说明:简单相关系数显著相关的说明结果表明:“证券市场外年收入”与“投入证券市场总资金”的简单相关系数为0.369,并且在0.01的显著性水平下,这一相关系数是显著地异于零的。进一步,你可能还关心,“投入证券市场总资金”除了与收入有关以外是否还与别的因素有关。接下来考察“证券市场外年收入”、“投入证券市场总资金”、“受教育程度”及“入市年份”之间的相关关系。9.5.2简单相关分析:修改语句的例子目的:在默认情形下,SPSS给出所选变量的每对变量的相关系数,但可能我们需要获得某些特定的相关系数,这里将说明如何通过修改命令语句获得特定的相关系数。在默认情形,SPSS给出如下结果修改SPSS运行语句,以获得特定的相关系数的方法:SPSS默认的运行语句:修改:9.5.3等级相关分析(Spearman相关系数)1.仍利用上面的数据文件,分析股民“依据公司业绩买入”与“依据公司业务卖出”之间的相关性。2.研究小学生的语文成绩与数学成绩之间的相关性。数据文件见《CH9数学语文成绩》。注意本例中显著性检验的作用。9.5.3偏相关分析(Paritial)在一组变量中某两个变量之间的相关系数可能是显著异于零的,但整体上看,来考察剔除了其他变量后,这两个变量的偏相关系数,则有可能不显著异于零!无谓相关(nonsensecorrelations)处理相关时要务必小心无谓相关的现象。许多相关系数具有较大的绝对值并且在统计上也是“显著”的,但未必包含实际意义和有用的信息。换言之,即便两个变量X与Y的相关系数显著地不等于零,也不一定意味着两者之间存在有意义的相关关系,关键需要看两者之间的协变是由什么引起的。如果存在一种关于X与Y联合变动的理论,相关系数的符号和大小会增加对这种理论的支持,这时相关系数才刻画了一种有意义的关系;否则如果不存在或不能提出这样的理论,则由统计方法得到的相关只是无谓相关。例如统计学家尤乐(G.UdnyYule)在1926年的一篇论文中统计了英格兰和威尔士1866年—1911年间人口死亡率与英格兰所有婚礼中到教堂举行结婚仪式占的比例的年度数据,发现两者的相关系数是0.95,在统计学上是高度相关的。但明显的是,没有那个社会学家或政客会同意以延长人民寿命为由,建议关闭英格兰所有的教堂。英国的进口额数据(1955-1969年,按1968年的不变价计算,单位:百万英镑)中国人均可支配收入数据(1985-1999年,按1985年的不变价,单位元)4569478.569654582507.47996244697524.25784784753522.22433735062502.13347075669547.1501155628568.02716635736620.43499175964665.80715936501723.96064976549780.48848086705848.30416597104892.52561267609943.17655581001011.780082例考虑两组数据,一组是英国的进口额数据(1955-1969年,按1968年的不变价计算,单位:百万英镑);另一组为中国人均可支配收入数据(1985-1999年,按1985年的不变价,单位:元)。计算这两组数据的相关系数得r=0.973并且在1%的显著性水平下,r显著异于0。这说明什么问题?2013年11月6日的Googlecorrelate搜索结果9.6品质相关与SPSS的处理品质数据数据定量数据(数值型数据)定性数据(品质数据)离散数据连续数据列联分析多项分布与χ2检验(拟合度检验)品质数据常用来表示研究对象的某特征的分类,因此收集品质数据的目的常常是为了分析各个类中数据的分布。例如我们为了估计消费者中喜欢三种牙膏中每一种的比例,可以统计购买这三种品牌牙膏中每一种的顾客人数。这相当于用牙膏的种类对顾客进行分类。这种分类称为一维分类(或一向分类)。再如投资商在进行顾客的投资调查,可能不仅考虑顾客的投资倾向而且还会考虑顾客的职业类别,就需要按顾客的投资倾向和职业来对顾客分类,这种分类称为二向分类,相应的频数分布表成为列联表或交叉表。在这样的分类问题中需要通过样本来推断各类所占的比例。先考虑一向分布的情况。若在一向分类中对象仅分为两类。则就是前面(第6章)考虑的二项分布的比例值的推断问题。所以这里考虑对象分成多类的问题。例某商场为了研究顾客对三种品牌的矿泉水的喜好比例是否存在差异,以便为进一步的进货决策提供依据,随机地观察了150名购买者,并记录下他们所购买的品牌,统计出购买这三种品牌的人数如表品牌甲乙丙人数615336这些数据是否说明了顾客对这三种矿泉水的喜好确实存在差异?3.某个试验结果落在某一特定组的概率保持不变,例如试验结果落在第i组的概率记为pi(),则每次试验,结果落在第i组的概率都是pi;该例中对象按矿泉水的品牌分为三类,需要采用多项分布进行推断。多项分布是二项分布的推广,可以看成多项试验的结果服从的分布。所谓多项试验是指具有以下特点的试验:1.多项试验是由n个相同的试验组成;2.每个试验的结果落在k组中的某一组中;4.试验是独立的。例如抛掷一个骰子。特别地,当k=2时,就是二项分布。在大多数实际问题中,k个可能结果的概率(比例)p1,p2,…,pk通常是未知的。我们的目的就是根据n次试验中k个可能结果出现的次数n1,n2,…,nk(n1+n2+…+nk=n),来估计这些未知的概率。在上述例子中如果记p1=所有顾客中喜好甲品牌的比例p2=所有顾客中喜好乙品牌的比例p3=所有顾客中喜好丙品牌的比例则我们的目的就是依据表中的数据检验如下的假设:H0:p1=p2=p3=1/3;H1:至少有一个比例值超过1/3。设在n次试验中,观察到第i类出现的频次为ni,则随机样本ni的期望值(期望频次)为在上述的假设检验问题中,将使用检验统计量KarlPearson证明了,当n充分大时,上述χ2统计量近似服从自由度为k–1的χ2分布。从而对给定的显著性水平α,由分布表,可以得到临界值,当χ2>c时,拒绝H0。直观地,当各个比例值确实等于假设值pi时,各ni/n与pi的差,从而ni与E(ni)的差别比较小,于是χ2统计量也较小。因此当χ2较大时,拒绝H0。对于例子,k=3,n=150,n1=61,n2=53,n3=36而当原假设H0成立时,于是若显著性水平α=0.05,则临界值故拒绝H0,认为顾客对三种品牌的矿泉水的喜好存在显著差异。如果上述例子中各品牌矿泉水购买人数分别是60,53,37,检验将会出现何种结果?(5.56)范例:某教师出了50题有5个选项的单选题,答案与题数分别如下,请问这位老师是否有特殊的出题偏好?即倾向于出某些答案的题目?

A

B

C

D

E

12

14

9

5

10

具体SPSS数据见下面的附件

各类期望值相等

2统计量的渐近显著性概率为0.331,因此在5%的显著性水平应不拒绝原假设,即数据并不支持教师出题的答案具有特殊偏好的结论.品质相关检验下面考虑二向分类问题。也就是要根据两个分类(品质)变量对对象进行分类。这时人们关注的问题往往表现为按照两个特征进行分类的方法之间是否相互关联。这样的问题称为品质相关问题。如房地产商关心顾客选择房子的类型是否与其职业有关;电视广告商关心的可能是观众对各类电视广告的关注是否与其来自城市还是身处农村有关等等。这样的问题可以用如下的表格(交叉表或列联表,所以相应的统计分析也称为列联表分析)来描述。品质相关模式概括:Y1……Ys合计X1n11……n1sn1.…………………………Xknk1……nks

nk.合计n.1

……n.kn特征变量X特征变量Y特征变量一般是名义级或顺序级的变量,nij表示特征变量X取第i个值并且特征变量Y取第j个值的个体出现的频次;分别为特征变量X取第i个值的个体的总数和特征变量Y取第j个值的个体的总数。品质相关问题的本质品质相关问题本质上就是通过两个随机变量X,Y的频次样本数据来检验两变量是否相互独立的问题。设随机变量X,Y的分布函数和相应的边缘分布分别为F(x,y),F(x),F(y)。现在的问题就是:根据上表给出的频次样本数据,检验F(x,y)=F(x)F(y),对X,Y的所有可能取值x,y成立。设得到了二维总体(X,Y)的一组容量为n的样本(X1,Y1;X2,Y2;…;Xn,Yn)。进而设变量X,Y分别取k个和s个离散值,而X取第i个值的概率为pi.;Y取第j个值的概率为p.j;又X取其第i个值并且Y取其第j个值的概率为pij。于是随机变量X、Y之间是否相互独立的问题,就转化为检验:是否成立的问题。注:若变量X的取值是连续的,则在品质相关问题中,通常的做法是,将X的取值集合分为k个区间,然后考虑X的取值落在第i个区间的概率pi.。对变量Y的处理类似。品质相关的判别方法对于品质相关检验问题,具体做法是将交叉表“拉直”成一个k×s的一向分类问题,然后利用前面介绍的χ2统计量进行检验。n11……n1s………………nk1……nks

n11……n1s………………nk1……nks

这时在H0成立时,有期望频次因为pi.与p.j实际观察不到,而采用如下的极大似然估计量来估计因此采用的检验统计量实际上是但是,由于,因此“抵消”了两个自由度,这里χ2统计量的自由度为:单元格个数-1-待估计参数个数=ks-(k+s-2)-1=(k-1)(s-1)。对给定的显著性水平α,接受H0,因素与状态相互独立。拒绝H0,因素与状态显著相关。在统计学中这里计算的统计量χ2通常称为Pearsonχ2统计量.在利用软件进行分析时,往往通过p值来判别,但需要注意的是品质变量通常是离散变量,而χ2分布是连续分布,因此实际上得不到精确的p值.在SPSS中是用渐近的显著性概率来代替p值进行检验.Fisher判别法如果总体(X,Y)服从二维正态分布其中参数均未知,那么X与Y独立,等价于ρ=0。于是相互独立的检验问题是:如果r是ρ的极大似然估计量,则Fisher证明了如下结果:于是可以通过t检验来完成X与Y的独立性检验。使用该方法进行品质相关检验时,要求X、Y的至少有一组取值的频次足够小。(在SPSS中要求至少有个单元格的期望频次<5。)

当只有一个自由度(且n<50)时Yates的矫正方法由于χ2分布是连续的,而这里处理的是离散问题,在自由度为1时,按照公式计算的统计量的值就会与χ2的值产生较大的偏差,特别是当n<50时,偏差较大,需要矫正。Yates给出了一个矫正公式:因此在自由度为1并且n<50时,应采用矫正的公式进行检验。对2×2的表,在SPSS的应用中应采用Yates矫正公式计算的结果。SPSS品质相关分析举例教材上的例子:步骤与过程见教材与课堂演示.其中SPSS输出的结果为:其中表下的注释表明:仅对2×2的表计算Yates‘correctedchi-square(continuitycorrection)。本例应采用该结果。另一个注释则表明:只有0%的单元格(即没有单元格)的期望频次小于5。最小的期望频次为10.06。因此本例并不适合用Fisher的检验结果。如果希望获得有关期望频次的统计结果,可以在Crosstabs窗口点击“Cell”按钮后进行适当的选择即可得到有关结果。例某教育研究机构想研究大学毕业生参加工作后的表现是否与上学的地区有关,为此调查了上一年毕业后参加工作的大学生800人。按照东南地区、西南地区、西北地区、东北地区四个区域各200人进行调查,请工作单位对他们的工作表现进行评价,结果见下表:不满意满意很满意东北2112158西北1813349东南1014743西南1813844试根据调查结果说明工作表现是否与上学地区有关?1按照如下格式建立数据文件其中变量的定义为2交叉表的预处理选择“Data”→“Weightcases”,进入Weightcases对话框。把“频次[f]”放入frequency栏中,单击OK按钮。3交叉表分析选择“Analyze”→“Descriptivestatistics”→“Crosstabs”,进入Crosstabs对话框。把“地区[r]”放入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论