版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章双变量描述分析(下)第三节:定序变量与定序变量第四节:定类变量与定距变量(定序-定距)第五节:定距变量与定距变量第六节:回归分析一、名次解释:对子(Pairs)对子,是指两个个案互相比较而组成的对子。比如一个调查的样本容量为n,每个个案都与其他所有的个案两两比较共有多少个对子?第三节:定序变量与定序变量
(ordinalbyordinal)如果第一个个案的X的取值高于第二个个案,Y的取值也高于第二个个案,或者都小于第二个个案,那么这两个个案组成的对子(AB,AC)就叫做同序对(Same-OrderedPair),其个数记做Ns;如果第一个个案的X的取值高于第二个个案,Y的取值却低于于第二个个案,这两个个案组成的对子(AD)便叫做异序对(Different-OrderedPair),其个数记做Nd;同分对是指X和Y的取值中至少有一个是相同的对子,我们将X相同而Y不同的对子(AE,AF)个数记做Nx,将Y相同而X不同的对子(AG,AH)个数记做Ny,将在X和Y上都相同的对子(AI)个数记做Nxy;个案(9个)教育程度收入水平A中中B低低C高高D低高E中高F中低G高中H低中I中中这n个个案中,任意一个个案都有X和Y两个取值,所以我们比较两个个案的时候,就要同时比较X和Y。总对子数T=n(n-1)/2=Ns+Nd+Nx+Ny+Nxy【练习1】丈夫文化程度妻子文化程度1高高2低中3低低4中中5高中6中低7低中Ns=Nd=Nx=Ny=Nxy=T=212、根据列联表的频数计算对子同序对Ns:“右下余子式”法n1的同序对数量为为n1(n5+n6+n8+n9);n2的同序对有n2(n6+n9)个;n4的同序对有n4(n8+n9)个;N5的同序对有n5*n9个;Ns=n1(n5+n6+n8+n9)+n2(n6+n9)+n4(n8+n9)+n5*n9个XY低中高低n1n2n3中n4n5n6高n7n8n9异序对Nd:“左下余子式法”计算异序对应该从最右上方的格子开始分析。n3的同序对为n3(n4+n5+n7+n8)个;n2的同序对为n2(n4+n7)个;n6的同序对为n6(n7+n8)个;n5的同序对为n5*n7个;Nd=n3(n4+n5+n7+n8)+n2(n4+n7)+n6(n7+n8)+n5*n7XY低中高低n1n2n3中n4n5n6高n7n8n9X的同分对Nx:位于同一列不同行的配对都是X的同分对,所以Nx=n1(n4+n7)+n4*n7+n2(n5+n8)+n5*n8+n3(n6+n9)+n6*n9Y的同分对NY:位于同一行但是不同列的配对都是Y的同分对,同理NY=n1(n2+n3)+n2*n3+n4(n5+n6)+n5*n6+n7(n8+n9)+n8*n9X与Y的同分对NXY:XY取值完全相同的个案两两配对的数量即是NXY,XY低中高低n1n2n3中n4n5n6高n7n8n9【练习2】40名员工的工作满足感和归属感的关系如下表,请分布计算Ns,Nd,Nx,Ny,Nxy归属感工作满足感高中低低348中156高544首先,需要将变量X和Y按照同等顺序进行排列,然后才能进行计算。调整后的表格为:Ns=223Nd=125Tx=183Ty=165Txy=84T=780归属感工作满足感低中高低843中651高445二、相关系数1.Gamma系数适用于测量两个对称的定序变量之间的相关关系,常用G来表示,计算公式为:
-1≤G≤1Gamma系数并不考虑各种同分对,仅仅利用同序对和异序对进行分析,如果在所有对子中以同序对为主,G为正数,表示正相关;如果以异序对为主,G为负数,表示负相关;如果两者相当或者同分对较多,则相关程度较弱。【练习1】丈夫文化程度妻子文化程度1高高2低中3低低4中中5高中6中低7低中Ns=8Nd=2Nx=4Ny=6Nxy=1T=21【练习2】Ns=223Nd=125Tx=183Ty=165Txy=84T=780归属感工作满足感低中高低843中651高445Gamma系数具有消减误差比例(PRE)的意义(1)E1的含义:设想我们不知道X和Y存在等级相关,我们把所有的对子都瞎猜一遍,就是猜测哪个对子比较高,哪个比较低。对于那些同分对,我们不考虑,因为谈不上谁高谁低。每猜一对,猜错的概率是1/2,一共猜n(n-1)/2-Tx-Ty-Txy次,则犯错误的次数是(Ns+Nd)/2=E1(2)E2的含义:当知道X和Y存在等级相关时,我们根据X的等级顺序来猜Y的等级顺序,猜都是同序对,也就是说,只要X高我们就猜Y高,X低我们就猜测Y低,则错误的对数就是E2=Nd
2、肯德尔等级相关系数Kendall’sτ系数肯德尔系数因为考虑了同分对,所以是对Gamma系数的一种修正,分为三种情况来讨论:(1)系数没有同分对时,其实就是Gamma系数有同分对时,其绝对值比Gamma系数要小。【练习2】Ns=223Nd=125Tx=183Ty=165Txy=84T=780归属感工作满足感低中高低843中651高445G=0.28(2)系数【练习2】Ns=223Nd=125Tx=183Ty=165Txy=84T=780归属感工作满足感低中高低843中651高445G=0.28(3)系数其计算公式为:【练习2】Ns=223Nd=125Tx=183Ty=165Txy=84T=780归属感工作满足感低中高低843中651高445G=0.28前两个系数都具有PRE含义。特别适合不存在任何同分对的情况;的特殊性在于它仅适用于r=c的列联表,否则其取值的范围难以确定。但是社会学研究中比较常见的情况是同分对很多,并且大多数列联表的行数与列数不相等,这种情况下就要采用系数,美中不足的是这个系数没有PRE含义。三个Kendall’sτ系数的比较3、Somer’sd系数萨默斯(Somers)提出了另外一个Gamma系数的修正系数,既考虑同分对,又具有消减误差比例意义的定序相关测量法,即d系数。d系数是一种不对称相关关系的等级测量办法。若Y是因变量,以X来预测Y时,用dYX来表示;若用Y来预测X,则用dXY来表示。其计算公式为:【练习2】Ns=223Nd=125Tx=183Ty=165Txy=84T=780归属感工作满足感低中高低843中651高445G=0.28若以变量X工作满足感来预测变量Y归属感,其等级相关系数为:若以变量Y归属感来预测工作满足感变量X,dXY=0.185小结:目前为止,我们介绍了Gamma系数、三个Kendall’sτ系数和Somer’sd系数,这个五个系数相比,分子都是相同的,只是分母有所变化。d系数的分母分别加上了NX和NY,所以d系数的绝对值总是小于Gamma系数的绝对值。G系数,,和d系数都具有消减误差比例的意义,只有不具PRE含义。G系数和Kendall’sτ系数都可用来测量对称关系的两个定序变量,只有d系数是一种不对称测量。4、斯皮尔曼等级相关系数(Spearman’srho)又称秩相关系数第一位推导等级之间相关系数的人是英国的斯皮尔曼,他发明了一个等级相关的公式,用来计算两个定序变量之间的相关程度。斯皮尔曼系数通常以rs来表示。其计算公式是:rs【-1,1】di表示每个样本单位在两个变量上的等级之差。【例】比赛名次和观众评选最受欢迎的球队球队名比赛名次Xi受欢迎排名Yididi2A1100B23-11C34-11D45-11E58-39F66(6.5)-0.50.25G79(9.5)-2.56.25H8(8.5)6(6.5)24I8(8.5)9(9.5)-11J102864问:比赛名次和受观众欢迎的排名之间相关程度如何?Notice:(1)di表示每个样本单位在两个变量上的等级之差,而非变量值本身之差;(2)适用于对称关系的两个变量;(3)rs的平方有PRE意义,测量不同等级级别之间差距的程度。如我们想了解学生活动能力与智商之间是否相关,对10名同学进行抽样调查。学生12345678910IQ(Xi)106861001019910397113112110每周看电视小时数(Yi)70275028292012617学生12345678910IQ(Xi)106861001019910397113112110等级Xi71453621098每周看电视小时数(Yi)70275028292012617等级Yi31710896425学生27534611098等级Xi12345678910等级Yi16871093524di0-4-5-3-5-34376di20162592591694936第四节:定类变量与定距变量(定序-定距)
NominalorOrdinalbyInterval当两个变量一个为定类或定序变量,另一个为定距或定比变量时,我们用相关比率(correlationratio)E2或eta系数(E)来测量二者之间的相关程度。相关比率E2数值范围由0到1,也具有消减误差比例的意义。其计算公式为:Y是依因变量的数值;是因变量的均值;是在自变量X的每个取值Xi上的因变量的均值。【例子】调查得到如下数据,求职业与收入水平之间的相关程度。
从E值可见,职业与收入水平之间有中等程度的相关;而用E2值则可说明,用职业预测收入水平,可以消减20%的误差。工人教师干部收入(元)250340380280280360300320340220380400320260300380340320350350频数ni767均值300320350(2)用第二种方法,会更加简化计算过程,提高精确度。也需要计算
,,方法同上,还需要分别计算
。工人教师干部收入(元)25062500340115600380144400280784002807840036012960030090000320102400340115600220484003801444004001600003201024002606760030090000380144400340115600320102400350122500
350122500频数i767均值300320350第五节:定距变量与定距变量(Interval
byInterval)前面几类相关的测量大多利用变量值的频数来进行计算,这是由定类、定序变量的数学特征决定的。对于定距变量来说,由于它们是数值型的,因而我们可以利用变量的取值本身计算更精确一些的相关系数来反映它们之间的相关程度,这种系数就是皮尔逊相关系数r,或称皮尔逊积差相关系数,其计算公式为:-1≤r≤1【例1】对10人工人进行调查得到以下数据,试求工人的年龄和收入之间的相关程度
【工人代号12345678910年龄(岁)25324128375044543326收入(元)280300350300380360400420260250为了便于计算,先求出然后再编制表格:r系数显示,在年龄和收入之间,具有很强的正相关关系,即年龄越大,工资收入越多。年龄X收入Y25280-12144-50250060032300-525-3090015041350416204008028300-981-3090027037380005025000503601316930900390444007497049004905442017289908100153033260-416-70490028026250-11121-806400880∑3703300910324004670对于频数分布表,r的计算公式为:f为各组所对应的频数。【例2】100名青年受教育年限与理想子女数表
受教育年限X理想子女数Y人数f19148-1.925614.44-60.8162105-0.92508.1-451531040.11600.14122251-0.92520.25-22.59326-20.11040.26-5.29410-21.14012.1-226510-52.125044.1-105645-51.11256.05-27.5∑11002901001210105.4-284结论:计算结果显示,所调查的100名青年中,受教育年限与理想的子女数目之间存在着较强的负相关,即受教育年限越长,其理想的子女数目越少。Notice:(1)r是一种对称关系的测量,如果将XY的位置互换,r的取值不变;(2)r的取值在【-1,1】之间,绝对值越大,相关程度越高;绝对值越小,相关程度越低。社会科学中的现象一般都是弱相关,r的取值通常在0.3-0.7之间就算是明显的相关了;(3)r的取值具有方向性,取值为正表明是正相关,取值为负表明是负相关;(4)r本身不具有消减误差比例的意义,但是其平方r2具有消减误差比例的意义。r2又称为决定系数或判定系数,它具有直观的解释意义。决定系数r2的PRE意义:比如【例1】中研究工人的年龄和收入之间的关系,r=0.86,r2=0.74,说明用工人的年龄来预测收入时能够消减74%的误差;【例2】中研究100名青年受教育年限与理想子女数之间的关系时,r=-0.79,r2=0.62,说明用受教育年限来预测和估计其理想子女数时可以消减62%的误差。各种层次变量之间的相关测量方法总结表
两变量层次相关系数取值范围是否对称有无PRE意义检验方法定类-定类(定类-定序)Q,Lambda()Tau()【-1,1】【0,1】【0,1】不对称;对称,不对称不对称无;有;有;检验定序-定序Gamma(G)Kendall’sτSomer’sd【-1,1】【-1,1】【-1,1】【-1,1】对称;对称;对称;不对称无(rs2有)有;有,无有;Z检验定类-定距(定序-定距)Eta(E)E2【0,1】【0,1】不对称;不对称;无,有;F检验定距-定距rr2【-1,1】【0,1】对称;对称;无;有;F检验或t检验第六节:回归分析
(RegressionAnalysis)回归概念的提出(了解):回归的概念是由英国的生物学家高尔顿首先提出的,他在1887年研究人体身高的遗传问题时发现,身高的遗传与遗传学通常的观点并不一致。按遗传学的观点,子辈身高Y与父辈身高X之间有相关关系,通常父辈较高者,其子辈也高,依此推论,一代代的遗传下来,人们的身高必然两极分化。但事实上,在每个族群中个体的身高一般都在某个平均身高附近波动,也就是说子辈身高趋向父辈平均身高,高尔顿把这种趋向中心的现象称为回归。回归分析是一种因果分析,对象是定距及以上层次的变量。如果自变量只有一个,称为一元回归;如果自变量有两个或两个以上称为多元回归;回归分析的中心是建立回归方程;根据回归方程的特征,由可以分为线性回归和非线性回归。一元线性回归分析是所有回归分析的基础,也是我们介绍的重点和难点,其统计学基础是最小二乘法。回归分析的步骤:(1)首先根据理论分析或根据研究的需要确定自变量X和因变量Y;(2)先根据相关数据作散点图来观察X和Y的关系,如果两变量的确呈现出一定的线性相关趋势,便可以进行回归分析;张彦教材P224-225(3)回归直线方程为:Y=a+bX,其中常数a表示直线在Y轴上的截距,b表示直线的斜率,被称为回归系数。Y=a+bX【例】下面是10个女性教育年限和家务劳动时间的关系,求回归直线方程。教育年限X家务劳动时间Y65-2.92.2-6.388.4164-2.91.2-3.488.4164-2.91.2-3.488.41940.11.20.120.01930.10.20.020.01930.10.20.020.01920.1-0.8-0.080.01910.1-1.8-0.180.011314.1-1.8-7.3816.811314.1-1.8-7.3816.818928-28.258.9回归方程的作用:回归方程有很好的预测功能,比如我们知道受教育年限跟家务劳动的时间的回归方程为Y=7.07-0.48X,如果X=10,则家务劳动的时间为:Y=7.07-0.48×10=2.27;如果X=8,则家务劳动的时间为:Y=7.07-0.48×8=3.23.
年龄X收入Y25280-12144-5060032300-525-3015041350416208028300-981-3027037380005005036013169303904440074970490544201728990153033260-416-7028026250-11121-8088037033009104670课堂练习年龄X收入Y25280-12144-5060032300-525-3015041350416208028
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设备管道防腐保温施工方案
- 2024年购车贷款协议样式版
- 幼儿园教师工资制度
- XXX开工庆典施工方案
- Naphthol-AS-phosphate-99-TLC-3-Hydroxy-2-naphthanilide-phosphate-99-TLC-生命科学试剂-MCE
- 液化石油气站检查计划书
- 养殖场消毒合同
- 研学活动安全管理协议书
- 俄罗斯概况学习通超星期末考试答案章节答案2024年
- MOPS-hemisodium-salt-98-生命科学试剂-MCE
- 《劳动专题教育》课件-劳动的目的
- 盾构施工超前地质预报方法
- 湖北省武汉市青山区2023-2024学年部编版七年级历史上学期期中试题
- 政府与企业屋顶太阳能光伏合作开发框架协议
- 幼儿园户外体育游戏的教师支持研究
- 做负责任的人
- 【道德与法治】云南省保山市腾冲市2023-2024学年九年级上学期期末试题
- 电影八佰观后感
- 消防比武裁判员宣誓稿
- 湖北省武汉市东湖高新区2021-2022学年九年级上学期期中考试化学试题
- 出口托运单据课件
评论
0/150
提交评论