社会统计学相关测量法与变量层次PPT课件_第1页
社会统计学相关测量法与变量层次PPT课件_第2页
社会统计学相关测量法与变量层次PPT课件_第3页
社会统计学相关测量法与变量层次PPT课件_第4页
社会统计学相关测量法与变量层次PPT课件_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、相关测量的六种情况 两个定类变量 两个定序变量 两个定距变量 一个定类变量与定序变量 一个定类变量与定距变量 一个定序变量与定距变量第1页/共40页第一节 两个定类变量n Lambda 相关测量法 基本逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。消减的误差在全部误差中所占的比例愈大,就表示这两个变量的相关越强。 Lambda 相关测量法有两种形式。一种是对称形式,简写是系数,即不分自变量与因变量。另一种是不对称形式,简写是y系数,即要求一个是自变量,一个是因变量。第2页/共40页系数n E1的定义:n未知y与x有关之前,如果预测y值,唯一

2、可资依据的就是y本身的分布。由于y与x无关,所以只能根据y的行边缘和(与x无关)去预测y,也即由y的行边缘和中最大者众值,去预测y,可能性最大。 E1 = n max(n*j) (即总频次n减去y的行边缘和中最大者) 分析:n(1)E1 = 0 (E1最小)当 max(n*j) = n 时,E1 = 0。也即众值极大,异众比率为0,此时众值代表性最高,故E1为0。n(2)E 1 = n (E1最大)当 max(n*j) = 0 时,E1 = n。也即众值为0,异众比率最大,此时众值代表性最低,故E1为n。第3页/共40页nE2的定义:n 当已知y与x有关之后,如果再去预测y值,则可借助x预测y

3、。即用各类x条件下,y的条件分布中的众值去预测y,可能性最大。 E2 = n max(nij) 分析:n1)E2 = 0 (即max(nij) = n,即各类x条件下的众值皆为最大值)n2)E2 = n (即max(nij) = 0,即各类x条件下的众值皆为最小值)第4页/共40页系数计算公式yyyyyyyMnMmMnmnMnEEE)()()(121)(2)(yxyxyxMMnMMmm其中,My=Y变量的众值次数, Mx=X变量的众值次数 my=X变量的每个值(类别)之下Y变量的众值次数 mx=Y变量的每个值(类别)之下X变量的众值次数第5页/共40页例:对称与不对称系数 表 青年人与其知心朋

4、友的志愿自己志愿自己志愿知心朋友志愿知心朋友志愿快乐家庭理想工作增广见闻总数快乐家庭289340理想工作241750增广见闻24410总数325414100)(2)(yxyxyxMMnMMmm47. 05054-10025054-7412844128)()()()()(yyyyMnMm52.0502650-10050-74128)(第6页/共40页系数与尤拉Q系数爱好爱好男男女女篮球9010跳绳1090bcadbcadQ976. 082008000101090901010-9090yyyMnMm8.010080100-200100-9090)(第7页/共40页系数的缺点nLambda相关测量法

5、的特点是以众值作为预测的准则,不理会众值以外的次数分布。因此,如果全部众值集中在条件次数表的同一列或同一行中,则Lambda系数便会等于0.南方南方北方北方边缘次数边缘次数面食52025米食453075边缘次数5050n=100yyyyMnMm075-10075-3045)(第8页/共40页tau-y相关测量法n tau-y是不对称相关测量法,这个方法是在计算系数值时会包括所有的边缘次数和条件次数。12121-)()(EEEytauFffFEnFFnExxyy其中:其中: nn=全部个案书目,全部个案书目,nf=某条件次数某条件次数nFy=Y变量的某个边缘次数变量的某个边缘次数nFx=X变量的

6、某个边缘次数变量的某个边缘次数第9页/共40页n 再以饮食习惯表为例:5.3710075)75100(10025)25100(1E335030)3050(20)2050(5045)4550(5 ) 550(2E12. 05 .37335 .37-121EEEytau第10页/共40页练习题1 题:以下是某高校对高、低年级学生求职意愿的抽样调查。问:(1)计算不对称Lambda系数;(2)计算tau-y系数;(3)建立条件百分表。高年级高年级低年级低年级学校学校1010企业企业2010机关机关1020第11页/共40页第二节 两个定序变量n Gamma系数 级序相关法的基本逻辑是要求出;根据任何

7、两个个案在某变量上的等级来预测他们在另一个变量上的等级时,可以减少的误差是多少。 同序对与异序对:假设样本的全部个案数目是n,就会组成1/2n(n-1)对个案。某对个案在两个变量上的相对等级时相同,则成为同序对;如果是不相同,则成为异序对。第12页/共40页同序对与异序对x xy yx1y1x2y2x3y3x4y4x xy yx1y1x2y2x3y3x4y4x xy yx1y1x2y2x3y3x4y4x xy yx1y1x2y2x3y3x4y4第13页/共40页同分对n两个个案在某变量上次序相对,无法分高低,即同分对。通常以Tx代表只在X变量上同分的对数,以Ty代表只在Y变量上同分的对数,而以

8、Txy代表在两个变量上都是同分的对数。工厂工厂积极性积极性等级等级产量等产量等级级A55B33C41D1.53E1.53第14页/共40页Gamma系数n Gamma系数的计算公式如下: 其中:Ns 是同序对数,Nd异序对数。 G的绝对值越大,就表示所犯的错误可能性越小,G是负值,则如果知道一对个案在某个变量的相对等级,就应该估计他们在另一个变量上的相对等级是相反的。反之亦然。dsdsNNNNG第15页/共40页求下表G系数工厂工厂积极性等级积极性等级产量等级产量等级A55B33C41D1.53dsdsNNNNGE1.5314.0343-4nG系数是属于对称相关测量法。如果是非对称,即一个是自

9、变量,一个是因变量,则适宜于简化不对称关系的萨默斯dy系数。第16页/共40页萨默斯dy系数 dy的计算公式如下: 其中:Ns 是同序对数,Nd异序对数,Ty是只在因变量上同分的对数。 假设积极性等级是x,产量是Y,求dyydsdsyTNNNNd第17页/共40页计算列联表的同序对与异序对高高中中低低高高n1n4n7中中n2n5n8低低n3n6n9高高中中低低高高n1n4n7中中n2n5n8低低n3n6n9n同序对:n1(n5+n6+n8+n9)+n2(n6+n8)+n4(n8+n9)+n5(n9)n异序对:n7(n2+n5+n3+n6)+n4(n2+n3)+n8(n3+n6)+n5(n3)第

10、18页/共40页计算列联表的同分对高高中中低低高高n1n4n7中中n2n5n8低低n3n6n9高高中中低低高高n1n4n7中中n2n5n8低低n3n6n9n同分对:Tx=n1(n2+n3)+n2(n3)+n4(n5+n6)+n5(n6)+n7(n8+n9)+n8(n9)n同分对:2) 1(219911nnnnTxy)(第19页/共40页例:计算G系数与dy系数大学大学中学中学小学小学美满美满9165一般一般83018不美满不美满347婚姻美满文化程度n同序对:9(30+18+4+7)+8(4+7)+16(18+7)+30(7)=1229n异序对:5(8+30+3+4)+18(3+4)+16(8

11、+3)+30(3)=617n同分对:9(16+5)+16(5)+8(30+18)+30(18)+3(4+7)+4(7)=1254nG系数=0.33ndy系数系数=0.22第20页/共40页肯德尔的tau系数ntau系数的基本逻辑是计算同序对数与异序对数之差在全部的可能对数中所占的比例。公式如下:) 1()(2-) 1(21-2mnNNmctauTNNTNNNNbtaunnNNataudsydsxdsdsdsn其中m是列联表中行数与列数中的较小者。第21页/共40页斯皮尔曼rho系数n斯皮尔曼rho系数的特点是计算每个个案在两个变量上的等级时,不仅要区别两者的高低差异,而且还要计算二者差异的确切

12、数值。 其中D表示每个个案在两列级序上的差异值,n表示全部个案数目。D平方可以避免正负值抵消 rho系数是对称相关测量法,要求同分情况不多,统计值在-1至1之间。其平方值可以有消减误差比例的意义。)1(6122nnDrs第22页/共40页求斯皮尔曼rho系数参赛人参赛人ABCDEFGHIJ评判员112435876910评判员212345687910等级差等级差d001-102-1-100d平方平方0011041100) 1(6122nnDrs95. 0990481) 110(10)8(612第23页/共40页第三节 两个定距变量n 简单线性回归分析法 简单线性回归时根据一个直线方程式,以一个自

13、变量X的数值来预测一个因变量Y的数值。目的是要找出一个错误最小的方法来预测因变量的数值。 其中X是自变量数值;b成为回归系数,表示回归线的斜率;a是截距,是回归线与Y轴的交点;是根据回归方程所预测的Y变量值。abXYY第24页/共40页最小二乘法n回归法在绘制回归线时所根据的准则是最小二乘法。假定我们根据一条直线来以自变量X估计因变量的某个值,所估计的值是Y1,而实际上该值是Y2,则误差便是:e=Y2-Y1n各个e相加起来就是误差总数,为防止正负值相抵消的问题,改为e的平方值相加起来,即直线应使 最小。2e第25页/共40页计算公式 斜率 截距n其中X是自变量值, 是自变量的均值,Y是因变量值

14、, 是因变量的均值,n是全部个案数目。222)()()()()()(xxnyxxynxxyyxxbnxbyxbya)(XY第26页/共40页例1:计算回归方程妇女妇女教育年期教育年期劳动小时劳动小时A25B24C34D33E41F41G40H60I80总数总数3618XY1042584161291699941614161016003600640471746832.583.032.59)36)(83.0(1883.0)36()174(9)18)(36()47(92XYab第27页/共40页回归与相关n线性回归方程不仅具有简化资料的作用,而且可以推广应用于预测或估计样本之外个案的数值。 回归系数(

15、b)表示X对Y的影响有多少,指每增加一个单位的X值时Y值的变化有多大。 B值是表示自变量对因变量的影响的大小与方向,它是不对称关系的统计法。 回归方程不具有消减误差比例作用,一般在计算回归方程时须进行相关系数测量。如果相关系数比较小,消减误差比例太少,则不适合作线性回归方程。第28页/共40页积矩相关测量法nb系数没有上限,很少用来比较变量与变量之间的相关程度。而且容易受到统计单位的影响。nr系数与b系数的不同地方,是r系数假定X与Y的关系是对称的,而且r的统计值是-1至1,同时r2具有消减误差比例的意义。r2称为决定系数。第29页/共40页r系数n r系数计算公式如下: r系数与简单线性回归

16、都是假定X与Y的关系具有直线的性质。如果非直线,就会犯错误。222222)()()()()()(YYnXXnYXXYnYYXXYYXXr第30页/共40页第31页/共40页直线与非直线第32页/共40页第四节 定类变量与定距变量n相关比率,又称为eta平方系数(E2),是以一个定类变量为自变量,来预测或估计以一个定距变量为因变量的值。 其中,Y是因变量的值, 是因变量的均值; 是自变量值(Xi)上各因变量的均值。222222222)()()(EEYnYYnYnYYYYYYEiiiYiY第33页/共40页 表1 20名学生的家庭职业背景对英文水平的影响职业种类职业种类干部工人农民7852838259759173828561788180808351906454ni785Yi84.2961.7579.6Si4.409.642.87英文水平(得分)英文水平(得分)第34页/共40页非线性关系n比较E值与r值的大小,就可以大致知道是否非直线关系:两者相差愈大,显示变量之间的关系越是非直线。第35页/共40页练习1:主

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论