版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章双变量简单描述统计
第一节统计相关性一、相关的概念一个变化,另一个值按照某种规律在一定范围内变化,被称为不确定的统计关系或相关关系。例如收入与支出的关系。注意区分函数关系与相关关系:函数关系是确定的,一个变量取某一值,另一个变量有确定的值与之对应。例如,销售量与销售额(价格固定)。相关关系与因果关系:相关的两个变量,不一定有因果关系。对称关系与不对称关系:相关的两个变量有时互相影响或共同变化的,不存在某一变量变化引起另一个变化,称为对称关系。如果X变量引起Y变量变化,而Y变量变化不引起X变量变化,则为不对称关系。二、相关方向(directionofassociation)1、正相关:一个变量值增大,另一个也增大,反之都减小。2、负相关:一个变量值增大,另一个减小。相关方向分析只限于定序或定距变量,定类变量无高低之分,不可能有正负之分。三、相关程度(degreeofassociation)两个变量的相关程度有强弱之分,通常由0到1,0代表不相关,1代表全相关。数值越大,相关关系越强。第二节交互分类与联列表一、联列表的基本概念在讨论两个变量尤其是两个定类变量x和y是否存在相关关系时,可以先将数据按x分类,然后分别统计当x取不同类别值时y的分类情况。就得到了数据按两个定类变量进行交叉分类的频次分布表,即二维联列表。例1:某小区对居民的收视爱好进行调查,根据不同年龄和喜爱的电视节目类型进行分类表1:年龄和收视爱好的交叉分类表老年中年青年合计戏曲2010636歌舞5203055球赛2t102638合计27/4062129、条件次数边缘次数边缘次数:按行或按列合计起来的频次。条件次数:当某一变量取不同类别值时,另一变量的频次。
频次联列表的缺陷:由于边缘次数不同,仅根据条件次数无法进行比较核分析相关关系,需要制作条件百分表,表2。表2:不同年龄人群的收视爱好分布老年(%)中年(%)青年(%)戏曲74.125.09.7歌舞18.550.048.4球赛7.425.041.9合计(%)100.0100.0100.0通过计算条件百分比,可以知道:年龄和收视爱好相关,随着年轻化,喜爱戏曲的比例逐渐下降,而歌舞和球赛越来越受欢迎。二、制作联列表1、制表规则(1)要有表号、标题。(2)线条简洁、符号标注在标题后或第一行变量类别后。(3)小数点位数统一。2、计算百分率社会学研究通常以自变量作为计算百分率的方向,如表2。如果以因变量来计算百分率方向,则得出表3:表3不同收视爱好人群中的年龄分布老年中年青年合计戏曲55.627.816.7100.0歌舞9.136.454.5100.0球赛5.326.368.4100.0表3表示不同收视爱好的人群中有多少是老人,多少是中年,多少是青年,这容易受到调查样本中的年龄分布影响。如果样本分布如下表,很容易得出老年人比年轻人更喜欢歌舞的结论。错误情况:以因变量计算百分率老年中年青年合计歌舞2050%1332.5%717.5%40100%合计10071%2518%1511%140100%正确情况:以自变量计算百分率老年中年青年歌舞2020%1352%747%合计100100%25100%15100%第三节相关测量法相关测量法就是要计算出一个相关系数,以此来描述变量之间的关系。相关系数值越大代表相关程度越高,对于定距变量和定序变量来说,还可以测定相关方向。一、PRE测量法的基本原理——消减误差比例如想了解生活满意度,在无任何数据资料的情况下仅主观预测必然有误差。假定收入与生活满意度有关,根据已知的收入预测满意度,应该可以减小误差。且收入与生活满意度关系越强,所能减少的预测误差就会越多。即能消减的误差大小反映了两变量之间的相关程度。不知道收入时预测生活满意度所产生的全部误差是E1。知道收入则可以根据每个样本的收入值来预测生活满意度,产生的误差是e2。用收入预测生活满意度减少的误差是E1-E2。PRE=E2—Ei就是消减误差比例E1PRE越大,以收入来预测生活满意度所减少的误差所占的比例越大二者关系越强。E2等于0,以X预测Y不会产生任何误差,则PRE等于1,说明二者完全相关。E2等于E1,以X预测Y产生的误差等于不以X预测Y产生的误差,PRE等于0,完全不相关。PRE等于0.8,以X预测Y可以减少80%的误差。二、几种PRE测量法的应用1、Lambda相关测量法一一定类与定类、定类与定序(视为定类)定类变量值使用众值作预测所犯错误最小。Lambda相关测量法指以一个定类变量的值来预测另一个定类变量值时,如果以众值为预测准则,可以减少多少误差。两种形式:对称和不对称关系。(0-1之间)Zm+Zm—(Mx+My)弋'寸尔2〃—(Mx+My)公式2:(不对称》…yn—MyMy表示Y变量的众值次数;Mx表示X变量的众值次数;my表示X变量的每个值之下Y变量的众值次数;mx表示Y变量每个值之下X变量的众值次数;n表示全部个案数。公式2中,假定X为自变量,Y为因变量。分母表示在不知道X的值情况下来预测Y的众值所产生的全部误差,即E1=n-My;分子表示根据X值来预测3Y的众值所能消减的误差,即E1-E2=n-My-(n-袂)=^my-My。例2:分析年龄与收视爱好的关系,以年龄来预测收视爱好,用不对称公式。表4:老年中年青年合计戏曲1810331歌舞5201843球赛2101426合计254035100X==56-43/100-43=13/57=23%,以年龄预测收视爱好可减少23%yn—My的误差。公式1中,假定X和Y不分自变量和因变量,在计算系数值时既根据X来预测Y的众值,也根据Y来预测X的众值,然后取二所消减的误差的平均数。例3:本人爱好与好友爱好之间是否存在相关性?难以区分因果用对称公式。表5:本人健身爱好Y好友的健身爱好X游泳羽毛球瑜伽合计游泳289340羽毛球241750瑜伽25310合计325513100Xy=74+76-(55+50)/200-(55+50)=0.46说明以两个变量互相预测,可以减少46%的误差。练习题1/例4:分析职业类型X对价值观Y的影响表6制造业服务业合计物质报酬10545150社会地位402565合计14570215七=105+45-150/215-150=0为何等于0?因为众值全部集中在条件次数表的同一行中。Lambda测量法的特点是以众值作为预测的准则,不关注次数分布,所以会出现等于零的情况,但实际上可能是有关系的。鉴于此采用另一种测量法tau-y系数。2、tau-y相关测量法一一定类与定序(视为定类);不对称测量法;该法在计算相关系数时会考虑到所有的边缘次数和条件次数。计算公式:首先求出E1(不知道X而预测Y的全部误差)和E2(知道X预测Y时的误差),然后计算消减误差比例。E1=£(n-Fy)Fy/n;E2=£(Fx-f)f/FxTau-y=E1-E2/E1(0-1之间)n=样本总数,f=某条件次数,Fy=Y变量的某个边缘次数;Fx=X变量的某边缘次数以表4为例:年龄组X对收视爱好Y的影响老年中年青年合计戏曲1810331歌舞5201843球赛2101426合计254035100自变量年龄组的边缘次数Fx分别是25、40、35;因变量收视爱好的边缘次数Fy分别是31、43、26;有9个条件次数,分别代表某项Y值和X值相交叉的个案数目,代入公式:E1=31(100-31)/100+43(100-43)/100+26(100-26)/100=21.39+24.51+19.24=65E2=18(25-18)+5(25-5)+2(25-2)/25+10(40-10)+20(40-20)+10(40-10)/40+3(35-3)+18(35-18)+14(35-14)/35=(126+100+46)/25+(300+400+300)/40+(96+306+294)/35=10.88+25+19.9=56Tau-y=65-56/65=0.138,不但代表相关程度,也可以解释为以年龄来预测收视爱好可以消减13.8%的误差。如何理解以上公式:当不知道X时(仅知道最后一列),每次预测Y的一个类型值如戏曲的错误概率是(100-31)100,再乘以31便是预测戏曲的错误总数;将预测各个Y值的错误总数加起来就是E]。同理,当知道X时(整个表都已知),预测Y值时可以利用年龄组信息,老年人中有18个喜欢戏曲,预测错误/不喜欢的概率的7/25,再乘以18就是利用老年组信息预测戏曲时的错误次数,再将每个X值下的各个Y值预测错误相加起来就是E2。Tau-y测量法考虑到全部次数,敏感度高于Lambda测量法,以Tau-y测量法重新计算练习题2/例4:分析职业类型X对价值观Y的影响,Tau-y=0.007,表示职业类型对价值观是略有影响的。因此,如果是不对称关系,最好用Tau-y系数来分析相关关系。3、相关比率/eta平方系数值E2——定类与定距;定序(视为定类)与定距以一个定类变量为自变量,以一个定距变量为因变量。根据自变量的每一个值来预测因变量的均值。E由0到1,E2具有消减误差比例的意义。E—V—(Y-y)2_乙(y-y)2公式1:E2==1—乙(Y-Y)2Y是因变量的真实值,Y是因变量的均值,Yi是每个X值对应的各个Y值的均值。基本原理:当不知道X时,以均值作为预测标准,全部误差是Z(Y-Y),取平方以避免正负互相抵消。如果知道X值,预测依据则为对应于这个X值的各个Y值的均值(因为假设X和Y之间相关,在每一个X值下的各个Y间方差更小,均值比总体均值更接近真实值),这样预测的误差是S(Y-Yi),同样取平方。那么,消减的误差就是Z(Y-Y)2-Z(Y-Yi)2一一一一乙niY2—nY2.一.公式1简化为公式2:E2=£;;nY2(n.是每个自变量值的个案数)例8:表9:家长职业X对孩子英语成绩Y的影响干部职业工人农民785283英825975语927382成906178绩8580808151836454ni78584.29
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《联合国国际货物销售合同》43条
- pdf两份合同快速对比
- 2024年义务教育质量监测服务合同
- 2024招投标文件合同专用条款-跨境电商供应链合作协议2篇
- 二零二五年度水上乐园安全运营服务协议3篇
- 二零二五年度新材料研发与应用合同补充协议
- 二零二五年度板材库存管理服务合同
- 2024版地铁口商铺租赁合同(含租赁保证金退还及违约责任)3篇
- 2024版劳务派遣保安合同3篇
- 2025技术入股合同范本样本
- TB 10106-2023铁路工程地基处理技术规程
- 三年级下册综合实践活动教学设计- 岭南水果|粤教版 52张
- 中医护理学 课件 模块七 中医护理操作 项目四麦粒灸技术
- 小学心理健康教师资格考试面试2024年下半年试题与参考答案
- 二级MS操作题真题
- (正式版)CB∕T 4550-2024 船舶行业企业安全设备设施管理规定
- DZ∕T 0201-2020 矿产地质勘查规范 钨、锡、汞、锑(正式版)
- 2024年(中级)嵌入式系统设计师软考试题库(含答案)
- 小小科学家《物理》模拟试卷A(附答案)
- 2023年检验科室间质评年度总结
- 配件供应技术服务和质保期服务计划方案
评论
0/150
提交评论