已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十二章 定性资料的统计分析,第一节 定性变量数量化 在实际研究问题时,往往会涉及到定性变量(如名义尺度变量),如性别、职业等,这些变量只有各种状态的区别,而没有数量上的区别。定性变量不进入数学关系式,就会丢失信息;若要进入,又难以直接加以运算,从20世纪50年代开始发展了数量化理论。 如何对定性变量给以相应的数量描述,从而进行数量化分析,是数量化理论所研究的主要内容。 例如:定性变量是性别,记为X,则:,这种赋值并没有任何数量大小的意义,它仅仅用于说明观察单位的特征或属性,因此,不同特征或属性的观察单位应取不同的值。 又如:天气可取晴、阴、雨三类,则用两个变量表示天气:,推广:若某定性变量可取K类,则用K-1个变量表示,其赋值方法为:,第二节 列关联表,在实际工作中,人们常常用列联表的形式来描述属性变量(顺序尺度或名义尺度)的各种状态或相关关系。这在某些调查研究项目中运用得最为普遍。 例如:要研究吸烟与患肺癌的关系:用A表示一个人是否患肺癌,用B表示一个人是否抽烟,如果两个定性变量分别要考察n和p个,则相应的列联表为np表,为了更为方便地表示各频数之间的关系,将列关联表中的每一个元素,都除以元素的总和n,令,得到频率意义上的列联表。,另,根据上表,,对于研究对象的总体,频率意义上的列联表中的元素有概率的意义,,是特性A第i状况与特性B第j状况出现的概率,而,与,表示边缘概率。考察各种特性之间的相关关系,就可以通过研究各种状况出现的概率入手。如果特性A与特性B之间是相互独立的,则对任意的i与j,有下式成立:,即如果特性A与特性B之间相互独立的话,特性A第i状况和特性B第j状况出现的概率应等于总体中第i状况出现的概率乘以第j状况出现的概率。,令,表示由样本数据得到的特性A第i状况和特性B第j状况出现的期望概率的估计值,我们可以通过研究特性A第i状况和特性B第j状况出现的实际概率,与,的差别大小来判断特性A与特性B是否独立。,如何判断属性变量是否独立?可用皮尔逊拟合优度,检验。,:属性变量A与B相互独立,若,与,的差距大,表明,为真的可能性越小,给出显著性水平,查找出临界值,可获得其拒绝域。,例:某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同,在随机发放的1000份问卷中收回有效问卷792份,收入高低和满意回答的交叉数据如下:,概率意义的列联表,自由度为(3-1)(2-1)=2,给定显著性水平0.05,自由度为2,查,分布表得临界值为5.991,所以,认为收入高低和对产品的满意度是有关联的。,第三节 对数线性模型,列联表分析无法系统地评价变量间的关系,也无法估计变量间交叉作用的大小,而对数线性模型是处理这些问题的最佳方法。 对数线性模型有很多种类,常用的模型有:饱和型(当变量间相互不独立时),非饱和型(变量间相互独立)等。 下面从22的交叉列联表的频数表与概率表出发,介绍对数线性模型的基本理论和方法。,频数表,概率表,在对数线性模型分析中,要先将概率取对数,再分解处理,处理后的变量有较好的数学、统计性质。,令,令,对上面三式各取平均数,于是有:,记,其中:,移项可得:,称,为A属性的主效应,,为B属性的主效应,,为A、B因素的,交互效应。根据,值的正负和相对大小,可以判断A因素的第i个水平与B,因素的第j个水平间的交互效应。当,表明两者存在正效应,若,,则存在负效应,当,时,A、B因素相互独立.,若,均为0时,,模型为非饱和模型,即因素间相互独立,否者为饱和模型,即因素间有交互效应,在实际运用时,概率可用其估计值代替,即,例:某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同,在随机发放的1000份问卷中收回有效问卷792份,根据收入高低和满意回答的交叉数据如下:,各单元的频数概率表,概率对数表,=-2.87062-2.18393=-0.68669,=-1.29697-2.18393=0.886957,=-2.38419-2.18393=-0.20027,=-1.75694-2.18393=0.426991,=-2.61092-2.18393=-0.42699,=-0.26064,=0.26064,=0.26846,=-0.26847,=-0.00783,=0.00782,分析提供的信息:,为正值,说明接受调查的多数顾客对其产品还是满意的。,,说明各收入阶层的顾客对其产品的满意程度是不同的,,其中,高收入的顾客满意程度最低,而中等收入的顾客满意程度最高。,为负值表示高收入于对产品的满意程度是负效应的,,为正表明中等收入者与对产品的满意程度是正效应的。同理,,低收入人群对其产品的满意程度也是负效应的。该企业的主要消费阶层是中等收入者,同时中等收入者对其产品的满意程度也最好。,第四节 Logistic回归模型,Logistic回归分析要求因变量是分类变量,包括顺序尺度变量和名义尺度变量,不论是哪种变量都要求用数字来表示它的取值。自变量可以是定性的也可以是定量的。关于模型的个数,它取决于因变量的取值个数,因为Logistic回归模型描述的是因变量取每个值的概率与自变量的关系,因此因变量的每一个值都对应一个模型。但是由于概率之和为1,所以当因变量是g值变量时,只需要估计g1个模型就可以了。,一、Logit变换,在研究某一事件A发生的概率,以及,值的大小与哪些因素有关时,会发现,对,的变化在,或,的附近不是很敏感,,于是希望寻找一个,的函数,使它在,或,附近的一个微小变化都比较敏感,,而且函数的形式也不要太复杂。根据数学上导数的意义,用,来反映,在,附近的变化是很合适的,同时希望,或,时,,有较大的值,因此可取,这一变换就称为Logit变换。,令,设因变量,是一个取值为0和1的二值变量,以简单线性回归模型为例,根据离散型随机变量期望值的定义,可得,四、Logistic回归模型的参数估计,例12.2:在一种商品的降价优惠券的有效性研究中,抽取了1000个家庭,对每个家庭发放了商品的降价优惠券和广告宣传,优惠券的额度不同,分别为(5,10,15,20,30)元,每种票面的优惠券均发放200个家庭,在这项研究中,自变量是降价额,因变量为二值变量:在6个月内是否兑现优惠券,兑现的用1表示,未兑现的用0表示,试用Logistic回归模型拟合下列的实验数据。,表12-6 优惠券的发放及兑现数据,票面额度(元),持券人数(人),兑现人数,兑现比例,五、参数检验和回归模型的检验,检验Logistic回归模型参数的统计假设是,检验上述统计假设常用的方法是Wald统计量,其统计量为,通过证明,Wald统计量近似服从自由度等于参数个数的卡方分布
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 日用化妆品供销合同示例
- 工业厂房通风工程承包合同
- 2024年度专业服务供应协议模
- 2024年度工程招标信息保密协议
- 校外培训机构疫情防控运营方案
- 公共卫生服务项目质量控制方案
- 小麦玉米轮作优化方案
- 医院感染控制防疫方案
- 高校课程创新校本培训实施方案
- 2024年房产交易化协议文本
- 老年人慢性心力衰竭诊治中国专家共识
- 资料员岗位培训
- 四史改革开放微团课ppt
- 名著导读《艾青诗选》:如何读诗(教学设计) 九年级语文上册同步备课系列部编版
- 20人小公司管理制度模板
- 《整式的乘法与因式分解》说课稿
- 劳务施工组织方案 劳务施工组织设计(八篇)
- 铁路运输调度指挥
- GB/T 3293.1-1998鞋号
- GB/T 31489.1-2015额定电压500 kV及以下直流输电用挤包绝缘电力电缆系统第1部分:试验方法和要求
- 建设工程企业资质改革措施表2020
评论
0/150
提交评论