版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、对数线性回归,多元社会统计分析,一、对数线性模型简介,1、对数线性模型基本思想 对数线性模型分析是把列联表资料的网格频数的对数表示为各变量及其交互效应的线性模型,然后运用类似方差分析的基本思想,以及逻辑变换来检验各变量及其交互效应的作用大小,2、列联表的四种类型,双向无序列联表; 单向有序列联表; 双向有序且属性不同的列联表; 双向有序且属性相同的列联表,3、列联表的优势,约束条件少 清晰 可以快速准确进行判断,4、列联表的劣势:对于多关系变量(两个以上)研究:不能被清晰解读,失去了对多变量之间的交互联系的分析 进行两变量间关联分析时缺乏统计控制 不能准确定量描述一个变量对另一个变量的作用幅度
2、,5、对数线性模型:多维度列联表解决之道,以及模型自身特点,通过数学方法(方差分析+逻辑变换)来描述多元频数分布。 综合性:同时囊括多个变量于一个模型之中。 控制性:可以在控制其他变量的条件下研究两个分类变量之间的关联。 饱和性:将多元频数分布分解成具体的各项主效应和各项交互效应,以及高阶效应,不会漏项。(饱和模型与不饱和模型) 定量性:以发生比的形式来表示自变量的类型不同反映在因变量频数分布上的差异。 可检验性:不仅可以对所有参数估计进行检验,使抽样数据可以推论总体,且能够通过不同模型的统计检验结果,对备选模型进行筛选和评价,进而确定具有最大解释能力且最简单的模型。 消除抽样波动所带来的明显
3、的不规则性,6、对数线性模型的缺点,对数线性模型更强调的是变量之间的交互效应,它不能直接将因变量用自变量的函数表示出来。 对数线性模型抽象复杂,特别是高维模型,不如线性回归模型易理解,二、对数线性模型的基本原理,1、与方差分析相关的 在多元方差分析中,以二元方差为例:每一个观测值yij=+Ai的效果+Bj的效果+(AB)ij交互作用+ij,2、比数比,比数比是对数线性模型的基础,而比数比又是由比数计算而来。那么什么叫做比数呢?比数是一个事件发生的概率与其不发生概率之比,测量了一个事件发生的可能性。这个数值越高说明结果2相对于结果1发生的可能性就越高。,Fij代表某模型fij的期望值,令ij 代
4、表与单元格(i , j)有关的期望概率 上表可转化为,1=12/11 2=22/21 同理我们可以测量两个两个类别间的比值,称作比数比。 = 1/ 2=2221/1221=F11 F22/ F12 F21 一个大于1的比数比意味着行变量和列变量的第二个(或者第一个)存在正相关;等于1无关;小于1负相关。,比数比的不变性,不随1)总样本量2)行边缘分布3)列边缘分布的变化而变化。所以,只要关心比数比的估值,那么适用于简单随机样本的最大似然估计就可以被直接应用到分层样本中了。,3、与逻辑变换有关的:对数线性模型的出现,令R表示行,C表示列,fij表示第i行第j列的观测频次。那么期望频次Fij被设定
5、为一个乘积的函数 Fij=RiCjRCij 代表概率里面的总概率值1,R 和C分别代表R和C的边缘效应,RC代表R与C的二维交互效应,而交互效应实质上测量的就是R与C之间的比数比,当RCij=1的时候就是我们熟悉的独立模型。 相乘形式的不好计算,我们将其取对数,上两式的数学变换使各种效应项相乘的关系被转换成相加的关系,使各项效应独立化了。 常数效应; A因素效应; B因素效应;(主效应) A、B两因素的交互效应;,主效应和多元交互列表涉及因素数量相等; 交互效应的总数则为所有因素各阶组合数之和。 对数线性模型有一个限制条件: 模型中每一项效应的各类参数之和等于0; 如果每项效应中只有一类的参数
6、未知,那么可以由已知参数推算出来。,通过上组式子,我们可以计算出线性模型等式右侧的所有参数值。 A因素效应是行平均值与总平均值之差 B因素效应是列平均值与总平均值之差 交互效应计算结果表示在除去所有其他分布效应之后两个因素之间的净关联。,常数项只受样本规模和交互单元数的影响; 主效应项反映的是各因素内部类别频数分布的特征,是在总平均频数基础上的“补差”; 如果模型中所有交互效应都等于0,我们将会看到虽然每行(列)频数不同,但行(列)频数分布比例却是相同的,都等于原来分类变量的类别分布比例。,泊松分布 多项分布 乘积-多项分布 所以我们不能直接应用最小二乘法对模型、总体、参数进行估计,但幸运的是
7、,三个抽样模型下的极大似然估计是等同的。但是可以通过迭代再加权最小二乘法,可是运算起来比较繁琐。,4、分布,5、估计,参数估计通俗的来讲:根据抽样结果来合理地、科学的猜测一下总体的参数大概是什么?或者是在什么范围?点估计就是用样本计算出来的一个参数来估计未知参数;区间估计就是通过样本计算出来一个范围来对位置参数进行估计。,极大似然法与最小二乘法的区别于联系,最小二乘法所要解决的问题是:为了选出似的模型输出与系统输出尽可能接近的参数估计,用误差平方和即离差平方和的大小来表示接近程度。使离差平方和最小的参数值即为估计值。简单来说,已知点,自己拟合模型也即分布函数(概率密度函数的积分),进行预测。
8、极大似然估计所要解决的问题是:选择参数,使已知数据在某种意义下最可能出现。某种意义指的是似然函数最大,此处似然函数就是概率密度函数。也就是经常提到的“模型已知,参数未定”。,二者的区别就是,后者需要知道概率密度函数。最小二乘法要的是求出最优的那个参数,而极大似然要求出概率最大(最可能出现的)参数。举个例子,生活中我们一个着眼最合理是哪一个,一个着眼于最可能的是哪一个(极大似然法)当总体服从正态分布时,二者是一样的。 对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据;而对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量
9、应该是使得从模型中抽取该n组样本观测值的概率最大。,密度函数和似然函数(带着参数的密度函数)是相同的,但前者视参数是固定的且数据时变化的,后者视参数变化的且数据时固定的。 (1) 写出似然函数; (2) 对似然函数取对数,并整理; (3) 求导数 ; (4) 解似然方程,三、对数线性模型的假设检验,1、假设检验的作用 统计推论中包括参数估计与假设检验两部分,上面我们已经介绍了参数估计,那估计的可信度有多少,还要经过假设检验。不经过统计检验,研究者便不能肯定得到的参数估计是不是仅仅源于抽样误差,因而不能肯定在总体中是否存在相同情况。所有结论只能限于这个样本之内,不能肯定再抽一个样本能否得到类似结
10、果。,2、统计量,似然卡方比,根据相关计算,看原假设是否成立。 贝叶斯信息标准,不同模型而言越小的BIC越好。,3、对数线性模型的统计检验,四种主要检验: 1、对于假设模型的整体检验; 2、分层效应的检验; 3、单项效应的检验; 4、单个参数估计的检验。,对数线性模型的统计检验,1、对于假设模型的整体检验 采用似然比卡方检验(likelihood-ratio chi-square test,标为L2) 在样本量较大时, L2与皮尔逊卡方统计量的值十分接近。 L2优越性: 1、期望频数采用似然估计方法,因而更加稳健; 2、可以被分解成若干部分,即各项效应都有对应的似然卡方值,并且它们的似然卡方值
11、之和等于整个模型的似然卡方比值。,对数线性模型的统计检验,公式: 其中 为估计交互频数。 原假设:检验模型的频数估计与观测频数无差异,也可以理解为检验模型和饱和模型无差异。(无关假设),对数线性模型的统计检验,饱和对数线性模型可以完美无缺的再现观测频数,因此不需要对饱和模型进行整体性检验。 DF等于0,意味着所检验的模型与饱和模型之间的效应项目没有差别。,对数线性模型的统计检验,真正有意义的是检验非饱和模型(简略模型,reduced model) 如果简略模型仍然可以比较准确的拟合观测数据(其拟合程度与饱和模型无显著差异),说明剔除的效应对于拟合意义不大。(科学的简约性原则) 研究目的:不是为
12、了再现观测频数,而是通过在模型中加入和减少交互效应项的试验,以寻求真正重要的因素。 从饱和模型开始逐步剔除不重要的交互效应项,在保证拟合程度不受较大影响的前提下,直到形成效应项最少的模型。(找到最关键因素),对数线性模型的统计检验,举例说明: 由图可知,自由度变为1,L2由0增大到10.284,显著性水平为0.01(P)(拒绝原假设),说明简略模型和饱和模型存在十分显著的差异,即拟合程度受到很大影响。 显著=不能剔除该交互因素 在因素很多的复杂饱和模型中,通过此方法删减多个不显著效应项来形成简略模型。,对数线性模型的统计检验,整体检验的不足之处: 整体检验显著只能说明撤销的效应项中起码有一项是
13、有显著作用的,但不能确定是哪一项显著。所以,整体检验在实际对数线性模型分析中,主要服务于整个检验模型的检验情况,而确定各项效应时则是通过单项效应的检验。 且,对于一个多阶多项效应的复杂模型,采用整体检验方式就意味着逐项效应的剔除测试,这样分析过程效率太低。,对数线性模型的统计检验,2、分层效应检验 当研究中涉及的因素较多时,不仅主效应项会增加,交互效应项增加得更快。例如,四个因素的模型,主效应4个,二阶交互效应6项,三阶交互效应4项,四阶交互效应1项。如此,逐项检验筛选重要目标就太繁琐了。 且,在一般情况下,高阶交互效应不太容易显著。因此采用按阶次集体检验交互效应项的方法十分间接有效。,对数线
14、性模型的统计检验,分层效应检验有两种: 一、某一阶及更高阶所有交互效应项的集体检验,它的检验是否显著表明这一阶及以上各阶中是否至少有一项是重要的; 二、某一阶所有交互效应的集体检验,它的检验是否显著表明这一阶所有交互效应中是否至少有一项是重要的。 前者检验比后者综合性更强。,对数线性模型的统计检验,案例,二阶以上 (简略模型),一阶以上,一阶,二阶,对数线性模型的统计检验,分层检验提供了模型L2的分解。 第一种分层检验中,一阶及以上所有效应都从模型中删除,就会使简略模型的L2增加到13.142,而第二种分层检验告诉我们,这个L2的增量是一阶效应L2 2.858与二阶效应L2 10.284之和。
15、,对数线性模型的统计检验,分层效应检验的不足: 整体检验或分层检验的结果只能说明所有效应中或某一组效应中至少有一项效应具有显著重要影响。但并不能明确知道究竟是哪一项显著。 为了了解到底是哪些具体项目显著,还需要采用单项效应的单独检验。,对数线性模型的统计检验,3、单项效应的检验 SPSS的单项效应检验只是在分层模型中对饱和模型分析时提供。它反映的是如果从模型中撤销一个效应以后对L2变化的检验,称为偏关联检验(tests of PARTIAL associations),对数线性模型的统计检验,偏关联检验没有最高阶项,对于例子而言, 两个主效应显著概率都大于0.05 偏关联检验实际上是对饱和模型的L2与删除该项效应后简略模型L2之间的增量的检验。 可以视为分层检验的进一步分解:2.858=1.602+1.257,对数线性模型的统计检验,单项效应检验的不足: 在制定对数线性模型时,一个因素中可能不只两个类别。单项效应检验只是肯定这项效应中起码有一类与其他类存在明显差别,但并不能提供究竟是哪一类。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商业审计行业风险投资态势及投融资策略指引报告
- 指甲护理服务行业风险投资态势及投融资策略指引报告
- 2025届山东省莒县第一中学高考冲刺模拟英语试题含解析
- 河北省唐山市玉田县高级中学2025届高三下第一次测试英语试题含解析
- 2025届湖北省部分高中高考全国统考预测密卷英语试卷含解析
- 云南省江川一中2025届高考考前提分语文仿真卷含解析
- 云南省屏边县第一中学2025届高三3月份模拟考试数学试题含解析
- 北京市文江中学2025届高考英语倒计时模拟卷含解析
- 辽宁省丹东市凤城市一中2025届高三第二次调研英语试卷含解析
- 河南省辉县市一中2025届高三第五次模拟考试英语试卷含解析
- 泛微OAV操作手册
- 皮卡分体焊接作业指导书
- 大学生职业生涯规划--软件工程师职业生涯规划
- 分布式屋顶光伏组件支架安装施工方案
- DB32∕T 4111-2021 预应力混凝土实心方桩基础技术规程
- 地铁运营车站保洁
- 小学 主题班会:中国民间故事(11张PPT)
- 全球各主要股指期权市场做市商制度比较研究
- 《口腔修复学(一)》教学大纲
- 砌体结构知识讲解
- 六年级趣味数学活动课堂(课堂PPT)
评论
0/150
提交评论