分类数据分析.ppt_第1页
分类数据分析.ppt_第2页
分类数据分析.ppt_第3页
分类数据分析.ppt_第4页
分类数据分析.ppt_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Analysisofnominaldata 分类数据分析 分类数据分析简介 分类数据也称名义数据 是社会科学研究的组成部分 其数据信息仅代表数据类别 例如种族 1 白种人 2 黄种人 3 黑人 根据每个类别的数量 可以分析它们之间的关系 分类数据的分析要求研究者应首先决定如何分类 分类数据分析的应用范围 政治学领域 研究政治立场是否影响政治派别 社会学和心理学领域 分析不同类别的人不同的心理特征 公共政策分析领域 研究不同政策在不同地区产生的效果 文化传播领域 研究人们对媒体的看法 分类数据分析是社会科学中最重要的课题之一 一方面因为它的用途广泛 另一方面因为它解决的是基本问题 一些简单概念的解释 分类 最理想的分类是这些类别相互区别并且没有遗漏 统计过程中都假设分类是有意义的 自变量和因变量 区别在于是否引起另外一个变量的变化 取样 从总体抽取的简单随机样本 符号 I J表示表格的行数和列数 X Y Z表示变量 表1 党派和立场间的关系 X 党派 Y 立场 表2 受党派和地区影响的立场 Z 地区 西部X 党派 Y 立场 Z 地区 非西部X 党派 Y 立场 表3 标准I J表格 X 自变量 Y 因变量 相关程度的测量 相关程度的测量方法是用一个系数来表示变量间的相关程度 选择何种方法要考虑三个方面 测量方法是否对称 是否可以确定自变量和因变量 系数如何解释 取决于不同的测量方法制定的标准 测量方法的敏感度 尽量使用敏感度较低的方法 表5 完全相关的三种类型 Y Totals Y Totals a严格完全相关 b隐含完全相关 c弱完全相关 干扰因素和解决办法 边际分布不均匀 如表6 调整数据将表格标准化选择对边际总数不敏感的测量方法行列不相等 选择可以达到最大值的测量方法 表6 不同边际分布 相同相关程度 a b 2 2表格的测量方法 1 百分比法2 差额比率法3 Yule sQ4 Yule sY5 6 相关系数 百分比法 如果因变量在自变量的一个分类中的百分比发生了变化 那么这两个变量就是相关的 如果不发生变化 就是独立的 百分比法的性质 对因变量的边际总数不敏感 需要较大的样本容量 百分比法 0 9 0 4 0 5 差额比率法 Y 立场 差额比率法的性质 差额比率法的性质 差额比率的性质 差额比率的性质 差额比率的取值范围是从0到 等于1 0说明独立 小于1 0表示消极相关 大于1 0表示积极相关差额比率对边际总数不敏感 差额比率是对称的差额比率在弱完全相关时就达到了最大值 差额比率的方差 当样本容量大于25时 我们可以计算出差额比率的方差 我们可以计算置信区间 Yule sQ Yule sQ是差额比率的一个函数 定义如下 它的方差可以由以下公式计算 Yule sQ的性质 因为Q是差额比率的一个函数 因此基本具有和差额比率相同的性质 Q的取值范围是从 1 0到1 0 0说明独立 Q在弱完全相关就取到最大值 Q是对称的 Yule sY Yule sY也是差额比率的一个简单函数 定义如下 它的方差可以由以下公式计算 基于的测量方法 定义 性质 取值范围是从0到1 0 0说明独立 只有严格完全相关时才达到最大值 对边际总数敏感 它是对称的 相关系数 相关系数的性质 取值范围是从 1 0到1 0 0说明独立 在严格完全相关时取得最大值 平方表示因变量受自变量影响的百分比对边际总数敏感行列交换不改变结果的大小 只改变符号 I J表格的测量方法 I J表格的测量方法大致可以分成三类 基于差额比率的方法基于的方法错误减少比例方法 PRE I J表格中的差额比率法 I J表格包含着t I 1 J 1 个2 2表格 对于每一个2 2表格都可以计算出和 差额比率的基本形式是 i 1 2 I 1 j 1 2 J 1 是估计值公式 与2 2表格 中有着相同的解释 基于的测量方法 几种函数的模型 错误减少比例方法 PRE 对于样本个体 我们可以在两种情况下预测 第一种情况 不知道样本在X中的类别 第二种情况 知道样本在X中的类别 PRE就是比较两种情况下预测错误的比例 PRE的性质 取值范围是从0到1 0 0说明独立 1 0说明完全相关 PRE是不对称的 即需要区分自变量和因变量 在样本高度不均匀时 会出现不独立但是结果为0的情况 GoodmanandKruskal sLambda Lambda方法是PRE方法的一种 原理是分别计算在两种情况下预测错误的比例 然后进行比较 第一种情况下的错误比例 第二种情况下的错误比例 GoodmanandKruskal sLambda 根据PRE的原理 我们定义 Lambda的方差 其中的含义是恰好在这行上的每列最大值之和 根据方差我们可以计算出置信区间 Lambda的对称形式 最常见的方法就是将个体随机地对半分给X和Y 第一种情况下 预测Y的正确率是 预测X的正确率是 错误率是第二种情况下 预测Y的正确率是 预测X的正确率是 错误率是 Lambda的对称形式 那么错误降低比例就是 经过整理后 Goodman和Kruskal sTau Tau是另外一种PRE方法 同样是在两种情况下进行预测 不同的是Tau中猜测的样本要保持原始数据的分布 公式 表1 党派和立场间的关系 X 党派 Y 立场 Tau方法的算例 第一种情况 1538人中 一共有574 564 1138人不是革命派 比例是1138 1538 0 74 因此在400人中 大约有400 0 74 295 97人是预测错误的 同理 我们可以算出大概有359 78人在预测中立派时预测错误 357 18人在预测保守派时预测错误 于是总共的错误数是 295 97 359 73 357 18 1012 93第二种情况 对于民主党人士 民主党人士非革命派有241 153 394人 394 587 0 67 因此应该有193 0 67 129 54人预测错误 同理计算出中立派和保守派的错误数量分别是142 05和113 12 于是对于民主党人士预测错误的数量是129 54 142 05 113 12 384 71相同的方法计算独立党和共和党最后得出第二种情况的总共的错误数量是 384 71 360 00 231 71 976 42于是根据PRE的原理我们定义 各种测量方法的总结 尽管变量间相关程度的测量方法有很多种 但是仍然难以避免各种各样的干扰因素 比如表1 表1样本的分布一方面取决于总体真实的分布 但是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论