第4章数据预处理和描述性分析含SPSSppt课件.ppt_第1页
第4章数据预处理和描述性分析含SPSSppt课件.ppt_第2页
第4章数据预处理和描述性分析含SPSSppt课件.ppt_第3页
第4章数据预处理和描述性分析含SPSSppt课件.ppt_第4页
第4章数据预处理和描述性分析含SPSSppt课件.ppt_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据预处理和描述性分析 本章内容 第一节异常值和缺失值的处理第二节信度与效度分析第三节描述性分析 第一节异常值和缺失值的处理 一 异常值的检验和处理 一 异常值的检验一批数据中 有部分数据与其他数据相比明显不一致的称为异常值 或称离群值 如果数据中混进了异常值 就会使相应分析误差增大 因此 在利用数据进行分析之前 有必要对异常数据进行检验并做相应处理 以便于发现具有普遍性的规律 SPSS中Explore过程主要用于对资料的性质 分布特点等完全不清楚时的一种检验 故又称之为探索性分析 对于异常值的检验具有很好的作用 1 探究分析的作用 1 考察数据的奇异性 过大或过小的数据均有可能是异常值 影响点或是错误输入的数据 对于这样的数据第一要找出 第二要分析原因 第三要决定是否对这些数据进行处理 2 检查数据分布特征 许多分析方法对数据的分布有一定要求 例如要求样本来自正态分布总体 从实验或实际测量得到的数据是否符合正态分布的规律 决定了它们是否可以选用只对正态分布数据适用的分析方法 3 考查方差齐性 另外对若干组数据均值差异性的分析需要根据其方差是否相等 选择进行检验的计算公式 2 探索分析提供的考查方法 1 箱图 是对任何分布的数据的整体描述 其中 矩阵框是箱图的主体 上中下三条线分别表示变量的第75 50 25百分位数 中间的纵向直线称触须线 上截止截线是变量值本体最大值 下截止截线是变量值本体最小值 除异常值和极值以外的变量值成为本体值 异常值所使用的标记为 0 极值所使用标记为 2 茎叶图 能直观地描述数据的频数分布 茎叶图自左至右分为三大部分 频数 茎 叶 茎表示数值的整数部分 叶表示数值的小数部分 每行的茎和每个叶组成的数字相加再乘以茎宽 即茎叶所表示实际数据的近似值 3 正态性检验 除偏度 峰度统计量外 SPSS还提供以下两种方法进行正态性检验 常用的观测量数据的正态分布检验的方法是Q Q图 后面的章节会加以介绍 Lillifors统计量检验法可以在方差与均值未知的情况下直接使用 它是对Kolmogorov Smirnov统计量的修正 4 方差齐性检验在进行均值多组间比较时 要求各组的方差相同 所以要进行方差齐性检验 例如常用的方差分析就要求分组样本的数据来自方差相同的正态总体 另外 在进行独立样本T检验之前也要事先进行方差齐性检验 具体内容请见第六章 3 探索分析过程在SPSS中的实现 1 建立或打开了数据文件后 按从 Analyze DescriptiveStatistics Explore 进入Explore对话框 见图4 1所示 图4 1数据探索对话框 2 从源变量中 选择若干个数值型变量作为因变量送入Dependent框中 3 指定分组变量 在源变量框中选择一个或多个分组变量进入Factor框中 4 选择标识变量 在源变量表中指定一个变量作为观测量的标识变量 送入LabelCasesby框中 5 Display栏 确定输出项 其中 Both选项表示输出图形以及描述统计量 Statistics选项表示只输出描述统计量 Plots选项表示只输出图形 6 单击Statistics按钮 打开如图4 2所示的对话框 选择描述统计量 其中 图4 2选择描述性统计量的对话框 Descriptive复选项 要求输出基本描述统计量 包括平均数 中位数 众数 5 的调整平均值 标准误 方差 标准差 最大值 最小值 范围 等距四分位数 峰度与偏度 峰度与偏度的标准误 在Confidenceintervalsformean框中设置均值的置信区间 M estimators复选项 要求输入集中趋势最大似然比的稳健估计 Outliers复选项 要求输出5个最大值与最小值 在输出窗口中它们被标明为极端值 Percentiles复选项 要求输出第5 10 25 50 75 90以及95百分位数 7 展开Plots对话框 见图4 3所示 选择统计图形及其参数 图4 3统计图对话框 Boxplots单选项组 确定箱式图的绘制方式 可以是按组别分组绘制 Factorlevelstogether 也可以不分组一起绘制 Depentendstogether 或者不绘制 None Descriptive复选项组 可以选择绘制茎叶图 Stem and leaf 和直方图 Histogram Normalityplotswithtest选项 绘制正态分布图并进行变量是否符合正态分布的检验 Spreadvs LevelwithLeveneTest单选项组 当选择了分组变量时 对所有的散布 层次图来说 同时输出回归直线斜率以及方差齐性的Levene s检验结果 如果选择了Transformed转换选项 将依据转换后的数据计算 8 单击Options按钮 弹出如图4 4所示的对话框 图4 4选择对话框 图4 4中 Excludecaseslistwise表示分析过程中 剔除带有缺失值的观测量 Excludecasespairwise表示分析过程中 成对剔除有缺失值的观测量 Reportvalues表示分组变量中的缺失值将被单独分为一组 输出频数表时也包括缺失组 二 异常值的处理1 删除法 如果样本充分大 删除异常值后对整个结论没有影响 这种方法不失为一种简单可行的方法 但如果样本数量本身有限 删除异常值后 样本本身的代表性值得怀疑 也就会影响研究结论 2 替代法 就是用正常数据区间的端点来替代异常数据 如果某项数据服从正态分布 运用 拉依达准则 3准则 来进行异常值的检验 如果某项指标不符合正态分布 就用 五数概括法 来进行异常值的检验 二 缺失值的分类和处理 一 缺失值的分类缺失值是指现有数据集中某个或某些属性的值是不完全的 缺失值分为几下几种 1 从缺失的原因来讲分为机械原因和人为原因 2 从缺失的分布来讲可以分为完全随机缺失 MCAR 随机缺失 MAR 和系统缺失 systematicmissing 二 缺失值的处理1 删除法当采集到的数据量很大时 可以将数据缺失的样本删除 删除法又分为表列删除法和配对删除法 1 表列删除法 是将数据缺失的受访者的所有资料全部删除的方法 不管受访者缺失数据的数量 只要一项遗漏 则该受访者全部资料均被删除 以保证进行运行的所有受访者数据都是完整的 这种方法只有当观测的样本数据量足够或数据缺失时 不会因删除导致参数的有效估计时 才可采用 2 配对删除法 是只在需要用缺失或遗漏值进行分析时 才被删除 其他信息仍然被使用的方法 配对删除法相对于表列删除法 观测样本数量不会因删除而减少过多 同时信息利用较为充分 但同时也带来以下方面的问题 一是不一致性 二是假设检验产生问题 三是导致产生系统性偏差 四是导致以统计量为基础的各种指数产生偏差 五是必须假定所有缺失都是MCAR类型 2 替代法替代法是设法为缺失值寻找合适的替代值 将其插补到缺失值的位置 而进行计算的方法 它的思想来源是以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少 1 平均数替代 平均数替代是以变量中有效值的平均数替代缺失值的方法 2 回归估计替代 回归估计替代是用回归模型的估计值替代缺失值的方法 3 Colddeck替代 Colddeck替代不是利用获取的数据本身 而是利用外在资源或以往研究结果作为缺失值的替代值 4 个例替代 是通过寻找样本以外 与其类似的观察案例 以其取值替代缺失值的方法 5 多元替代 将几种方法组合 如取几种替代值的平均值替代缺失 这就是多元替代 6 形态匹配替代 是在已经采集的数据中 寻找与缺失值类似的另一例 即相匹配的个例 以其取值作为替代值的方法 第二节信度与效度分析 一 信度分析 一 信度的定义信度 reliability 是指测量结果具有一致性或稳定性的程度 对于同一个人在不同时间 以相同的测量工具进行测量 如果两次测量结果一致 表明测量结果具有稳定性 可靠性 一致性越高 信度越高 一致性的程度也是相对的 误差越小 信度越高 信度主要检测所收集数据的可靠性 二 信度的衡量方法测量中通常有两类误差发生 即系统误差和随机误差 测量的结果可以表示为 信度可以定义为这时 信度表示成一种变差的比例 即相关系数的平方 或如式 信度度量的具体方法有 1 再测信度 采用同一个问卷在同一人群中先后测量两次 评价两次测量的相关性 2 复本信度 是在一个测量中采用两个或两个以上的复本来对同一群研究对象进行测量时所得到的结果的一致性程度 3 折半信度 是指只用一个测量工具对同一组受试者实施一次测量 但将奇数题和偶数题分开计分 再计算奇数题和偶数题分数之间的相关系数 4 内部一致性信度 问卷对每个概念的测量往往都要用一系列的条目 因而根据这些条目之间的相关性可以评价信度 5 评分者信度 是由调查者给被测者打分或评定等级 则这种测量的可靠性主要取决于调查者评分的一致性和稳定性 三 信度度量方法在SPSS软件中的实现表4 6信度测量调用过程表 续表4 6信度测量调用过程表 二 效度分析 一 效度的定义效度 validity 是指测量工具能够正确测量出所要测量问题的程度 效度越高表示测量结果越能显示出所要测量对象的真正特征 信度与效度的关系为 信度仅考虑测量结果是否一致 不涉及结果是否正确 效度是针对测量目的 考察测量的有效程度 测量结果要有效是前提 在有效的前提下再考虑测量的精确性 因为可信不一定有效 二 效度衡量的具体方法效度表示测量工具能够测出其所要测量的特征的正确性 通常采用效度系数来衡量 效度系数一般规定为与测量目标值的方差在总测量值方差中所占的比例 即效度系数为 其中 是想要测量的目标值 则是与测量目的不相关的系统性偏差 效度度量的具体方法1 表面效度 是指测量结果与人们头脑中的印象或学术界形成的共识的吻合程度 如果吻合度高 则表面效度高 2 内容效度 是指测量内容的适合性和相符性 即测量所选题目是否符合测量目的和要求 3 效标效度 是指测量结果与一些能够精确表示被测概念的标准之间的一致性程度 4 结构效度 指问卷所能衡量到理论上期望的特征的程度 即问卷所要测量的概念能显示出科学的意义并符合理论上的设想 三 效度测量在SPSS软件中的实现在SPSS统计分析软件中没有专门的效度分析模块 表面效度和内容效度属于主观指标 一般采取专家评价法 效标效度和结构效度可以通过Analyze菜单进行分析 其调用过程见表4 7所示 表4 7效度测量调用过程表 第三节描述性分析 一 描述性分析概述 一 描述性分析的作用描述性分析的目的通常不是对研究假设的检验 而是为了说明样本选择的适当性 因此人们常常称之为有效性测试 有效性测试通常包括检验样本数据的代表性 对照数据的匹配性以及样本数据结构与理论推测的一致性 在某些研究中 作者也借助于描述性统计对预期结果作一些辅助性观察 作为对预期假设支持或否定的部分证据 有时 描述性统计也为调整样本数据分布提供依据 二 基本描述统计量1 频数 百分比计算变量的频数和百分比就是计算变量在某个变量值上取值的个案数 以及占总个案数的比例 2 集中趋势集中趋势是对频数分布资料的集中状况和平均水平的综合测度 包括算术平均数 众数和中位数 3 离散程度离散程度是对频数分布的差异程度的度量 用来衡量集中趋势数值的代表性 或者反映变量值的稳定性和均衡性 包括标准差 分位值等等 4 分布分布是说明数据分布与标准正态分布的吻合程度 包括峰度和偏度 5 统计图形统计图是一种最为直接的数据刻画方式 它无疑能够非常清晰直观地展示变量的取值状况 常用的图形有 条形图 直方图等 二 频数分布表分析 一 概述频数分布表是描述性统计中最常用的方法之一 Frequencies过程就是专门为产生频数表而设计的 它不仅可以产生详细的频数表 还可以按要求给出某百分位点的数值 以及常用的条图 圆图等统计图 对于频率报告和条形图 可以用升序或降序排列不同的值 也可以按其频率对类别进行排序 当变量具有许多不相同的值时 可提取频率报告 二 频数分布分析过程在SPSS中的实现1 建立或打开了数据文件后 按Analyze DescriptiveStatistics Frequencies 打开如图4 8所示的对话框 图4 8频数分布主对话框 2 在源变量框中选择一个或多个变量 送入Variable s 框中 3 选中Displayfrequencytables 要求输出频数分布表 4 单击Statistics按钮 打开相应对话框 见图4 9所示 图4 9输出统计量对话框 1 PercentileValues栏 指定百分位数 Quartiles复选项 输出四分位数 Cutpointsforequalgroups复选项 输出等分点的百分位数 Percentile s 复选项 自定义百分位数 2 CentralTendency栏 指定集中趋势统计量 包括Mean 均值 Median 中位数 Mode 众数 和Sun 所有值的总和 如果中位数与众数相差很大 说明观测量中存在异常值 3 Dispersion栏 离散程度统计量栏 包括Std Deviation 标准差 Variance 方差 Range 全距 Minimum 最小值 Maximum 最大值 和S E mean 均值标准误 4 Distribution栏 检查数据的正态性 包括Skewness 偏度 和Kurtosis 峰度 5 Valuesaregroupmidpoints项 在接受百分位数值和中位数时 假设数据已经分组 用各组的组中值代表各组数据 5 单击Charts按钮 展开Frequencies Charts对话框 见图4 10 图4 10图形参数选择对话框 1 ChartType栏 选择图形类型 None 不选择作图 Barcharts 输出条形图 适用于分类变量 Piecharts 输出饼图 适用于分类变量 Histogram 输出直方图 适用于连续的数值型变量 2 ChartValue栏 在选择了条形图和饼图后生效 Frequencies 条形图纵轴表示频数 饼图的每块表示属于该组的观测量频数 Percentages 条形图纵轴表示百分比 饼图的每块表示该组观测量数占总数的百分比 6 单击Format按钮 打开如图4 11所示的对话框 在对话框中设置频数表输出格式 图4 11频数分布表格式对话框 1 Orderby栏 设置频数表顺序 在选择了Displayfrequencytables后生效 包括AscendingValues 按变量值的升序排序 DescendingValues 按变量值的降序排序 Ascendingcounts 按变量各种取值发生的频数的升序排序 和D

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论