版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四讲:SPSS之数据描述,同济大学社会学系 2011年,本讲内容,各种变量的描述及在SPSS中的实现 SPSS统计图表 多分类变量的统计描述 对变量分布的检验 列联表交叉分析,各种变量的描述及在SPSS中的实现,集中趋势,在一组统计数据中,往往用其中一个数值来代表本组数据的平均状况。 不同类型变量的集中趋势数值表示方法不同。定类变量一般用众值(mode)来表示它的集中趋势,定序变量用中位值(median),定距变量和定比变量用平均值来表示(mean)。,离散趋势,用一个或几个数据来表示整组数值偏离集中趋势的程度。 不同类型变量表示离散趋势的数值也有差异。如定类变量通常使用异众比率(=1-众数
2、的频次/总频次),定序变量有四分位差、百分位差,定距(定比)变量有极差、方差、标准差等。,各种统计指标在SPSS中的实现,上述离散趋势指标和集中趋势指标都可以通过spss菜单来完成操作,具体方式:Analyze-Descriptive StatisticsFrequency(频数分析),打开对话框,选择需要分析的变量,点击statistics选择需要计算的统计值,continue返回;点击chart,可输出变量的一些简单统计图形;点击format,可以选中输出频数表的格式,操作过程,选择变量,选择待计算的统计值,选择图表类型,选择频数分布格式,SPSS统计图表,统计图表,SPSS中提供了各种类
3、型的柱状图、折线图、直方图、散点图、箱形图和茎叶图等。 散点图在回归分析之前使用较多,用于查看变量分布特征; 箱形图和茎叶图,用于检查是否存在异常值; 其他类型图可在excel中实现,比较美观。,箱形图(box plot),箱子的中间横线是数据的中位数(median),封闭箱子的上下两横线(边)分别为第三四分位数和第一四分位数。最上方和最下方的线段分别表示最大值和最小值。箱图最上方和最下方的星号、圆圈分别表示极端值。,茎叶图(stem-and-leaf plot),特点是直观的反映了数据的原貌; 原理:将数值中不变或变化不大的数值作为茎(主干),将变化较大的数字作为叶,放在茎的后面。 箱形图和
4、茎叶图可以通过analyzedescriptive statisticsexplore分析过程来实现。Data11-7,箱形图和茎叶图的实现过程,箱形图,茎叶图,多分类变量的统计描述,多分类变量定义,多分类变量即是问卷中的多选题。根据固定选或不定选的差异,在定义多分类变量时方法稍有差异。 在固定选的多分类变量定义中,主要是累计所有可能的取值,累积的范围是该变量的所有编码。 在不定选的多分类变量定义中,主要是累计被访者选中的变量(编码是1的部分)。 新定义的多分类变量,不能保存,关闭数据库之后会丢失相关信息。下次分析时需重新定义。,多分类变量定义过程,频数分析,变量分布特征,常见变量分布,在很多
5、统计模型中,对变量的分布有一定约束,如在回归分析中,要求因变量总体分布及子样本分布呈正态分布。 变量常见分布有:二项分布,多项分布,泊松分布、卡方分布、t分布、F分布、正态分布等等;,分布特征检验,可以通过P-P图和Q-Q图的方法来检验某变量的分布是否符合某一分布特征; 在结果显示中,如果某变量的实际累积频率和期望累积概率比较接近的话,则表明该变量符合某种类型的分布; 在SPSS15.0以上版本中,P-P图和Q-Q图在analyzedescriptive statistics菜单下,以下版本在Graphs菜单下。,P-P图操作,P-P 图显示结果,Q-Q图操作,Q-Q图结果,偏度(Skewne
6、ss),是描述某变量取值分布对称性的统计量。具体的计算公式为 偏度为0表示其数据分布形态与正态分布偏度x相同;偏度大于0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度小于0表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大表示分布形态的偏斜程度越大。,峰度(Kurtosis),峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分布相比较的量,峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更加陡峭,为尖顶峰;峰度小于0表示比正态分布的高峰要平坦,为平顶峰。具体的计算公式为,偏度和峰度在SPSS中实现,方法同
7、频数分析; 在statistics对话框中分别选择峰度和偏度即可,选择偏度和峰度,列联表交叉分析,交叉分析,前面的分析都是对单个变量的数据分布情况进行分析。但在实际分析中,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。 交叉列联表分析除了列出交叉分组下的频数分布外,还需要分析两个变量之间是否具有独立性或一定的相关性。要获得变量之间的相关性,仅仅靠频数分布的数据是不够的,还需要借助一些变量间相关程度的统计量和一些非参数检验的方法。,交叉分析的使用,交叉分析一般用于分析两个定性变量(定类或定序)之间的相关分析。 使用交叉分析的目的在于:确定两个变量之间是否存在相关,以及相关强度如何。 相关强度主要通过一系列的统计量参数来测量,如列联系数、Lambda系数,C系数,V系数,等等。,实现过程,选择行变量和列变量,选择统计指标,单元格结果显示,频次分布结果,卡方检验结果,相关系数统计结果,Lamda系数是否可以推论总体主要参考系数对应的sig.,显著性大于0.05时不能推论总体。(原假设是总体lamda系数=0)。,小结,描述性分析主要是对单维数据进行的初步统计分析,方便研究者对数据收
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房地产市场趋势研究
- 2024年度腻子产品研发合作合同
- 2024年度网络安全防护产品委托生产合同
- 齿形误差补偿技术
- 氨酚烷胺胶囊质量标准制定
- 电动工具高效能设计探讨
- 2024年影视作品联合出品合同
- 精准诊疗方法探索
- 污水高效处理策略
- 2024年度展览临时板房搭建合同
- 营养指导员理论考试题库及答案
- 2023秋季学期国开电大专本科《法律文书》在线形考(第一至五次考核形考任务)试题及答案
- 辽宁省大连市金普新区2023-2024学年九年级上学期期中化学试题
- 消防安全重点单位消防安全管理人员报告备案表
- 数据清洗课件-第4章-数据采集与抽取
- 2023年新改版青岛版(六三制)四年级上册科学全册精编知识点梳理
- 小学英语-There is an old building in my school教学设计学情分析教材分析课后反思
- GB/T 16935.1-2023低压供电系统内设备的绝缘配合第1部分:原理、要求和试验
- 临床微生物学检验:实验八 肠道杆菌的检验(三)
- 23秋国家开放大学《学前教育科研方法》形考作业1-3+终考作业参考答案
- 义务教育语文“思辨性阅读与表达”学习任务群教学策略
评论
0/150
提交评论