医学研究的数据管理与分析-第九章(1)课件_第1页
医学研究的数据管理与分析-第九章(1)课件_第2页
医学研究的数据管理与分析-第九章(1)课件_第3页
医学研究的数据管理与分析-第九章(1)课件_第4页
医学研究的数据管理与分析-第九章(1)课件_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 SPSS软件应用(二)第一节 描述性统计分析SPSS统计分析从基础到实践(第2版)联系Email:描述性统计分析描述性统计分析是基础的统计分析过程。通过描述性统计分析,可以挖掘出很多统计量的特征。 Frequencies 频数分析表 Descriptive 描述性统计分析过程 Explore 探索分析过程 Crosstabs 列联表分析过程描述性统计量集中趋势离散趋势分布情况均值Mean标准差Std.deviatiom偏度Skewness中位数Median方差Variance峰度Kurtosis众数Mode极小值Minimum和Sum极大值Maximum全距Range均值的标准误差S.

2、E.mean数据分布的特征集中趋势 (位置)偏态和峰态(形状)离中趋势 (分散程度)均值(Mean):2 众数(Mode):出现频率最高的数3 中位数(Median):将数据排序后位于正中间 的数值。适合于所有分布类型的数据4 总和(Sum)基本描述统计量众数(mode)出现次数最多的变量值不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据中位数(median)排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据各变量值与中位数的离差绝对值之和最小,即数值型数据的中位数 (9个数据的算例)【例

3、】:9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9中位数 1080数值型数据的中位数 (10个数据的算例)【例】:10个家庭的人均月收入数据排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10 数值型数据的四分位数 (9个数据的算例)【例】:9个家庭的人均月收入数据原始数据: 1500 750 78

4、0 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9数值型数据的四分位数 (10个数据的算例)【例】:10个家庭的人均月收入数据排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10 均值(数学性质)1.各变量值与均值的离差之和等于零 2. 各变量值与均值的离差平方和最小众数、中位数和均值的关系左偏分布均值 中位数 众数对称分布 均值= 中位数= 众数右偏分布众数

5、 中位数均值众数、中位数和均值的特点和应用众数不受极端值影响具有不唯一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用离散趋势数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值标准差(Std Dev):方差(Variance):最小值、最大值(Maxium,Minimum)均值标准误(S.E.of.Mean): 样本均值的标准差极差(Range):数据最大值减去最小值基本描述统计量极差(range)一组数据的最大值

6、与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布7891078910 R = max(xi) - min(xi)计算公式为偏度系数:Skew ness,当分布对称时, 偏度系数为0。当偏度系数为正值, 可以判断为右偏(正偏),反之,判断为左偏 (负 偏)。 基本描述统计量峰度系数:Kurtosis ,是对数据分布平峰或尖峰程度的测度。峰度是针对正态分布而言的。峰度系数为0,表明数据为正态分布。若峰度系数大于0,则数据为尖峰分布;反之为平峰分布。基本描述统计量标准分数(standard score)1. 也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是

7、否有离群点4.用于对变量的标准化处理5. 计算公式为标准分数(性质)均值等于02.方差等于1【Descriptive Statistics】子菜单 Frequencies:产生变量值的频数分布表,并可计算常见描述性统计量和绘制相对应的统计图。 Descriptives:计算一般的描述性统计量。 Explore:探索性分析,使用户能够从大量的分析结果之中挖掘到所需要的统计信息。 Crosstabs:对分类变量进行统计推断,包括卡方检验、确切概率等,是SPSS重要的过程。 Ratio:计算两个变量相对比的统计量特征。 P-P Plots:绘制P-P图,检验数据服从的分布情况。 Q-Q Plots:

8、绘制Q-Q图,检验数据服从的分布情况 频数分析Frequencies频数分析简介 频数分析表是描述性统计中最常用的方法之一,它主要包括以下几点功能: 1、产生详细的频数表 2、按要求给出某个分位点 3、绘制常用的条图、饼图等统计图 适用范围:更适用于对分类变量以及不服从正态分布的连续性变量进行描述。频数分析表一、目的 可对数据按组进行归类整理,形成变量不同水平的频数分布表和图形,对数据的分布趋势进行初步分析。频数分析表二、 Frequencies对话框简介AnalyzeDescriptive StatisticFrequencies【 Variables 】需要分析的变量【 Display f

9、requency tables】 确定是否在结果中输出频数表。频数分析表【Statistics】 描述统计量。 【 Charts】 统计图频数分析表Chart Values: 定义是按照频数还是按百分比做图(即影响纵坐标刻度)。 【Format】 弹出Format对话框,用于定义输出频数表的格式。频数分析表Multiple Variables单选钮组 如果选择了两个 以上变量做频数表,则 Compare variables 可以将他们的结果在同一个频数表过程输出结果 中显示,便于互相比较, Organize output by variables 则将结果在不同的频数表过程输出结果中显示。 频

10、数分析表Suppress Tables more than: 当频数表的 分组数大于下面设定数值时禁止它在结果中输出, 这样可以避免产生巨型表格。实例例9-1-1基础统计分析Descriptive Descriptive简介 Descriptive过程是连续资料统计描述应用最多的一个过程。 对变量进行描述性统计分析,计算并列出一系列相应的统计指标。这与其它过程相比并无不同。 这个过程有一个特殊的功能,可将原始数据转换成标准正态分布评分值,并以变量形势存入数据库供以后分析。AnalyzeDescriptive StatisticDescriptives基本操作【Save standardized

11、 values as variables】将原始数据的标准正态评分存为新变量。【Options】Display Order:可以选择为变量列表顺序、字母顺序、均数升序或均数降序。探索性分析Explore 与前面介绍的两个过程相比,【Explore】过程更加强大。它除了可以计算常见描述性统计量之外,还可以给出一些简单的检验结果和图形,有助于用户进一步地分析数据。 适用范围:对资料的性质,分布特点等完全不清楚的时候探索性数据分析调用此过程可产生所有个案或不同分组个案的综合统计量及图形,提供各种不同的统计量与描述作图,可进行数据筛查,发现奇异值,描述性分析,假设检验及不同分组个案的特征描述可帮助用户

12、决定选择哪种统计方法进行数据分析, 选择将数据转换成正态方法及是否使用非参数目的按Analyze-Descriptive Statistics-Explore 顺序单击,打开 Explore 主对话框。基本操作选择一个或多个变量进入Dependent框作为因变量此作为分组变量,可以是字符变量,对因变量的分析将按该变量的观测值进行分组分析。可有多个分组变量,这时会按多个变量的交叉组合进行分组。该框中的变量作为个案标识符可同时输出基本统计量和图形只输出基本统计量只输出图形Explore 主对话框输出基本统计量 均值的置信区间,可键入199%的任意值,根据该值算出置信区间的上下限。给出中心趋势的的稳

13、健最大似然估计量,当数据分布均匀,且两尾较长,或当数据中存在极端值时,可给出比均值或中位数更合理的估计。输出最大和最小的5个数,且在输出窗口中加以标明。输出5%、10%、25%、50%、75%、90%和95%的百分位数。Statistics对话框只有指定分组变量才有效,可输出分布水平图,同时输出回归直线斜率以及对方差的Levenes检验不输出分布水平图功效估计根据在Power参数框中指定的变换对原始数据进行变换。不对数据进行转换 Explore 栏中Plots对话框箱型图每一个因变量生成一个箱形图所有因变量生成一个箱形图不显示任何箱形图生成茎叶图,为默认生成直方图输出带检验的正态图确定缺失值的

14、处置:因变量或分组变量中带有缺失值的观 测量都将在分析过程中被剔除。在分析过程中剔除此分析中含缺失值 个案。分组变量的缺失值被单独分为一组, 在结果中产生一个附加分类。Explore 栏中Options对话框实例 例9-1-2数据的类型与列联分析数 据定量数据(数值型数据)定性数据(品质数据)离散数据连续数据列联分析列联表分析Crosstabs定性数据定性变量的结果表现为类别例如:性别 (男, 女)各类别用符号或数字代码来测度使用定类或定序尺度你吸烟吗? 1.是;2.否你赞成还是反对这一改革方案?1.赞成;2.反对对定性数据的描述和分析通常使用列联表可使用检验 为了探讨吸烟与慢性支气管炎有无关

15、 系,调查了339人,情况如下:患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟13121实例分析列联表按多个(两个或两个以上)变量的不同取值对不同情形进行划分,也即划分不同的行或列。用以分行的变量称为行(row)变量,和用以分列的变量则称为列(column)变量。表格中间各行变量和列变量不同取值的交汇处,就是这种情形出现的频数或计数(count)。列联表中行变量和列变量的个数称为列联表的维数。二维的列联表又称为交叉表(cross table)。三维或三维以上的列联表叫做高维列联表。列联表(contingency table)列联表中每个行变量或列变量又有两个或更多的不同取值,这些取值常称为

16、水平(level)。每一种不同的水平组合就代表一种不同的情形。列联表(contingency table)列联表的结构(2 2 列联表)列( cj )合计j =1j =2i =1f11f12f11+ f12i =2f21f22f21+ f22合计f11+ f21f12+ f22n列(cj)行 (ri)列联表的结构(r c 列联表的一般表示)列(cj)合计j =1j = 2i =1f11f12r1i = 2f21f22r2:合计c1c2n列(cj)行(ri)fij 表示第 i 行第 j 列的观察频数 统计量用于检验列联表中变量间拟合优度和独立性用于测定两个分类变量之间的相关程度 计算公式为操作步

17、骤 按Analyze-Descriptive Statistics-Crosstabs 顺序打开 Crosstabs 主对话框。该框中的变量作为分布表中的行变量,该框中的变量作为控制变量,决定频数分布表中的层,可有多个控制变量显示每一组中各变量的分类条形图。只输出统计量,不输出多维列联表。Crosstabs 对话框该框中的变量作为分布表中的列变量,exact精确检验卡方检验计算相关系数:Pearson相关系数和 Spearman相关系数适用于定类变量的统计量:相关性检验适用于连两定序变量, 相关性检验适用于一定类一定距变量:用于检验相关性Statistics 对话框内部一致性系数,用于检验两个评估人对同一对象的评估是否具有一致系。相对危险度,检验某事件发生和某因子之间的关系进行两个相关的二值变量的非参数检验进行一个二值因素变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论