单变量统计分析的应用_第1页
单变量统计分析的应用_第2页
单变量统计分析的应用_第3页
单变量统计分析的应用_第4页
单变量统计分析的应用_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、单变量统计分析的应用第1页,共45页,2022年,5月20日,2点15分,星期二 单变量统计分析可以分为:描述统计和推论统计。 单变量描述统计的目的 单变量推论统计的目的第2页,共45页,2022年,5月20日,2点15分,星期二一、频数分布频数分布适用于一切类型的数据,一般涉及各个类别的频数和百分比。第3页,共45页,2022年,5月20日,2点15分,星期二SPSS操作依次单击:分析-描述统计-频率,打开如图所示的对话框第4页,共45页,2022年,5月20日,2点15分,星期二 单击左侧源变量窗口中要分析的变量,单击中间的箭头将其放在“变量”框中。选择显示频率表格,才能在输出结果中出现频

2、数表,此项常默认。图表,主要用于各类图。第5页,共45页,2022年,5月20日,2点15分,星期二单击统计量,出现的各选项是频数分析.此处各项频数分析,在定类变量中往往不涉及,在其他类型变量中涉及。第6页,共45页,2022年,5月20日,2点15分,星期二各种图形的制作有条形图、饼状图、直方图(主要用于定距数据分组)信息更丰富的图形,可以:图形-旧对话框。如复式条形图第7页,共45页,2022年,5月20日,2点15分,星期二补充:定距数据分组与直方图制作1.分组的步骤确定组数,一般情况下不小于3不大于20.2.确定组距组距=最大值-最小值/组数组距往往取5或10的倍数,分组的最小组限为组

3、距的倍数。第8页,共45页,2022年,5月20日,2点15分,星期二3.重新编码变量转换重新编码为不同变量4.根据新的变量制图。如1991数据中教育年限变量的直方图。第9页,共45页,2022年,5月20日,2点15分,星期二第10页,共45页,2022年,5月20日,2点15分,星期二二、spss中多选题如何求频数多重响应分析第11页,共45页,2022年,5月20日,2点15分,星期二不定项多选(一)不定向多选题的编码方式 二分变量编码法(二分法)。 您上班通常采用以下哪些交通工具? A. 步行;B. 自行车;C. 电动车;D. 公交车;E. 地铁;F. 自驾车;G. 班车。 将多选题的

4、每个选项都定义为一个子变量,采用“01”编码进行处理,选中的赋值为“1”,未选中的赋值为“0”。 可见1991数据文件“健康”。第12页,共45页,2022年,5月20日,2点15分,星期二 这种方法分析数据更方便,是多选题编码的通用方法。 其优点是各选项之间相互独立,编码简单清楚,形成的数据文件格式统一,方便检查。 但是这种编码方式会明显增加录入工作量, 无论被访者选择了几个答案,录入人员都要对每个子变量进行数据录入,一定程度上增加了出现录入错误的风险。第13页,共45页,2022年,5月20日,2点15分,星期二(二)多重响应分析分析多重响应分析定义变量集二类法(如0=未选中,1=选中)如

5、1991数据文件中的22-30健康问题第14页,共45页,2022年,5月20日,2点15分,星期二第15页,共45页,2022年,5月20日,2点15分,星期二再点击 多重响应分析-频率百分比:应答次数占总次数的百分比如559次/805次=69.4%个案百分比:应答次数占总人数的百分比选择“需前往医院就诊”的有559人次,占总回答次数的805次的69.4%;第16页,共45页,2022年,5月20日,2点15分,星期二定项多选(一)编码方法:多重分类法 定项多选题中被访者可能提供的答案的数量是已知的且一般会少于备选项的个数, 应采用多重分类法来进行编码录入。 a您上班更愿意选用以下哪些交通工

6、具(选择最主要的3 项) 1.步行;2. 自行车;3. 电动车;3. 公交车;6.地铁;6. 自驾车;7. 班车。 根据题目限选的答案个数设定相应个数的子变量,如例中可以设定a1,a2 和a3,他们代表最终选出的3 个答案。 如果被访者的选择为1,3,4,这分别在a1,a2 和a3 三个变量中输入1、3 和4。 可见1991数据文件中的40-43“问题”。第17页,共45页,2022年,5月20日,2点15分,星期二(二)多重响应分析定义变量集类别(有效值的范围)1991中的“问题1-问题4”第18页,共45页,2022年,5月20日,2点15分,星期二第19页,共45页,2022年,5月20

7、日,2点15分,星期二多选排序题(一)编码 定义与选项个数相同的若干个变量,每个变量的取值做如下定义:0为未选,1为排第一位,2排第二位, 3排第三位,等。 见1991数据文件17-21“服从到帮助别人”第20页,共45页,2022年,5月20日,2点15分,星期二(二)分析 1.转换-重新编码为相同变量 第21页,共45页,2022年,5月20日,2点15分,星期二按顺序给予权重,如1991数据中,对“服从到乐于帮助别人”排序,第一重要给5,第二重要给4,-,第五重要给1。第22页,共45页,2022年,5月20日,2点15分,星期二数据转换数据转置,对全部二次编码的数据进行行列转换,得到新

8、数据文件第23页,共45页,2022年,5月20日,2点15分,星期二弹出一个新的数据文件,计算新数据文件中的得分。点转换计算变量,定义新变量。 即目标变量(sum) 数字表达式sum(var001 to var1517)第24页,共45页,2022年,5月20日,2点15分,星期二得分最多的,即为最重要的。第25页,共45页,2022年,5月20日,2点15分,星期二三、集中趋势和离散趋势分析及spss应用(一)集中趋势定类变量:众数,一组数据中出现次数最多的变量值。定序变量:中位数,一组数据按值的大小顺序排列后,处于中央位置的变量值。定距变量:均值,又称为算数平均数第26页,共45页,20

9、22年,5月20日,2点15分,星期二数据的测量层次与集中趋势测量值测量层次 定类 定序 定距 测量值 众数 众数 众数测量值 中位数 中位数 均值第27页,共45页,2022年,5月20日,2点15分,星期二(二)离散趋势定类变量:异众比率非众数的频数占总频数的比例。如,若异众比率的值是66.7%,表示66.7的取值是众数不能代表的,即众数的代表性差。定序变量:四分位差数值越大,说明中间数据越分散,由于中位数代表数据的中间位置,因此四分位差在一定程度上说明了中位数的代表性。定距变量:全距、标准差与方差第28页,共45页,2022年,5月20日,2点15分,星期二(四)spss应用分析描述统计

10、频率,确定进行描述分析的变量,选择统计分析结果(在统计量里选)第29页,共45页,2022年,5月20日,2点15分,星期二第30页,共45页,2022年,5月20日,2点15分,星期二还可以求子总体的比较均值分析比较均值均值第31页,共45页,2022年,5月20日,2点15分,星期二 利用数据文件,计算教育众数、中位数、四分位差、均值、标准差和方差。第32页,共45页,2022年,5月20日,2点15分,星期二离散系数标准差与均值的比值,用百分比表示 执行“比率”命令,选择相关指标后,点“统计值”,然后选“cod” 如比较各省每户家庭去年全年医疗费占去年全年总收入比例的差异程度。第33页,

11、共45页,2022年,5月20日,2点15分,星期二第34页,共45页,2022年,5月20日,2点15分,星期二四、单变量总体均值和比例的区间估计(推论统计)(一)总体均值的区间估计分析描述统计探索第35页,共45页,2022年,5月20日,2点15分,星期二大家再选“因子列表”,看又会出现什么结果。第36页,共45页,2022年,5月20日,2点15分,星期二(二)总体比例的区间估计 假设我们随机抽取了一个样本容量为n的样本x1,x2,.xn,其中具有某个特征的个体有t个,则样本中具有该特征的比例为p=t/n(样本比例).如果我们将总体看做0-1分布,即具有这种特征的个体取值为1,不具有这

12、种特征的个体取值为0,根据样本中的观测值,可以获得具有该特征的个体的个数t=xi ,则具有该特征的个体的比例为p=t/n= xi /n(样本比例).由于具有这种特征的个体取值为1,不具有这种特征的取值为0,可得样本均值为xi /n.可见此处,样本均值=样本比例。 同理,总体中具有该特征的个体的比例就是总体的均值,因此可以把单总体比例的区间估计转换成均值的区间估计。第37页,共45页,2022年,5月20日,2点15分,星期二数据文件中,试以95%的置信度估计该样本来自总体中职业为“服务”的个体的比例的置信区间。1.先将多项问题转化成01分布,非服务职业的个体为0,服务职业的个体为1.单击“转化

13、重新编码为不同变量”2.单击“分析探索”第38页,共45页,2022年,5月20日,2点15分,星期二第39页,共45页,2022年,5月20日,2点15分,星期二第40页,共45页,2022年,5月20日,2点15分,星期二第41页,共45页,2022年,5月20日,2点15分,星期二四、假设检验(单变量推论统计) 要掌握课本上假设检验的步骤 一般大样本用Z检验,小样本用t检验。 样本较大时候,t值分布接近于正态分布,t检验法与Z检验法的分别就不大了, Z检验可以看做是t检验的特例。因此,无论样本大小如何,都可以用t检验。 SPSS只提供了t检验。第42页,共45页,2022年,5月20日,2点15分,星期二(一)总体均值的假设检验分析比较均值单样本T检验 1991文件中, 样本的教育年限均值 验证总体的受教育年限均值是否有变化第43页,共45页,2022年,5月20日,2点15分,星期二 若T值大于双尾检验值,则拒绝原假设 或者根据spss计算出的sig.水平,与常使用的显著性水平进行,进而决定拒绝或假设原假设.(这个最简单方便)H0=12.88,H112.88t=167.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论