版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章:统计分析方法与SPSS应用——探讨如何运用统计分析软件SPSS对你的数据进行描述分析.本部分主要内容Spss简介问卷编码单变量描述性统计假设检验双变量统计分析-----相关与回归分析第一讲Spss概览---SPSS是软件英文名称的首字母缩写,原意为StatisticalPackagefortheSocialSciences,即“社会科学统计软件包”。但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为StatisticalProductandServiceSolutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。功能强大、实用与美观统一的
视窗风格——SPSS最突出的特点就是操作界面极为友好,它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。非专业统计人员的首选统计软件!
界面概览菜单栏工具栏变量栏数据区数据变量切换变量工作区SPSSforWindows的界面一.SPSS的主窗口
启动SPSS后,弹出对话框选项如下:1.Runthetutorial-浏览操作指导2.Typeindata-显示数据编辑窗口建立新数据文件3.Runanexistingquery-运行一个已存在的文件4.CreatnewqueryusingDatabaseWizard-使用数据库向导建立一个新的文件5.Openanexistingdatasource-打开一个已存在的数据文件,可选择“.sav”文件6.Openanothertypeoffile-打开一个已存在的其它类型的文件7.Don’tshowthisdialoginthefuture-再运行SPSS系统时不显示该对话框,直接进入数据编辑窗口数据编辑窗口(SPSSDataEditor)或称数据编辑器的左下角包括“DataView”和“VariableView”两个视区,分别定义变量的值(即数据)和变量(名称、类型等)。二.数据编辑窗口的主菜单Edit:文件编辑。View:浏览编辑。File:文件操作。Data:数据管理。Transform:数据转换。Analyze:统计分析。Graphs:统计图表。Utilities:实用程序。Help:帮助。Windows:窗口控制。选择“VariableView”项,定义变量(不要忘了保存)
Name:变量名。不能超过8个字符
Type:变量类型。共8种类型,分别为:
三、建立数据文件(一)定义变量数值型变量(Numeric)①Numeric为标准数值型变量:默认总长度为8位,小数是2位。②Comma为逗号型变量:位数同上。整数部分,从右向左,每3位一个逗号。③Dot为句号型变量:位数同上。整数部分,从右向左,每3位一个圆点,但对小数位的分割,应用逗号表示。字符串型变量(String)
变量的长度是任意的。④Scientificnotation为科学计数型变量。如原始数据1231.3表示成科学计数型为12.313E2;⑤Dollar为美元型变量。在Comma型的基础上,增加一个美圆符号。⑥CustomCurrency自定义型变量。机器自动提示选择方法。日期型变量(Date)dd-mm-yy(日-月-年)如06-05-04mm-dd-yy(月-日-年)如05-06-04dd-mmmm(英文)-yyyy
如06-May-2004
当你选择Data类型后,系统会自动显示日期类型,供你选择。
Width:数据或字符串的宽度。默认值为8个字符。Decimal:小数位数。
Label:变量标签。用来说明变量所代表的意义。Value:对变量值的进一步说明。如:1=男,2=女Missing:定义缺失值类型。系统遗漏值:数值变项读入了空白值或非数值数据,SPSS的数据表上显示“.”。自定义遗漏值:特殊的数据,自己指定一个值,计算机会作为特殊值,计算时跳过。Columns:定义数据在屏幕上该变量对应列的显示列宽。默认值为8个字符,范围是1-255。Align:定义数据在单元中的对齐方式。Measure:定义度量变量类型。可有Scale、Ordinal和Nominal。Scale:可以是数值型、日期型和货币型变量,但不能是字符串型变量
Ordinal:可以是数值型和字符串型变量,一般要求变量有较明显的次序Nominal:与Ordinal一样,只是不要求变量有次序关系,但要有较明显的类别定义变量属性,建立数据库文件注意:变量名字母为首,后面可以跟字母和数字,不超过8位,不能跟其他字符,关键词不能做变量名最好不用中文作变量名,兼容性不好注意宽度标签数值标签缺失值(二)输入数据
选择“DataView”项,输入变量数据l
直接从数据编辑器中输入。l
用“OpenFile”选择已存在的数据文件读入数据。l
用“OpenDatabase”读入数据。
用“OpenFile”读入数据操作步骤如下:①在SPSS数据编辑器中按照“File→Open→Data”可打开“OpenFile”对话框;②在“OpenFile”对话框中打开“文件类型”下拉列表框,选中所要读入数据的类型,根据路径找到要读入的文件双击文件名即可。常用的是读入Excel数据。例1请将下面表格内容在SPSS数据编辑器中输入。
表1药品名产地生产时间价格规格滴眼液A中国2003/4/14日2.5元8毫升滴眼液A日本2002/12/2日2.7元8毫升滴眼液A美国2002/8/29日2.85元8毫升滴眼液B美国2003/2/18日3.2元5毫升(三)编辑数据1.修改数据找到所要修改的数据,激活(双击),修改即可。2.插入或删除一行数据插入行:点击所要插入的行号,点击工具栏(或击右键)的“插入行Insertcase”的图标(望远镜图标的后面),就在此行增加一空行。删除行:找到所要删除的行,选中,按Delete键。3.插入或删除一列(一个变量)插入列:点击所要插入的列号,点击工具栏的“插入列Insertcase”的图标(望远镜图标的后面第2个),就在此列增加一空列。删除列:找到所要删除的列,选中,按Delete键。例2.在例1的数据文件中完成插入与删除的功能.(四)保存分析结果保存结果文件
在结果浏览窗口中选择菜单File==>Save,在文件名框中键入“文件名”并回车即可.Export:选择输出的内容ExprotFile:填入输出的目标文件名ExportWhat:选择输出结果的哪些部分File:选择网页格式和纯文本格式例5.将例1中保存的数据文件导出为文本文件.第二讲问卷和编码对单选:顺序编码,1,2,3,4。对多选:01编码,几个选项几个变量有限制数而多选了的,任意处理一、问卷调查表的编码(一)单选题问卷调查表的编码1.题号代号不能重复,变量名称最好以英文字母为开头,字母大小写均可。如A1,A2…;B1,B2…。2.同一量表的题号最好有相同的识别码。如表1都用a1,a2…;表2都用b1,b2…。3.名义或类别变量的变量代码最好与其意义内涵有关。如年龄为AGE,年级为YEAR,工作类别为JOB等。4.变量代码不要用中文字,如要加注部分变量的中文说明,可于SPSS操作中修改。(二)复选题问卷调查表的编码
问卷调查表您的性别:1男生2女生您的职务:1主任2组长3教师一.您认为目前教改阻力来自哪些单位?(可复选)1教育行政单位2学校行政人员3家长团体4教师本身5其他团体二.您认为目前教改对哪些人会有影响?(可复选)1教师2行政人员3学生4其他NUMsexjobA11A12A13A14A15A21A22A23A240011110110110100212001111000
变量编码表NUM-编码(问卷编号)Sex-性别job-职务(单选)A11-A15代表第一题5个选项,选中者输入1,未选中者输入0注意:1、排序题:如:您一般在什么情况下送礼(选择最经常送礼的两个场合)?(1)婚嫁(2)生日(3)搬迁新居(4)探亲(5)探病(6)生子(7)中国传统节日(7)西方传统节日(8)其他第一经常场合______第二经常场合________对这样的排序题,可以按照要求,设计2个变量,“第一经常场合”和“第二经常场合”2、选多了单选选了多项,或者限制多选超额两种处理办法:无效处理随机处理,如:您的经济状况在学校属于(1)□上层(2)□中上层(3)□中层(4)□中下层(5)□下层同事选中1和2,那么,第一次遇到这种情况,我就取第一个被选项,第二次遇到则取后一个被选中项,减少数据的缺失和误差3、没选(缺失值)用户缺失值(非系统缺失值),用0或者9编码比如:您的年龄是____岁。□□没填则为99您的性别:□男□女没填则为0注意与栏位有关4、不适用情况当碰到被调查者不适用的情况时,被调查者不需要对这些问题进行作答,研究者可以用8,98等来赋值,如果答案有8,可以用0代替。5、最好有一个问卷编号,便于出错之后的修正请大家来看一份问卷,并试图进行编码……编码二、调查数据录入在spss中直接录入数据窗口输入命令行输入从foxpro数据库dbf文件中读取*****注意降低版本从excel文档中读取30名被访者的资料:(续)30名被访者的资料:(续)30名被访者的资料:数据录入之后的校验先用频数统计命令进行简单频数分布统计其他方法:if命令第三讲用SPSS进行基本统计分析例如:数据排序选择采单Data→SortCases将主排序变量从左面的列表框中选到Sortby框中,并在Sortby框中选择按该变量的升序还是降序排序.Ascending-升序,Descending-降序.例1:某班级男生的身高数据(单位:厘米)171182175177178181185168170175177180176172165160178186190176163183SPSS输出的频数分布表分类数据的众数(算例)某城市居民关注广告类型的频数分布广告类型人数比例频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其它广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100数据:分类数据M0=商品广告顺序数据的众数(算例)甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100数据:顺序数据M0=不满意SPSS的单变量描述统计命令
一、Frequencies:频数分析Analyze→DescriptiveStatistics→Frequencies示例:美国汽车家庭保有量变量值频数百分比有效百分比累计百分比二、平均数分析Analyze→CompareMeans→Means示例:美国汽车家庭保有量第四讲假设检验(Hypothesistesting)统计假设和检验统计量
所谓统计假设,就是关于总体分布特征的某种论断。记总体参数为θ,若要判断θ是否等于某已知数值θ0,则该参数假设可表示为:H0:θ=θ0,H1:θ≠θ0
其中,假设H0:θ=θ0就是所要检验的假设,称为原假设或零假设;而假设H1:θ≠θ0则称为对立假设或备择假设。要检验某个假设是否正确,需根据样本所提供的信息来进行。假设检验:先假定总体参数为μ,用一个随机样本的统计量来检验总体参数为μ的假设是否成立。总体μ=38%样本32%?(或者说)假设检验:是建立在样本信息基础上,“接受”或“拒绝”假设的统计过程。(又称“显著性检验”)所有这些听起来非常专业的技术,都是我们每天在做的推理形式,只不过没有用“假设”或“参数”这些术语罢了。例如:比尔为什么开始系安全带了?——直觉假设检验假设检验的五个基本步骤1、开始陈述你相信存在于总体的事实,即总体均值和百分率。(如,比尔相信只有10%的司机系安全带。)2、抽取一个随机样本,然后测定样本统计量。(比尔发现他的朋友中有80%的人系安全带。)3将统计量与假设的参数进行比较。(比尔注意到80%和10%有很大区别。)4、决定样本是否支持最初的假设。(观察到80%的司机系安全带的事实并不支持只有10%的人系安全带的假设。)5、如果样本不支持假设,修正假设使得他与样本统计量一致。(驾驶员系安全带的事实事件发生率约为80%。)CompareMeans过程可计算对已知原始数据资料情况下的单样本T检验(One-SampleTTest)、独立样本T检验(Independent-SamplesTTest)和配对样本T检验(Paired-SamplesTTest)独立样本T检验:即用两个独立样本的原始资料对两个总体均值之差进行比较独立样本T检验举例:例1:由以往资料知道,甲、乙两个煤矿蕴藏的煤含灰量都服从正态分布并且有公共方差。现从两矿各抽几个试样,分析其含灰率得(%):甲矿:24.5、21.3、23.5、22.4、27.1、18.6、19.8、20.7、21.2、16.9乙矿:15.7、24.9、25.1、23.2、18.8、19.0、19.9、26.1、16.8、17.5、22.4、20.6问两矿所采煤的平均含灰率有无显著差异(a=0.05)?解:依题意,设H0:u=u1,H1:u≠u1(1)定义变量X(含灰量)和分类变量g(1,甲矿;2,乙矿)(2)Analyze→CompareMeans→Independent-SamplesTTest非参数检验
(Anayze→
NonparametricTests)参数检验(如上例,利用样本统计量去测试总体参数所做的假设)通常适用于一些特定的、严格的条件环境之下,其中一个典型的条件就是样本资料必须来自于正态分布的总体;当必要条件无法满足时,我们可以采用非参数统计方法。其中的样本一致性检验和独立性检验则是使用DescriptiveStatistics中的Crosstabs
过程完成的。(举例:)例2:两种产品购买者所喜欢收看的电视节目有无差异?某市场研究进行了一次调查,藉以找出两产品的购买者所喜爱收看的电视节目,从而为有关产品公司作广告提供参考资料。两产品购买者最喜欢收看电视节目的人数调查结果如下:根据以上资料判断两种产品的购买者所喜欢收看的电视节目有无差异(a=0.05)?电视节目甲产品乙产品总计新闻电视剧场体育实事论坛音乐欣赏娱乐游戏戏剧园地1501201001401001509011017080100130130110260290180240230280200总计8508301680
解:列联表,需要判断A产品和B产品购买者所喜欢收看的电视节目是否一致,可采用Chi-Square一致性检验方法。
(1)依题意,设H0:两种产品购买者所喜欢的电视节目无差异。H1:两种产品购买者所喜欢的电视节目有显著差异。(2)Spss过程:Data→weightcases,对f进行加权:(选择weightcasesby-----将f放入frequency)analyze→descriptivestatistics→crosstabs将y键入row(s)栏,将x键入column(s)栏选择统计量,chi-square单击cells键,选择observed何expected两个统计量ok结果说明:表1:数据综述表。表明有效数据N=1680>40,所占百分比为100%,没有缺失值。表2:列联表。详细列出了两种产品购买者对7个电视节目喜欢人数的实际频数和理论频数,即期望值。表3:卡方检验。用卡方分布进行一致性或独立性检验时,当最小期望频数>1,少于1/5格子的期望频数<5,且N>40时,一般较多使用皮尔逊卡方值。
由表3可看出,最小期望频数=88.9>1,少于1/5格子的期望频数<5,且N=1680>40,表中看出皮尔逊卡方值x2=30.771,自由度df=6,渐进双侧概率p=0<0.05,故拒绝H0,接受H1,即两种产品购买者所喜欢收看的电视节目不一致,有显著差异。注意:Chi-square:卡方值。用于行和列变量是否独立的卡方检验,如果列联表中某一单元格中的期望值小于1或者20%以上的单元格期望值小于5,那么就不能选择此项。运用剖面变量分析评估细分市场的经营价值所谓剖面分析(profilinganalysis)就是选择剖面变量,对已经划分好的细分市场进行交叉表分析,以发现细分市场在哪些剖面变量上有差异。常用的剖面变量有下面几类:人口统计变量:包括U&A研究问卷中所有背景资料的问题,例如:年龄:小于25岁,25-39岁,40-49岁,50岁以上性别:男,女收入:高,中,低家庭人数:1人、2人、3人、4人及以上U&A变量:包括研究问卷中所有关于产品使用和购买习惯中的问题,例如:
是否使用产品:用,不用
使用的包装规格:75ml瓶装、125ml瓶装、200-300ml瓶装
使用的品牌:A、B、C及其他,或本国品牌、外国、合资品牌
购买场所:超市、糖烟酒商店、杂货店、邻近的士多媒体习惯变量:包括研究问卷中所有关于媒体使用习惯中的问题,例如:
读报时间通常看电视的时间听收音机的频道
通常收看的电视节目看杂志的种类看电影的类别:本地、外国、港澳台案例:沐浴露U&A研究中的剖面分析(部分)剖面变量收入类别高(%)中(%)低(%)(1)使用者998368(2)现在使用的包装规格400ml以下122038400-599ml424035600mi以上464027(5)购买地点超市817772百货商店121417士多7911(9)年龄18-2426242525-3444282135-4922282550-6582029其中:第(1)、(9)的列百分比以全部被访者分别在三个细分市场上的人数为基数;第(2)项以三个细分市场中过去六个月使用过产品的人数为基数;第(5)项以三个细分市场中过去六个月购买过产品的人数为基数。从上表可以看出,在高、中、低三个细分市场上许多剖面变量有显著差异。但比较列百分比时,除了直观看外,通常要进行统计检验或用剖面指数来说明。那么什么是剖面指数呢?在判别细分市场在剖面变量上的差异时,除直观或用统计检验外,一个很有用的工具就是所谓的剖面指数。例如:高收入细分市场某年龄段的剖面指数=高收入细分市场该年龄段的列百分比/总体市场该年龄段的列百分比年龄段样本数收入类别高中低18-65岁50015015020018-24岁125(25%)393650(25%)(26%)(24%)25-34岁150(30%)644242(21%)(44%)(28%)35-49岁125(25%)334250(25%)(22%)(28%)50-65岁100(20%)123058(29%)(8%)(20%)高收入细分市场在某年龄段的剖面指数,反映了高收入细分市场在某年龄段的人数比例是高于还是低于总体市场在相应年龄段的比例。通常的标准是:指数=100%是等于总体市场;指数=120%,则认为显著高于总体市场;指数=80%,则认为显著低于总体市场。在本例中,18-24岁的剖面指数=26/25*100%=104%25-34岁的剖面指数=44/30*100%=147%35-49岁的剖面指数=22/25*100%=88%50-65岁的剖面指数=8/20*100%=40%
因此,对于高收入细分市场,年龄段25-34岁的人数比例显著高于总体水平,而年龄段50-65岁的人数比例,则显著低于总体水平,(其他年龄段的剖面指数可以同样计算)。有了这方面的信息,管理部门就可以有针对性地制定营销组和策略。第五讲双变量关系描述统计(一)相关分析1定距—定距尺度(PearsonCor.)1)相关的含义:相关(Correlation)是用来作两个定距变量关系的统计分析,考察两变量是否存在共同变化的趋势。如年龄与收入。当两变量在同一方向上变化,称为有正相关;相反方向变化,称为负相关;无变化即无相关。相关系数即用来表示相关的程度。如:2)相关系数的计算公式:由此公式可看出:1相关就是共变异数的标准化。2相关系数r的取值范围在(-1,+1)之间。
+1代表完全正相关;-1表示完全负相关;0表示无相关。示例:通过此题来演算相关系数。2定序—定序尺度(SpearmanCor.)积差相关的公式:积差相关又称等级相关,用来考察两个定序变量间的相关关系。它的公式是由积矩相关转变而来,其中,D是每一对因变量和自变量的序数的差值;N是总的排序的序数。3.SPSS中的相关统计命令Statistics--Correlate—Bivariate(双变量相关分析)4相关统计的输出格式相关系数人数1、回归的含义:回归(Regression,或LinearRegression)和相关同样都用来分析两个定距变量间的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论