数据统计分析师spss课程_第1页
数据统计分析师spss课程_第2页
数据统计分析师spss课程_第3页
数据统计分析师spss课程_第4页
数据统计分析师spss课程_第5页
免费预览已结束,剩余131页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程大纲《数据统计分析师SPSS认证SPSS实例SPSS的特SPSS界面介绍(综合设置、help帮助介绍SPSS数据变量详解:变量类型、缺失值、变量测量数据的输入与数据单选题、多选题与开放题的数据SPSS不同文件格式及其外部数数据预数据数据的选数据的合数据的拆检查异常个案数据缺失个案新变量生成,SPSS函使用SPSS变换数据结常用的描述性统计分析功频率描述探索P-P图和Q-Q使用SPSS绘制常用统计图条ROC曲数据分假设假设了解均值的显差异分析及相t检验与方差分析的均值检案例分 1:产品质量差异分卡方卡方案例分 2:企业选址的区位分相关偏相关分距离回归分析基简单多元逐步回回归预测与残差分方差不齐与强影响点的处—最小二乘法与最小一乘共线性的处理—岭回归(ridge注意案例分 3:产品的影响因素及其预测分logistic回归案例分 4:客户违约信息研曲线因子分析与聚类分主成分分析与快速聚类法与两步聚类判别案例分 5:力信息研对应对应简单多元对应分析(最优尺度分析案例分析6:企业选址的区位分析(案例bootstrap技bootstrap原bootstrap应bootstrap功能在SPSS中的实统计报表过制作报表过表格表格模板技其他制表过SPSS程序编辑窗口基本结构SPSS编程第一部分SPSS介 SPSS实例SPSS的特点SPSS界面介绍(综合设置、help帮助介绍*1.1粉*1.1粉红色表示注释,蓝色表示标题*.. SPSS实例文件名:出口商品金额文件说明:中国出口商品分类金额年度统计文件*-- 收集数据,或从数据库---问题要求:aSPSSb、根据变量属性定*--不确定系数、gamma等步骤:a、启动SPSS、文件→打开→数据(文件类型excel异常值:排序功d、相关分析:分析→相关→双差异分析:分析→比较均值→单因素数据处理数据处理流程1.数据收 2.数据管 3.数据预分 4.数据分 5.呈现图

个性化SPSS特全球25遍及金融、卫生、生产、、通讯、、教育、地理、天文等多个域拥有市场研究80%的占有率最的标准统计软件之一软件历程(StatisticaSocialSciences,主要是面向社会科学的统计软件包。2002正式将英文全称更改为统计产品与服务解决方案(StatisticalProductandServiceSolutions,面向商业化,反映市场发展的新趋势。2009年4月将软件更名为PASW(Predictive yticsSoftware)。同年9月,被IBM收购,命名为IBMSPSSStatistics。b、回归模块:提供大量的非线性技术,包括logistic模型、probit模型等,d、复杂抽样模块:简单抽样、分层抽样e、其他主要模块:联合分析、决策树、直销 *---市场导向模块--.等十多种模块---功能及其产品定位:*---SPSS功能评价的较客观。基本特点

①数据库功能完备,SPSS主体部分除了封装好的菜单功能外(如,数据、添翼。另外在方面SPSS软件有一个完整的技术平台,如咨询、②统计模型方面,软件发展的40,这一块已经很成熟了,不过SPSSmodeler。③SPSS软件的整合系统,可以有效的将、统计分析、数据挖掘和报表技术整合到一个技术平台上,帮助企业建立统一的资源库。①易学易用:菜单操作,即使数理统计基础薄弱的用户也可以很快②兼容性好:支持多个语言,尤其是解决了中文的兼容性问题。此众多不同文件的支持,如文本、网页、SAS、Excel等格式③扩展性能好:可以直接调用 语言,处理比较新的统计方法数量级容量:SPSS能装载的有效数量无限:由磁盘空间决定,但其用于显示的界面只有8000万条观测。速度:多线程技术的使用,意味着海量数据的处理能试着转化成版本7的格式,再打开。Spss13.0:具有“性”的版本,可以说确定了SPSS软件的整体框架,Spss16.0:提供了对R语言的支持Spss19.0:并入 后推出的第一版,只是在细节上做了修整Spss21.0IBMcognos的接SPSS界面介绍(综合设置、help帮助介绍*---介绍数据窗口的主要菜单项数据窗口文件名:出口商品金额a、文件 新建、打开、另存为、最近使用的数据b、编辑:撤销、、粘贴转向变量(或转至个案:当存在很多变量和个案时,该过程具有实用性,例如图形探*---注意该过程重复选项:→常规:变量列表、windows、输出(语言、用户界面(语言→查看器:字体,字体格式的兼*数据:设置两位数字表示年号。例如1943-年,”10/12/80”格式为mm/dd/yy*---spss1582年10月14日午夜为基线→输出:可以修改输出名称或显示行块,用于限定输出行*---在下两节中均有介绍 数据变量详解:变量类型、缺失值、变量测变量视图a、名称:变量名,汉字、英可以b、类型:提供八种格式定义变量的不同类3.2329.22。逗号:数字变量的值每隔三位就使用逗号作为分隔科 :例如2934,可以使用2.9E+3表示。注意:数据很长的话SPSS是根据宽度自我们熟悉的格式。计算均以1582年10月14日午夜为基线。e、值:对数值加(120字节) 有关度量标准相关知识介 变量测量SPSS区分三种测量类型:名义测量、次序测量与标度测量(scalemeasurement。其中标度测量(scalemeasurement)包括间距测量与比率测量。a、名义测量(nrilmaret)是最低的一种测量等级,也称定名测度。其数(1或2(123…变精致的发挥出来,否则我们一般常用logistic回归分析。在此模型后,更进一步的是潜提供相关关系的假设b、次序测量(ordinalmeasurement)的量化水平高于名义测度,用于的测量的数值(1,2,3…对这种类别的处理常用的方法是方差分析及其均值趋势、非参检验、有序相关性指标(aa系数、knal系数。其中最常用是非参检验的方法,这是一个大类的方法群,里面很多的算法都可以用,以秩和检验为代表。c、间距测量(intervalmeasurement)的量化程度更高一些,它的取值不再是类的为测度等级的变量所取的0值不是物理上的绝对0。比如考试成绩的0。d、比率测量(ratiomeasurement)是的测量等级,他除了具有间距测度等级的所有性质外,其0值具有物理上的绝对意义,而且可以进行加减乘除运算。例如增(本期-前期)/前期.由于c、d这两种测度在spss或其他统计软件里均不做细致的区分,大部分的模型.* 数据的输入与数据单选题、多选题与开放题的数据SPSS不同文件格式及外部数据(非SPSS数据格式)的导.数数据的输入与数据Spss的数据格式文件名 初学者最好先掌握这一种数据文件重要性a、数据排序导致原始数据信息b、合并文件的指示c、一些图形可以ID号产生ID方法:a、直接录入b、使用EXCEL产c、使用函数或程程序:COMPUTEID=$CASENUM.XE详细说明请参阅 -1-单选题、多选题与开放题的数据a、单选题打开文件:表格式.sav 变量v2_1C且选原因可以(是与否)或(多项2、如果您是普通员工,请回答下面两个问 生成虚拟变量--- 使用多重二分法形成6变量:选中为1,未选中为注:每个选项对应一A:员工本人()B:本部门所有员工()C:本部门与自己有密切合作的员工()D:其他部门与自己有密切合作的员工()E:上级主管() 定义方式是多重分类法:也使用6个变量,其值表示c、开放9题是纯文本,需要进一步定义、量化才能录入,否则作为参考。多选题的处理a、分析→多重响应→定义变量多选题的这种设置格式 并a、分析→多重响应→定义变量打开数据文件:表格式.sav分析:分析→多重响应集→定义变量频率(或交叉表类别:表示多重分类中数值的范选着变量b、分析→表→多重响应只能在分析→表→设定表这个路*---这里定义的变量在多重响应频率和交叉表中不可用c、多选题分析探一般常用①频率或交叉表探索数据的基本③主成分分析用于探索他们间可能存在的主要因素SPSS不同文件格式及外部数据(非SPSS数据格式)的导a、excel格文件名:出口商品金额CG_Ceo.xls*----无法识别日期,请调用文件日期运算 文件→打开数据库功能:随b、文本文件→打开文本数导出数据:另存Sav格式: 数据预数据数据的选数据的合数据的拆检查异常个案数据缺失个案新变量生成、SPSS函使用SPSS变换数据结常用的描述性统计分析功频率描述探索P-P图和Q-Q使用SPSS绘制常用统计图条线交互.数据的预分数据数据的选打开数据文件:短期员工绩效.sav。操作:数文件说明:100名参加的员工绩效总分”“适应总分情绪总分”分*---文件是关于员工适应与工作情况的,长期员工绩效.sav与此基本对应---a、如果条件满足:=1,会产生filter_$变量,可以用于筛选器的进一步处b、随机个案样本:精确方式的选择,可以这样理解从多少个案中精确选择几*---注意:选择完后需选择全部个案才能恢复输出a、过滤掉未选定个案,这是软件默认的选数据的合操作:数据→合并文件→添加个案(添加变量添加个案b、也可以将不匹配的变量直接选入,数据信息对应原d、将个案源表示为变量:就是对合并后的文件标记来源于哪个数添加变量注意:a、个案最好相同,变量*---个案不相同,会产生缺失值c、使用关键变量,关键变量必须同时存在与2个数按排序文件中关键变量匹配个a2个数据中关键变量信息,b、基于非活动数据集的关键变量(externalfileiskeyed表示参照当前文件关键变量的信息选择个案,除此之外将被排c、基于活动数据集的关键变量(workingdatafileiskeyedtable)*---注:*表示的变量原数据集,+表示外部数据集多个数据文件的合并纵向合多个数据文件的合变量名不变变量名不变量名不解决方 解决方 直接合 修改变量名按“对”选

解决方使用关键变使用关键变

关键变

关键变两文件均提供原文件提供外部文件提数据的拆数据拆分a、按类别变量分别输出结a、如果数据量很大,最好先对拆分变量排选项比较注:相关分析后,别忘了还原数据,在数据拆分主界面下“分析所有个案,不3.1.4检查异常以下几种3.1.4检查异常箱体箱体图y。。 。 。。。 。。。x。y。。xy 。。 。 。。。。 。xy 。。。。。 。。。 。。。 。。。。。x①箱图中间的粗线表示中位③箱体外的上下线表示除去异常值外的最大值和最小值④与箱体(灰绿色)的上、下线的距离超过四分位距 1.5倍即被视为异常(用圆圈表示,超过3倍的即被视为值(用星号表示c、标识异常个案选项卡:a、变b、输出 里提供更详细的输出对等组:输出id(1表示第一对等组)、size(组大var(变量、measure(向量长度,测d、选项:输出条输出输出结果异常值处异常值处理的常用方直接将该条观测在SPSS软件里有2种不同的删除方法,整条删除和成对删暂且保留,待结合整体模型综合分残差有没有超出经验范围(+3标准差一些指标像Mahalanobis、Cook's、协方差比率等可以提供某条观测或整体的拟合信息,如果样本量很小,可以考虑使用均值或其他统计量取将其视为缺失值,利用统计模型不做过多处理,根据其性质特点,使用稳健模型加以使用抽样技术或模拟技术,接受更合理的标准误等抽样样本(SSS默认是100)所计算出的均值的标准误,一般来说会更合理,这可以有效应对异常值的影响,但前提是原始样本量不能太少(小于10,小样本的结果不够3.1.5个案 检查信息:分析→描述→频 *---经常使用卡方验证---*--为什么要,例如不同重要的客户预测产品销售→用于确定权重的方法--.6数据的分打开数据文件:短期员工绩效操作流程:数据→分类汇分类汇总文件已经按分组变量排序:大型数据的情况下,数据按分组变序后,选择此选项,效率较在汇总之前排序文件:大型数据的情况下,如果没有排序,选项汇总函数汇总函汇总函统计量:均值、中位数、总和、标准:计 状态下的组内样本数 缺失:计算 状态下的组内缺失样本数百分比与分数:指定值以上(或以下、或某区间)的百分比与分数(分数形式注:指定值以上或以下,不包括该值,例如大于6,但不等于指定某区间,则包括该值,例如4到6之间,包括4和缺失打开数据文件:missing(完整数据 是原文件不含有缺失值missing(缺失数据).sav含有缺失值。40处交通枢纽处的车辆滞留情况。Group:1表示交通期,2表示非期b_flow:表示自行车在交通路口处的滞留情并产生5个缺失缺失值相完全随机缺失检验MCAR假设不成立的方法有单变量t检验和little’sMCAR多变量检验。随机缺失非随机缺失企业信息等,这种类型的缺失几乎没法进行统计处理。所以在收集数据时尽量避免这Spss缺失值处理a、一般选项排除缺失按列表排除个案:不同变量中如果存在缺失值,则相应的观测被排b、操作:转换→替换缺失替换缺失该过程主要应用于时间序列数据c、操作:分析→缺失值分缺失值主①模式按照缺失值模式分组的表格个对不同变量的每个个案呈现缺失系统缺失:使用S标记用户定义缺失值:使用A、B、C或D表示正负号:分别表示超过四分位距上下1.5正负号:分别表示超过四分位距上下1.5X:表示缺失信息的完整数:表示如果涉及的变量无缺失,数据集中观测的②描述使用指示变量形成的分组进行t检验:使用指示变量标识为有缺失组和然后使用指示变量进行t检验其中a_flowb_flow可能不是完全随机的。有利于侦察分类变量和缺失值间的趋势关③估计按列表:显示无缺失数据的均值、协方差和回归

未缺失的变量为自变选项t分布残差:t分布最大预测程序数:指的是限制自变量的个 Little的MCAR检验的原假设是,缺失数据是完全随机的,上表结 (p=0.148两种方法结果对原数据集回归的结果(无缺使用回归填补使用使用EMb、多重填补技术(MultipleRubin提出来的多重填补技术,这种技术EM填补技术不确定性的缺陷分析模式操作:分析→多重归因→分析模式主要用于确定数据的操作:分析→多重归因→归因缺失数缺失值分析中连续变量使用线性回归的方法分类变量使 回归计算每个变量在计算缺失值时,使用所有其他变量的主效应作为自变量方法单单个案排该功能用于解决的问题为数值变量创建秩、常规得分和Savage得分以及百分位值的扩展了该方法的应用。数据文件名:长期员工绩效操作流程:转换→个案排变量:用于求秩次的将秩1指定给选项秩的类秩:新变量的值等于Savage得分:新变量包含基于指数分布 Savage得分Savage得分是指数分布的次序统计量的期a(Rj表示秩得n表示非缺失观Rj表示第j百分比分数秩:分数秩乘以100。缺失值被视为单独的一个“值例如,4个Ntile会将秩1指定给第25个百分位以下的个案,将秩2指定给第25个与第50个案,将秩3指定给第50个与第75案,将秩4指定给第75比例估计和正态分Blom:基于使用公式(r-3/8)(w+1/4)的比例估计创建新的秩变量,其中w是总观测数,r是秩。Tukey.使用公式(r-1/3)(w+1/3),其中r为秩,w是Rankit:使用公式(r-1/2)w,其中w是总观测数,r是VanderWaerden:VanderWaerden转换,由公式定义,其中w是总观测数,r注:比例估计,实际就是基于W和R计算的值结原变量值均值低 顺序秩对唯一 1 23 6

新变量生成,SPSS函数a、转换→计算变要求:取平均、汇总、平移、设统计软件系计算变量主 经 36数据处理与分析中心 选择目标变量:用于定义新变量名,可以设置类型和关系运算符:“~示不100多种函数。可以参考手册: .ibm.spss b、转换→重新编码为不同变量(或相同变量 名称:添加新变量命名及 ,点击更改旧值和新右上角是新值:填写需要转换成“如果”条件:可以设置选定的条件进行编*---注意 连续变量的分段赋值时,不同分割点的归属问题例如:RECODE总分(Lowestthru99=1)(99thruHighest=2)INTO99Lowestthru99=1991,不会影响c、转换→计算变量→函数数据文件名:短期员工绩效操作流程:转换→计算变量→函常用的函(1)算术Abs:取绝对值Sqrt:返回平方根,经常也用于转换。EXP(num):返回e的num次幂。在广义线性模型中有些系数exp转换后,更便于理解(2)CDF与非和标准差)quant左侧累计概率。CDF.CHISQ(quant,df)返回卡方分布(df)quant的显著性可以使用1-CDF.NORMAL(quant,mean,stddev)获得(3)杂项显著性SIG.CHISQ(quant,df):返回卡方分布(指定df)中大于的累计概SIG.F(quant,df1,df2):返回F分布(df1df2)中大于quant的累计概率。统计量注:点击某具体函数,在计算变量界面的下方就会出现相关说*---SPSS提供100多种函数可以有效的降低相关统计过程的工作量使用SPSS变换数据结转a、对列进行计算和重打开数据文件:反应时长型.sav文件说明:20名被试在不同音乐节奏的情况下,对不同的反应速度被PictureRTProbeACC三种的反应速度。重复测量模型中最常见的数据格式,即一行对应于一个观测(注意:不是个案,但有些 长型数长型数操作:数据→重打开数据文件:反应时长型.sav标识符变量:表示个案(或被试*---注意:相同内变量的取值相同,则不会转换---b、宽型→长型第二步:设定变量组个数:3个图图1-2变量组:表示一个变量的多个测量第三步第第4步到第7常用的描述性统计分析功频率描述探索频率过统计量:该选项一般是针对连续汇总离散:提供最常用的其中均值标准误可以粗略用于:均值差(观测均值与假设值)与标准误的比值超出[-22]的范围,则可以断定两个值分布:偏度和峰度描述分布形状和对称性的有关偏度的经验标准:偏度值超过标准误的两倍,可为分布有值为组的中点:被删截的数据,例如所有身高2米以上的人部分数据,如果选择该选项可以估计原数据的中图表:条形图、饼图、直方图(提供正态曲线*---提供合计、带正态线的直方图功能。描述过说明:将标准化得分另存为变探索过因变量列表:选人连因子列表:用于数据分组。可以是字符型,选人离散变统计量M-估计量的4种方法Huber适用于数据渐进正态的Tukey、HampelM-估计量的4种方法Huber适用于数据渐进正态的Tukey、Hampel、Andrews适用于异常值较bb、界外值,列出最大值和最小值各5 平均和Tukey枢纽在大样本情况下一致绘制:箱图、茎叶图带检验的正态图:QQ图(QQ正态图和反趋势的QQ正态图K-S的正态检验当非整 ,且权重样本数在3-50之间时,计算K-S统计量 Levene检验:(spreadvs.levelwithlevenetest分布—水平Levene检验。对于所有分布-水平图,显示回归线的斜率和Levene稳健的方差齐性检验。P-P图和Q-Q数据文件名:短期员工绩效分析→描述统计→Q-QQ-Q输出结果的读法输出结果的读法相同,这里不再定变量与检验的理论分布匹配,则点在(理论分布计算的)直线周围,界面说明t、Weibull和均匀分布。分布参数输出结果

原变原变量均低高111324324324555666正态P-P

去势P-PY=0上下均匀分布,差值波动控制在[-0.05使用SPSS绘制常用统计图散点条控制ROC曲散点图(交互式图形图形构建程序的主打开数据文件:出口商品金额.sav ①简单散操作:初级产品和食品分别放入行列坐标。双击图形如X轴:刻度:对行坐标刻度的大小进行设改为“标记”。元素类型其他选项是使用不同的图形表示。从方程中添加参考线:可以自己设置方总计拟合线:对总体数据添加最小二乘法绘制的回归方程。其中loess是局部要拟合的点的百分比:是指利用的样本比loess相关信Ey)αβEy)αf半参数形式Ey)αβx1fx2Ey)αf(x1f(x2注:f(x2是光滑函数。内插线主界面下的其他功列嵌板变量:在列方向上嵌入分条条形标准误(SE)基本等价95%的置信区间。*--其他功能和散点图基本类似,只是在条图上可以进行丰富的设置选 控制文件描述:文件来源于国泰安中国市场衍生指标数据库,2005年上半年的收益收益率:本日收益风险因子_分类:对风险因子流通市值进行离散化,分4类。风险因子180个交易日对数收益率估计出来的波动率。控制图主控制图主X条形图、RS数据组织a、X条形图、R图和S图←→个案为单图表 条形图的使用范围:输出均值-极值图,适用于亚组个案数很少的情显示R图:表示输出相应的极值或标准差控制图。

0.1399表示第三组的全距,虚线表其他选项选项:sigma的数目是3,表示偏离均值标准差的范围是3倍标准差统计量容量sigma:使用R条估计:均值全距使用S条估计:均值标准差在子组变动:子组组内方差。过程容量指标和过程性能索引:分别基于容量 和过程标准差计算b、,移动全距←→个案为单移动全距的跨度的默认设置 2:表示(Xi-Xi-1)生成的新序列,用于显示前观测间的波动情ROC曲ROC(ReceiverOperatingCharacterstic)曲线——接收者操作特征曲线。最早应用于信号检测领域,用于区分信号与噪声。信号检测论能告诉我例如:听觉:是否听到某事物的信号检测论:在听觉感受性相同的情况下,判断标准不①冒进:每次出现不会“漏报感觉有就②保守:每次出现不会“虚报没有把握不会报表:刺激是否做出反未反合呈现信A(B(漏报A+未呈现信C(虚报D(正确否定C+合A+B+A+B+C+灵敏度A/(A+特异度D/(B+操作:分析→ROC打开文件文件描述:对126名被试进行 组一男一女,共63组,用于探索不同的 g_sample:表示女性反应正确的ROC曲线主界选项标准误和置信区间:输出不同分析的 曲线下面积的标准误与置信区间选项非参数:曲线下面积标准误的估双负指数:信号组与噪声组的观测值需相输出结果特征ROC曲线结果的取值在【0.51一般来说,【0.50.7)【0.70.9)【0.91注意:①有时ROC②如果某 曲线在对角线两边均有分布,需检查数据或专业背景*--例如特异性很高,但敏感性很低的情况是否存在正常行汇阳ABA+CDC+列汇A+B+A+B+C+真阳性率(灵敏度)A/(A+C)很低真率(特异度)=D/(B+)很高假阳性率(误诊率)=B/(B+D)假率(漏诊率)=C/(A+生成标准正态分COMPUTE 数据分假设假设了解均值的显差异分析及相t检验与方差分析的均值检案例分 1:产品质量差异分卡方卡方案例分 2:企业选址的区位分相关偏相关分距离回归分析基简单多元逐步回回归预测与残差分方差不齐与强影响点的处—最小二乘法与最小一乘共线性的处理—岭回归(ridge注意案例分 3:产品的影响因素及其预测分logistic回归案例分 4:客户违约信息研曲线因子分析与聚类分主成分分析与快速聚类法与判别案例分 5:力信息研对应对应简单多元对应分析(最优尺度分析案例分析6:企业选址的区位分析(案例bootstrap技bootstrap原bootstrap应bootstrap功能在SPSS中的实 数据分假设.1**a、概率和小假如:1-100个数放在一起,我们随机抽取,形成的 COMPUTEnormal=RV.NORMAL(0,1). setseedinputloop#lop=1tocomputenormal=normal(1).endcase.end endendinputprogram.观察分布图图50图500图5000次循环产生的标准正态分 图50000次循环产生的标准正态分a 频数分布的上缘可以绘制一条曲线,即概率密度函数,其下的面积和 1CDF.NORMAL(quant,mean,stddev)函数——返回正态分布下指定均值与标准差的小于quant的累积概率。c、这个曲线的特点是什么?小*---注:在一次实验中,概率小(p<0.05)的事件认为不可能发生b、小概率原理 前提:认为小概率事件在一次实验中不可能发生例如:篮子里有100个苹果,其中有1个是坏的,99个是好→在此基础上(原)假设篮子里有99个好苹果*--现在认为这个假设是正确的→现在随机拿一个苹果。拿到坏苹果的概率 应用

例如:建筑框架结构——钢筋尺寸大小——质监*零假设:钢筋尺寸=3m→确定检验统计量,钢筋尺寸就是检验统计量。*也可以是其他统计量如果是, 原假设,认为该次抽样钢筋尺寸的长度是显著不同 步骤 建立原假设H0成立,备择假设H1虚无假设H0:u1= *--这个形式不是唯一的,可以是大于小某个值,或零等,视研究目的而定H1:H0为真,对其统计检验;H0与H1确定小概率事件的界值一般情况下p<0.05或p<0.01作为小概率获取样本,即抽选择检验确定p值,得出结论接受H0H0正α型错误(I型H0β型错误(Ⅱ型正注意事项 ①接受或假设,并不等于100%的正②两类错误的概率相加并不一定等 ③其他条件不变的情况下,αβ不能同时增大α与β的关系示意d、单侧检验与双侧检注意事项:①②先验或理③双尾检验一般认为更保守4.1.2了解均值的显a、总体正态,总体可以用样本均值的标准误差,按正态分布计算临界Z(xμ0)b、总体正态,总体t(xμ0)S其中,SExSn1 nSnc、总体为非正态n②n的样本量较大(n≥3050,服从近似正态分布(总体已知nZ(xμ0)σ0差异问题:差异分析能做t检验与方差分析的均值检a、均值打开数据文件:food_qualification.sav文件描述:某公司推出新产品X系列,现需检验不同产品间(X系列、B系列和C系列,在材料配置方面是否存在差异,以及不同生产线上,变量Code:X系列、B系列和C系列三种序列产品,其中X系列是新code_category:对code的编码,分别对应1、2、3。Addrss:两个不同生产线的位置信息。raw_material:auxiliary_materials1:表示辅料1的配auxiliary_materials2:表示辅料2的配auxiliary_materials3:表示辅料3的配p_sale:促销前销售额.s_sale:促销后销售额操作:分析→比较均值→均均值过程*--该过 的是用于数据描述或预分析--第一层的统计 *--注意:这里指的是第一层的统计量---Anova表和Eta值:单因素方差分析,Eta值用于说明自变量变量间的*---Eta值的平方就表示组间变异占总变异的比例。线性相关检验:提供R和R2,检验均值间是否存性趋势,但DeviationfromLinearity检验与R2存在一定的b、t检验(studentt检验操作:分析→比较均值→单样本t独立样本t检验配对样本t检单样本 检验:两总体方差未知,样本均值与总体均值间的显著性检验nt(Xμ)/Sn单样本单样本t注意:多个变量只能使用同一个独立样本t检验:用于检验两样本是否来自相同均值的总体。原理计算t统计量,公式=(xx=(xx) (xx 22 (n11)(n2( St S

x1x2分别表示组1、组2的均值n1和n2分别表示组1、组2的样本数x :表示均值差的标x1原理的图形化表适用条件:①用于小样本(例如n<30,且总体标准差σ未知的正态分②使用于分类水平为2的离散变③各总体方差相等数据文件操作流程:分析→比较均值→独立样本t独立样本t检验主界面检验变量:选人连续变量,可多选,但结果是对检验变量逐一进行分组变量:选人二分输出结果解释Levene检验:用于检验方差是否齐性。F检验显著(p<0.05,则方差不(模型假设反之,方差齐上表可以看出方差不齐则看第二行的t值,即t=-5.99是显著(p<0.05或t>1.96),说明第一生产线(0对应的组)的原料含量是显著小于第二生产线(1对应的组)。配对样本t检验:用于检验两相关样本是否来自相同均值的总体。配对样本c、单因素方差分析(单因素该功能用于解决什么方差分析方差分析依据的基本原理是方差的可加性原计算F统计量过①变异分SSTSSBSSW,dfBk1,dfWk(X注:

X2 表示总体

(X2

X (XSSWX2

表示组内n表示总观测数k表示水平②计算均MSBSSB/dfB,MSWSSW/注:MSB表示组间MSW表示组内均方③FF单因素方差分析模Xijμ+αiεμαi是因素不同水平对因变量的附加效应,其和为εijN(0,σ2适用条件:①因素水平间的因变量要服从正态分布②适用于分类水平为两个以上的分类变③各总体方差相等数据文件操作流程:分析→比较均值→单因素单因素单因素ANONA界面说明选项①对比到5次多项式的检验。用于检验高次项模型是否显②两两比方差齐性LSDtSNK法:是运用最广泛一种两两比较的方法,它采用studentrange分布进行所有各组均值间的配对比较。该方法保证在H0为真时,总的a水于实际设定值,即控制了一类错误。方差不齐一般认为games- 稍好一点,但最好用非参的方法*---两两比较部分的内容引自老师课件---③选项固定和随机效应:分别输出其成方差同质性检验:方差齐性检均值图:判断均值趋势单因素ANONA检验流程2)多因素方差分多因素方差分析模Xijμ+αiβjαiβjεμαi是因素不同水平对因变量的附加效应βjαiβj N(0σ2)适用条件:①因素水平间的因变量要服从正态分布②适用于分类水平为两个以上的分类变③各总体方差相等固定因子:分类协变量WLS权重:计算最小二乘的权重系数选项①模型:用于设定各偏差:表示每个类别均与总体效多项式:适用于不同类别间距相③绘制水平轴:绘制因素不同水平均数单图(separatelines:将因素不同的水平图绘制在一起。多图(separateplots:分开绘制因素不同水平的均值图。④保存学生化残差:经t变换的残差,即除以其标准差的估计值。Cook距离:删除某个个案,引起当前个案回归后的残差的变化情况大于1可能是离群值。⑤选项估计边际均值:估计边际均值的相关参估计功效:偏eta方差齐性残差图 0拟合优度检验(lackoffit 模型是否充分描述变量间的关系显著性水平:多重比较的显著性检验的设案例分 1:产品质量差异分如上所述卡方该功能用于解决什么卡方a、表示观测值与理论值间的偏H0:观察频数与期望频数没有Pearson卡方计算k(Anp i 单元格期望数的计算:单元格期望数的计合频数频数频数频数合cWEnpricj ri用于表i行的子汇总W用于表示总体汇注:期望次数是虚无假设成立时单元格最小期望频数需大于单元格期望频数小于5的过20%。d、操作打开数据 近3年内效应被良好(根据相关专家和企业家评分。turnover_p:对营业额收入的评分交交叉表主统计量选选项a、精确 carlo(M):利用模拟抽样的方法计p值的无偏估 模拟运Montecarlo计算方法的例子说明Montecarlo是一种通过随机抽样的模拟技术。假如我们需要计算一如果使用Montecarlo,就相当于将一些豆子均匀的平铺在这不规则的图——引自老*精确:计算出确切概率值,但大数据量的时候很耗a、统计1)Kappa:内部一致性系数,取值在 0.75[0.40.75]间一致性一般;小于0.4较差。风险:OR(比数比)和RR(相对度用于度量行列间的关联 *--大于1表示试验因素更容易导致结果为Mcnemar:用于配对卡方检Cochran`sand 检验的同质性检验。即,不同层间,两者关联是Eta平方表示SS组间/SS总。相关系数指相关系数指标连续变量的相关(x (y(x (y22r(xx)(yy)xxyyr取值范围[-111表示完全正相关,0表示没有相关,-1表示完全负,有序分类的相关一致对子数表示行变量等级高的,列变量等级相应也高 表示两倍的一致对子数Q表示两倍的不一致Gamma指标,取值[-1γ(PQ)Kendall′sTau-b指标,取值[-11]τaPQ/[n(n1)/Kendall′sTau-c是在此基础上Somers′ddyxPQ/(PQPy dxyPQ/(PQPxdxy表示x为自变量,y为因变量的情况,Py在y方向上的一致无序分类的相关χ2(χ2(χ2n表示总样本,取值[01]PhiCramer′sVχ2χ2ϕ4格表里取值[01],而在其他列联表里没有上限。Cramer′sV是Phi的调整:取值在[01]。Vϕ2/min[(r1),行列(r-1)(c1)取最小值λ用于反应自变量对因变量的预测λfimFym/(nFym注:fim是每一类x中,y分布的众数次数;Fym 为y次数分布的众数次数。取值介于[01],1表示自变量可以完全准确预测因变量,0表示自变量无法预测因变量。不确定系与λ系数相似,用于说明自变量对因变量预测的不确定性,以熵为不确定性大小的b、单元格残差:观察数与期望案例分 2:企业选址的区位分如上述所相关类型:有线性相关和非线性相关)一般情况下,如果不做特殊说明,指的就是线性相)积差相关r(xx)(yy)yyr取值范围[-11

(xx)2(yyH0:两变量间无直线相关关系适用条件 数据间相互独立,包括观测间相互独立与变量间相互独立③变量为连续变量(积差相关的条件相关系数与相关程度对应情01注:该对应关系需视学科背景的具体情况而打开数据受教育程度分高低两类,三种行为评价对应Gbehavior三个变量。分析→相关分析→双总拟 子拟相关分析Kendall的tau-b:适用于两列有序分类资料。统计效能要低于Pearson。注:其他用于度量有序分类或无序分类的相关分析指标→描述统计→交叉表→(选项)另外叉积偏差和协方差:用于反映变量间相关程度的描述统计偏相关分该功能用于解决什么 偏相又称净相关,表示排除其他变量的影响后,计算两个连续变量间的表现形式:多种表现形式。其他变量可以是中介变量,也可以是调节变量 自变 因变公式

(1r2)(1r2 r12(3)表示在控制比变量3的情况下,研究变量1与变量2间的偏相关系打开文件距离距离分析文件说明:本表是2008年 数据来源于2009中 变量永久:户口在本乡、镇、街道的待定:户口待定的人不相似性测①连续变Euclideandistance(欧几里得距离:两变量间差值平方和的平方根。值大的方Minkowski明可斯基:两变量绝对差值p次幂之和的p次根Customizedpr②频数表资卡方(x2):标准分数的平方Phi平方(Φ2:x2除频数的平方根③二分类变欧氏距欧氏距离Lance和Williams:Bray-Curtis非等距系数,取值0~1相似性测连续变量Pearson相关余弦:变量矢量的余弦值,取值[-1~1其“全距从-11”01”:用原数据减去最小值,再除以原数据的范围。“最大幅度为1”:用原数据最大值除以每个数。“均值为1”:用每个数据除以其平均数。“重新标度 0- 全距”:当通过转换值进行标准化后,一般使用此方法回归分析基回归分析能解决什么ab相关与回归间的关 yx 不同类型的几种模yβxβ1y1(βyβxβ1y1(βlnylnββ1lnxμ1x)μ,表示非线性模型。1ΣΣ(Y2)所有Y回归直线所解释的离差平方和,即回归直线无法解释的离差平方和,即MSRSSR/dfR,MSESSE/①计算F比EFMSR (回归方程的整体性检验E②回归系数的0t=b−β(HSEb0

:β=0SEbβ测定系数(R2( r2 ) )T(YY )T线性回归模型的假a、线性:因变量与自变量间的线性关*--可以通过残差的独立性检验Durbin-Watson---.d、正交假定:误差项与自变量不相关,其期望为0.*--正态性与异方差在构建模型中的作用较小,对推论影最小最小二乘法的优*--最小二乘法直线穿过散点的质简单相关系数与R方的关 简单线性回 相关系数R=相关系多元(Iversen,2012回归模型表示为:yˆ177.170+211.105x10.772x2②偏回归系1ˆ2界面介绍进入法:默认是进入法,即变量全部进向前①对所有自变量拟合一元线性回②其中某最显著的自变量将首先引入模逐步c、WLSd、选项①统计量VIF:大于3可能存在共线性,大于10认为存在共线Durbin-Watson:残差序列相关检验ndd

ˆ ˆ ˆε εε d ε εε n εˆnεt

ˆˆ2εˆ2ˆεˆtεˆtt注 ,即一阶自相关系数tˆ取值范围[-11d的取值范围[0*---具体检验可以参考:郭志刚主编.社会统计分析方法— 软件用一书的附录1和2个案诊断②绘制直方图:绘制因变量残差的直方正态概率图:输出残差图,正态预测值SE:预测值的均值标准误。*---操作应 --残差未标准化:观测值与预测值的差距离杠杆值:个案对回归拟合效果的影响。取值【0(对拟合没有影 协方差比率:删除个案后协方差与原协方差的比率,1逐步回逐步回归的用途:探回归预测与残差分方差不齐与强影响点的处—最小二乘法与最小一乘a、方差不齐—最小二乘操作:将残差保存下来,选入 权重作 变量稳健回归相关信息b、强影响点—最小*---处理方法:log、截尾、分共线性的处理—岭回归 regression)等方法*---处理方法:项目合并、主成分回归、逐步回归、偏最小二乘、分位数回归岭回归相这种情况称为非正定或奇异,这时的X'X就是奇异的。但如果将X'X加上正常数矩阵,奇异性就会得到有效改善,K就是该系数的估计值。操作:文件→新建文件岭回归程Include"D:\spss21\ddanzhuang\Samples\English\ridgeregression.sps"Ridgeregdep=raw/enterau1au2Ridgeregenter=自变/dep=/start=k初始值/stop=k终止值/inc=k搜索步长/k=k*---Python---岭迹解释:K与自变量是标准化注意问Bentlerstructuralequationsystems.Psychometrika.P143-145案例分 3:产品的影响因素及其预测分logistic回归用于研究:自变量与某事件发生概率间关系的回归分析→传统线性模→如果使用概率作为因变量的缺点是:因变量取值受到限制、自变的曲线关系两个问题没法解a、logistic回归分①事件发生的概率:p取值范围 ②事件不发生的概率:1-③取odds=p/1p),并取自然对数:logit(p)=ln[p/(1④当P=0时,logit(p)=ln(0/1)取值负无穷大;当P=0.5logitp)=ln(0.5/0.5)0;当P=1时,logit(p)=ln(1/0)取值正无穷大。线性回归 logitp=α+β1x1++βmxm 1+exp(α+β1x1++βmxmb、logistic与probit模logitlogistic②使用正态分布的累计概率probitlogistic二元logistic回归主界方法拟然比检验:H0:两种条件下对数拟然函数值无差别Wald检验:用u检验或x2检 各个参数系数是否为0jbx2=bjjb*--用于检验的统计量F检验,而是拟然比检验或Wald检验选项①保持预测概率:事件发生的预未标准化残差:观测值与预测值 未标准化残差/【预测概率*(1-预测概率②选项分类图:因变量的预测值与观测值的分类Hosmer- 拟合度对小样或含连续型协变量时使用的较模型拟合好坏的指标输出结果①不在方程中的变量:提供模型外的变量,如果引入模型则整个拟合优度是②块全局的拟块:步骤1与步骤0模型:与前一个模型的比较(模型中变量有变化*-----2 或使用1-CDF.CHISQ(卡方值,自由度)看显著性。④a.1*-----2 或使用1-CDF.CHISQ(卡方值,自由度)看显著性。④a.1age,ed,employ,e,debtinc,BExp14111111e1111-1——《spss11统计分析creddebt:B为正,说明越多,存在违约的风险越大。不过发生增加,给原来发生比带来的变,即每增加1000元违约的发生比是原来的1.553倍, 5.952p=0.203说明不同教育程度的违约率基本没Ed(1), 学历相*--注:有序分类最好使用虚拟变量表示,这里主要用于演示说明案例分 4:客户违约信息研如曲线曲曲线估计因子分析与聚类分主成分分析与因子分析能解决什么浓缩或提炼数据,以较少的维度来反映原始资料的大部当我们涉及的变量数很多时,可以通过这种方法对变量降维,使结果更为简 。 。。。。。。。x 如果主轴与坐标轴平行,则长、短轴分别描述了数据的变化寻求长短轴的变换,使得新变量和长短轴平行,建立如图的新的坐标,可以看成是 这两个新变量与原始数据就存在着数学上转换关系 使用长轴代替原来的两个变量,即代表原始数据的主要信息——降维完→高维情况是形成一个高维的注意:有几个变量就有几个主主成分与因子分析的相关知Z=aX+aX++a X1=b11F1+b21F2++bm1Fm+ε p Z=aX+aX X2=b12F1+b22F2+ p 1p 2 Z=aX X Xp=b1pF1+b2p 1p 2 主成分分寻找椭圆的所有X

因子分Xa、特殊因子ε是一个不可观测的假b、特殊因子ε cd、bmp表示因子载荷,即公因子与原,通常研究者对原始变量间的线性组合 ②每个主成分都是原始变量的线通常研究者对原始数据的内部结构 b、①(因子)还要寻找公因子的意义,如果结果意义显,可以通过旋转的方法,进一步寻找恰当将一组相关的观测变量转换成少数公因子,而变量的总方差不改②每个原始变量都是主成分的线性组合。用于分解原始变量,归纳③样本:变量④可以因子旋应用a、解决共线性问b、内部结构效度——c、潜在模型的生成——模型检验a、KMO>0.9KMO>0.7效b、特征根>1,仅适用于变量数小于40操作:分析→降维因子分析选项描述KMOandBartlett's球形检验:KMOBartlett取样足够度的Kaiser-Meyer-Olkin度量

Kaiser-Meyer-Olkin检验偏相关是否很Bartlett的球形度检验变量间是否独立,如果显著则说明相关旋转Bartlett:Anderson-Rubin:Bartlett01.不相关。*--可以主成分得分,综合得分需分别以“旋转平方和”的方差比例*--坐标轴是第一、二因子用于说明每个变量的位置及其位置间所揭示的结构关系。因子得分数据有改动快速聚类数据有改动怎么看聚物以类聚,人以操作:分析→分文件一般原理a、K-means聚类过程 层K分类数明连续性变K-means聚类主界面选项:anova表用于检验变量在类间是否具有统计学意义。均方可用于(粗略)比最终类中心:各个类别在变量上的平均b、系统聚类过均适用于个案或变量对分类数对连续性或分类变量系统聚类如果对变量进行标准化,需选择bycase.方法聚类方法 Wardc、两步聚操作:分析→分类两步聚类原理:两第一步:构建聚类特征树(clusterfeaturestree)将观测值放在根节点处,*--注:聚类特征树包括许多节点BIC或AIC均适用于分类变量和连续变量适用于海距离度量Euclidean(子框)选项*CFT输出结果两步算法,效果聚类观两步算法,效果变量在聚类模型中的重要大小a、视图:聚类→单元分分类变量分类变量每个类别的b、视图:聚类→聚类比

连续变量的数据分布判别判别分析根据训练样本确定各个类的中心,然后计算新样本到中心的距fisher判别分析相关知一般原理→n个自变量用于建立判别标准,形成n使用的投影过程:原则由高向低微空间投影→寻找一个方向进行投影,即将两的散点投影在某方向上的一→可以看出(第二判别函数)直线上的点可以很好的区分不同类别的→再根据距离计算,获得判别标

a 因变量不同类别间取值相互自变量符合多元正态分自变量在各组间方差不存在共*--如果以上条件不能满足的处理方法,请参见老师主编《SPSS统计分析高级教操作:分析→分类文件典型判别分析主选项a、统计描单因素anova:检验所有自变量的组间差异。即自变量是否对判别函数的BoxsM:组间协方差齐性检验,则不适合判别分析。函数Fisher:贝叶斯判别*---利用已知的先验概率去推论将要发生的后验概率。为标准化:提供判别分析的未标准的结b、分图合并组Wilks'Lambda:用于检验提取的典型判别函数是否有统计意义,显著则说明所有组相等:根据假设或实际情*--交互验证评价:等概率使用:100%/G*1.21.25,G们这里是3,所以等于41.67%。---.合并组表不考虑该个案时的分类:交叉验案例分 力信息研如对应对应对应分析的过程大概可以分为5个过程a、原始数据的标准化残差等于观察频数与理论频数之差,然后在除以理论频数的变量间类别间的关联强度取决于单元格内数据绝对值的大小,该值越大,关联b、奇异值分用于确定最终的维c、行列尺度的调用于确定行列变量的d、估计方差协方估计方差、协方差初步得到类别对应的散点e、行列评分标对行列坐标标准化,得到最终的图形坐该方法的a、图形化使结果更易于解缺点:a、很难提供相关关系的假设检b、易受值的影响,所以对样本量有较严格的要求*--一般可以使用卡方检验对样本简单简单对应打开数据文件头发和眼文件说明:该数据集里的变量turn_group是根据变量turnover_p算的分类,即正态分布下,有68%的个案落入均值一倍标准差范围内。首先设置行、列变量的“定义范大的列补充数是列总分类数减2。主要用于类别的处理a、模解的维数:默认是2Euclidean:适用于分类或连续变量,取两行或列间的差值的平方方标准化方列均值已删除:列数据中心正态化方(ymmetrical主要(Principal:度量行或列内部分类间主要行(Rowprincipal:度量行内部分类间的距principal:度设定(Custom:用户可以在【-11】间自行设定,-1Columnprincipal,1相当于Rowprincipal,0相当于Symmetrical,其他值则表示行列间的不同。b、统计对应表解 累 2123a.9*----如果p在【 概概述行点12 高价 - -

高价 廉价 - 廉价 - 有效总 a.

c、绘双标图维度维度1与维度维度1与维度 均值对应CORRESPONDENCETABLE=all(31 *表示31个个案和4个变量 *输出3维 *使用欧式距离测算/PLOT=NDIM(1,MAX)选项行和列均值已删除:行、列数据别Xi=Xi+1+a(0<i<n),n是类别,a是常数。列均值已删除:列数据中心行总和相等,删除均值:原始数据除以行合计,再将行数据中心化行于类别间数量的相列总和相等,删除均值:原始数据除以列合计,再将列数据中心*---具体内容请参考《 统计分析高级》---多元对应分析(最优尺度过程优点:①可以同时对多个变量进②处理的变量种类③对多选题提供支其算法是需要先经过最有尺度变换,再使用传统的对应分析的算打开数据文件:购物 受教育程度,4个分类。freq:每月购物次数,6compan物原因,6个分类。purpose:5个分类。average操作:分析→降维多元对应选项正态化方principalprincipal配置:用于读入坐输出辨别变量计算变量变换后,与观测得分的平方相关系案例分 6:企业选址的区位分析与购物信息文如bootstrap技bootstrap原1979年BradleyEfrontopulloneselfupbyone’sbootstraps”适用条件样本量较小,数据显有偏分变量的非线性组 *---可能因为样本小的缘故---不适用的样本太小,原始样本不能代表总体分布,有可能导致更大的偏样本间不独立,如时间序列数据,*--时间序列数据需适用特殊的抽样方法强影响点,可能导致分布有公式:参数标准误的 是样本数表示任一参数的600描述统计 均 原料含 有效的N(列表状态 描述统计95%下 上95%下 上 偏 有效的N有效的N(列表状态0a.bootstrap1000bootstrap

N

--N0

B95.0%

下 上 辅料含量

-

-

---a.系数模 偏 标准误 侧

95%置信区间 ------辅料含量1辅料含量--辅料含量-B:统计量就是通常的统计结标准误差:是抽样样本量(SPSS1000)所计算出的均值的标准误。95%置信区间:951000bootstraps第前25和26个个案均值的插值,而上限是后975个和976的插值。bootstr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论