SPSS使用方法速查.doc_第1页
SPSS使用方法速查.doc_第2页
SPSS使用方法速查.doc_第3页
SPSS使用方法速查.doc_第4页
SPSS使用方法速查.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS方法简介自由度:自由度(degree of freedom, df)在数学中能够自由取值的变量个数,如有3个变量x、y、z,但x+y+z=18,因此其自由度等于2。在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。 0.Spss的适用范围1)统计描述 运用适宜的统计指标、统计表、统计图等方法,对研究对象(变量)的分布类型和数量特征进行展示的过程,通过统计描述可以研究对象的基本特征。2)概率分布 随机变量:变异现象在生物界普遍存在,这种变异现象表现在人体某一具体指标或变量上,就是其数值的变化,测量前的不可预知性,这种变量叫随机变量 频数分布表和分布图描述了某一随机变量的经验分布,这是针对样本资料来透视数据的分布特征。由于抽样的随机性,样本的经验分布会随着样本的不同而变化。当样本扩展到总体时,随机变量的总体分布即为概率分布。 变量值的常见总体分布有正态分布、二项分布和Poisson分布,常见的抽样分布有t分布、F分布和x2分布,本质上这两种分布都是概率分布。3)参数估计与假设检验 统计推断是根据样本提供的信息,以一定的概率对总体的分布及其特征作推断,常包含参数估计和假设检验。 参数估计是指由样本统计量估计总体参数;假设检验是指对所估计的总体的首先提出某种假设,然后根据随机样本信息及抽样误差理论,应用小概率反证法逻辑思维推断某种假设可被接受或拒绝的统计检验方法。4)t检验 T检验是以t分布为基础,是数值资料中常用的假设检验方法主要用于两个均数的比较。理论上,t检验的应用条件要求样本来自正态分布总体,随机样本且总体方差齐性。当样本含量(确切讲是自由度)较大时,t分布近似于正态分布,可用u检验(又称z检验),此情况下t检验等价于u检验。5)方差分析 对于多个样本均数的比较,需用方差分析,多样本均数的比较不能反复使用t检验的原因是会增大I性错误的概率。6)双变量相关与回归分析 变量之间的关系有确定性关系(函数关系)和非确定性关系(随机性关系)。确定性关系是指对于一个变量的每个可能取值,另外的变量都有完全确定的值与之对应;非确定性关系是指变量间的关系不确定,如人的身高与体重、胰岛素与血糖、年龄与血压、吸烟与肺癌、体温与脉搏等,这些变量间关系密切,但不能由一个或几个变量的值精确求出另一个变量的值。 回归与相关(regression and correlation)是研究变量间非确定关系的统计方法。7)x2检验 即卡方检验,是以x2分布为理论基础的统计方法,主要包含两个样本率或构成比、多个样本率或构成比之间的差别有无统计学意义及多重比较、两个分类变量之间的关联分析、频数分布拟合忧度的x2检验。8)基于秩次的非参数检验 假设检验分为参数检验(parametric test)和非参数检验。参数检验是以特定的总体分布(如正态分布)为前提,对未知的总体参数(如u或)进行推断的假设检验方法。但有时候总体分布不易判定,参数检验的条件得不到满足,在这种情况下,可以采用非参数检验的方法。非参数检验是参数检验方法的有效补充,它并不依赖于总体分布类型,不检验总体的参数,而是对总体的分布或分布位置进行检验。9)协方差分析 方差分析要求各比较组除所施加的处理因素不同,其它对观察指标有影响的因素要求固定在同一个水平上。但有时是的处理因素对观察指标产生了影响,在直接分析观察指标建的差异则不满足方差分析对处理因素的要求。比如降糖药物临床疗效研究中,试验后的血糖值是评价药物疗效的一个重要指标,但试验后的血糖值受试验前血糖值影响,实验前后的血糖值间存在一定的线性关系,试验前的血糖值是难以控制,如果直接分析试验后的血糖值间的差异来评价药物的降糖疗效不恰当,这里必须扣除或均衡不可控制因素(试验前的血糖值的影响),故考虑应用协方差分析。10)多重线性回归分析 一个应变量与多个自变量之间依存关系的统计方法。多重线性回归分析要求应变量是服从正态分布的连续性数值变量。11)Logistic回归分析 应变量是分类变量(包括二分类和多分类)的资料,如治愈与未治愈,生存与死亡,发病与未病,疗效评价分显效、好转、无效等。这类资料,由于应变量是分类变量不具有连续性和正态性,直接用一般多重线性回归分析是不妥的,可用logistic回归分析。 适用于应变量为分类变量的回归分析。12)生存分析 应用于社会科学和自然科学领域具有不完全数据的事件分析,如设备的失效、疾病的发生、患者康复或复发等,另外还有可靠性分析和失效时间分析。13)聚类分析和判别分析 都是研究事物分类的统计学方法。聚类分析是在事物分类面貌尚不清查,甚至连总共分几类也不确定的情况讨论事物的分类问题,是“无法可循”的方法; 判别分析是根据已知其类别的样品,总结出类别的判别方法,用以判断未知类别的新样品的类别,是“有法可依”的方法。14)主成分与因子分析 旨在浓缩数据或简化数据,即以最少的信息丢失为代价将众多的观测变量浓缩为少数几个因素,从而提炼问题,或发现事物的内在联系。主成分分析和因子分析是最为常用的数据简化方法,用于考察多个变量的内在结构,或者提取数据的主要信息。15)Meta分析 对已有研究结果进行二次定量综合分析与评价,是现代循证医学产生最佳证据的重要方法。1.Spss软件中常见的累积概率分布函数和密度函数函数形式函数说明累积分布函数(cumulative distribution functions,CDF)CDFNORM(zvalue)返回标准正态分布的累计概率值CDF.NORMAL(quant,mean,stddev)返回任意给定的正态分布的累计概率值CDF.BINOM(quant,n,prob)返回任意给定的二项分布的累计概率值CDF.POISSON(quant,mean)返回任意给定的Poisson分布的累计概率值CDF.T(quant,df)返回任意给定自由度的t分布的累计概率值CDF.CHISQ(quant,df)返回任意给定自由度的x2分布的累计概率值CDF.F(quant,df1,df2)返回任意给定自由度的F分布的累计概率值CDF.UNIFORM(quant,min,max)返回任意给定参数的均匀分布的累计概率值概率密度函数(probability density functions,PDF)PDF.NORMAL(quant,mean,stddev)返回任意给定的正态分布的概率密度值PDF.BINOM(quant,n,prob)返回任意给定的二项分布的概率密度值PDF.POISSON(quant,mean)返回任意给定的Poisson分布的概率密度值NPDF.T(quant,df,nc)返回任意给定自由度的t分布的概率密度值PDF.CHISQ(quant,df)返回任意给定自由度的x2分布的概率密度值PDF.F(quant,df1,df2)返回任意给定自由度的F分布的概率密度值2.累计函数和密度函数transform-compute variable-写目标变量的名字,然后找合适的函数,填入适当参数即可。3.求可信区间输入变量值-analyze-descriptive statistics-explore-选择求值变量-dipendent-statistics-descriptive-continue-ok1)求T界值(T分布函数的逆函数)T分布函数(跟累计函数和密度函数路径一致)CDF.T(q,a)=p(0=p0,a为自由度)其逆函数IDF.T(p,a),将会返回q值。比如求双侧检验自由度为8的t界值t0.05/2,8,赋值为t=IDF.T(0.975,8),得t0.05/2,8=2.30600,假定求单侧检验t界值t0.05,8,则赋值为t= IDF.T(0.95,8),得t0.05,8=1.859552)正态性检验(分布检验,不适合样本太小时)Analyze-descriptive statistics-explore-(需检测正态性的变量)-dependent-plots-stem-and-leaf,histogram,normality plots with tests-continue-ok可以得出:基本统计描述指标、偏度系数和峰度系数及其标准误、Kolomogorov-Smirnov(即D法)与Shapiro-Wilk(即W法)的检验统计量与对应的P值、Q-Q图与去势的正态Q-Q图、箱图等。另外,还可以由anaylyze-descriptive statistics-P-P Plots或Q-Q plots或Q-Q plots视窗中,选中normal正态性检验,作P-P图与去势的正态P-P图或Q-Q图与去势的Q-Q图,点击test distribution下面选框中的下拉键头,选其他分布,可进行对应的分布检验,如选student t,则进行t分布检验。3)t检验( T test)单样本t检验Analyze-compare means-one-sample T test-”检查变量”-右下test框中修改系统默认值为比较的值配对设计t检验-比如治疗前后比较paired-sample T test过程进行配对设计t检验:analyze-compare means-paired-sample test-”选择配对的两个变量”-paired vairables-ok独立样本t检测-比如两组治疗情况对比analyze-compare means - independent-samples T test-”分别把检测变量和组别选好”-continue-ok急性黄疸性肝炎患者退黄天数组别人数退黄疸天数中药组7510142117812对照组81821302322222920例如:结果:得到t值为4.284,自由度v=n1+n2-2=15-2=13,P=2*1-CDF.T(3.351,13)= 0.00089(不知道这个P有啥用,跟levene的P啥关系?),按照a=0.05的水准,若P=0.05,则采用equal variances assumed(方差齐)的t检验结果。本题levene检验结果:P=0.4860.05,所以t=4.284,P=0.001,最终拒绝H0,接受H1,由此推断中药组的退黄天数比对照组少。4)成组设计两样本几何均数比较的t检验:(1) 计算变量的对数:transform-compute variable-target variable中输入“比较变量的对数”,选中“比较变量”-numeric expression-ok(2) 频数加权:data-weight case-weight case by”变量2”-frequency-ok(3) 正态性检验:analyze-descriptive statistics-exlpore-”比较变量”-dependent-”组别”-factorlist-plot-stem-and-leaf、histogram、normality plots with tests-continue-ok (4) 对数数值的t检验:analyze-compare means-independent-sample t test-“检测变量”-test-”组别”-grouping-define groups-continue-ok4.单因素方差分析Analyze-compare means-one-way ANOVA-”检测变量”放入dependent list,”组别”-factor-options-descriptive、homogeneity of variance-continue,返回one-way ANOVA-post Hoc-LSD、S-N-K-dunnett,在control gategory-first-continue-OK5.双(多)因素方差分析Analyze-general linear model-univariate-”检测变量”放入dependent,“组别”、“区组”放入fixed factor-mode-custom将“组别”、“区组”-右model框-continue-Post Hoc,将factor内的“组别”-post hoc tests for-LSD、S-N-K、Dunnett,在control category-first-continue-options-ddescriptive statistics-continue-ok多因素 Analyze-general linear model-univariate-选择自变量和因变量-option-display means for-选中descriptive statisticsSPSS软件分析没有给出交互作用项各种搭配的均数或合计,所以,在方差分析的基础上,找最佳搭配,非交互作用因素不同水平差别有统计意义,可采用SPSS输出的相应因素不同水平的均数大小,结合专业,来决定取哪个水平。但有交互作用的因素选哪一个水平,还需要手工计算。6.相关分析(li0701-03)直线:(1) 散点图:graphs-legacy dialogs-scatter/dot-simple scatter-define-x,y轴选好-ok(2) 正态性检测(3) 线性相关:analyze-correlate-bivariate(双变量相关分析)-变量放入variable框-correlation coefficients-pearson,在test of significance下选中two-tailed-ok秩:Analyze-correlate-bivariate,”自变量”因变量”-variables,在correlation coefficients-spearman,在test of significance下选中two-tailed-ok回归分析:(1) 散点图:graphs-legacy dialogs-scatter/dot-simple scatter-define-x,y轴选好-ok(2) 正态性检测(3) 线性回归:analyze-regression-linear,”待检测变量”-dependent”因素变量”-independent-statistics,选中estimates,confidence interaval,model fit-continue-save,在predicted values-unstandardized,在prediction interval-mean individual,在residuals下选中standardized-continue-ok(4) 绘制回归直线:双击散点图,在chart editor-elements-fit line at total,在properties -linear -close-点空白区,得回归直线。在properties中选means或individual,可拟合上反应变量总体均数95%的可信区间变量个体值95%的容许区间带。1)相关系数r=0.852,决定系数r2=0.726,血糖的变异有72.6%与回归有关,即可由自变量“血清总胆固醇含量”来解释的变异(回归平方和)在血糖的总变异(总平方和)中占72.6%。2)直线回归的方差分析F=24.233,P=0.0013)直线回归方程的截距a=3.851,回归系数b=1.555,t检验t=4.923,p=0.0014)PRE_1为预测值,ZRE_1为标准化残差,LMCI_1和UMCI_1为反应变量总体均数95%的可信区间下限和上限值,LICI_1与UICI_1为反应变量个体值95%的容许区间下限和上限值。本例中只有第10个标准化残差大于2,x=5.5对应的血糖预测值为12.40337,总体血糖的95%可信区间为(11.56355,13.12635),个体血糖95%的容许区间为(9.83202,14.85788)7.非线性回归分析+非线性回归方程(li0704)1) 对“X”作对数变换,transform-compute variable-target variable输入新变量“lnX”,numeric expression输入ln(x)-ok,可在数据窗口产生一新变量lnx2) 对“Y”“lnX”作直线回归分析,analyze- regression- liner-”Y”- dependent, ”lnX”-independent-ok结果:方差分析F=763.499,P=0.00,回归方程成立;t检验:t=27.631,P=0.000,回归系数有统计学 意义,回归方程:Y=19.745+7.777ln(X)8.x2检验1)独立样本x2检验例如,由组别、疗效、频数三列组成,data-weight cases-by 频数-frequency-ok; analyze-descriptive statistics- crosstabs-组别rows,疗效columns-chi-square(卡方) -continue -cells,选中observed、expectde、raw、total-continue-ok结果:所有格子的理论频数均5(t12=22.8,t22=8.2,如果5,则用连续性校正continuity correction),总例数n=376,所以用不校正的x2检验,pearson x2=56.772,v=1,p=0.000.(若四格表中n(total)40或Tweight case),analyze-descriptive statistics-crosstabs-甲法row,乙法column-statistics;选中 chi-square、contingency coefficient、kappa、mcnemar-continue-cell-observed、expected、row、total-continue-ok结果:独立性检验pearson x2=11.096,v=1,p=0.001; 列联系数(contingency coefficient):rp=0.395,P=0.001; kappa值=0.406,z=3.331,P=0.001; 优势性检验(mcnemar test)P=0.031。结论:关联性分析认为甲乙两法有关联,但程度不高;一致性检验有统计学意义,程度中等;优势性检验0.05,按a=0.05水准拒绝H0,接受H1,两种检验方法总体阳性率差异有统计学意义,结合本例bc,甲法检查的阳性率高于乙法。Linear-by-liner associlation线性趋势检验,spearmancorrelation spearman等级相关系数3) 构成比拟和优度检验数据以“中医证型”、“例数”,频数加权,analyze-nonparametric tests-chi-squera,”中医证型”-test variable-ok4) 二项分布拟合优度检验(有问题)数据以“每户发病人数”、“实际户数”,频数加权,analyze-descriptive statistics-每户发病数variable-option,选中mean、sum-continue-ok; transform-compute variable-输入P1,公式PDF.BINOM(每户发病数,3,120,260)同样实现:作为理论户数变量T,赋值为260*P1;作为计算卡方统计量的过程变量x,赋值为x=(实际户数-T)*2/T;作为计算卡放统计量的变量xx=485.68+30.45+52.40+9.47;作为卡方检验的变量P=1-CDF.CHISQ(xx,2),这里自由度v=2.5) CMH统计分析数据以中心、组别、疗效、频数为变量名,频数加权,analyze-decrisptive statistics-crosstabs-组别rows,疗效column,中心layer1-statistics-选中chi-square+ cochrans and mantel-haensel continue -cells- observed, expected, row, total-continue-ok要跑Frequencies analysis, 从SPSS菜单选: Analyze, Descriptive Statistics Frequencies. 选好一个或几个分析变量. 点击Charts. 选一个图象类型例如Pie charts, Bar, Histogram, 点击Continue. 点击OK in the Frequencies dialog box. 注意这个程序不但可以用于分类变量也可以是连续变量. 但你此时要把频率表去掉不选. 办法是和前面一样进入该程序菜单内, 选择一个连续变量(例如销售额或广告数目)作分析变量, 再把Display frequency tables前面的选项去掉变成空白即可. 接下来的警告不要管它点击OK就可以. 点击Statistics, 选Quartiles, Std. deviation, Minimum, Maximum, Mean, Median, Skewness, and Kurtosis. 点击Continue. 点击Charts in the Frequencies dialog box. 选Histograms, 选With normal curve. 点击Continue. 点击OK in the Frequencies dialog box. 要跑Crosstabs analysis, 从菜单上选Analyze, Descriptive Statistics, Crosstabs. 选好行变量和列变量. 如果要看三个变量关系可以加一个Layer变量, 点击Statistics, 再根据你的变量性质选不同统计值.一般来说不论变量测量尺度如何都要选Chi-square. 接下来如果是定类变量还可以选Contingency Coefficient, Phi and Cramers V, Lambda, and Uncertainty coefficient. 如果是定序变量要选Gamma和Somers D. 如果是定类和定比就可以选Eta. 如果是两个虚拟变量可以选Cochrans and Mantel-Haenszel 统计值. 也可以选Risk统计值. 然后点击Continue. 点击OK in the Crosstabs dialog box. 要跑平均数比较从菜单上选Analyze, Compare Means, Means. 选因变量和自变量. 如果要检验线性,非线性以及综合效应可以选Anova table and eta and Test for linearity. 点击Continue. 点击OK in the Means dialog box.要作单样本t测验, 从菜单中选Analyze, Compare Means,One-Sample T Test. 选一个分析变量(必须是连续变量), 输入一个假设值或需要检验的值, 例如每月平均购物消费额是200元, 每月平均生活费是500元等, 点击Options, 再输入一个置信水平例如90% or 99%(95%是缺省值), 点击Continue. 点击OK in the One-Sample T Test dialog box.要跑独立样本T检验, 从菜单选Analyze, Compare Means,Independent. 选分析变量(必须是连续变量)和分组变量, 点击Define Groups, 根据分组变量选0 和1为分组变量值(注意只能有两个值, 更多组数就要用方差分析了. 点击Continue, 点击OK in the Independent-Samples T Test dialog box. 要跑成对样本t检验, 从菜单选Analyze, Compare Means, Paired-Samples T Test.选两个成对变量, 也可以选多对变量比较. 点击OK要跑线性回归, 从菜单选Analyze, Regression, Linear.选因变量, 自变量, 也可以选一个变量去标记样本中的个体例如学号等, 再选Plots, 选*SDRESID 作 y 变量, *ZPRED 作x变量, 再选Histogram 以及Normal probability plot. 点击Continue. 点击Save in the Linear Regression dialog box. 选Standardized in the Predicted Values group. 选Standardized in the Residuals group. 再选Cooks 和Leverage values in the Distances group. 点击Continue. 点击OK in the Linear Regression dialog box. 要跑聚类分析对变量进行归类, 从菜单选Analyze, Classify, Hierarchical Cluster. 选一组变量作分析变量, 选Model作为the case labeling variable, 选变量作Cluster, 点击Plots. 选Dendrogram, 选None in the Icicle group. 点击Continue. 点击Method in the Hierarchical Cluster Analysis dialog box. 此时可以试验不同聚类方法如Nearest neighbor, Furthest neighbor, Centroid, Ward等. 每次选一个方法看结果并比较之. 如果变量测量尺度不同则选Z scores as the standardization in the Tr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论