统计学及统计学软件使用教程(专业应用)_第1页
统计学及统计学软件使用教程(专业应用)_第2页
统计学及统计学软件使用教程(专业应用)_第3页
统计学及统计学软件使用教程(专业应用)_第4页
统计学及统计学软件使用教程(专业应用)_第5页
已阅读5页,还剩252页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学及统计学软件使用教程1 统计学简介2 方差分析3 回归分析4 正交设计5 统计分析软件SAS6 统计分析软件SPSS系统分析室制作1智囊经验前言:统计学简介 什么是统计学: 统计学是关于数理统计的收获、整理、分析和推断的一门科学,他可以分为描述性统计学和推断性统计学两大类。描述性统计学给出的是将原始数据资料加工成有用的图表的方法(例如:南阳汉冶特钢11月份不合格品综合判定统计分析),这些方法包括数据的收集、整理、概括和描述等。如果在研究中可以得到整个整体,那么描述性统计学就足够了,但是,实际中往往只能得到总体的一小部分(成样本),这就需要通过这些样本的有限的、不确定的信息来确定有关总体的

2、信息,这就是推断统计的研究领域。 2智囊经验 统计学的理论基础是数理统计学,数理统计学是数学的一个分支,有一系列的公理、定理以及严格证明来组成,它还涉及到助学的其他领域,例如微积分、概率论合高等代数等。为了使这些理论也适用于一般的研究者,人们将其简单化,变的非数学化,由此产生了一般统计学。不同的专业领域(如建筑学,人类学、生物学、经济学等等)与一般统计学结合,就产生了相应的专业统计学。08【全美经典】统计学原理(上).pdf08【全美经典】统计学原理(下).pdf统计学经典教材:3智囊经验描述性统计学知识章节4智囊经验5智囊经验 推断性统计学知识章节6智囊经验7智囊经验8智囊经验第一节 方差分

3、析 一、几个概念二、单因子方差分析 9智囊经验一、几个概念 在试验中改变状态的因素称为因子,常用大写英文字母A、B、C、等表示。 因子在试验中所处的状态称为因子的水平。用代表因子的字母加下标表示,记为A1,A2,Ak。 试验中所考察的指标(可以是质量特性也可以是产量特性或其它)用Y表示。Y是一个随机变量。单因子试验:若试验中所考察的因子只有一个。10智囊经验例2.1-1 现有甲、乙、丙三个工厂生产同一种零件,为了了解不同工厂的零件的强度有无明显的差异,现分别从每一个工厂随机抽取四个零件测定其强度,数据如表所示,试问三个工厂的零件的平均强度是否相同? 工厂 量件强度甲乙丙 103 101 98

4、110 113 107 108 116 82 92 84 86三个工厂的零件强度 11智囊经验在这一例子中,考察一个因子: 因子A:工厂该因子有三个水平:甲、乙、丙试验指标是:零件强度 这是一个单因子试验的问题。每一水平下的试验结果构成一个总体,现在需要比较三个总体均值是否一致。如果每一个总体的分布都是正态分布,并且各个总体的方差相等,那么比较各个总体均值是否一致的问题可以用方差分析方法来解决。12智囊经验二、单因子方差分析 假定因子A有r个水平,在Ai水平下指标服从正态分布,其均值为 ,方差为 ,i=1,2, , r。每一水平下的指标全体便构成一个总体,共有r个总体,这时比较各个总体的问题就

5、变成比较各个总体的均值是否相同的问题了,即要检验如下假设是否为真:13智囊经验 当 不真时,表示不同水平下的指标的均值有显著差异,此时称因子A是显著的,否则称因子A不显著。检验这一假设的分析方法便是方差分析。14智囊经验 方差分析的三个基本假定1. 在水平 下,指标服从正态分布 ;2. 在不同水平下,各方差相等;3. 各数据 相互独立。15智囊经验 设在一个试验中只考察一个因子A,它有r个水平,在每一水平下进行m次重复试验,其结果用 表示,i=1,2, , r。 常常把数据列成如下表格形式:单因子试验数据表16智囊经验 记第i水平下的数据均值为 ,总均值为 。此时共有n=rm个数据,这n个数据

6、不全相同,它们的波动(差异)可以用总离差平方和ST去表示记第i 水平下的数据和为Ti, ;17智囊经验引起数据波动(差异)的原因不外如下两个: 一是由于因子A的水平不同,当假设H0不真时,各个水平下指标的均值不同,这必然会使试验结果不同,我们可以用组间离差平方和来表示,也称因子A的离差平方和:这里乘以m是因为每一水平下进行了m次试验。18智囊经验 二是由于存在随机误差,即使在同一水平下获得的数据间也有差异,这是除了因子A的水平外的一切原因引起的,我们将它们归结为随机误差,可以用组内离差平方和表示: Se:也称为误差的离差平方和19智囊经验可以证明有如下平方和分解式: ST、SA、Se 的自由度

7、分别用 、 、 表示,它们也有分解式: ,其中: 因子或误差的离差平方和与相应的自由度之比称为因子或误差的均方和,并分别记为:两者的比记为:20智囊经验 当 时认为在显著性水平 上因子A是显著的。其中 是自由度为 的F分布的1-分位数。单因子方差分析表 21智囊经验各个离差平方和的计算: 其中 是第i个水平下的数据和;T表示所有n=rm个数据的总和。 22智囊经验进行方差分析的步骤如下: (1)计算因子A的每一水平下数据的和T1,T2,Tr及总和T; (2)计算各类数据的平方和 ; (3)依次计算ST,SA,Se; (4)填写方差分析表; (5)对于给定的显著性水平,将求得的F值与F分布表中的

8、临界值 比较,当 时认为因子A是显著的,否则认为因子A是不显著的。 23智囊经验对上例的分析 (1)计算各类和: 每一水平下的数据和为: 数据的总和为T=1200 (2)计算各类平方和: 原始数据的平方和为: 每一水平下数据和的平方和为 24智囊经验(3)计算各离差平方和: ST=121492-12002/12=1492, fT=34-1=11SA=485216/4-12002/12=1304, fA=3-1=2Se= 1492-1304=188, fe=11-2=925智囊经验(4)列方差分析表: 例2.1-1的方差分析表 26智囊经验(5) 如果给定 =0.05,从F分布表查得 由于F4.

9、26,所以在 =0.05水平上结论是因子A是显著的。这表明不同的工厂生产的零件强度有明显的差异。 当因子A是显著时,我们还可以给出每一水平下指标均值的估计,以便找出最好的水平。在单因子试验的场合,第i个水平指标均值的估计为: , 27智囊经验 在本例中,三个工厂生产的零件的平均强度的的估计分别为: 由此可见,乙厂生产的零件的强度的均值最大,如果我们需要强度大的零件,那么购买乙厂的为好;而从工厂来讲,甲厂与丙厂应该设法提高零件的强度。 误差方差的估计:这里方差 的估计是MSe。在本例中: 的估计是20.9。 的估计是 例2.1-2 略(见教材P92)28智囊经验三、重复数不等的情况 若在每一水平

10、下重复试验次数不同,假定在Ai水平下进行 次试验,那么进行方差分析的步骤仍然同上,只是在计算中有两个改动: 29智囊经验 例2.1-3 某型号化油器原中小喉管的结构使油耗较大,为节约能源,设想了两种改进方案以降低油耗。油耗的多少用比油耗进行度量,现在对用各种结构的中小喉管制造的化油器分别测定其比油耗,数据如表所列,试问中小喉管的结构(记为因子A)对平均比油油耗的影响是否显著。(这里假定每一种结构下的油耗服从等方差的正态分布) 30智囊经验例2.1-3的试验结果 水平试验结果(比油耗-220)A1:原结构11.0 12.8 7.6 8.3 4.7 5.5 9.3 10.3A2:改进方案12.8

11、4.5 -1.5 0.2A3:改进方案24.3 6.1 1.4 3.6 (为简化计算,这里一切数据均减去220,不影响F比的计算及最后分析因子的显著性) 31智囊经验(1)各水平下的重复试验次数及数据和分别为: A1:m1=8,T1=69.5A2:m2=4,T2=6.0A3:m3=4,T3=15.4总的试验次数n=16,数据的总和为T=90.9 32智囊经验(2)计算各类平方和: (3)计算各离差平方和: ST=757.41-516.43=240.98, fT=16-1=15SA=672.07-516.43=155.64, fA=3-1=2Se= 240.98-155.64=85.34, fe

12、=15-2=1333智囊经验(4)列方差分析表: 例2.1-3方差分析表 34智囊经验(5) 如果给定 =0.05,从F分布表查得 由于F3.81,所以在=0.05水平上我们的结论是因子A是显著的。这表明不同的中小喉管结构生产的化油器的平均比油耗有明显的差异。 35智囊经验 我们还可以给出不同结构生产的化油器的平均比油耗的估计: 这里加上220是因为在原数据中减去了220的缘故。 由此可见,从比油耗的角度看,两种改进结构都比原来的好,特别是改进结构1。 在本例中误差方差的估计为6.56,标准差的估计为2.56。 36智囊经验第二节 回归分析 例2.2-1 合金的强度y与合金中的碳含量x有关。为

13、了生产出强度满足顾客需要的合金,在冶炼时应该如何控制碳含量?如果在冶炼过程中通过化验得到了碳含量,能否预测合金的强度? 这时需要研究两个变量间的关系。首先是收集数据(xi,yi),i=1,2, ,n。现从生产中收集到表2.2-1所示的数据。 37智囊经验表2.2-1 数据表 38智囊经验一、散布图 6050400.150.200.10 xy例2.2-1的散布图 39智囊经验二、相关系数 1相关系数的定义 在散布图上 n 个点在一条直线附近,但又不全在一条直线上,称为两个变量有线性相关关系,可以用相关系数 r 去描述它们线性关系的密切程度 40智囊经验其中 41智囊经验性质: 表示n个点在一条直

14、线上,这时两个变量间完全线性相关。 r0表示当x增加时y也增大,称为正相关 r0.576,说明两个变量间有(正)线性相关关系。 45智囊经验四、一元线性回归方程 1. 一元线性回归方程的求法: 一元线性回归方程的表达式为 其中a与b使下列离差平方和达到最小: 通过微分学原理,可知 , 称这种估计为最小二乘估计。 b 称为回归系数;a一般称为常数项。 46智囊经验 求一元线性回归方程的步骤如下: (1)计算变量x与y的数据和Tx,Ty;(2)计算各变量的平方和与乘积和;(3)计算Lxx,Lxy;(4)求出b与a;47智囊经验利用前面的数据,可得: b=2.4392/0.0186=130.6022

15、 a=590.5/12-130.6022 1.90/12=28.5297 (5)写出回归方程: 画出的回归直线一定通过(0,a)与 两点 上例: 或48智囊经验2. 回归方程的显著性检验 有两种方法: 一是用上述的相关系数; 二是用方差分析方法(为便于推广到多元线性回归的场合),将总的离差平方和分解成两个部分:回归平方和与离差平方和。 49智囊经验总的离差平方和: 回归平方和: 离差平方和: 且有ST=SR+SE,其中 它们的自由度分别为: fT=n-1,fR=1,fE=n-2=fT-fR 50智囊经验计算F比, 对给定的显著性水平 ,当 时认为回归方程是显著的,即回归方程是有意义的。一般也列

16、成方差分析表。 51智囊经验对上面的例子,作方差分析的步骤如下: 根据前面的计算 (1)计算各类平方和: ST=Lyy=335.2292, fT=12-1=11SR=bLxy=130.60222.4292=317.2589,fR=1SE=335.2292-317.2589=17.9703, fE=11-1=10 52智囊经验(2)列方差分析表: 例2.2-1的方差分析表 53智囊经验对给定的显著性水平 =0.05,有 F0.95(1,10)=4.96 由于F4.96,所以在0.05水平上认为回归方程是显著的(有意义的)。 54智囊经验3利用回归方程进行预测 对给定的 ,y的预测值为 概率为 的

17、y的预测区间是 其中 当n较大, 与 相差不大,那么可给出近似的预测区间,此时 55智囊经验进行预测的步骤如下: (1)对给出的x0求预测值 上例,设x0 =0.16,则 (2)求 的估计 上例有 56智囊经验(3)求 上例n=12,如果求概率为95%的预测区间,那么t0.975(10)=2.228,所以 (4)写出预测区间 上例为(49.43-3.11,49.43+3.11)=(46.32,52.54) 57智囊经验 由于u0.975=1.96,故概率为0.95的近似的预测区间为: 所求区间:(49.43-2.63,49.43+2.63)=(46.80,52.06) 相差较大的原因总n较小。

18、58智囊经验四、可化为一元线性回归的曲线回归 在两个重复的散布图上,n个点的散布不一定都在一条直线附近波动,有时可能在某条曲线附近波动,这时以建立曲线回方程为好。 1. 确定曲线回归方程形式 2. 曲线回归方程中参数的估计 通过适当的变换,化为一元线性回归的形式,再利用一元线性回归中的最小二乘估计方法获得。 59智囊经验回归曲线的形式:(1) ,(a0,b0) (2) ,(b0) (3) ,(b0) (4) ,(b0) 60智囊经验3. 曲线回归方程的比较 常用的比较准则: (1)要求相关指数R大,其平方也称为决定系数,它被定义为: (2)要求剩余标准差s小,它被定义为: 61智囊经验第三节

19、正交设计 一、试验设计的基本概念与正交表 (一)试验设计 多因素试验遇到的最大困难是试验次数太多,若十个因素对产品质量有影响,每个因素取两个不同状态进行比较,有210=1024、如果每个因素取三个不同状态310=59049个不同的试验条件 62智囊经验 选择部分条件进行试验,再通过数据分析来寻找好的条件,这便是试验设计问题。通过少量的试验获得较多的信息,达到试验的目的。 利用正交表进行试验设计的方法就是正交试验设计。 63智囊经验(二)正交表 64智囊经验 “L”表示正交表,“9”是表的行数,在试验中表示试验的条件数,“4”是列数,在试验中表示可以安排的因子的最多个数,“3”是表的主体只有三个

20、不同数字,在试验中表示每一因子可以取的水平数。 65智囊经验正交表具有正交性,这是指它有如下两个特点: (1)每列中每个数字重复次数相同。 在表L9(34)中,每列有3个不同数字:1,2,3,每一个出现3次。 (2)将任意两列的同行数字看成一个数对,那 么一切可能数对重复次数相同。 在表L9(34)中,任意两列有9种可能的数对: (1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3)每一对出现一次。 66智囊经验常用的正交表有两大类 (1) 一类正交表的行数n,列数p,水平数q 间有如下关系: n=qk, k=2,3,4, p=(n-1)/(

21、q-1) 如:L4(23),L8(27),L16(215),L32(231)等,可以考察因子间的交互作用。 (2)另一类正交表的行数,列数,水平数之间 不满足上述的两个关系 如: L12(211),L18(37),L20(219),L36(313)等 这类正交表不能用来考察因子间的交互作用 常用正交表见附录67智囊经验二、无交互作用的正交设计与数据分析 试验设计一般有四个步骤: 1. 试验设计 2. 进行试验获得试验结果 3. 数据分析 4. 验证试验68智囊经验 例2.3-1 磁鼓电机是彩色录像机磁鼓组件的关键部件之一,按质量要求其输出力矩应大于210g.cm。某生产厂过去这项指标的合格率较

22、低,从而希望通过试验找出好的条件,以提高磁鼓电机的输出力矩。 69智囊经验(一)试验的设计 在安排试验时,一般应考虑如下几步: (1)明确试验目的 (2)明确试验指标 (3)确定因子与水平 (4)选用合适的正交表,进行表头设计,列出试验计划 70智囊经验在本例中: 试验目的:提高磁鼓电机的输出力矩 试验指标:输出力矩 确定因子与水平:经分析影响输出力矩的可能因 子及水平见表2.3-2 表2.3-2 因子水平表 71智囊经验选表:首先根据因子的水平数,找出一类正交表 再根据因子的个数确定具体的表 把因子放到表的列上去,称为表头设计把放因子的列中的数字改为因子的真实水平,便成为一张试验计划表,每一

23、行便是一个试验条件。在正交设计中n个试验条件是一起给出的的,称为“整体设计”,并且均匀分布在试验空间中。表头设计 A B C列号 1 2 3 472智囊经验试验计划与试验结果 73智囊经验9个试验点的分布 3C3C2C1A115798642A2A3B1B2B374智囊经验(二)进行试验,并记录试验结果 在进行试验时,要注意几点: 1. 除了所考察的因子外的其它条件,尽可能保持相同 2. 试验次序最好要随机化 3. 必要时可以设置区组因子 75智囊经验(三)数据分析 1. 数据的直观分析 (1)寻找最好的试验条件 在A1水平下进行了三次试验:#1,#2,#3,而在这三次试验中因子B的三个水平各进

24、行了一次试验,因子C的三个水平也各进行了一次试验。 在A2水平下进行了三次试验:#4,#5,#6,在这三次试验中因子B与C的三个水平各进行了一次试验。 在A3水平下进行了三次试验:#7,#8,#9,在这三次试验中因子B与C的三个水平各进行了一次试验。 76智囊经验 将全部试验分成三个组,那么这三组数据间的差异就反映了因子A的三个水平的差异,为此计算各组数据的和与平均: T1=y1+y2+y3=160+215+180=555 =T1/3=185 T2=y4+y5+y6=168+236+190=594 =T2/3=198 T3=y7+y8+y9=157+205+140=502 =T3/3=167.

25、3 同理 对因子B与C将数据分成三组分别比较 77智囊经验所有计算列在下面的计算表中 例2.3-1直观分析计算表 78智囊经验 (2)各因子对指标影响程度大小的分析 极差的大小反映了因子水平改变时对试验结果的影响大小。这里因子的极差是指各水平平均值的最大值与最小值之差,譬如对因子A来讲: RA=198167.3=30.7 其它的结果也列在上表中。从三个因子的极差可知因子B的影响最大,其次是因子A,而因子C的影响最小。 79智囊经验(3)各因子不同水平对指标的影响图 从图上可以明显地看出每一因子的最好水平A2,B2,C3,也可以看出每个因子对指标影响的大小RBRARC。 CBA220205190

26、175160900 1100 1300 10 11 12 70 80 90 RARBRC图2.3-2 因子各水平对输出力矩的影响 80智囊经验 由于正交表的特点,使试验条件均匀分布在试验空间中,因此使数据间具有整齐可比性,上述的直观分析可以进行。但是极差大到什么程度可以认为水平的差异确实是有影响的呢? 2. 数据的方差分析 要把引起数据波动的原因进行分解,数据的波动可以用离差平方和来表示。 81智囊经验正交表中第j列的离差平方和的计算公式: 其中Tij为第j列第i水平的数据和,T为数据总和,n为正交表的行数,q为该列的水平数 该列表头是哪个因子,则该Sj即为该因子的离差平方和,譬如SA=S1

27、正交表总的离差平方和为: 在这里有:82智囊经验例2.3-1的方差分析计算表83智囊经验 第4列上没有放因子,称为空白列。S4仅反映由误差造成的数据波动,称为误差平方和。 Se=S4 利用 可以验证平方和的计算是否正确。84智囊经验例2.3-1的方差分析表 因子A与B在显著性0.10与0.05上都是显著的,而因子C不显著。85智囊经验3. 最佳条件的选择对显著因子应该取最好的水平; 对不显著因子的水平可以任意选取,在实际中通常从降低成本、操作方便等角度加以选择。 上面的例子中对因子A与B应该选择A2B2,因子C可以任选,譬如为节约材料可选择C1。86智囊经验4. 贡献率分析方法 当试验指标不服

28、从正态分布时,进行方差分析的依据就不够充足,此时可通过比较各因子的“贡献率”来衡量因子作用的大小。由于S因中除因子的效应外,还包含误差,从而称S因-f因Ve为因子的纯离差平方和,将因子的纯离差平方和与ST的比称为因子的贡献率。(四)验证试验 对A2B2C1进行三次试验,结果为:234,240,220,平均值为231.3此结果是满意的87智囊经验三、有交互作用的正交设计与数据分析 例2.3-2 为提高某种农药的收率,需要进行试验。(一)试验的设计 明确试验目的 明确试验指标 确定试验中所考虑的因子与水平,并确定可能存在并要考察的交互作用 选用合适的正交表。88智囊经验在本例中:试验目的:提高农药

29、的收率试验指标:收率确定因子与水平以及所要考察的交互作用:因子水平表还要考察因子A与B交互作用89智囊经验 选表:首先根据因子的水平数,找出一类正交表再根据因子的个数及交互作用个数确定具体的表。 把因子放到表的列上去,但是要先放有交互作用的两个因子,并利用交互作用表,标出交互作用所在列,以便于今后的数据分析。 把放因子的列中的数字改为因子的真实水平,便成为一张试验计划表。90智囊经验L8(27)的交互作用表91智囊经验试验计划92智囊经验(二)数据分析1. 数据的方差分析 在二水平正交表中一列的离差平方和有一个简单的计算公式: 其中T1j、T2j分别是第j列一水平与二水平数据的和,n是正交表的

30、行数93智囊经验例2.3-2的计算表94智囊经验例2.3-2的方差分析表95智囊经验其中:SA=S1,SB=S2,SC=S4,SD=S7SAB=S3,Se=S5+S6fA=fB=fC=fD=fAB=1,fe=296智囊经验AB的搭配表2. 最佳条件的选择故最佳条件是:A2B1C2A2B1的搭配为好,C取2水平为好。97智囊经验(三)避免混杂现象表头设计的一个原则 选择正交表时必须满足下面一个条件:“所考察的因子与交互作用自由度之和n1”,其中n是正交表的行数。不过在存在交互作用的场合,这一条件满足时还不一定能用来安排试验,所以这是一个必要条件。98智囊经验例2.3-3 给出下列试验的表头设计:

31、 (1)A、B、C、D为二水平因子,同时考察交互作用AB,AC (2)A、B、C、D为二水平因子,同时考察交互作用AB,CD (3)A、B、C、D、E为三水平因子,同时考察交互作用AB它们分别要用L8(27),L16(215),L27(313)99智囊经验SAS软件简介SAS是美国与西欧使用最为广泛的三大著名统计分析软件(SAS,SPSS和SYSTAT)之一,是目前国际上最为流行的一种大型统计分析系统,被誉为统计分析的标准软件。是国际上公认的最权威的统计软件。以苛刻严格著称于世的美国FDA新药审批程序中,新药试验结果的统计分析规定只能用SAS进行,其他软件的计算结果一律无效!哪怕只是简单的均数

32、和标准差也不行!由此可见SAS的权威地位。 2004年开始中国新药临床试验结果规定应用SAS软件分析。 100智囊经验SAS与SPSS比较作为统计软件大家族里的“傻瓜相机” ,SPSS的功能是最弱的,但易用性排在所有统计软件之首。不过SPSS的易用性也极大的限制了它的功能和可扩展性。除了SPSS本身的菜单提供的功能,用户无法通过编程或者插件来扩展它的功能,而且SPSS提供的都只是最基本的常用的方法。101智囊经验SAS全球专业认证SAS专业认证是一项拥有极高国际声誉的专业认证,在欧美等国的职场上流行的一句话“If you have a SAS certification, You will n

33、ever lose your job ”。销售模式:只租不售 (每5年一个周期)财富500强中97%的企业都在使用SAS商业智能解决方案 102智囊经验103智囊经验2003年(301医院与军事医科院博士生)各统计软件使用情况104智囊经验Pubmed检索SCI英文文献各统计软件使用情况105智囊经验SAS软件功能进行数据管理数据输入、建库、保存 进行统计分析t检验方差分析卡方检验相关、回归秩和检验106智囊经验SAS的安装 SAS8.12版本是windows操作系统下的32位软件,和其他windows系统下的软件安装方法类似。用鼠标左键双击光盘根目录下的setup图标,然后按照提示安装。10

34、7智囊经验SAS的启动 单击开始菜单“程序”项。桌面上双击此快捷方式也可启动SAS。 108智囊经验执行开始菜单中程序单项【程序】【The SAS System】【 The SAS System for Windows】 109智囊经验SAS退出方式1:选择关闭按钮方式2:执行菜单命令【File】【Exit】方式3:在命令框执行BYE或ENDSAS命令110智囊经验SAS窗口PGM窗口(Program Editor): 提供编写SAS程序的文本编辑器LOG窗口: 显示执行程序过程中的相关信息OUTPUT窗口: 显示程序运行的结果 命令窗口与探索者窗口111智囊经验程序编辑窗口日志窗口结果输出窗

35、口探索者窗口命令窗口112智囊经验113智囊经验114智囊经验115智囊经验SAS程序的编写 一个完整的SAS程序一般由数据步(DATA步)和过程步(PROC步)两部分组成。DATA步以DATA语句开始,通过指定数据集名称、定义变量名及类型和读入数据等建立SAS数据集。过程步以PROC语句开始,通过调用不同的分析模块来分析SAS数据集。116智囊经验其它格式的数据库直接导入转换: excel(.xls); dbase(.dbf); lotus(.wk)等将数据读入系统,建立数据集(直接输入Editor窗口)。SAS数据集建立117智囊经验外部数据导入例:有一批体检数据,包括受检者的姓名、性别、

36、年龄、身高、体重信息。要求按性别分别计算身高、体重的描述性统计量:均值、标准差、最大值、最小值。该数据以Excel.xls文件形式储存。文件名称:tijiandata.xls118智囊经验119智囊经验Import Data120智囊经验121智囊经验122智囊经验123智囊经验库标记导入的SAS数据库文件名124智囊经验125智囊经验探索者窗口126智囊经验127智囊经验128智囊经验在Editor 程序编辑窗口输入源程序数据步:将数据读入系统,建立数据集 :DATA语句开始,后面加上数据库的名字。INPUT语句描述数据变量 , 用$表示变量是字符型CARDS语句指示后面是数据,每行为一个观

37、测数据,数据间无分号。 数据最后以“;”开头的空行结束 。 每个语句都以“;”结束。129智囊经验SAS程序数据步格式Data ;Input $ .;Cards;. . . . . . . . . . . . . . . . . . . . . . . . . . . .;130智囊经验数据步 过程步131智囊经验SAS过程步对数据集中数据进行分析、处理。以PROC语句开始,调用SAS过程。每个语句都以“;”结束。整个程序最后要有RUN语句。132智囊经验过程步133智囊经验SAS程序的书写格式不分大小写单个名称中不能空格,不同名称间必须空格一行可写多条语句,用分号分割一条语句可写多行数据行后

38、不加分号,数据最后单独加分号行程序用“RUN;”语句结束134智囊经验运行SAS程序方式一:鼠标点击执行按钮 方式二:按功能键“F8”方式三:执行菜单命令 RunSubmit方式四:在命令框输入SUBMIT 命令并执行135智囊经验136智囊经验SAS程序实例 例子 某学生上学期8门课程的分数分别为88,90,87,76,92,78,80,86。试用SAS编程求其平均分数。(1) 在PGM窗口键入下列程序data fenshu;input chengji;cards;88 90 87 76 92 78 80 86;proc means;var chengji;run; 过程步 数据步137智囊

39、经验查看结果 (output 窗口)Analysis Variable : chengji N Mean Std Dev Minimum Maximum -8 84.6250000 5.8782286 76.0000000 92.0000000- 从结果看出,该学生上学期8门课程的平均成绩为84.625。138智囊经验查看运行过程及出错信息激活LOG窗口( F6 ) 黑色文字:源程序及运行情况蓝色文字:程序运行情况的说明信息红色文字:出错信息绿色文字:警告信息139智囊经验140智囊经验保存SAS程序及其他窗口内容激活相应窗口,然后选择: 方式一:鼠标点击“存盘”工具按钮 方式二:执行菜单命令

40、【File】【Save】/ 【Save as】可保存程序、数据文件、运行结果、日志等。SAS保存成纯文本格式文件(.txt)。141智囊经验保存的文件的名142智囊经验在SAS系统内打开已保存的文件只能在Program Edit窗口打开文件,选择:方式一:鼠标点击“打开”工具按钮 方式二:执行菜单命令【File】【Open】 可打开以前保存的程序、数据文件、运行结果、日志等文件及其他文本格式的文件。143智囊经验SAS程序主要关键词 means; (n, mean, std, Q1, Q3, CV, median, clm) univariate normal; (正态性检验,均数是否为0的

41、假设检验:参数与非参数检验) ttest; (两个样本均数比较的t检验) anova; (各样本含量相等的方差分析) glm; (各样本含量不等的方差分析) npar1way; (非参数检验) reg; (线性回归方程:单元或多元) corr; (线性相关:线性相关或秩相关) freq; (卡方、Fisher检验) logistic; (非线性回归) lifetest; (生存分析) proc144智囊经验定量资料的描述性分析145智囊经验分析结果146智囊经验定量资料的正态性检验147智囊经验正态性检验结果148智囊经验配对设计的t-test 为了比较两种方法对乳酸饮料中脂肪的含量测定结果是

42、否不同,随机抽取了10份乳酸饮料制品,分别采用哥特里-罗紫法和脂肪酸水解法测定其结果,问两种方法检测结果是否不同?编号哥特里-罗紫法脂肪酸水解法10.840 0.580 20.591 0.509 30.674 0.500 40.632 0.316 50.687 0.337 60.978 0.517 70.750 0.454 80.730 0.512 91.200 0.997 100.870 0.506 149智囊经验150智囊经验151智囊经验成组设计资料的t-test国产药进口药-5-176448634777607458-2-14897277486361705436228266-14采用国产

43、药物和进口药物治疗绝经后妇女骨质疏松症,试比较两种药物的疗效是否有差别152智囊经验153智囊经验154智囊经验完全随机设计资料的方差分析(教科书73页)安慰剂组2.4g组4.8g组7.2g组3.53 2.42 2.86 0.89 4.59 3.36 2.28 1.06 4.34 4.32 2.39 1.08 2.66 2.34 2.28 1.27 3.59 2.68 2.48 1.63 3.13 2.95 2.28 1.89 4.04 2.63 2.32 1.74 3.53 2.86 2.61 2.16 3.65 2.93 3.64 3.37 3.85 2.17 2.58 2.97 4.07

44、 2.72 3.65 1.69 3.93 2.22 3.68 2.11 4.19 2.90 2.65 2.81 2.96 2.97 3.02 2.52 155智囊经验156智囊经验方差齐性检验157智囊经验158智囊经验159智囊经验160智囊经验161智囊经验162智囊经验163智囊经验四格表资料的2-test组别有效无效合计有效率胞磷胆碱4665288.5%神经节苷脂1882669.2%合计64147882.1% 某医师欲比较胞磷胆碱与神经节苷脂治疗脑血管疾病的疗效,将78例脑血管疾病患者随机分为两组,试比较两种药物的疗效164智囊经验165智囊经验166智囊经验167智囊经验配对四格表资

45、料的2-test配对设计的卡方检验168智囊经验169智囊经验170智囊经验171智囊经验非参数检验(配对)172智囊经验173智囊经验174智囊经验非参数检验9D11CDSC25325526636646647748751097121071111 比较小白鼠接种三种不同菌型伤寒杆菌9D、11C、DSC1后存活的日数。175智囊经验176智囊经验177智囊经验178智囊经验179智囊经验180智囊经验直线相关与回归年龄尿肌酐含量133.54113.0193.0962.4882.56103.36123.1872.65某地方病研究所调查了8名正常儿童的尿肌酐含量,试估计尿肌酐含量对其年龄的回归方程。

46、181智囊经验回归相关182智囊经验183智囊经验184智囊经验一、基础介绍1、 SPSS的简介2、SPSS的安装和界面介绍3、变量的属性和定义方法4、SPSS数据的录入5、数据文件的操作 (可以打开Excel文档,保存为多种格式)185智囊经验1、SPSS简介SPSS的全称是:Statistical Program for Social Sciences,即社会科学统计程序。该软件是公认的最优秀的统计分析软件包之一。 作为统计分析工具,理论严谨、内容丰富,数据管理、统计分析、趋势研究、制表绘图、文字处理等功能,几乎无所不包 。186智囊经验2、SPSS的安装步骤:1、启动Windows,并将

47、SPSS系统安装盘插入CD-ROM光盘驱 动器。2、若系统设置为自动运行光盘状态,则光盘自动执行setup.exe文件,若光盘没有自动运行,可启动资源管理器,用鼠标双击光盘驱动器图标,运行setup.exe文件,进入安装前的选择画面。3、双击install SPSS选项,进入SPSS15.0 for window安装初始画面,(接受软件使用协议,输入用户名,机构名称,选择安装路径,单击“install”按扭,开始安装SPSS15.0 for window软件。 4 、根据安装过程的提示,依次顺序插换原盘直至安装完成。 5、安装完毕后,运行SPSS许可证向导,选择注册软件的类型和序列号。当软件注

48、册后,方可正常使用。187智囊经验SPSS的启动 在Windows的程序管理器中双击SPSS FOR WINDOWS图标以打开SPSS程序组,选择SPSS图标并双击之,即可启动SPSS。SPSS启动成功后出现SPSS的封面及主窗口,5秒钟后或点击鼠标左键,封面消失,呈现SPSS的预备工作状态188智囊经验SPSS的菜单界面 菜单栏选项:1、File:文件管理菜单,有关文件的调入、存储、显示和打印等;2、Edit:编辑菜单,有关文本内容的选择、拷贝、剪贴、寻找和替换等;3、Data:数据管理菜单,有关数据变量定义、数据格式选定、观察对象的选择、排序、 加权、数据文件的转换、连接、汇总等;4、an

49、alyze:SPSS软件统计分析功能的最核心部分。几乎所有的统计分析功能都可以通过主菜单中的Analyze模块提供的各类过程来完成。5、Transform:数据转换处理菜单,有关数值的计算、重新赋值、缺失值替代等;6、Statistics:统计菜单,有关一系列统计方法的应用;7、Graphs:作图菜单,有关统计图的制作;8、Utilities:用户选项菜单,有关命令解释、字体选择、文件信息、定义输出标题、窗口设计等;9、Windows:窗口管理菜单,有关窗口的排列、选择、显示等;10、Help:求助菜单,有关帮助文件的调用、查寻、显示等。 点击菜单选项即可激活菜单,这时弹出下拉式子菜单,用户可

50、根据自己的需求再点击子菜单的选项,完成特定的功能。189智囊经验 3、定义变量 启动SPSS后,出现如图2-1所示数据编辑窗口。由于目前还没有输入数据,因此显示的是一个空文件。190智囊经验 定义变量 输入数据前首先要定义变量。定义变量即要定义变量名、变量类型、变量长度(小数位数)、变量标签(或值标签)和变量的格式。 单击数据编辑窗口左下方的“Variable View”标签或双击列的题头(Var),进入如图2-2所示的变量定义视图窗口,在此窗口中即可定义变量。191智囊经验图2-2 变量定义视图窗口192智囊经验 变量的定义信息 在图2-2所示的窗口中每一行表示一个变量的定义信息,包括Nam

51、e、Type、Width、Decimal、Label、Values、Missing、Columns、Align、Measure等。193智囊经验1定义变量名(Name) SPSS默认的变量为Var00001、Var00002等,用户也可以根据自己的需要来命名变量。SPSS变量的命名和一般的编程语言一样,有一定的命名规则,具体内容如下。 变量名必须以字母、汉字或字符开头,其他字符可以是任何字母、数字或_、#、$等符号。 变量最后一个字符不能是句号。 变量名总长度不能超过8个字符(即4个汉字)。不能使用空白字符或其他特殊字符(如“!”、“?”等)。 194智囊经验2定义变量类型(Type) 单击T

52、ype相应单元中的按钮,弹出如图2-3所示的对话框,在对话框中选择合适的变量类型并单击“OK”按钮,即可定义变量类型。 SPSS的主要变量类型如下:195智囊经验3变量长度(Width)设置变量的长度,当变量为日期型时无效。196智囊经验4变量小数点位数(Decimal) 设置变量的小数点位数,当变量为日期型时无效。197智囊经验5变量标签(Label) 变量标签是对变量名的进一步描述,变量只能由不超过8个字符组成,而8个字符经常不足以表示变量的含义。而变量标签可长达120个字符,变量标签可显示大小写,需要时可用变量标签对变量名的含义加以解释。198智囊经验6变量值标签(Values) 值标签

53、是对变量的每一个可能取值的进一步描述。199智囊经验7缺失值的定义方式(Missing) SPSS有两类缺失值:系统缺失值和用户缺失值。 单击Missing相应单元中的按钮,在弹出的如图2-5所示的对话框中可改变缺失值的定义方式,在SPSS中有两种定义缺失值的方式。 可以定义3个单独的缺失值。 可以定义一个缺失值范围和一个单独的缺失值。 200智囊经验8变量的显示宽度(Columns)输入变量的显示宽度,默认为8。201智囊经验9变量显示的对齐方式(Align) 选择变量值显示时的对齐方式:Left(左对齐)、Right(右对齐)、Center(居中对齐)。默认是右对齐。202智囊经验10.变

54、量的测量尺度(Measure) 变量按测量精度可以分为定性变量、定序变 量、定距变量和定比变量几种。SPSS将其分为定距变量(Scale)、定序变量(Ordinal)、定类变量(Nominal)。定距变量:年龄、温度、重量、次数等,包括连续变量和不连续变量。定序变量:职称(高下)、程度(高低)等。定类变量:职业、性别等。203智囊经验 4、数据的录入 录入数据的一般方法:定义了所有变量后,单击“Data View”标签,即可在出现的数据视图(编辑)窗中输入数据。 数据录入时可以逐行录入,也可以逐列。204智囊经验数据的录入技巧:1.减少无用击键次数技巧1:问卷录入时一般从左到右输入,换行时多有

55、不便。开始输入时不要按”右”方向键,按tab键光标自然向右,需要换行时按回车,光标自然回到第一行开始录入的列,节省时间。另:如果在其他情况下需要从上往下输入,先用鼠标选定特定区域,输入时按回车键光标自然向下。到了最底行光标自然换行。技巧2:按“F4“(=Ctrl+Y)可以重复上一步操作。205智囊经验数据的录入技巧:2.数字小键盘的盲打注意指法,食指放4,管7和1,中指放5,管6和2和小数点,无名指放6,管9和3,小拇指管回车键,大拇指管0.熟练加以练习。206智囊经验数据的录入技巧:3.批量录入相同数据连续以及不连续空间都可以。不连续分布数据 :按Ctrl不放然后用鼠标点击需要填入数据的单元

56、格,再再最后的单元格里输入数据,最后按Ctrl+回车就行了。连续区域输入:用鼠标圈出一块地,在光标所在单元格(白色那个)输入数据,再Ctrl+回车,一气呵成。207智囊经验 录入带有变量值标签的数据 在录入带有变量值标签的数据时,用户手工输入的是实际的变量值,而屏幕上显示的是与该变量对应的变量值标签。选中“Value Lables”的效果208智囊经验5、 读取Excel软件文件(.xls)Excel软件可能是Windows系列操作系统中使用最多的数据表格软件。Excel文件以.xls为扩展名保存。该文件除了保存纯数据信息外,还保存了另外一些数据信息。SPSS提供了与Excel文件的接口,可以

57、方便地将Excel文件读入数据编辑窗口。具体的操作过程如下。209智囊经验图2-58 读取Excel文件210智囊经验图2-59 “Opening Excel Data Source”对话框211智囊经验 SPSS默认将某个sheet中所有数据都读入到数据编辑窗口中。在“Range”框中输入要读取数据的范围,也允许指定读取一部分区域的数据,如要读入前50行数据,则在该框中输入A1:F50,表示读取的区域是以A1单元为左上角,F50为右下角的矩形区域。Excel表格中每一行为SPSS的一个个案。单击“Continue”按钮,即可完成数据导入。212智囊经验 SPSS数据文件的保存 在录入数据时,

58、应及时保存数据,防止数据的丢失,以便再次使用该数据 。213智囊经验 用户确定盘符、路径、文件名以及文件格式后单击“Save”按钮,即可保存为指定类型的数据文件。SPSS支持的常见的数据文件存放格式如下。 SPSS(*.sav) SPSS/PC+(*.sys) SPSS Portable(*.por) Tab delimited(*.dat)214智囊经验SPSS的数据结构定义1.用Execl录入数据之后,复制(或者用SPSS打开.xls文档)到SPSS中去。2.定义变量的属性。 打开“Data” 选择“Defining Variable Properties”命令,分别或者一起设置各变量的属

59、性。215智囊经验整体定义变量属性216智囊经验二、SPSS的使用 2.1、基本统计分析 2.11基本统计量的定义和计算 2.12频数分析过程 2.2、 spss统计图形的创建和编辑 2.21spss图形基本功能介绍 2.22具体介绍一下图表的用法(条形图、线图、面积图)217智囊经验 SPSS基本统计分析是进行其他统计分析的基础和前提。通过基本统计方法的学习,可以对要分析数据的总体特征有比较准确的把握,从而有助于选择其他更为深入的统计分析方法。 这里主要介绍如何在SPSS中进行平均数、中位数、众数、均值标准误差、频数、方差、标准差等的操作。大家可以据此自己探索其它的统计分析操作。 218智囊

60、经验常用基本统计量的英文名均值(Mean)中位数(Median)众数(Mode)百分位数(Percentile)样本方差(Variance)样本标准差(Std.deviation)偏度(Skewness):取值分布对称性峰度(Kurtosis):取值分布形态陡缓219智囊经验2.1 均值(Mean)和均值标准误差(S.E.mean)2.11 统计学上的定义和计算公式 定义:均值(平均值、平均数)表示的是某变量所有取值的集中趋势或平均水平。例如,学生某门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等。计算公式如下。220智囊经验 总体平均数:若一组数据X1,X2,XN,代表一个大小为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论