SAS04-SAS基本统计分析功能课件_第1页
SAS04-SAS基本统计分析功能课件_第2页
SAS04-SAS基本统计分析功能课件_第3页
SAS04-SAS基本统计分析功能课件_第4页
SAS04-SAS基本统计分析功能课件_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章SAS基本统计分析功能

返回目录

4.1假设检验4.2回归分析4.3方差分析4.4属性数据分析返回4.1假设检验正态性检验(univariate过程)单样本均值的T检验(univariate过程)两独立样本均值检验(TTest过程\npar1way过程)两相关样本均值检验(Univariate过程)返回2.举例

在procunivariate语句中加上normal选项可以进行正态性检验。【例1】检验数据集sasuser.gpa中变量gpa是否服从正态分布?输出结果中正态检验部分为:分析:检验的零假设为Ho:gpa变量服从正态分布,其中shapiro-wilk检验的统计量为w=0.966294,检验的p值小于0.0001,当然小于给定的显著性水平α=0.05,故应拒绝零假设,即有95%把握认为gpa非正态。说明:使用SAS软件中的“分析家”,打开数据集后,利用菜单“统计”→“描述性统计”→“分布”,除了可以检验变量是否服从正态分布外,还可以检验对数正态、指数和韦布尔分布。补充P值检验法:分位数t1-α/2(n-1)满足Pr{|t|>t1-α/2(n-1)}=α设由已经得到的样本具体计算得到的t值为t0,若|t0|>t1-α/2(n-1),则拒绝H0,否则接受H0。对大量重复试验而言,t是随机变量,且服从t分布t(n-1)。当|t0|<t1-α/2(n-1)时,有Pr{|t|>t0}>Pr{|t|>t1-α/2(n-1)}=α反之亦然。令p=Pr{|t|>t0},则|t0|<t1-α/2(n-1)等价于p>α所以,假设检验的p值方法为:对给定的显著水平α,当p<α时,拒绝H0,当p>α时,接受H02.应用举例

在SAS中用univariate过程默认进行某个变量均值为零(μ0=0)的t检验,若要检验μ=μ0,则需进行变量代换。例2:检验数据集sasuser.class中学生的身高均值与63有无显著性差异。输出结果为:说明:

当变量服从正态分布时,优先采用t检验,当变量服从非正态时,可以采用符号秩(signedRank)检验,符号检验(sign)的检验功效较差,一般不常用它。对同一问题不同的检验方法一般是一致的,但有时也有互相矛盾的结果。使用SAS软件中的分析家,打开数据集后,利用菜单“统计”→“假设检验”→“均值的单样本T检验”可以进行双边和单边检验。4.1.3两独立样本均值检验(TTest过程、npar1way过程)

1.原理背景假设两组样本来自两个独立总体,需要检验两个总体的均值或中心位置是否一样。如果两个总体都服从正态分布,则可使用两独立样本均值的T检验。两个样本方差相等与不相等时使用的检验统计量是不一样的,所以应该先对方差的齐性进行检验。设两个样本的均值为,方差为,观测量为有关公式如下:方差齐性检验的零假设为H0:两个独立样本的来自方差相等的总体,即,检验统计量为4.1.3两独立样本均值检验(TTest过程、npar1way过程)方差齐时,检验两样本的均值是否相同的零假设为H0:两个独立样本的来自均值相等的总体,即,检验统计量为其中为合并方差。方差不齐时,检验两样本的均值是否相同,用校正t检验。检验零假设为H0:两个独立样本的来自均值相等的总体,即,检验统计量为【例3】某克山病区测得11例克山病人与13名健康人的血磷值(mmol/L)如表,据此判断该地急性克山病人与健康人的血磷值是否相同?输出为:分析:(1)先作正态性检验如下:零假设为Ho:患者组的血磷值变量x服从正态分布,其中患者组的shapiro-wilk检验的统计量为w=0.959147,检验的p=0.7610>α=0.05,故应接受零假设,即有95%把握认为x正态。零假设为Ho:健康组的血磷值变量x服从正态分布,其中健康组的shapiro-wilk检验的统计量为w=0.927983,检验的p=0.3207>α=0.05,故应接受零假设,即有95%把握认为x正态。分析:(2)因此可采用两独立样本均值的T检验。由ttest过程输出先作方差齐性检验如下:H0:患者组和健康组来自方差相等的总体,即,检验的统计量F=1.01,P=1.000>α=0.05,故应接受零假设,即有95%把握认为患者组和健康组方差满足齐性。再作T检验。H0:患者组和健康组来自均值相等的总体,即。选择方差齐性一行的结果知t=2.51,p=0.02<α=0.05,故应拒绝零假设,即有95%把握认为患者组与健康组血磷值的均值有显著差异,且是患者组比健康组的均值要高。注:

使用SAS软件中的“分析家”,打开数据集后,利用菜单“统计”→“假设检验”→“均值的双样本T检验”,可以进行单边和双边检验。如果数据不服从正态分布可以采用非参数检验,检验两个独立样本的中心位置是否相同的非参数方法有wilxocon秩和方法,使用npar1way过程加wilcoxon选项,如教材P123。【例4】检验数据集sasuser.gpa中男、女生的gpa分数有无显著差异?分析:在例1中我们讨论过变量gpa是非正态分布,故要采用wilxocon秩和非参数检验方法。零假设为H0:男生和女生来自中心位置相同的总体。由输出结果的wilcoxon秩和检验中用正态近似得到的双边检验的z=0.5276,p=0.5978>α=0.05,故应接受零假设,即有95%把握认为男生和女生的gpa无显著性差异。4.1.4两相关样本均值检验(Univariate过程)1.原理背景相关样本的有两种情况:一种是将研究对象按一定的条件先配对,每对中的两个对象随机分配到实验组和对照组,一个试验由若干对组成,称为配对试验设计;另一种情况是同一批研究对象经过某种处理前后的指标值比较,或者是同一批样品经过两种不同方法的测定结果的比较。此时这两个变量不再独立,而是相关的。输出部分结果:分析:先作正态性检验如下:零假设为Ho:差值变量x服从正态分布,由输出结果知shapiro-wilk检验的统计量为w=0.896832,检验的p=0.3122>α=0.05,故应接受零假设,即有95%把握认为x正态。故可采用两相关样本均值T检验。H0:治疗前后的差值变量x的均值为0。由输出结果知T检验的统计量t=5.879298,双边检验的p值为0.0011<α=0.05,故拒绝原假设,即有95%的把握认为治疗后血清蛋白有下降。注:使用SAS软件中的“分析家”,打开数据集后,利用菜单“统计”→“假设检验”→“均值的双样本成对T检验”,除了可以进行单边和双边检验。如果数据不服从正态分布可以采用非参数检验,如符号检验、符号秩检验,在SAS中可用univariate过程实现。【例6】为了检验一种新的复合肥料和原来使用的肥料相比是否显著地提高了小麦的产量,在一个农场中选择了10块田地,每块等分为两部分,其中任指定一部分使用新的复合肥料,另一部分使用原肥料,小麦成熟后称得各部分小麦的产量(单位:kg)如表,用符号检验法检验新复合肥是否会显著提高小麦产量?(α=0.05)分析:先作正态性检验如下:零假设为Ho:差值变量diff服从正态分布,由输出结果知shapiro-wilk检验的统计量为w=0.835307,检验的p=0.0388<α=0.05,故应拒绝零假设,即有95%把握认为差值变量diff不服从正态分布。故采用符号秩非参数检验。H0:差值变量diff的均值为0。由输出结果知符号秩检验的统计量S=20.5,双边检验的p值为0.0332<α=0.05,故拒绝原假设,即有95%的把握认为新复合肥会显著提高小麦产量。作业:P157习题1,3,5,74.2方差分析

4.2.1单因素方差分析4.2.2非参数单因素方差分析4.2.3多因素方差分析思路:检验多组独立样本均值有无显著性差异,等价于检验这个因素的各个取值水平会不会影响到指标的取值。

4.2.1单因素方差分析

1.背景简介单因素方差分析模型:其中为分类变量(因子A)的第i个水平的效应。零假设平方和分解式:即总偏差平方和=误差的偏差平方和+因子A的偏差平方和统计量

4.2.1单因素方差分析前提条件是独立性、正态性和方差齐性。当数据满足这些条件时,可采用anova过程来进行单因素方差分析,一般格式为:

Procanovadata=数据集名;

Class因素变量;

Model指标变量=因素变量效应表;

Means因素变量/hovtest=levene;

Run;2.案例分析

【例1】(摘自魏宗舒《概率论与数理统计》例8.1)为寻求适应本地区的高产油菜品种,今选了五种不同品种进行试验,每一品种在四块试验田上试种,得到在每一块田上的亩产量如表。试问不同品种的油菜的平均亩产是否相同?(α=0.05)A1A2A3A4A5256244250288206222300277280212280290230315220298275322259212分析:(1)正态性检验。Ho:第1组数据服从正态分布,由输出结果中shapiro-wilk统计量为w=0.975665,p=0.8762>α=0.05,故接受Ho,即第1组数据服从正态分布。类似可得第二、三、四、五组数据的shapiro-wilk统计量为w=0.937882、0.964898、0.985353、0.935122,检验的p=0.6415、0.8097、0.9326、0.6248>α=0.05,故这四组数据也服从正态分布。(2)方差齐性检验。Ho:5组数据的方差相等。正态分布由Leneve方差齐性检验的F=1.53,p=0.2451>α=0.05,故这5组数据满足方差齐性。(3)方差分析。Ho:5组数据的均值相等。由方差分析表中F=4.31,p=0.0162<α=0.05,故拒绝Ho,即不同品种的油菜的平均亩产有显著差异。4.2.2非参数单因素方差分析

前节方差分析中的正态性或方差齐性不能满足时,可采用非参数检验方法,如Krushal-Wallis检验。这种检验不要求数据来自正态总体,也不要求各组的方差齐,甚至指标可以是有序变量(只有大小,没有差距如大、中、小,或很好、好、一般、不好,很不好等)。在SAS软件中可以使用npar1way过程,进行非参数Krushal-Wallis检验,一般格式为:

Procnpar1waydata=数据集wilcoxon;Class因素变量;

Var指标变量;Run;注:当因素为两个水平时,npar1way过程执行wilxocon的秩和检验,当多个水平时执行Krushal-Wallis检验。【例2】对上例1采用Krushal-Wallis检验法,检验不同品种的油菜的平均亩产是否相同。(α=0.05)分析:零假设H0:不同品种的油菜的平均亩产相同由输出结果中的Krushal-Wallis检验的统计量χ2=9.9185p=0.0418<α=0.05,故拒绝H0,即不同品种的油菜的平均亩产有显著不同。注:在同等条件下Krushal-Wallis检验的功效比方差分析工效低,所以此处p值0.0418比方差分析中的p值0.0162要大。4.2.3多因素方差分析

原理说明:固定水平的双因素方差分析模型:检验因素A的主效应显著性的原假设和统计量为:其它同理类似。【例3】:为了提高一种橡胶的定强,考虑三种不同的促进剂(因素A)、四种不同分量的氧化锌(因素B)对定强的影响。对配方的每种组合重复试验两次,总共试验了24次,得到如下表,试分析因素A和因素B的主效应和交互效应,以及最好的实验配方。A:促进剂B:氧化锌1234131,3334,3635,3639,38233,3436,3737,3838,41335,3737,3839,4042,44分析:(1)对于检验促进剂(因素A)的主效应,H0:三种促进剂对橡胶的定强的主效应为0。由输出结果的详细方差分析表中,因素A对应的F统计量为19.40,p值为0.0002,小于给定的显著性水平α=0.05,故因素A对橡胶定强的主效应是显性的。同理可得氧化锌(因素B)的主效应是显著的,A和B的交互效应不显著。(2)为了得到最好配方,由输出结果的每种水平下,指标定强stren的均值,可得促进剂(因素A)在第3水平使指标达最大值,氧化锌在第4水平时使指标达最大,故最佳配方为:第3种促进剂和第4种氧化锌分量。作业:P16015,16,174.3回归分析

4.3.1直线回归4.3.2非线性回归4.3.3二分类变量的Logistic回归常用SAS过程回归类型资料类型因变量自变量Reg线性回归数值变量数值变量GLM协方差模型、一般线性模型数值变量数值变量、分类变量LogisticLogistic回归分类变量数值变量、分类变量CatmodLogistic\Poisson回归分类变量数值变量、分类变量Nlin非线性回归数值变量数值变量4.3.1直线回归

1背景概述(多元线性回归分析简介)假定因变量y与k个解释变量x1,x2,…,xk具有线性关系,即总体回归模型:或样本回归模型:残差:最小二乘法:总离差平方和的分解式:总平方和TSS=解释平方和ESS+残差平方和RSS

即判定系数:回归模型的显著性检验(F检验):Ho:b1=b2=…=bk=0,H1:b1,b2,…,bk至少有一个不为0。检验统计量变量(如xi)显著性检验(t检验):H0:bi=0,H1:bi≠0检验统计量

2.reg过程

格式:Procregdata=数据集名选项;

Var可参与建模的变量列表;

Model因变量=自变量表/选项;

Print输出结果;

Plot诊断图形;Run;3.应用举例

【例1】对数据集sasuser.class中建立以weight为因变量,height和age为自变量的线性回归模型,并作简要回归分析。思路:先考察weight与height\age间的线性关系,可用散点图和相关分析,确定有线性关系后再作回归分析。分析:由散点图和相关分析可知weight和height,age间有较强的线性关系。

(1)回归方程为:

判定系数,说明因变量Y的变异中由模型能解释的部分占到77.29%,模型拟合效果较好。(2)回归模型的显著性检验检验的零假设Ho:b1=b2=0,由输出结果的方差分析表中F统计量为27.23,检验的p值小于0.0001,在α=0.05的显著性水平下,应拒绝H0,说明模型是显著成立的。分析:

(3)变量的显著性检验对变量height而言,检验的零假设Ho:b1=0,由输出结果的参数估计部分的t统计量值为3.97,双边检验p值为0.0011,所以在α=0.05的显著性水平下,应拒绝H0,说明height变量对weight变量有显著性影响。类似可得对变量age,t统计量值为-0.41,双边检验p值为0.6865,在α=0.05的显著性水平下,应接受H0,说明模型是age变量对weight变量影响不显著性。说明:(1)如果要自动挑选最优变量,可在model语句中增加选项‘selection=选择方法’,选择方法有none(全用,默认)、forward(逐步引入法)、backward(逐步剔除法)、stepwise(逐步筛选法)等。如modelweight=heightage/selection=stepwise;run;(2)要输出其它结果可以print语句,如

PrintcliRun;说明:(3)若是一元线性回归,可以在因变量和自变量的散点图上加上回归直线和均值置信界限,程序如下:

procregdata=sasuser.class;modelweight=height;plotweight*height/conf95;run;(4)若是要输出多元线性回归中残差对预测值诊断图,可用如下语句:

plotresidual.*predicted.;run;4.3.2非线性回归

许多情况下变量间呈曲线关系,求解变量间的曲线关系的方程,可以直接拟合所选择的曲线方程式,但有时也可以变量代换成直线方程,再应用直线回归的方法求解。【例2】某地大气中氰化物测定结果如下:散点图分析表明Y和X间呈现指数函数关系案,现求回归方程。距离污染物距离X(m)50100150200250300400500氰化物浓度Y(mg/m3)0.6870.3980.20.1210.090.050.020.01方法一:分析:logy与x间的直线回归方程为:代入logy=log10y,得指数方程为:方法二:分析:指数方程为4.3.3二分类变量的Logistic回归(Logistic过程)

模型简介:设P为某事件发生的概率,取值范围为0~1,1-p为事件不发生的概率,将比数p/(1-p)取自然对数得ln(p/(1-p)),即Logit变换,记为LogitP。则LogitP的取值范围为-∞到+∞。以LogitP为因变量,建立线性回归模型为:记,则模型变形为数据要求:因变量为二分类变量,自变量可以是分类变量或等间隔测度的变量。【例8.3】数据集data09-02.sav是乳腺癌患者的数据。变量包括:age(年龄)、time(患病时间)、pathscat(肿瘤扩散等级)、pathsize(肿瘤大小)、histgrad(肿瘤史)、ln-yesno(癌变部位的淋巴结是否含有癌细胞)。建立一个Logistic模型,并预测一个肿瘤大小为1cm,肿瘤史为1年,肿瘤扩散等级<2cm患病时间为1个月的60岁人癌变部位的淋巴结是否含有癌细胞。给定显著性水平α=0.05结果分析:结论:Logistic回归模型拟合结果为:则故该病人癌变部位的淋巴结会含有癌细胞。

作业:P15016

补充:某调查中收集了350大学生的数据信息,研究恋爱与否(变量V)与年龄(age)、地区(Location),各科平均成绩(score)、性别(sex)及身高(height)等变量的关系。各变量定义如下:

恋爱与否(变量V)年龄(age)地区(Location)平均成绩(score)性别(sex)身高(height)0:未恋爱单位:岁0:农村单位:分0:女单位:厘米1:已恋爱1:城市1:男假设收集数据如下表,试建立Logistic模型,并分析22岁农村男生、身高170cm,平均成绩为560时的恋爱概率。agelocationscoreheightweightsexv2115931831541019146717818511201550177170102114141751141019150216098002103611751261021059516611211200409178140112014361641281022145017016010231482168106001800160106002014751701201120061516510600191549168110104.4属性数据分析4.4.1单个离散变量的拟合优度卡方检验4.4.2两个离散变量的列联表独立性检验4.4.3两个离散变量的关联度分析4.4.1单个离散变量的拟合优度卡方检验

1.功能:检验离散变量的取值规律是否符合某种给定的比例。Pearson提出的卡方检验的零假设为:统计量为:其中:ni为事件Ai的观测频数,pi为事件Ai的频率。【例1】某工厂近5年来发生了63次事故,按事故发生的星期号分类如下:问事故的发生是否与星期几有关?思路分析:采用拟合优度卡方检验六种情况发生的概率是否相等,H0:Pr(X=i)=1/6(i=1,2,…6)。星期一二三四五六次数9101181312结果分析:零假设H0:Pr(X=i)=1/6(i=1,2,…6),由输出拟合优度卡方检验的统计量χ2=1.667,p=0.8991,对于给定的显著性水平α=0.05,p>α,所以接受H0,说明事故发生与星期几没有关系。注明:检验的是等概率情形时,选项testp语句可以省略。4.4.2两个离散变量的列联表独立性检验

1.列联表的输入与制表列联表的概念:根据两个离散变量的交叉分类取值把样本进行分类,得到每一小类的观测个数制成表格的形式称为列联表,如根据学生的性别和来源把学生分为4组,得到如下统计表:学生性别、来源分布表男生女生本地46外地147方式一:枚举法——每一行为一个样本观测,即一个学生的信息记录,然后使用freq过程可以制成列联表,使用tables语句指定行变量和列变量。方式二:频数表法——没有具体每行样本观测的信息,只有汇总的频数表,则需要设置一个代表观测频数的变量,然后使用freq过程可以制成列联表,使用tables语句指定行变量和列变量,weight语句指定单元格频数变量。两种方式的输出结果一样,如下图,每一个格子中有4个数:Frequency(频数)、percent(百分比)、RowPct(行百分比)、ColPct(列百分比)。在表的右侧有行总计的频数及百分比,在表的下侧有列总计的频数及百分比。说明:简化形式的列联表,可以在tables语句中加上nofreq、nopercent、norow、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论