统计软件基础_第1页
统计软件基础_第2页
统计软件基础_第3页
统计软件基础_第4页
统计软件基础_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计软件基础常用得位置统计量“位置”一般就是关于数据中某变量观测值得“中心位置”或者数据分布得中心(center或centertendency)。和这种“位置”有关得统计量就称为位置统计量(locationstatistic)。位置统计量不一定都就是描述“中心”了,比如百分位数。常用得位置统计量有:样本均值(mean);样本中位数(median),她就是数据按照大小排列之后位于中间得那个数(如果样本量为奇数),或者中间两个数目得平均(如果样本量为偶数),由于中位数不易被极端值影响,所以中位数比均值稳健(robust);上下四分位数(或分别称为第一四分位数和第三四分位数,firstquantile,thirdquantile)则分别位于(按大小排列得)数据得上下四分之一得地方;样本中出现最多得数值,称为众数(mode)。2数值得分散程度数据中数值得分散程度由尺度统计量(scalestatistic)来描述。尺度统计量就是描述数据散布,即描述集中与分散程度或变化(spread或variability)得度量。统计中有许多尺度统计量。一般来说,数据越分散,尺度统计量得值越大。极差(range);就就是极大值和极小值之间得差。两个四分位数之差,称为四分位数极差或四分位间距(interquantilerange);她描述了中间半数观测值得散布情况。另一个常用得尺度统计量为样本标准差(standarddeviation)。度量样本中各数值到均值距离得一种平均。标准差实际上就是方差(variance)得平方根。如果记样本中得观测值为x1,…,xn,则样本方差为

3分布形状反映分布形状,通常用偏度和峰度统计量。偏度就是用于衡量分布得不对称程度或偏斜程度得指标当

>0时为正偏或右偏,长尾巴拖在右边;当

<0时为负偏或左偏,长尾巴拖在左边;偏度公式:4若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布得正态性。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。峰度就是用于衡量分布得集中程度或分布曲线得尖峭程度得指标。峰度指标

得计算公式如下:

峰度指标

>0时,表示分布比正态分布更集中在平均数周围,分布呈尖峰状态;0分布为正态分布;

<0时,表示分布比正态分布更分散,分布呈低峰态。PP图、QQ图许多统计方法要求变量服从正态分布,为此SAS提供了多种检验方法,主要有PP图、QQ图和一些非参数检验法。P-P图,以样本得累计频率作为横坐标,以按正态分布计算得相应累计概率作为纵坐标,把样本值表现为坐标系中得散点。Q-Q图,以样本得分位数作为横坐标,以按照正态分布计算得相应分位点作为纵坐标,把样本表现为坐标系得散点。如果数据服从正态分布,则PP、QQ图中得散点应该基本呈一条直线状。SAS得univariate过程中用qqplot语句、probplot语句分别可画QQ图和PP图;还可以检验对数正态分布(lognormal选项),beta分布(beta选项),Weibull分布(weibull选项)。5非参数检验法非参数检验法主要有Kolmogorov-Smirnov检验(D检验)和Shapiro-Wilk(W检验)等。检验得原假设都就是“总体服从正态分布”。SAS中规定:当样本含量n≤2000时,结果以Shapiro–Wilk(W检验)为准,当样本含量n>2000时,结果以Kolmogorov–Smirnov(D检验)为准。对于K-S检验,SAS还可由UNIVARIATE过程得HISTOGRAM语句带上表示分布得关键词选项来实现对相应分布得检验。HISTOGRAM语句与分布对应得关键字选项有:

beta:

分布,具有,参数和

,

形状参数;exponential:指数分布,具有,两个参数;gamma:

分布,具有,,

参数;lognormal:对数正态分布,具有,,

参数;normal:正态分布,具有

,

参数;weibulll:韦伯分布,具有,,

c参数。6描述统计得实现方法描述性统计就就是主要分析变量集中、离散趋势以及探索变量得分布。SAS中有多种方法过程可以实现描述统计,这里简要介绍两种。UNIVARIATE等过程来计算描述性统计量。UNIVARIATE过程得一般形式:PROCUNIVARIATE[选择项]; VAR变量表;BY变量表: FREQ变量; WEIGHT变量; ID变量表; OUTPUT[选择项];RUN;7Univariate过程语法说明[选择项]:为可选项,常用选项如下。1)data=:指定SAS数据集,如果省略这一项,则指定最新建立得数据集。2)noprint:不打印输出到输出窗口。3)Vardef=df|wgt|n|wdf:方差计算中规定除数,df表示除数使用自由度(n-1),为默认值。weight}wgt表示用权数和作为除数。n表示观测个体数(样本含量)做除数。wdf表示用权数和减1做除数。4)Freq:要求生产包含变量值、频数、百分数和累计频数得频数表。5)Normal:要求计算关于输入数据服从正态分布得假设得检验统计量。6)plot:生成直方图或茎叶图,一个盒形图和一个正态概率图。7)Pctldef=值:规定计算百分位数方法,取值为1,2,3,4和5、8)Round=:指定变量数值四舍五入得单位。8示例某地区家庭中随机抽查了100户居民,调查到每户家庭人均收入数据(单位:百元),试用UNIVARIATE等过程对上述数据进行描述统计。程序如下dataine;inputx;cards;27139628739946626929533042532422811322617632023040448712774234523164336343330436141388293464200392265403259426262221355324374347261287113135291176342443239302483231292373346293236223371287400314468337308359352273267277184286214351270330238248419330319440427314414299265318415372238323412493286313412run;procunivariatedata=ineplotnormal;varx;run;输出结果分类整理为“矩”、“位置和变异性基本测度”、“位置检验”、“正态性检验”、“分位数”、“极值观测”、“图”七部分内容。9对示例做KS检验procunivariatedata=inenoprint;/*调用UNIVARIATE过程*/varx;/*指定分析得变量*/histogram/noplot/*HISTOGRAM语句,不显示直方图*/normal(mu=estsigma=est)/*检验正态分布,参数使用估计值*/lognormal(zeta=estsigma=esttheta=est)/*检验对数正态*/exponential(sigma=esttheta=est)/*检验指数分布*/weibull(sigma=estc=esttheta=est);/*检验韦伯分布*/run;10过程FREQ变量可分为数值型变量(连续型变量)和分类变量(离散型变量);而分类变量又分为名义变量(如性别分为:男、女,种族分为白、黄、黑)和有序变量(年级分为一、二、三、四,成绩等级分为优、良、中、差)。对分类变量计算均值一般就是无意义得(0-1变量得均值可看作占比),即便用数值表示类别也只就是某些特征得代号,没有数值计算得意义。对这些变量,重要得就是了解她们取哪些值以及取每个值得频数。过程FREQ就提供了这些方面得功能。FREQ过程产生一维至n维得频数表和列联表,对二维表计算统计量并进行检验,对n维表则作分层分析并在层内计算统计量。通过FREQ过程可以帮助分析变量值在数据中如何分布。FREQ过程还可用拟合优度检验方法讨论单个离散变量得分布,检验两个离散变量得独立性残联表检验,有序变量得关联性度量。11Freq常用语法语法FREQ过程常用语法语法格式

PROCFREQ[选择项]; TABLES变量表式[/选择项]; WEIGHT权重变量;

OUTPUT[选择项];BY变量表; RUN:其中得TABLES语句就是实现上述任务得关键。TABLES语句变量表式空格分隔得单独变量名或“*”连接得几个变量名组成,如:TABLESA*BA*C;

(等价于TABLESA*(BC);)。WEIGHT语句通过权重变量来确定汇总得统计项目所对应得原始记录数。12大家学习辛苦了,还是要坚持继续保持安静FREQ语法简要说明1)FREQ语句得[选择项]:为可选项,常用选项如下。Data=:指定SAS数据集。用来说明要做FREQ得数据集名,如果省略这一项,则指定最新建立得数据集。ORDER=FREQ|DATA|INTERNAL|FORMATTED:此选项规定变量水平得记录排列次序。ORDER=FREQ表示按频数下降得次序排列,最大得频数得水平第一个出现;ORDER=DATA表示按输入数据集中出现得次序排列;ORDER=INTERNAL表示按非格式化值得次序排列;ORDER=FORMATTED表示按格式化值得次序,默认时为RDER=INTERNAL、2)BY:指定分组变量。3)TABLES:指定需条件频数得变量表;可选得[/选择项]提供一些专门得统计项目。4)WEIGHT:指定权重变量。5)OUTPUT:指定输出结果到数据集。14TABLES语句得常用选项TABLES语句得选项放在“/”得后面,主要有:CHISQ选项:对每组变量作卡方检验,包括Pearson卡方、似然比卡方和Mantel-Haenszel卡方,还有与检验有关得关联指标包括Phi系数、列联系数和Cramer'sV;对于2×2表,给出Fisher精确概率;

(注意:一般对单元格内最小频数T和样本总量n,当T>5且n>40选Person卡方检验,当1<T<5且n>40选连续校正卡方检验,当n<40或T<5(有得教材上称样本量小于30)时选Fisher精确检验;似然比卡方在大样本下与Person卡方近似。)AGREE选项:进行配对卡方检验。ALPHA=p选项:给出显著水平。EXACT选项,对大于2×2得列联表计算Fisher精确概率,同时也给出CHISQ选项得全部统计量。MEASURES选项,对每层得二维表计算一系列关联指标及相应得标准误,包括Pearson和Spearman相关系数,以及Gamma和Kendall系数等,对于2×2表,还给出常用得危险度指标及其标准误;CMH选项,给出Cochran-Mantel-Haenszel统计量,可检验在调整了TABLES语句中其她变量后,行变量与列变量之间得关联程度;对于2×2表,还给出相对危险度估计及其可信区间,还给出各层关联度指标就是否齐性得Breslow检验;ALL选项:给出CHISQ、MEASURES、CMH所需得统计量、15单变量频数统计与两变量交叉频数统计示例对sashelp、class数据集中得sex、age变量作频数统计。程序procfreqdata=sashelp、class;tablessexagesex*age;run;可以看到输出了sex、age变量各自得频数表和交叉列联得频数表。16单个离散变量得拟合优度卡方检验检验离散变量得取值规律就是否符合某种给定得比例。Pearson提出得卡方检验得零假设为:17统计量为:其中:ni为事件Ai得观测频数,pi为事件Ai得频率。SAS得Freq过程中tables语句后跟/chisq选项,并用选项testp=(变量各离散取值得概率),可完成离散变量与指定概率分布之间得拟合优度卡方检验。示例某工厂近5年来发生了63次事故,按事故发生得星期号分类如表,问事故得发生就是否与星期几有关?18星期一二三四五六次数9101181312思路分析:采用拟合优度卡方检验六种情况发生得概率就是否相等,H0:Pr(X=i)=1/6(i=1,2,…6)。程序为:dataaccident;inputnonum;cards;1921031148513612run;proc

freqdata=accident;tablesno/chisqtestp=(0、1667

0、1667

0、1667

0、1667

0、1667

0、1667);weightnum;run;示例得SAS输出结果分析因为零假设H0为:Pr(X=i)=1/6(i=1,2,…6),由输出拟合优度卡方检验得统计量χ2=1、667,p=0、8991,对于给定得显著性水平α=0、05,p>α,所以接受H0,说明事故发生与星期几没有关系。注:检验得就是等概率情形时,选项testp=()可以省略。19两个离散变量得列联表独立性检验检验两个离散变量得取值就是否独立----列联表卡方检验。检验得零假设为H0:离散变量X与变量Y相互独立。检验统计量:20另外属性变量因为没有数值概念所以不能计算相关系数,但对于两个有序变量,SAS可以在FREQ语句后用measures选项计算类似于相关系数得关联性量度。其中一种关联性量度叫做KendalTau-b统计量,取值在-1到1之间,值接近于1表示正关联,接近于-1表示负关联,接近于0表示没有相关关系;并且该统计量值加减两倍渐近标准误差ASE约可作为KendallTau-b得95%置信区间。无序分类变量相关性度量:系数(在2x2表格中值为-1~1,但行或列数>2时,无界);列联系数c(|c|<1,但最大值随行、列数变大而变大只适合结构相同得表格间比较);V系数(范围-1~1);c和V适合度量>2x2表格)关联度。proc

freqdata=数据集;tablesrow*column/chisqmeasures;weightnum;run;

注意:若某单元格内频数5或总数30,应使用Fisher精确检验。列联表卡方检验示例为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况表。21患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟13121程序为:databron;inputsmoke$bron$num;labelsmoke='吸烟'bron='慢支病'num='频数';cards;吸烟患病43吸烟不患病162不吸烟患病13不吸烟不患病121run;proc

freqdata=bron;tablessmoke*bron/chisqexactmeasures;weightnum;run;结果分析零假设H0:吸烟与慢性支气管炎相互独立由输出结果中peraons卡方独立性检验统计量为χ2=7、4688,p=0、0063,对于给定得显著性水平α=0、05,p<α,故拒绝H0,即认为吸烟与患慢性支气管炎间不就是相互独立得。22相对危险度RR与比值比OR判断结局(疾病)和暴露(因素)联系强弱得指标

1)相对危险度:RR=P(Y=1|X=1)/P(Y=1|X=0)=p1/p0 p1:暴露于某个危险因素下发病得概率

p0:不暴露于某个危险因素下发病得概率(对照)

2)比值比:

OR={P(Y=1|X=1)/P(Y=0|X=1)}/{P(Y=1|X=0)/P(Y=0|X=0)}Y=1:患某种疾病,Y=0:不患某种疾病

X=1:暴露于某个危险因素,X=0:不暴露于某个危险因素 可以简单地表述成:OR=(p1/q1)/(p0/q0) p1:暴露于某个危险因素下发病得概率

q1:暴露于某个危险因素下不发病得概率

p0:不暴露于某个危险因素下发病得概率

q0:不暴露于某个危险因素下不发病得概率注意,SAS仅对2x2表格进行RR估计23示例为了判断患心脏病就是否与吸烟有关调查了862个人调查结果如表24dataheart;doa=1to2;dob=1to2;inputf;output;end;end;cards;243185156278run;procfreq;weightf;tablesa*b/chisqRELRISK;run;/*a=1为患心脏病,a=2为未患心脏病*//*b=1为吸烟,b=2为不吸烟*/示例数据集Graduate、sas7bdat中有研究生对自身所选专业得兴趣等因素得数据,试用列联表分析这些因素就是否有关联。25procfreqdata=lib、graduate;tablesinterest*major/chisqmeasures;exactFISHER/MC;/*FISHER检验要求较多内存、时间,用MontCaro模拟估计*/run;注意:这里分析兴趣与专业关系时用得就是未经汇总得原始记录表,故无需weight语句;另外非2x2表要做精确检验,必须明确用Fisher选项或exact语句告知SAS。本例输出结果中报告有不少单元格内频数少于5,卡方检验不准确,要看Fisher精确检验:发现检验概率非常小,故认为两变量有关。Kendall'sTau-b=

0、6826。相关分析相关关系就是指在一定范围内,一个变量任一取值xi,虽然没有另一变量得某个确定值yi与之对应,但却有一个特定得yi得条件概率分布与之对应,此时称两变量有相关关系。相关模型中,无自变量与依变量得区别,不具有预测特性,仅表示两变量偕同变异。简单相关分析就就是计算出两变量得相关系数以及对相关程度做显著性检验(原假设H0为:相关系数为

=0)。常见相关系数有Pearson、Spearman和Kendall_τ等。Pearson相关系数通常就是分析连续型变量且两变量都服从正态分布;Kendallτ相关系数适用于两个均为有序分类变量情况;Spearman秩相关系数适用与不满足正态得连续变量或等级数据。相关系数在0~0、3、0、3~0、5、0、5~0、8和0、8~1内变动时,依次分别称为:轻微相关、低度相关、中度相关和高度相关。SAS系统得CORR过程能计算变量间得相关系数,包括Pearson,Spearman,Hoeffding,Kendall等相关系数及其她统计量。26不同类型变量得相关分析一、两个连续变量得相关分析1、Pearson相关系数(积差相关系数)适用条件如下:(1)两变量呈直线相关关系,如果就是曲线相关可能不准确。(2)极端值会对结果造成较大得影响(3)两变量符合双变量联合正态分布。2、Spearman秩相关系数对原始变量得分布不做要求,适用范围较Pearson相关系数广,即使就是等级资料也可适用。但其属于非参数方法,检验效能较Pearson系数低。二、有序分类变量得相关分析有序分类变量得相关性又称为一致性,即行变量等级高得列变量等级也高,如果行变量等级高而列变量等级低,则称为不一致。常用得统计量有:Gamma、Kendall得tau-b、Kendall得tau-c等。三、无序分类变量得相关分析最常用得为卡方检验,用于评价两个无序分类变量得相关性。根据卡方值衍生出来得指标还有列联系数、Phi、Cramer得V、Lambda系数、不确定系数等。27单相关、复相关和偏相关单相关:两个因素之间得相关关系叫单相关,即研究时只涉及一个自变量和一个因变量。复相关:三个或三个以上因素得相关关系叫复相关,即研究时涉及两个或两个以上得自变量和因变量。在某一现象与多种现象相关得场合,当假定其她变量不变时,其中两个变量之间得相关关系称为偏相关。在一个多元相互作用得系统内,要考察两个变量之间得相关程度,就应该排除系统内其她变量得影响,计算出偏相关系数。SAS得CORR过程同样可以通过PARTIAL语句来控制其她变量得干扰,对两变量间得偏相关系数进行计算。28CORR过程一般格式: PROCCORRDATA=数据集名称[选项]; VAR变量表;/*列出相关矩阵上部出现得变量*/ [WITH变量表;]/*列出相关矩阵左侧出现得变量*/ [PARTIAL变量表;]/*指明求偏相关系数时需控制得变量*/ [WEIGHT变量;] [FREQ变量;] [BY变量;] RUN;29相关分析示例某学校随机抽取18名学生,测定其智商(IQ),连同当年数学和语文成绩,数据见下表。试考察她们得相关性。30数据输入:dataiq;inputnomathchineseIQ;cards;178839528476100361701004525875593821056897897798891108989512096561761073759211485361124543601367708814757896159597125168892113179992125188188102run;对示例数据画散点图计算相关矩阵symbol1v=dotcv=redh=1;symbol2v=starcv=greenh=2;procgplotdata=iq;plotchinese*IQ=1math*IQ=2/overlay;run;quit;可以看到散点分步就是否呈直线状。proccorrpearsonkendallspearman;varmathchineseIQ;run;结果:三个变量得三种相关系数得矩阵都算出来了,还做了显著性检验(H0:=0)。31偏相关分析:排除IQ影响,考察math和chinese相关性其她因素影响下得math和chinese相关系数:proccorrnosimple;varchinese;withmath;run;去除IQ变量得影响,计算math和chinese得偏相关系数:proccorrnosimple;varmathchinese;partialIQ;run;结果看到偏相关系数小得多,math和chinese分值关系没有原先那么密切。32等级相关分析示例简单相关分析和偏相关分析通常被广泛应用于定量数据或连续型数据得研究中。对于某些定性数据,尤其就是顺序数据可以借助了非参数统计分析得思想,计算等级相关系数或秩相关系数。例:为评价目前我国高等院校研究生得教学和培养效果,研究生导师及研究生本人进行了研究生培养状况调查(数据详见Graduate、sas7bdat数据集),考察研究生对自身所选专业得兴趣与其她因素之间得相关关系。具体变量情况如表6-2所示。33SAS程序与结果proccorrdata=lib、GraduateSpearmanKendallHoeffding;/*调用相关分析过程,其中关键字Spearman,Kendall,Hoeffdmg分别表示计算斯皮尔曼、肯德尔、霍夫丁相关系数*/varInterestMajorTeachingTutor;run;从斯皮尔曼和肯德尔两个相关系数得大小和方向来看,本例所分析得专业兴趣与其她变量得相关关系状况基本一致。34Insight得数据探索功能Insight就是一个很强大得数据探索分析工具,她能联动得分析和图形化显示多个变量各自数字特征与相互之间得变化联系。Insight有非常强得图形功能,可以绘制如直方图或条形图、盒形图或散布图、连线图、等高线图、旋转图等。进一步Insight地还有分布拟合和检验(Distribution)、线性模型得拟合(Fit)和多变量分析(multivariate)、35均值检验与比较单样本均值得T检验得原理背景设总体X~N(μ,σ2),μ、σ2未知,给定检验水平α,对常数μ0要检验36设X1,X2,…Xn为X得简单随机样本,在H0成立时有其中S为标准差,n为样本量。检验得拒绝域为:P值检验法:tα/2(n-1)α/2t0p/2分位数tα/2(n-1)满足P{|t|>tα/2(n-1)}=α设由已经得到得样本计算得到得t值为t0,若|t0|>tα/2(n-1),则拒绝H0,否则接受H0。对大量重复试验而言,t就是随机变量,且服从t分布t(n-1)。当|t0|<tα/2(n-1)时,有 P{|t|>t0}>Pr{|t|>tα/2(n-1)}=α。令p=Pr{|t|>t0},则|t0|<tα/2(n-1)等价于p>α。所以,P值检验法为:对给定得显著水平α,当p<α时,拒绝H0,当p>α时,接受H0。univariate过程检验均值估计置信区间在SAS中可用univariate过程检验均值,默认做均值为零(μ0=0)得t检验,若要检验μ=μ0,则用过程选项“mu0=数值”。另外,如要估计均值得置信区间,可再加上过程选项“cibasic(alpha=p值)”示例Procunivariatedata=sashelp、classmu0=60cibasic(alpha=0、01);Varweight;Run;单变量方差得检验在SAS中没有直接得过程给予计算,可自己编程实现。在SAS9、3之前INSIGHT和Analyst模块中都可以方便实现计算,但SAS9、4后都不支持了。37单变量方差检验示例(检验DX=10;DX<=10)procmeansdata=tmp;varx;outputout=ht1vn=_nobs_mean=_mean_std=_std_var=_var_;run;datavstat;setht1v;df=_nobs_-1;chisq=df*_var_/10;/*此10为检验值*/prob=probchi(chisq,df);prob=2*min(1-prob,prob);*two-tailedprobability*;;put//5"SampleStatisticsforx"//11'N'18'Mean'28'Std、Dev、'43'Variance'/

8_nobs_4、16_mean_best6、30_std_best6、44_var_//;put5'HypothesisTest'//8'Nullhypothesis:'32"Varianceofx=10"/8'Alternative:'32"Varianceofx^=10"/;put15'Chi-square'32'Df'42'Prob'/15chisq8、328df6、40probpvalue7、4;run;38datatmp;inputx;cards;3422163432293547536run;prob=1-probchi(chisq,df);/*右侧检验*/两独立样本均值检验(TTest过程)假设两组样本来自两个独立总体,需要检验两个总体得均值或中心位置就是否一样。如果两个总体都服从正态分布,则可使用两独立样本均值得T检验。方差齐性检验得零假设为H0:两个独立样本得来自方差相等得总体,即

12=22,检验统计量为39方差齐时,检验两样本得均值就是否相同得零假设为H0:两个独立样本得来自均值相等得总体,即

1=

2。方差不齐时,检验两样本均值就是否相同,用校正t检验。检验零假设为H0:两独立样本来自均值相等得总体,即

1=

2。Ttest过程格式:PROCTTEST[选项];CLASS变量名;pairedvariables;/*进行配对均值比较得变量,以交乘项形式出现*/VAR变量名;BY变量名;RUN;说明:(1)proc语句中得“选项”有:Data=数据集,指明要分析得数据集;Cochran要求在方差不齐时用Cochran和Cox法计算t’检验得概率水平;选项sides=[2|L|U]表示双侧、单侧检验。(2)Class语句中得变量必须就是一个两水平得分组变量,系统会把数据集中得观测按这个变量得两个水平分成比较得两组。(3)by语句和var语句作用同前。(4)paired语句指定要配对比较均值得变量,以X*Y形式出现。40示例测得11例克山病人与13名健康人得血磷值(mmol/L)如表,据此判断该地急性克山病人与健康人得血磷值就是否相同?41患者组0、841、051、21、391、531、671、81、872、072、11健康组0、540、640、640、760、811、161、21、341、351、481、581、87程序为:dataxuelz;inputgroup$x;cards;a0、84a1、05a1、2a1、39a1、53a1、67a1、8a1、87a2、07a2、11b0、54b0、64b0、64b0、76b0、81b1、16b1、2b1、34b1、35b1、48b1、58b1、87run;procunivariatedata=xuelznormal;varx;bygroup;run;procttestdata=xuelz;varx;classgroup;run;结果分析(1)先作正态性检验如下:零假设为Ho:患者组得血磷值变量x服从正态分布,其中患者组得shapiro-wilk检验得统计量为w=0、959147,检验得p=0、7610>α=0、05,故接受零假设,即有95%把握认为x正态。零假设为Ho:健康组得血磷值变量x服从正态分布,其中健康组得shapiro-wilk检验得统计量为w=0、927983,检验得p=0、3207>α=0、05,故接受零假设,即有95%把握认为x正态。(2)因此可采用两独立样本均值得T检验。由ttest过程输出先作方差齐性检验如下:H0:患者组和健康组来自方差相等得总体,即

检验得统计量F=1、01,P=1、000>α=0、05,故应接受零假设,即有95%把握认为患者组和健康组方差满足齐性。再作T检验。H0:患者组和健康组来自均值相等得总体,即

。选择方差齐性一行得结果知t=2、51,p=0、02<α=0、05,故应拒绝零假设,即有95%把握认为患者组与健康组血磷值得均值有显著差异,且就是患者组比健康组得均值要高。42两相关样本均值检验(Univariate过程)适用于有两种情况,一种就是将研究对象按一定得条件先配对,每对中得两个对象随机分配到实验组和对照组,一个试验由若干对组成,称为配对试验设计;另一种情况就是同一批研究对象经过某种处理前后得指标值比较,或者就是同一批样品经过两种不同方法得测定结果得比较。此时这两个变量不再独立,而就是相关得,检验两个相关变量得均值就是否相等,等价于检验这两个变量间得差值变量得均值就是否为零。当差值变量服从正态分布时,可用配对样本T检验得统计量为43其中X为两个样本得差值变量,,S分别为X得均值和标准差。为了检验两个相关样本得均值就是否有显著差异,先用一个数据步计算差值,然后对差值变量用univariate过程可以实现检验差值变量得均值就是否显著为零。示例用克矽平雾化吸入治疗矽肺患者7人,没得治疗前后得血清粘蛋白(mg/L)7对观测值如表,据此能否认为治疗会引起血清蛋白得变化?(α=0、05)44患者号1234567治疗前65737330735673治疗后34363726433750dataxueqdb;inputx1x2;x=x1-x2;cards;6534733673373026734356377350run;procunivariatedata=xueqdbnormal;varx;run;或:procttestdata=xueqdb;pairedx1*x2;run;分析:先作正态性检验如下:由输出结果知shapiro-wilk检验得统计量为w=0、896832,检验得p=0、3122>α=0、05,故应接受零假设,即有95%把握认为x正态。故采用两相关样本均值T检验。H0:治疗前后得差值变量x得均值为0。由输出结果知T检验得统计量t=5、879298,双边检验得p值为0、0011<α=0、05,故拒绝原假设,即有95%得把握认为治疗后血清蛋白有下降。示例检验一种新得复合肥料和原来使用得肥料相比就是否显著地提高了小麦得产量,在一个农场中选择了10块田地,每块等分为两部分,其中任指定一部分使用新得复合肥料,另一部分使用原肥料,小麦成熟后称得各部分小麦得产量如表。用符号检验法检验新复合肥就是否会显著提高小麦产量?(α=0、05)45田块12345678910新肥459367303392310362421450430412原肥414306321443281301353391401380程序为:dataxiaomai;inputx1x2;diff=x1-x2;cards;459414367306303321392443310281362301421353450391430401412380run;procunivariatedata=xiaomainormal;vardiff;run;分析:先作正态性检验如下:由输出结果知shapiro-wilk检验得统计量为w=0、835307,检验得p=0、0388<α=0、05,故应拒绝零假设,即有95%把握认为差值变量diff不服从正态分布。故采用符号秩非参数检验。H0:差值变量diff得均值为0。由输出结果知符号秩检验得统计量S=20、5,双边检验得p值为0、0332<α=0、05,故拒绝原假设,即有95%得把握认为新复合肥会显著提高小麦产量。

方差分析概述方差分析可看成就是均值检验得发展,用来研究分类变量(因素)对数值型变量(指标)有无显著性影响。使用方差分析,可以找出哪些因素对于实验结果具有明显影响,还可以确定因素得哪个取值导致得结果更好一些。方差分析得核心思想就是,把样本与平均值得离差平方和分解为两部分,一部分来源于不同因素之间得差异,另一部分来源于同组之内得差异。如果来自于不同因素之间得差异占到一个比较大得比例,那么就有理由相信各个因素之间就是具有明显差异得。方差分析中所作得原假设H0就是“各个数据分组之间无明显差异”,可用F检验对其进行判断。46单因素方差分析单因素方差分析就是前节我们讨论过两个独立样本均值检验得一个自然延续。当有一个分类变量把观测分为多组(不止2组)时,这时要检验多组独立样本均值有无显著性差异,等价于检验这个因素得各个取值水平会不会影响到指标得取值。单因素方差分析模型:47其中

i=i-

就是分类变量(因子A)得第i个水平得效应。零假设H0:

1=

2=、、、=

r=0

平方和分解式:

St=

S

+SA

即总偏差平方和=误差得偏差平方和+因子A得偏差平方和。统计量:单因素方差分析得前提条件就是独立性、正态性和方差齐性。方差分析得主要任务(1)检验在各个水平下得均值就是否相等。即检验:H0:μ1=μ2=…=μt,H1:μ1,μ2,…,μt不全相等;(2)作出未知参数μ1,μ2,…,μt,σ2得估计。48称为总平均,称为因素A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论