版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计软件基础第一页,共五十六页,2022年,8月28日2023/2/191描述统计概述在对数据进行深入加工之前,应该对数据有所印象。可以借助于图形和简单的运算,来了解数据的一些特征。由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。大量的数字既繁琐又不直观;我们可以用“平均”,“差距”或百分比等来概括大量数字。由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。第二页,共五十六页,2022年,8月28日2023/2/192常用的位置统计量“位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心(center或centertendency)。和这种“位置”有关的统计量就称为位置统计量(locationstatistic)。位置统计量不一定都是描述“中心”了,比如百分位数。常用的位置统计量有:样本均值(mean);样本中位数(median),它是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数),由于中位数不易被极端值影响,所以中位数比均值稳健(robust);上下四分位数(或分别称为第一四分位数和第三四分位数,firstquantile,thirdquantile)则分别位于(按大小排列的)数据的上下四分之一的地方;样本中出现最多的数值,称为众数(mode)。第三页,共五十六页,2022年,8月28日2023/2/193数值的分散程度数据中数值的分散程度由尺度统计量(scalestatistic)来描述。尺度统计量是描述数据散布,即描述集中与分散程度或变化(spread或variability)的度量。统计中有许多尺度统计量。一般来说,数据越分散,尺度统计量的值越大。极差(range);就是极大值和极小值之间的差。两个四分位数之差,称为四分位数极差或四分位间距(interquantilerange);它描述了中间半数观测值的散布情况。另一个常用的尺度统计量为样本标准差(standarddeviation)。度量样本中各数值到均值距离的一种平均。标准差实际上是方差(variance)的平方根。如果记样本中的观测值为x1,…,xn,则样本方差为
第四页,共五十六页,2022年,8月28日2023/2/194分布形状反映分布形状,通常用偏度和峰度统计量。偏度是用于衡量分布的不对称程度或偏斜程度的指标当>0时为正偏或右偏,长尾巴拖在右边;当<0时为负偏或左偏,长尾巴拖在左边;偏度公式:若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。峰度是用于衡量分布的集中程度或分布曲线的尖峭程度的指标。峰度指标的计算公式如下:
峰度指标>0时,表示分布比正态分布更集中在平均数周围,分布呈尖峰状态;0分布为正态分布;<0时,表示分布比正态分布更分散,分布呈低峰态。第五页,共五十六页,2022年,8月28日2023/2/195PP图、QQ图许多统计方法要求变量服从正态分布,为此SAS提供了多种检验方法,主要有PP图、QQ图和一些非参数检验法。P-P图,以样本的累计频率作为横坐标,以按正态分布计算的相应累计概率作为纵坐标,把样本值表现为坐标系中的散点。Q-Q图,以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为坐标系的散点。如果数据服从正态分布,则PP、QQ图中的散点应该基本呈一条直线状。SAS的univariate过程中用qqplot语句、probplot语句分别可画QQ图和PP图;还可以检验对数正态分布(lognormal选项),beta分布(beta选项),Weibull分布(weibull选项)。第六页,共五十六页,2022年,8月28日2023/2/196非参数检验法非参数检验法主要有Kolmogorov-Smirnov检验(D检验)和Shapiro-Wilk(W检验)等。检验的原假设都是“总体服从正态分布”。SAS中规定:当样本含量n≤2000时,结果以Shapiro–Wilk(W检验)为准,当样本含量n>2000时,结果以Kolmogorov–Smirnov(D检验)为准。对于K-S检验,SAS还可由UNIVARIATE过程的HISTOGRAM语句带上表示分布的关键词选项来实现对相应分布的检验。HISTOGRAM语句与分布对应的关键字选项有:
beta:分布,具有,参数和,形状参数;exponential:指数分布,具有,两个参数;gamma:分布,具有,,参数;lognormal:对数正态分布,具有,,参数;normal:正态分布,具有,参数;weibulll:韦伯分布,具有,,
c参数。第七页,共五十六页,2022年,8月28日2023/2/197描述统计的实现方法描述性统计就是主要分析变量集中、离散趋势以及探索变量的分布。SAS中有多种方法过程可以实现描述统计,这里简要介绍两种。UNIVARIATE等过程来计算描述性统计量。UNIVARIATE过程的一般形式:PROCUNIVARIATE[选择项]; VAR变量表;BY变量表: FREQ变量; WEIGHT变量; ID变量表; OUTPUT[选择项];RUN;第八页,共五十六页,2022年,8月28日2023/2/198Univariate过程语法说明[选择项]:为可选项,常用选项如下。1)data=:指定SAS数据集,如果省略这一项,则指定最新建立的数据集。2)noprint:不打印输出到输出窗口。3)Vardef=df|wgt|n|wdf:方差计算中规定除数,df表示除数使用自由度(n-1),为默认值。weight}wgt表示用权数和作为除数。n表示观测个体数(样本含量)做除数。wdf表示用权数和减1做除数。4)Freq:要求生产包含变量值、频数、百分数和累计频数的频数表。5)Normal:要求计算关于输入数据服从正态分布的假设的检验统计量。6)plot:生成直方图或茎叶图,一个盒形图和一个正态概率图。7)Pctldef=值:规定计算百分位数方法,取值为1,2,3,4和5.8)Round=:指定变量数值四舍五入的单位。第九页,共五十六页,2022年,8月28日2023/2/199示例某地区家庭中随机抽查了100户居民,调查到每户家庭人均收入数据(单位:百元),试用UNIVARIATE等过程对上述数据进行描述统计。程序如下dataincome;inputx@@;cards;27139628739946626929533042532422811322617632023040448712774234523164336343330436141388293464200392265403259426262221355324374347261287113135291176342443239302483231292373346293236223371287400314468337308359352273267277184286214351270330238248419330319440427314414299265318415372238323412493286313412run;procunivariatedata=incomeplotnormal;varx;run;输出结果分类整理为“矩”、“位置和变异性基本测度”、“位置检验”、“正态性检验”、“分位数”、“极值观测”、“图”七部分内容。第十页,共五十六页,2022年,8月28日2023/2/1910对示例做KS检验proc
univariate
data=incomenoprint;/*调用UNIVARIATE过程*/
varx;/*指定分析的变量*/
histogram/noplot
/*HISTOGRAM语句,不显示直方图*/
normal(mu=estsigma=est)/*检验正态分布,参数使用估计值*/
lognormal(zeta=estsigma=esttheta=est)/*检验对数正态*/
exponential(sigma=esttheta=est)/*检验指数分布*/
weibull(sigma=estc=esttheta=est);/*检验韦伯分布*/run;第十一页,共五十六页,2022年,8月28日2023/2/1911过程FREQ变量可分为数值型变量(连续型变量)和分类变量(离散型变量);而分类变量又分为名义变量(如性别分为:男、女,种族分为白、黄、黑)和有序变量(年级分为一、二、三、四,成绩等级分为优、良、中、差)。对分类变量计算均值一般是无意义的(0-1变量的均值可看作占比),即便用数值表示类别也只是某些特征的代号,没有数值计算的意义。对这些变量,重要的是了解它们取哪些值以及取每个值的频数。过程FREQ就提供了这些方面的功能。FREQ过程产生一维至n维的频数表和列联表,对二维表计算统计量并进行检验,对n维表则作分层分析并在层内计算统计量。通过FREQ过程可以帮助分析变量值在数据中如何分布。FREQ过程还可用拟合优度检验方法讨论单个离散变量的分布,检验两个离散变量的独立性残联表检验,有序变量的关联性度量。第十二页,共五十六页,2022年,8月28日2023/2/1912Freq常用语法语法FREQ过程常用语法语法格式
PROCFREQ[选择项]; TABLES变量表式[/选择项]; WEIGHT权重变量;
OUTPUT[选择项];BY变量表; RUN:其中的TABLES语句是实现上述任务的关键。TABLES语句变量表式空格分隔的单独变量名或“*”连接的几个变量名组成,如:TABLESA*BA*C;
(等价于TABLESA*(BC);)。WEIGHT语句通过权重变量来确定汇总的统计项目所对应的原始记录数。第十三页,共五十六页,2022年,8月28日2023/2/1913FREQ语法简要说明1)FREQ语句的[选择项]:为可选项,常用选项如下。Data=:指定SAS数据集。用来说明要做FREQ的数据集名,如果省略这一项,则指定最新建立的数据集。ORDER=FREQ|DATA|INTERNAL|FORMATTED:此选项规定变量水平的记录排列次序。ORDER=FREQ表示按频数下降的次序排列,最大的频数的水平第一个出现;ORDER=DATA表示按输入数据集中出现的次序排列;ORDER=INTERNAL表示按非格式化值的次序排列;ORDER=FORMATTED表示按格式化值的次序,默认时为RDER=INTERNAL.2)BY:指定分组变量。3)TABLES:指定需条件频数的变量表;可选的[/选择项]提供一些专门的统计项目。4)WEIGHT:指定权重变量。5)OUTPUT:指定输出结果到数据集。第十四页,共五十六页,2022年,8月28日2023/2/1914TABLES语句的常用选项TABLES语句的选项放在“/”的后面,主要有:CHISQ选项:对每组变量作卡方检验,包括Pearson卡方、似然比卡方和Mantel-Haenszel卡方,还有与检验有关的关联指标包括Phi系数、列联系数和Cramer'sV;对于2×2表,给出Fisher精确概率;
(注意:一般对单元格内最小频数T和样本总量n,当T>5且n>40选Person卡方检验,当1<T<5且n>40选连续校正卡方检验,当n<40或T<5(有的教材上称样本量小于30)时选Fisher精确检验;似然比卡方在大样本下与Person卡方近似。)AGREE选项:进行配对卡方检验。ALPHA=p选项:给出显著水平。EXACT选项,对大于2×2的列联表计算Fisher精确概率,同时也给出CHISQ选项的全部统计量。MEASURES选项,对每层的二维表计算一系列关联指标及相应的标准误,包括Pearson和Spearman相关系数,以及Gamma和Kendall系数等,对于2×2表,还给出常用的危险度指标及其标准误;CMH选项,给出Cochran-Mantel-Haenszel统计量,可检验在调整了TABLES语句中其它变量后,行变量与列变量之间的关联程度;对于2×2表,还给出相对危险度估计及其可信区间,还给出各层关联度指标是否齐性的Breslow检验;ALL选项:给出CHISQ、MEASURES、CMH所需的统计量.第十五页,共五十六页,2022年,8月28日2023/2/1915单变量频数统计与两变量交叉频数统计示例对sashelp.class数据集中的sex、age变量作频数统计。程序procfreqdata=sashelp.class;tablessexagesex*age;run;可以看到输出了sex、age变量各自的频数表和交叉列联的频数表。第十六页,共五十六页,2022年,8月28日2023/2/1916单个离散变量的拟合优度卡方检验检验离散变量的取值规律是否符合某种给定的比例。Pearson提出的卡方检验的零假设为:统计量为:其中:ni为事件Ai的观测频数,pi为事件Ai的频率。SAS的Freq过程中tables语句后跟/chisq选项,并用选项testp=(变量各离散取值的概率),可完成离散变量与指定概率分布之间的拟合优度卡方检验。第十七页,共五十六页,2022年,8月28日2023/2/1917示例某工厂近5年来发生了63次事故,按事故发生的星期号分类如表,问事故的发生是否与星期几有关?星期一二三四五六次数9101181312思路分析:采用拟合优度卡方检验六种情况发生的概率是否相等,H0:Pr(X=i)=1/6(i=1,2,…6)。程序为:dataaccident;inputnonum@@;cards;1921031148513612run;proc
freq
data=accident;tablesno/chisq
testp=(0.1667
0.1667
0.1667
0.1667
0.1667
0.1667);weightnum;run;第十八页,共五十六页,2022年,8月28日2023/2/1918示例的SAS输出结果分析因为零假设H0为:Pr(X=i)=1/6(i=1,2,…6),由输出拟合优度卡方检验的统计量χ2=1.667,p=0.8991,对于给定的显著性水平α=0.05,p>α,所以接受H0,说明事故发生与星期几没有关系。注:检验的是等概率情形时,选项testp=()可以省略。第十九页,共五十六页,2022年,8月28日2023/2/1919两个离散变量的列联表独立性检验检验两个离散变量的取值是否独立----列联表卡方检验。检验的零假设为H0:离散变量X与变量Y相互独立。检验统计量:另外属性变量因为没有数值概念所以不能计算相关系数,但对于两个有序变量,SAS可以在FREQ语句后用measures选项计算类似于相关系数的关联性量度。其中一种关联性量度叫做KendalTau-b统计量,取值在-1到1之间,值接近于1表示正关联,接近于-1表示负关联,接近于0表示没有相关关系;并且该统计量值加减两倍渐近标准误差ASE约可作为KendallTau-b的95%置信区间。无序分类变量相关性度量:系数(在2x2表格中值为-1~1,但行或列数>2时,无界);列联系数c(|c|<1,但最大值随行、列数变大而变大只适合结构相同的表格间比较);V系数(范围-1~1);c和V适合度量>2x2表格)关联度。proc
freq
data=数据集;tablesrow*column/chisq
measures;weightnum;run;
注意:若某单元格内频数5或总数30,应使用Fisher精确检验。第二十页,共五十六页,2022年,8月28日2023/2/1920列联表卡方检验示例为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况表。患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟13121程序为:databron;inputsmoke$bron$num@@;labelsmoke='吸烟'bron='慢支病'num='频数';cards;吸烟患病43吸烟不患病162不吸烟患病13不吸烟不患病121run;proc
freq
data=bron;tablessmoke*bron/chisq
exact
measures;weightnum;run;第二十一页,共五十六页,2022年,8月28日2023/2/1921结果分析零假设H0:吸烟与慢性支气管炎相互独立由输出结果中peraons卡方独立性检验统计量为χ2=7.4688,p=0.0063,对于给定的显著性水平α=0.05,p<α,故拒绝H0,即认为吸烟与患慢性支气管炎间不是相互独立的。第二十二页,共五十六页,2022年,8月28日2023/2/1922相对危险度RR与比值比OR判断结局(疾病)和暴露(因素)联系强弱的指标
1)相对危险度:RR=P(Y=1|X=1)/P(Y=1|X=0)=p1/p0 p1:暴露于某个危险因素下发病的概率
p0:不暴露于某个危险因素下发病的概率(对照)
2)比值比:
OR={P(Y=1|X=1)/P(Y=0|X=1)}/{P(Y=1|X=0)/P(Y=0|X=0)}Y=1:患某种疾病,Y=0:不患某种疾病
X=1:暴露于某个危险因素,X=0:不暴露于某个危险因素 可以简单地表述成:OR=(p1/q1)/(p0/q0) p1:暴露于某个危险因素下发病的概率
q1:暴露于某个危险因素下不发病的概率
p0:不暴露于某个危险因素下发病的概率
q0:不暴露于某个危险因素下不发病的概率注意,SAS仅对2x2表格进行RR估计第二十三页,共五十六页,2022年,8月28日2023/2/1923示例为了判断患心脏病是否与吸烟有关调查了862个人调查结果如表dataheart;doa=1to2;dob=1to2;inputf@@;output;end;end;cards;243185156278run;procfreq;weightf;tablesa*b/chisqRELRISK;run;/*a=1为患心脏病,a=2为未患心脏病*//*b=1为吸烟,b=2为不吸烟*/第二十四页,共五十六页,2022年,8月28日2023/2/1924示例数据集Graduate.sas7bdat中有研究生对自身所选专业的兴趣等因素的数据,试用列联表分析这些因素是否有关联。proc
freq
data=lib.graduate;tablesinterest*major/chisq
measures;exact
FISHER/MC;/*FISHER检验要求较多内存、时间,用MontCaro模拟估计*/run;注意:这里分析兴趣与专业关系时用的是未经汇总的原始记录表,故无需weight语句;另外非2x2表要做精确检验,必须明确用Fisher选项或exact语句告知SAS。本例输出结果中报告有不少单元格内频数少于5,卡方检验不准确,要看Fisher精确检验:发现检验概率非常小,故认为两变量有关。Kendall'sTau-b=
0.6826。第二十五页,共五十六页,2022年,8月28日2023/2/1925相关分析相关关系是指在一定范围内,一个变量任一取值xi,虽然没有另一变量的某个确定值yi与之对应,但却有一个特定的yi的条件概率分布与之对应,此时称两变量有相关关系。相关模型中,无自变量与依变量的区别,不具有预测特性,仅表示两变量偕同变异。简单相关分析就是计算出两变量的相关系数以及对相关程度做显著性检验(原假设H0为:相关系数为=0)。常见相关系数有Pearson、Spearman和Kendall_τ等。Pearson相关系数通常是分析连续型变量且两变量都服从正态分布;Kendallτ相关系数适用于两个均为有序分类变量情况;Spearman秩相关系数适用与不满足正态的连续变量或等级数据。相关系数在0~0.3、0.3~0.5、0.5~0.8和0.8~1内变动时,依次分别称为:轻微相关、低度相关、中度相关和高度相关。SAS系统的CORR过程能计算变量间的相关系数,包括Pearson,Spearman,Hoeffding,Kendall等相关系数及其他统计量。第二十六页,共五十六页,2022年,8月28日2023/2/1926不同类型变量的相关分析一、两个连续变量的相关分析1、Pearson相关系数(积差相关系数)适用条件如下:(1)两变量呈直线相关关系,如果是曲线相关可能不准确。(2)极端值会对结果造成较大的影响(3)两变量符合双变量联合正态分布。2、Spearman秩相关系数对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料也可适用。但其属于非参数方法,检验效能较Pearson系数低。二、有序分类变量的相关分析有序分类变量的相关性又称为一致性,即行变量等级高的列变量等级也高,如果行变量等级高而列变量等级低,则称为不一致。常用的统计量有:Gamma、Kendall的tau-b、Kendall的tau-c等。三、无序分类变量的相关分析最常用的为卡方检验,用于评价两个无序分类变量的相关性。根据卡方值衍生出来的指标还有列联系数、Phi、Cramer的V、Lambda系数、不确定系数等。第二十七页,共五十六页,2022年,8月28日2023/2/1927单相关、复相关和偏相关单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量。复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量。在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。在一个多元相互作用的系统内,要考察两个变量之间的相关程度,就应该排除系统内其它变量的影响,计算出偏相关系数。SAS的CORR过程同样可以通过PARTIAL语句来控制其他变量的干扰,对两变量间的偏相关系数进行计算。第二十八页,共五十六页,2022年,8月28日2023/2/1928CORR过程一般格式: PROCCORRDATA=数据集名称[选项]; VAR变量表;/*列出相关矩阵上部出现的变量*/ [WITH变量表;]/*列出相关矩阵左侧出现的变量*/ [PARTIAL变量表;]/*指明求偏相关系数时需控制的变量*/ [WEIGHT变量;] [FREQ变量;] [BY变量;] RUN;第二十九页,共五十六页,2022年,8月28日2023/2/1929相关分析示例某学校随机抽取18名学生,测定其智商(IQ),连同当年数学和语文成绩,数据见下表。试考察他们的相关性。数据输入:dataiq;inputnomathchineseIQ@@;cards;178839528476100361701004525875593821056897897798891108989512096561761073759211485361124543601367708814757896159597125168892113179992125188188102run;第三十页,共五十六页,2022年,8月28日2023/2/1930对示例数据画散点图计算相关矩阵symbol1v=dotcv=redh=1;symbol2v=starcv=greenh=2;procgplotdata=iq;plotchinese*IQ=1math*IQ=2/overlay;run;quit;可以看到散点分步是否呈直线状。proccorrpearsonkendallspearman;varmathchineseIQ;run;结果:三个变量的三种相关系数的矩阵都算出来了,还做了显著性检验(H0:=0)。第三十一页,共五十六页,2022年,8月28日2023/2/1931偏相关分析:排除IQ影响,考察math和chinese相关性其他因素影响下的math和chinese相关系数:proccorrnosimple;varchinese;withmath;run;去除IQ变量的影响,计算math和chinese的偏相关系数:proccorrnosimple;varmathchinese;partialIQ;run;结果看到偏相关系数小得多,math和chinese分值关系没有原先那么密切。第三十二页,共五十六页,2022年,8月28日2023/2/1932等级相关分析示例简单相关分析和偏相关分析通常被广泛应用于定量数据或连续型数据的研究中。对于某些定性数据,尤其是顺序数据可以借助了非参数统计分析的思想,计算等级相关系数或秩相关系数。例:为评价目前我国高等院校研究生的教学和培养效果,研究生导师及研究生本人进行了研究生培养状况调查(数据详见Graduate.sas7bdat数据集),考察研究生对自身所选专业的兴趣与其他因素之间的相关关系。具体变量情况如表6-2所示。第三十三页,共五十六页,2022年,8月28日2023/2/1933SAS程序与结果proccorrdata=lib.GraduateSpearmanKendallHoeffding;/*调用相关分析过程,其中关键字Spearman,Kendall,Hoeffdmg分别表示计算斯皮尔曼、肯德尔、霍夫丁相关系数*/varInterestMajorTeachingTutor;run;从斯皮尔曼和肯德尔两个相关系数的大小和方向来看,本例所分析的专业兴趣与其他变量的相关关系状况基本一致。第三十四页,共五十六页,2022年,8月28日2023/2/1934Insight的数据探索功能Insight是一个很强大的数据探索分析工具,它能联动的分析和图形化显示多个变量各自数字特征与相互之间的变化联系。Insight有非常强的图形功能,可以绘制如直方图或条形图、盒形图或散布图、连线图、等高线图、旋转图等。进一步Insight地还有分布拟合和检验(Distribution)、线性模型的拟合(Fit)和多变量分析(multivariate).第三十五页,共五十六页,2022年,8月28日2023/2/1935均值检验与比较单样本均值的T检验的原理背景设总体X~N(μ,σ2),μ、σ2未知,给定检验水平α,对常数μ0要检验设X1,X2,…Xn为X的简单随机样本,在H0成立时有其中S为标准差,n为样本量。检验的拒绝域为:P值检验法:tα/2(n-1)α/2t0p/2分位数tα/2(n-1)满足P{|t|>tα/2(n-1)}=α设由已经得到的样本计算得到的t值为t0,若|t0|>tα/2(n-1),则拒绝H0,否则接受H0。对大量重复试验而言,t是随机变量,且服从t分布t(n-1)。当|t0|<tα/2(n-1)时,有 P{|t|>t0}>Pr{|t|>tα/2(n-1)}=α。令p=Pr{|t|>t0},则|t0|<tα/2(n-1)等价于p>α。所以,P值检验法为:对给定的显著水平α,当p<α时,拒绝H0,当p>α时,接受H0。第三十六页,共五十六页,2022年,8月28日2023/2/1936univariate过程检验均值估计置信区间在SAS中可用univariate过程检验均值,默认做均值为零(μ0=0)的t检验,若要检验μ=μ0,则用过程选项“mu0=数值”。另外,如要估计均值的置信区间,可再加上过程选项“cibasic(alpha=p值)”示例Procunivariatedata=sashelp.classmu0=60cibasic(alpha=0.01);Varweight;Run;单变量方差的检验在SAS中没有直接的过程给予计算,可自己编程实现。在SAS9.3之前INSIGHT和Analyst模块中都可以方便实现计算,但SAS9.4后都不支持了。第三十七页,共五十六页,2022年,8月28日2023/2/1937单变量方差检验示例(检验DX=10;DX<=10)procmeansdata=tmp;varx;outputout=ht1vn=_nobs_mean=_mean_std=_std_var=_var_;run;datavstat;setht1v;df=_nobs_-1;chisq=df*_var_/10;/*此10为检验值*/prob=probchi(chisq,df);prob=2*min(1-prob,prob);*two-tailedprobability*;fileprint;put//@5"SampleStatisticsforx"//@11'N'@18'Mean'@28'Std.Dev.'@43'Variance'/
@8_nobs_4.@16_mean_best6.@30_std_best6.@44_var_//;put@5'HypothesisTest'//@8'Nullhypothesis:'@32"Varianceofx=10"/@8'Alternative:'@32"Varianceofx^=10"/;put@15'Chi-square'@32'Df'@42'Prob'/@15chisq8.3@28df6.@40probpvalue7.4;run;datatmp;inputx@@;cards;3422163432293547536run;prob=1-probchi(chisq,df);/*右侧检验*/第三十八页,共五十六页,2022年,8月28日2023/2/1938两独立样本均值检验(TTest过程)假设两组样本来自两个独立总体,需要检验两个总体的均值或中心位置是否一样。如果两个总体都服从正态分布,则可使用两独立样本均值的T检验。方差齐性检验的零假设为H0:两个独立样本的来自方差相等的总体,即
12=22,检验统计量为方差齐时,检验两样本的均值是否相同的零假设为H0:两个独立样本的来自均值相等的总体,即1=2。方差不齐时,检验两样本均值是否相同,用校正t检验。检验零假设为H0:两独立样本来自均值相等的总体,即1=2。第三十九页,共五十六页,2022年,8月28日2023/2/1939Ttest过程格式:PROCTTEST[选项];CLASS变量名;pairedvariables;/*进行配对均值比较的变量,以交乘项形式出现*/VAR变量名;BY变量名;RUN;说明:(1)proc语句中的“选项”有:Data=数据集,指明要分析的数据集;Cochran要求在方差不齐时用Cochran和Cox法计算t’检验的概率水平;选项sides=[2|L|U]表示双侧、单侧检验。(2)Class语句中的变量必须是一个两水平的分组变量,系统会把数据集中的观测按这个变量的两个水平分成比较的两组。(3)by语句和var语句作用同前。(4)paired语句指定要配对比较均值的变量,以X*Y形式出现。第四十页,共五十六页,2022年,8月28日2023/2/1940示例测得11例克山病人与13名健康人的血磷值(mmol/L)如表,据此判断该地急性克山病人与健康人的血磷值是否相同?患者组0.841.051.21.391.531.671.81.872.072.11健康组0.540.640.640.760.811.161.21.341.351.481.581.87程序为:dataxuelz;
inputgroup$x@@;
cards;a0.84a1.05a1.2a1.39a1.53a1.67a1.8a1.87a2.07a2.11b0.54b0.64b0.64b0.76b0.81b1.16b1.2b1.34b1.35b1.48b1.58b1.87run;proc
univariate
data=xuelznormal;
varx;
bygroup;run;proc
ttest
data=xuelz;
varx;
classgroup;run;第四十一页,共五十六页,2022年,8月28日2023/2/1941结果分析(1)先作正态性检验如下:零假设为Ho:患者组的血磷值变量x服从正态分布,其中患者组的shapiro-wilk检验的统计量为w=0.959147,检验的p=0.7610>α=0.05,故接受零假设,即有95%把握认为x正态。零假设为Ho:健康组的血磷值变量x服从正态分布,其中健康组的shapiro-wilk检验的统计量为w=0.927983,检验的p=0.3207>α=0.05,故接受零假设,即有95%把握认为x正态。(2)因此可采用两独立样本均值的T检验。由ttest过程输出先作方差齐性检验如下:H0:患者组和健康组来自方差相等的总体,即
检验的统计量F=1.01,P=1.000>α=0.05,故应接受零假设,即有95%把握认为患者组和健康组方差满足齐性。再作T检验。H0:患者组和健康组来自均值相等的总体,即
。选择方差齐性一行的结果知t=2.51,p=0.02<α=0.05,故应拒绝零假设,即有95%把握认为患者组与健康组血磷值的均值有显著差异,且是患者组比健康组的均值要高。第四十二页,共五十六页,2022年,8月28日2023/2/1942两相关样本均值检验(Univariate过程)适用于有两种情况,一种是将研究对象按一定的条件先配对,每对中的两个对象随机分配到实验组和对照组,一个试验由若干对组成,称为配对试验设计;另一种情况是同一批研究对象经过某种处理前后的指标值比较,或者是同一批样品经过两种不同方法的测定结果的比较。此时这两个变量不再独立,而是相关的,检验两个相关变量的均值是否相等,等价于检验这两个变量间的差值变量的均值是否为零。当差值变量服从正态分布时,可用配对样本T检验的统计量为其中X为两个样本的差值变量,,S分别为X的均值和标准差。为了检验两个相关样本的均值是否有显著差异,先用一个数据步计算差值,然后对差值变量用univariate过程可以实现检验差值变量的均值是否显著为零。第四十三页,共五十六页,2022年,8月28日2023/2/1943示例用克矽平雾化吸入治疗矽肺患者7人,没得治疗前后的血清粘蛋白(mg/L)7对观测值如表,据此能否认为治疗会引起血清蛋白的变化?(α=0.05)患者号1234567治疗前65737330735673治疗后34363726433750dataxueqdb;
inputx1x2@@;x=x1-x2;
cards;6534733673373026734356377350run;proc
univariate
data=xueqdbnormal;
varx;run;或:procttestdata=xueqdb;pairedx1*x2;run;分析:先作正态性检验如下:由输出结果知shapiro-wilk检验的统计量为w=0.896832,检验的p=0.3122>α=0.05,故应接受零假设,即有95%把握认为x正态。故采用两相关样本均值T检验。H0:治疗前后的差值变量x的均值为0。由输出结果知T检验的统计量t=5.879298,双边检验的p值为0.0011<α=0.05,故拒绝原假设,即有95%的把握认为治疗后血清蛋白有下降。第四十四页,共五十六页,2022年,8月28日2023/2/1944示例检验一种新的复合肥料和原来使用的肥料相比是否显著地提高了小麦的产量,在一个农场中选择了10块田地,每块等分为两部分,其中任指定一部分使用新的复合肥料,另一部分使用原肥料,小麦成熟后称得各部分小麦的产量如表。用符号检验法检验新复合肥是否会显著提高小麦产量?(α=0.05)田块12345678910新肥459367303392310362421450430412原肥414306321443281301353391401380程序为:dataxiaomai;
inputx1x2@@;diff=x1-x2;
cards;459414367306303321392443310281362301421353450391430401412380run;proc
univariate
data=xiaomainormal;
vardiff;run;分析:先作正态性检验如下:由输出结果知shapiro-wilk检验的统计量为w=0.835307,检验的p=0.0388<α=0.05,故应拒绝零假设,即有95%把握认为差值变量diff不服从正态分布。故采用符号秩非参数检验。H0:差值变量diff的均值为0。由输出结果知符号秩检验的统计量S=20.5,双边检验的p值为0.0332<α=0.05,故拒绝原假设,即有95%的把握认为新复合肥会显著提高小麦产量。
第四十五页,共五十六页,2022年,8月28日2023/2/1945方差分析概述方差分析可看成是均值检验的发展,用来研究分类变量(因素)对数值型变量(指标)有无显著性影响。使用方差分析,可以找出哪些因素对于实验结果具有明显影响,还可以确定因素的哪个取值导致的结果更好一些。方差分析的核心思想是,把样本与平均值的离差平方和分解为两部分,一部分来源于不同因素之间的差异,另一部分来源于同组之内的差异。如果来自于不同因素之间的差异占到一个比较大的比例,那么就有理由相信各个因素之间是具有明显差异的。方差分析中所作的原假设H0是“各个数据分组之间无明显差异”,可用F检验对其进行判断。第四十六页,共五十六页,2022年,8月28日2023/2/1946单因素方差分析单因素方差分析是前节我们讨论过两个独立样本均值检验的一个自然延续。当有一个分类变量把观测分为多组(不止2组)时,这时要检验多组独立样本均值有无显著性差异,等价于检验这个因素的各个取值水平会不会影响到指标的取值。单因素方差分析模型:其中i=i-是分类变量(因子A)的第i个水平的效应。零假设H0:1=2=...=r=0
平方和分解式:
St=
S+SA
即总偏差平方和=误差的偏差平方和+因子A的偏差平方和。统计量:单因素方差分析的前提条件是独立性、正态性和方差齐性。第四十七页,共五十六页,2022年,8月28日2023/2/1947方差分析的主要任务(1)检验在各个水平下的均值是否相等。即检验:H0:μ1=μ2=…=μt,H1:μ1,μ2,…,μt不全相等;(2)作出未知参数μ1,μ2,…,μt,σ2的估计。称为总平均,称为因素A在第i个水平Ai下的主效应,它反映了在水平Ai下总体均值与总平均的差异,显然第四十八页,共五十六页,2022年,8月28日2023/2/1948anova过程对满足独立性、正态性和方差齐性的均衡数据,可用anova过程来完成方差分析。一般格式为:Procanovadata=数据集名;Class因素变量;Model指标变量=因素变量效应表;Means因素变量/hovtest=leveneLSD;Run;第四十九页,共五十六页,2022年,8月28日2023/2/1949示例为寻求适应本地区的高产油菜品种,今选了五种不同品种进行试验,每一品种在四块试验田上试种,得到在每一块田上的亩产量如表A1A2A3A4A5256244250288206222300277280212280290230315220298275322259212
试问不同品种的平均亩产是否相同?(α=0.05)程序:dataa;inputpz$x@@;cards;a1256a1222a1280a1298a2244a2300a2290a2275a3250a3277a3230a3322a4288a4280a4315a4259a5206a5212a5220a5212run;proc
univariate
data=anormal;varx;bypz;run;proc
anova
data=a;classpz;modelx=pz;meanspz/t
hovtest=levene;/*多重比较T检验(LSD
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村自建房承包合同版
- 2024年度知识产权许可合同:专利技术使用权授权2篇
- 2024年度工程居间与施工监理合同3篇
- 锅炉维护技术服务合同范本
- 二零二四年度广告设计与媒体投放服务合同4篇
- 河北农业大学现代科技学院《知识产权法》2023-2024学年第一学期期末试卷
- 煤电产业行业研究报告:容量保障机制托底下的火电投资
- 《如何进行商务谈判》课件
- 阳台栏杆制作安装合同范本
- 新生儿低血糖应急预案
- 漆包线基础理论全解课件
- 项目成本分析附表 样本
- 工程停工申请表和停工报告
- 《一年级大个子二年级小个子-》指导课件
- 学会学习 班会课件
- 日本侵华简史
- 二年级上册美术教案-第16课 剪影丨浙美版
- 人教版八年级上册 Unit 1 Where did you go on vacation- Section A(1a-2d)说课稿
- 超高性能混凝土研究进展及工程应用199页PPT_ppt
- (完整ppt)柳永-介绍ppt课件
- 管道焊接质量控制ppt课件
评论
0/150
提交评论