![第五章 计量资料的统计描述课件_第1页](http://file4.renrendoc.com/view12/M00/0D/15/wKhkGWc2-sSAR0e1AAJ1kp_QDek991.jpg)
![第五章 计量资料的统计描述课件_第2页](http://file4.renrendoc.com/view12/M00/0D/15/wKhkGWc2-sSAR0e1AAJ1kp_QDek9912.jpg)
![第五章 计量资料的统计描述课件_第3页](http://file4.renrendoc.com/view12/M00/0D/15/wKhkGWc2-sSAR0e1AAJ1kp_QDek9913.jpg)
![第五章 计量资料的统计描述课件_第4页](http://file4.renrendoc.com/view12/M00/0D/15/wKhkGWc2-sSAR0e1AAJ1kp_QDek9914.jpg)
![第五章 计量资料的统计描述课件_第5页](http://file4.renrendoc.com/view12/M00/0D/15/wKhkGWc2-sSAR0e1AAJ1kp_QDek9915.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学数据处理与SAS软件应用
MedicaldataprocessingandtheapplicationofSAS生物医学工程研究所Add:教学八楼三层东Tel:82035Lecturer:张玉华Email:第五章计量资料的统计描述目录第一章概述第二章SAS编程基础第三章建立数据集第四章数据步程序设计
第五章描述性统计分析与作图第六章二项分布和Poisson分布第七章单组或两组资料均数的比较
第八章方差分析第九章卡方检验第十章基于秩次的非参数检验第十一章相关与回归数据步Data过程步Proc第五章计量资料的统计描述资料类型定性数据(qualitativedata)将事物按其不同的属性加以归类,从而得知每一类事物的数量.又称分类数据(categoricaldata)
、计数资料(countingdata)
。男、女住院病人数、不同职业住院病人数等二项分类数据(binarydata)把每一个体分配到两种可能的类别中的一类里。性别,婚姻状况划为“已”婚或“未”婚。数据输入计算机时,通常须经过量化处理(即编码)后,再将编码输入。如对性别指标的编码规则可事先约定男为0、女为1。多项分类数据(polytomousdata)是对具有多类属性的事物进行分类所得到的数据。如婚姻状况细分为:未婚、在婚、离异、丧偶及再婚等;血型。有的属性指标其分类是无序的,如婚姻状况、血型、职业、民族等,即各类之间不存在等级或程度上的差别,彼此间只有质的差别。有的属性指标其分类是有序的,如病情的多项分类(一般分轻、中、重、危重等)中,各类之间存在等级或程度上的差别。第五章计量资料的统计描述资料类型定量数据(quantitativedata)通常是使用仪器或某种尺度进行测定或衡量所取得的数据。如身高、体重、血压等指标是使用仪器进行测量而得到的数据;年龄这一指标则是以历法作为尺度,对人的年龄加以衡量而得到的数据。有时根据研究的需要,可以将定量数据变换成有序分类数据,即等级化数据。第五章计量资料的统计描述参数和统计量的区别参数(parameter):指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数不易知道,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。统计量(statistic):是指样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数,称为参数估计值。总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。第五章计量资料的统计描述误差(error)误差(error)是指测量值(实际值)与真值(理论值)之差。由于医学领域所研究的变量通常是随机变量,不能保证获得绝对正确的数据,但所获数据的准确度(accuracy)和可靠度(reliability)却是必须考虑的。准确度是指所测得的数据能否真正反映该变量的实际水平。可靠度是指所测定的数据是否能重复,如果调换另一位测定者去测定,是否可以测出相同或相似的结果。第五章计量资料的统计描述误差(error)的种类随机误差(randomerror,chanceerror)由于研究对象本身具有变异性,在测量工作中,即使仪器设备在使用前先经过严格校正,但每次测量后进行读数时也仍然会有误差。实际上不可能取得绝对准确的测定值。随机误差的分布是有一定的规律可循的,所以随机误差的大小可以通过一定的方法计算出来。通过合理的统计学设计,可以有效地控制随机误差。偏差(bias)偏差是由非随机因素所造成的测定值与真值之间的差别。引起偏差的原因很多,可由于对观察个体的选择不当,测量器材设备未经校正或测定者操作失误等引起。科学研究应力求杜绝偏差,否则将会导致统计学推论不可信。
第五章计量资料的统计描述第五章描述性统计分析与作图
Chapter5Statisticaldescriptionandgraphics第五章计量资料的统计描述第五章描述性统计分析与作图5.1常用统计描述过程
FREQ过程
MEANS过程
UNIVARIATE过程 5.2SAS的高级绘图功能
GSLIDE过程
GCHART过程
GPLOT过程 5.3均数可信区间的估计
5.4正态性检验
garbagein,garbageout第五章计量资料的统计描述5.1常用统计描述过程概述FREQ过程
MEANS过程
UNIVARIATE过程第五章计量资料的统计描述概述——可用于统计描述的SAS过程过程主要用途CHART用图表的方式形象地表示变量取值及两个以上变量之间的关系。CORR计算变量间的相关系数、偏相关系数和一些单变量的描述性统计量。FREQ生成单向和多向的频数表和交叉表。MEANS对数值变量计算简单描述性统计量,在OUTPUT窗口输出结果。SUMMARY计算单个变量的基本统计量,不在OUTPUT窗口输出结果,除非加上命令PRINT。TABULATE用分类报表的形式输出满足用户要求的描述性统计量。UNIVARIATE可以计算的描述性统计量最多,而且还可以用图表的形式反映变量值的分布情况.并对变量进行正态性检验。11章第五章计量资料的统计描述概述——计量资料常用统计指标的分类位置度量(描述一组数据的集中趋势,可作为总体的一个代表值)均数mean、中位数median、众数mode、几何均数geometricmean和分位数percentile变异度量(描述资料的离散趋势)全距range
、四分位间距quartileinterval、方差variance、标准差standarddeviation和变异系数coefficientofvariation分布度量(描述资料的分布形态)偏度(skewness):对称性对称分布=0,正偏态分布>0,负偏态分布<0峰度(kurtosis):陡峭度正态峰=0,尖峭峰>0,平阔峰<0第五章计量资料的统计描述概述——计量资料常用统计指标定义中位数(median,M):把一组变量值按大小顺序排列,位置居中的那个数值(若n为奇数)。百分位数(percentile):把一组数据从小到大排列,分割成100等份,每等份含1%的观察值,分割界限上的值就是百分位数,用符号Px表示。中位数即P50。几何均数(geometricmean,G),是将n个观察值X的乘积再开n次方所得的根。等比或对数变换后呈正态资料众数(mode)是一组观察值中出现频率最高的那个观察值全距(range,R),极差,一组观察值中最大值与最小值之差。第五章计量资料的统计描述概述——计量资料常用统计指标定义四分位数间距(quartile,Q),是上四分位数Qu(P75)和下四分位数QL(P25)之差。方差(variance),取离均差平方和(sumofsquaresofdeviationsfrommean,SS)的均数标准差(standarddeviation)是方差的平方根。变异系数(coefficientofvariation,CV),标准差的另一表示方式,即将标准差转化为均数的倍数,以百分数的形式表示。常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。第五章计量资料的统计描述概述——计量资料常用统计指标的选用正态分布资料:选用均数和标准差表示位置和变异度量对数正态分布或数据成倍数关系的资料:表示位置和变异度量应用几何均数和标准差若资料为极度偏态分布、未知分布或分布不规则以及一端或两端无界资料时,应用中位数和四分位数间距表示位置和变异度量指标第五章计量资料的统计描述概述——计量资料常用统计指标选用(续)在两组数值变量变异度比较中,当变量的单位不同或两组的均数相差较大时,应用变异系数作变异性度量的指标。数据是否服从正态分布或对数正态分布,可计算分布度量指标来检验。MEANS过程和UNIYARIATE过程可基本满足数值变量的各类统计指标的计算。第五章计量资料的统计描述5.1.1FREQ过程——功能简介可生成一维至n维的频数表和交叉表。对于二维表,计算检验统计量和关联度。对n维表,可进行分层分析,计算第一层和交叉层的统计量。能将结果输出到SAS数据集中。第五章计量资料的统计描述频数表的用途频数表可以揭示资料分布类型和分布特征便于选取适当的统计方法,进一步计算指标和统计处理便于发现某些特大或特小的可疑值第五章计量资料的统计描述FREQ过程由下列语句控制:
PROCFREQ[option-list];
TABLESrequest(s)</option(s)>; WEIGHTvariable</option>;BY
<DESCENDING>variable-1...
<DESCENDING>variable-n<NOTSORTED>;
OUTPUTstatistic-keywords<OUT=SAS-data-set>;
5.1.1FREQ过程——语句说明可选语句必选语句过程只能使用一个OUTPUT语句PROC->Procedure第五章计量资料的统计描述5.1.1FREQ过程——语句说明
1.PROCFREQ语句格式:PROCFREQ[option-list];常用的选择项有:DATA=SAS-dataset(SAS数据集)PAGE要求FREQ每页只输出一张表。否则按每页行数允许的空间输出几张表。第五章计量资料的统计描述5.1.1FREQ过程——语句说明
2.TABLES语句格式:TABLES
request-list</option-list>;request-list(请求式):
由一个或多个由“*”号联连起来的变量组成。一维频数表:在TABLES语句中简单地命名这一变量。例:PROCFREQ;TABELSX;
产生变量X的每一水平的一维频数表。第五章计量资料的统计描述5.1.1FREQ过程——语句说明
2.TABLES语句(续)二维频数表:用星号“*”连接两个变量第一个变量的值形成表的行第二个变量的值形成表的列例:PROCFREQ;TABLESA*B;
产生一个列联表,A的值构成表的行,B的值构成表的列。
第五章计量资料的统计描述5.1.1FREQ过程——语句说明
2.TABLES语句(续)n维列联表:用“*”联接给定的三个或n个变量名。最后一个变量形成表的列倒数第二个变量的值形成表的行其它变量的每一级水平(或水平组合)形成一层,且每层都形成分立的列联表。例:PROCFREQ;TABLESC*A*B;FREQ过程可有多个TABLES语句,每个TABLES语句也可以有多个请求式。如果没有TABLES语句,FREQ过程对数据集中的每一变量都生成一个一维频数表。
TABLESCAB;C=1,1,1,4,4,4,4,4,6,6,6,6第五章计量资料的统计描述拼图上的奇妙女人第五章计量资料的统计描述埃斯切尔的不可能的盒子疯狂的螺帽:你知道直钢棒是怎样神奇地穿过这两个看似互成直角的螺帽孔的吗?第五章计量资料的统计描述5.1.1FREQ过程——语句说明
2.TABLES语句(续)请求式常用书写方法(左栏与右栏意义)
TABLESA*(BC); TABLESA*BA*C;TABLES(AB)*(CD);TABLESA*CA*DB*CB*D;TABLES(ABC)*D; TABLESA*DB*DC*D;TABLES(A-C); TABLESABC;TABLES(A-C)*D;TABLESA*DB*DC*D;不要求第五章计量资料的统计描述5.1.1FREQ过程——语句说明
2.TABLES语句(续)option-list(选择项列表,在TABLES语句的斜杠(/)后面使用)一般选择项:MISSING:象分析非缺项值那样分析缺项值,且在百分数计算和其他统计计算时包括缺项值。若没有规定该选择项,则FREQ过程产生的列联表中每一变量的缺项值从表中删除,但缺项的总频数在每个表下面输出。LIST:不用列联表而是用列表格式打印二维或多维表格。当需要统计检验和联合测量时,不能使用此选项。第五章计量资料的统计描述5.1.1FREQ过程——语句说明
2.TABLES语句(续)请求统计分析的选择项CHISQ:请求卡方(χ2)检验和基于卡方的有关测量。检验包括Pearson卡方、似然比卡方和Mantel-Haenszel卡方。测量值包括斐(phi)系数,列联系数和克莱姆系数V(Cramer'v)。对于2*2表也包括费雪尔(Fisher)精确检验。FISHER:要求对大于2*2的表进行Fisher精确检验。其它:此外还有CMH、CMH1、CMH2、ALL、MEASURES、ALPHA=等选择项。第五章计量资料的统计描述5.1.1FREQ过程——语句说明
2.TABLES语句(续)请求增加表格信息的选择项EXPECTED:请求打印在独立(或齐性)假设下的期望格频数DEVIATION:请求打印出各格的格频数和期望值的偏差CELLCHI2:请求打印出每一格对总χ2(卡方)统计的贡献CUMCOL:请求在格中打印累计列百分数MISSPRINT:要求打印缺项值频数SPARSE:使过程打印出在请求表中各个变量水平的所有可能组合的信息。即使某些水平的组合不在数据中,此选择项影响在LIST选择项下的打印输出和输出的数据集第五章计量资料的统计描述5.1.1FREQ过程——语句说明
2.TABLES语句(续)禁止打印选择项(请求减少表格信息的选择项)NOFREQ:禁止打印列联表中的格频数。NOPERCENT:禁止打印列联表中的百分数。NOROW:禁止打印列联表中各格的行百分数。NOCOL:禁止打印列联表中各格的列百分数。NOCUM:禁止打印一维频数表和用LIST格式的频数表的累计频数和累计百分数。NOPRINT:禁止打印表格,但由CHISQ、MEASURES、CMH和ALL所指定的统计值例外。第五章计量资料的统计描述5.1.1FREQ过程——打印输出内容一维频数表,打印下面统计量:FREQUENCY每种值的频数CUMULATIVEFREQUENCY累计频数PERCENT该值占总数的百分数CUMULATIVEPERCENT累计百分数第五章计量资料的统计描述5.1.1FREQ过程——打印输出二维表二维表可以以列联表(缺省)和清单(指定LIST选择项)的形式打印。列联表的每个表格包含下列统计量:FREQUENCY频数。PERCENT代表该格的频数占总频数的百分数ROWPCT行百分数,该格频数占该行总频数的百分数COLPCT列百分数,该格频数占该列总频数的百分数如指定CHISQ选择项,对每个二维表打印联合检验和测量。第五章计量资料的统计描述5.1.1FREQ过程——应用实例
例5-1-1-1
对101名正常成年女子的血清总胆固醇(mmol/L)含量的资料作频数表,该表的最低下限为2.30,组距为0.3。资料:2.354.783.914.153.604.503.304.064.153.582.704.833.924.173.664.524.123.554.593.785.033.263.963.953.293.323.924.194.804.064.524.175.254.953.524.263.783.702.783.263.185.083.573.983.803.864.284.502.914.844.213.954.594.553.513.274.735.264.364.344.613.873.584.134.284.913.954.233.754.573.513.253.844.754.485.353.582.683.413.073.195.133.983.003.843.633.994.334.263.503.684.534.834.133.933.025.715.354.413.873.91第五章计量资料的统计描述5.1.1FREQ过程——应用实例
例5-1-1-1
程序:Dataprg5_1;Inputx@@;low=2.3;dis=0.3;z=x-mod(x-low,dis);函数mod(x,y):计算x/y的余项.Modulus取模商[(x-low)/dis]:x所在组段序号余[(x-low)/dis]:x与所在组段下限的差值第五章计量资料的统计描述5.1.1FREQ过程——应用实例
例5-1-1-1
(续)
Cards;2.354.783.914.153.604.503.304.064.153.582.704.833.924.173.664.524.123.554.593.785.033.263.963.953.293.323.924.194.804.064.524.175.254.953.524.263.783.702.783.263.185.083.573.983.803.864.284.502.914.844.213.954.594.553.513.274.735.264.364.344.613.873.584.134.284.913.954.233.754.573.513.253.844.754.485.353.582.683.413.073.195.133.983.003.843.633.994.334.263.503.684.534.834.133.933.025.715.354.413.873.91Proc
freq;
tablesz;Run;
第五章计量资料的统计描述5.1.1FREQ过程——应用实例
例5-1-1-1
(续)
程序说明:创建数据集prg5_1,用low定义最低下限,用dis定义组距用mod(x,y)函数(函数功能是计算x/y的余项)新建变量z,该变量就是将原始变量转化成该数据所在组段的下限的值用FREQ过程计算下限值的频数,则得到各个组段的频数。第五章计量资料的统计描述5.1.1FREQ过程——应用实例
例5-1-1-1
(续)
运行结果:第1列z的变量值是各组段的下限值,从结果可以看出,3.8-4.1组段的频数最多,向两侧逐渐减少。第五章计量资料的统计描述5.1.1FREQ过程——应用实例
例5-1-1-2(MISSING、LIST选择项的应用)程序:DATAFREQ1;
INPUTAB@@;CARDS;1221.2..1121PROCFREQ;
TABLESA*B;
TITLE'TWOWAYCONTINGENCYTABLE';第五章计量资料的统计描述5.1.1FREQ过程——应用实例
例5-1-1-2
PROCFREQ;
TABLESA*B/MISSING;
TITLE‘TWOWAYCONTINGENCYTABLE
WITHMISSINGSTATEMENT';PROCFREQ;
TABLESA*B/LIST;
TITLE‘TWOWAYFREQUENCYTABLE’;RUN;第五章计量资料的统计描述5.1.1FREQ过程——应用实例
例5-1-1-2
例5-1-1-2输出结果第五章计量资料的统计描述5.1.1FREQ过程——应用实例
例5-1-1-2
第五章计量资料的统计描述5.1.1FREQ过程——应用实例
例5-1-1-2
第五章计量资料的统计描述5.1.1FREQ过程——应用实例
补充
SCORE为含学生成绩的数据集,用VFMT.格式把学生的平均成绩分成A、B、C三等,由FREQ过程产生每一分数段的学生人数和占总数的百分数等信息。DATASCORE;LENGTHNAME$12;INPUTNAMESEXGROUP$T1-T3@@;V=MEAN(OFT1-T3);CARDS;WANGDONG11907060XUEPING22859588
…第五章计量资料的统计描述5.1.1FREQ过程——应用实例
补充
PROCFORMAT;VALUEVFMTLOW-<80='C'
80-<90='B'
90-HIGH='A';PROCFREQ;FORMATVVFMT.;TABLESV;RUN;第五章计量资料的统计描述5.1.2MEANS过程——功能简介MEANS过程用来对数据集中的数值变量计算简单的描述性统计量。该过程对数据集中由VAR语句指定的一些数值变量的全部非缺失的观测计算简单的描述统计量。如使用BY语句,可把数据按BY变量分为几个观测组,并对每个观测组计算数值变量的描述统计量。在BY组内还可用CLASS语句进一步分组。MEANS过程可将若干统计量的计算结果输出到指定的SAS数据集,供进一步分析计算时调用。第五章计量资料的统计描述5.1.2MEANS过程——语句说明MEANS过程由下列语句控制:procmeans选择项;var变量名表;by变量名表;class变量名表;freq变量名表;outputout=SAS数据集统计量关键词=变量名表;第五章计量资料的统计描述格式:procmeans选择项;常用的选择项:data=sas数据集名noprint:不打印任何描述性统计量。多用在将这些描述性统计量输出到SAS数据集时。maxdec=n:规定输出结果的小数部分的最大位数(n取值为0~8)。alpha=value:设置计算置信区间的置信水平α,0~1。默认值为alpha=0.05→均值的95%置信区间。统计量关键词:指定需要输出的统计量,缺省时,输出n、mean、std、min、max五个统计量。5.1.2MEANS过程——语句说明
1.procmeans语句
Decimal小数第五章计量资料的统计描述5.1.2MEANS过程——语句说明
2.var语句
格式:var变量名表;功能:指定需要计算的数值变量及次序。若省略该语句,数据集中除去by、class、freq语句中列出的变量外,所有数值变量依次被分别计算。var→variable第五章计量资料的统计描述5.1.2MEANS过程——语句说明
3.by语句
格式:by变量名表;使用by语句后,MEANS过程先按by变量的取值形成多个观测组,然后按组分别计算各组对应的描述性统计量。注意在使用by浯句前,要求对by变量已排过序。第五章计量资料的统计描述5.1.2MEANS过程——语句说明
4.class语句
格式:class变量名表;其作用与by语句类似,用class变量定义分类变量,形成观测组,分别计算各观测组的描述性统计量。所不同的是class语句不要求该变量事前已排序,而且结果在输出时,按class变量的不同取值,以单表的形式输出。第五章计量资料的统计描述5.1.2MEANS过程——语句说明
5.freq语句
格式:freq变量名表;该语句指定一个数值型的频数变量,它的值表示输入数据集中相应观测出现的频数,该变量的值应为正整数。若freq<1或缺失,相应的观测不参加计算若此值不是正整数则取整数部分。freq语句仅当输入数据集为频数表资料时才使用。第五章计量资料的统计描述5.1.2MEANS过程——语句说明
6.output语句
格式:outputout=SAS数据集统计量关键词=变量名表;该语句要求MEANS过程将指定的统计量,以指定的名称输出到新的SAS数据集中。“OUT=SAS数据集”用于命名输出数据集名,可用两级数据集名建立永久SAS数据集。“统计量关键词=变量名表”用以规定在新数据集中所包含的统计量,并对这些统计量的变量命名。第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-1
用MEASN过程计算例5-1-1-1数据的描述性统计量。程序:procmeansdata=prg5_1;varx;run;程序说明:对VAR语句所指定的变量的全部非缺失值的观测计算简单的描述性统计量。第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-1
结果说明:结果中首先会指明本次分析变量是什么,然后给出一些简单的描述性统计量,包括没有缺失值的例数(N)、均数(Mean)、标准差(StdDev)、最小值(Minimum)和最大值(Maximum)。第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-2
其他一些统计量:stderr:均数的标准差,即标准误。sum:和variance:方差cv:变异系数nmiss:缺失变量值的观测的例数range:极差uss:平方和css:离均差平方和t:检验假设为总体均数为0的studentt检验的校验统计量t值prt:总体均数为0的检验假设中,t值所对应的概率值(P值)sumwgt:权重变量值的和skewness:偏度系数kurtosis:峰度系数clm:双侧95%可信区间的下限(lclm)和上限(uclm)uncorrectedsumofsquare
∑x2
ConfidenceLimitsformean第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-2(指定输出统计量)对例5-1-1-1的数据指定输出统计量程序:procmeansdata=prg5_1nmeanstdstderrcvclm;varx;run;第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-2
补充对例5-1-1-2的分析:Procmeansdata=freq1nnmissusscssvar;vara;Run;第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-3(频数表资料,用freq语句)将例5-1-1-1的数据编制成频数表的资料进行描述性统计。第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-3程序:
dataprg5_4;inputxf@@;cards;2.4512.7533.0563.3583.65173.95204.25174.55124.8595.1555.4525.751procmeans;freqf;varx;run;x:表示各个组段的组中值f:表示相应组段的频数第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-3(频数表资料,用freq语句)程序说明:在创建数据集时应设置两个变量,一个变量表示各个组段的组中值,另一个变量为相应组段的频数。在MEANS过程中,用freq语句指明一个变量为频数变量,本例为f,用var语句指明哪个变量为组中值变量,本例为x。第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-3
结果说明:MEANS过程给出的结果中,每个统计量均在小数点后保留7位有效数字。用户可以通过使用MAXDEC浯句改变结果的有效位数。第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-4
将上个程序的结果保留2位有效数字的程序:procmeansmaxdec=2;freqf;varx;run;第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-5(求几何均数)
69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布结果如下,求其平均抗体滴度。
SAS系统无法直接计算几何均数,必须编写SAS程序,用MEANS过程间接计算。第五章计量资料的统计描述几何均数(geometricmean)是将n个观察值X的乘积再开n次方所得的根。若对各观察值X取对数,对数值均值取反对数即为G。适用对象:当一组观察值不呈正态分布、且其差距较大时,若用均数表示其平均水平会受少数特大或特小值的影响;数值按大小顺序排列后,各观察值呈倍数或近似倍数关系(等比);对数正态分布资料。如抗体的滴度、药物的效价等。计算方法:直接计算法当观察例数不多(如n小于30)时频数表法当观察例数很多时采用第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-5
dataprg5_8;inputxf@@;y=log10(x);cards;1042034010801016011320156401412802procmeansnoprint;vary;freqf;outputout=bmean=logmean;datac;setb;g=10**logmean;procprintdata=c;varg;run;第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-5
程序说明(4个步骤):创建数据集prg5_8,有3个变量,x为抗体滴度的倒数,f为某抗体滴度所对应的频数,y是x的对数。用MEANS过程计算y的描述性统计量,将计算所得到的均数输出到数据集b中,用变量名logmean表示。新建数据集c,调用数据集b中的内容,新产生变量f,该变量的值为变量logmean的反对数。将数据集c的结果显示在OUTPUT窗口内。第五章计量资料的统计描述5.1.2MEANS过程——程序实例
例5-1-2-5
结果显示这组数据的几何均数为150.641,即平均抗体滴度为1:150.641。第五章计量资料的统计描述DATASCORE;LENGTHNAME$12;INPUTNAMESEXGROUP$T1-T3@@;CARDS;SUNHONG23899787ZHAOBIN23669886HUANGSHAN236775765.1.2MEANS过程——程序实例
补充CLASS、BY区别第五章计量资料的统计描述procmeans;vart1t2t3;classgroup;title'statisticswithclassvariable';procsort;bygroup;procmeans;bygroup;vart1t2t3;title'statisticswithbyvariable';Run;5.1.2MEANS过程——程序实例
例5-1-2-5
第五章计量资料的统计描述5.1.3UNIVARIATE过程——功能简介完成与MEANS过程类似的基本统计量计算描述单变量极端值计算分位数生成若干个描述变量分布的统计图(如茎叶图、盒式图、正态概率图等)和频数表对资料进行正态性检验和对总体均数是否为零进行假设检验(t检验、中位数检验及符号秩和检验)等。第五章计量资料的统计描述5.1.3UNIVARIATE过程——语句说明UNIVARIATE过程由下列语句控制procunivariate选择项;var变量名表;by变量名表;freq变量名表;outputout=SAS数据集统计量关键词=变量名表;第五章计量资料的统计描述5.1.3UNIVARIATE过程——语句说明
1.procunivariate语句格式:procunivariate选择项;常用的选择项有:data=sas数据集名noprint:同MEANS过程。freq:要求生成包括变量值、频数、百分比和累积百分比的频数表。normal:计算变量是否服从正态分布的假设检验的统计量和P值。plot:要求生成茎叶图、盒式图和正态概率图。第五章计量资料的统计描述5.1.3UNIVARIATE过程——语句说明
2.output语句格式:
outputout=SAS数据集统计量关键词=变量名表;统计量关键词除在MEANS过程中介绍的之外,还有:Q3:上四分位数或75%分位数。Q1:下四分位数或25%分位数。QRANGE:四分位数间距,即Q3-Ql。P1(P5,P10,P90,P95,P99):为第1%(x%)分位数。MSIGN:符号统计量。PROBM:大于符号统计量的绝对值的概率。SIGNRANK:符号秩统计量。PROBS:大于符号秩统计量的概率。NORMAL:正态性检验统计量。PROBN:数据来自正态分布的概率值。第五章计量资料的统计描述5.1.3UNIVARIATE过程——语句说明
2.output语句若要计算任意的百分位数,可在OUTPUT中使用下列选择项:PCTLPTS=百分位数:指明要计算的百分位数。PCTLNAME=输出变量名的后缀:一般用来注明所要计算的是哪个百分位数。PCTLPRE=输出变量名的前缀:一般用来注明是计算哪个变量的百分位数。以上三项需要一起结合使用。PCTL:percentile,PTS:percents,PRE:prefix第五章计量资料的统计描述5.1.3UNIVARIATE过程——语句说明
2.output语句例:procunivariate;vartestatestbtestc;outputpctlpts=33.366.7pctlpre=abc
pctlname=p33_3p66_7;run;程序执行后将对var语句中所列的三个变量testa,testb,testc分别计算33.3%和66.7%的百分位数值。变量名依次为ap33_3、ap66_7、bp33_3、bp66_7、cp33_3、cp66_7。(SAS规定变量名中不能出现“.”这类符号,所以用“_”代表)第五章计量资料的统计描述5.1.3UNIVARIATE过程——语句说明由于PROCUNIVARIATE语句中增加选项PLOT、NORMAL和FREQ,在OUTPUT语句中增加任意百分位数的计算功能,使其应用范围大大增加。注意在UNIVARIATE过程中不使用CLASS语句,这与MEANS过程不同。第五章计量资料的统计描述5.1.3UNIVARIATE过程——程序实例
例5-1-3-1
某地118名链球菌咽喉炎患者的潜伏期如下,试计算其简单描述性统计量。潜伏期(天)12~24~36~48~60~72~84~96~108~患者人数41732241812542第五章计量资料的统计描述5.1.3UNIVARIATE过程——程序实例
例5-1-3-1
程序:
dataprg5_7;inputxf@@;cards;
1843017423254246618781290510241142;procunivariate;varx;freqf;
run;第五章计量资料的统计描述5.1.3UNIVARIATE过程——程序实例
例5-1-3-1
第五章计量资料的统计描述5.1.3UNIVARIATE过程——程序实例
例5-1-3-1
第五章计量资料的统计描述5.1.3UNIVARIATE过程——程序实例
例5-1-3-1结果说明首先输出执行过程的名称及处理变量的名称。整个分析结果输出的统计量分5部分:矩、位置和变异性的基本测度、位置检验、分位数和极值的观测。位置检验中给出的结果的意义:Studentt检验:给出了假定总体均数为0的t值,Pr>|t|给出了在H0成立的条件下,出现大于|t|的概率。符号:给出检验总体均数为0的假设检验的符号统计量M的值,Pr>=|M|给出在H0成立的条件下,大于等于|M|的概率。符号秩:给出检验总体均数为0的假设检验的符号秩和统计量S的值,Pr>=|S|给出在H0成立的条件下,出现大于等于|S|的概率。第五章计量资料的统计描述5.1.3UNIVARIATE过程——程序实例
例5-1-3-2UNIVARIATE过程输出用户自己定义的百分位数,以例5-1-3-1的数据为例。程序:procunivariate;varx;freqf;outputout=pctpctlpre=ppctlpts=2.597.5;procprintdata=pct;run;
第五章计量资料的统计描述5.1.3UNIVARIATE过程——程序实例
例5-1-3-2结果说明:数据集pct只有一个观测,而有两个变量,变量名分别为“p2_5”和“p97_5”,其值分别表示2.5%和97.5%分位数的值。这两个数值说明链球菌咽喉炎患者潜伏期的双侧95%的参考值范围为18~102天。(百分位数法)第五章计量资料的统计描述5.2SAS的高级绘图功能概述GSLIDE过程GCHART过程
GPLOT过程
其他SAS绘图方法第五章计量资料的统计描述其他SAS绘图方法用ASSIST视窗中的Graphics对话框Analysis菜单中的级联菜单InteractiveDataAnalysisAnalysis菜单中的级联菜单Analyst,打开数据集后,用Graph菜单第五章计量资料的统计描述概述——功能简介
SAS软件中的graph模块具有极强的绘图功能。它可以将统计分析的结果绘制成平滑的曲线图、精美多彩的条形图、直方图、三维图、等高(等值)图以及各种立体几何图形,从而使结果生动形象。第五章计量资料的统计描述概述——GRAPH模块中的过程
第五章计量资料的统计描述概述——GRAPH模块中的语句
第五章计量资料的统计描述5.2.1GSLIDE过程gslide过程可产生一页彩色报表,包括正文、标题和脚注;并可选择文字的字体、大小和颜色。语句组成procgslide选择项;titlen‘标题内容’;footnoten‘脚注内容’;note‘正文的注解’;第五章计量资料的统计描述5.2.1GSLIDE过程——语句说明
1.procgslide
格式:procgslide选择项;常用的选择项有:gout=输出文件名:可以把图形存入某文件中;border:所画的边框框住所有的报表内容(包括标题、脚注在内);frame:只框住正文,标题与脚注在框外。cframe=red:将文本边框的颜色定为红色。也可定义为blue、green等颜色。Lframe=n:规定文本边框的线型n;n的取值范围为1~46,默认值为1。wframe=m:规定文本边框的线型粗细,单位为像素点。第五章计量资料的统计描述5.2.1GSLIDE过程——语句说明
2.titlen、footnoten和note语句这些语句均为可选语句,可根据设置产生标题、脚注和注释等内容。其中n指定产生标题或脚注的行。在一个程序中,可有多个title或footnote语句。注意:title和footnote语句可出现在程序的任何位置,而note语句则只能出现在procgslide语句之后,即只能出现在过程内部。第五章计量资料的统计描述5.2.1GSLIDE过程——语句说明
2.titlen、footnoten和note语句这些语句可选择以下选择项:c=red|green|blue|yellow|white:规定正文的颜色。f=字型:规定正文字型,可为swiss、italic、script等。j=c:对齐方式为居中。(j=L为标题左对齐,j=R为标题右对齐)。h=2cm:表示“注解”的高度为2厘米。fontjustify第五章计量资料的统计描述5.2.1GCHART过程——功能简介
GCHART过程可产生水平条形图或垂直条形图(直方图)、圆形图、星形图、区域图等,用以显示变量值的分布或变量之间的相关程度。第五章计量资料的统计描述5.2.1GCHART过程——语句组成procgchart选择项; *主语句
hbar变量表; *水平条形图
vbar变量表; *垂直条形图
block变量表; *区域图
pie变量表; *圆形图
star变量表; *星形图
axisn; *定义坐标轴
by变量表;legendn; *插图的注解
patternn; *图案模型
titlen’标题名称’; *标题内容
footnoten’脚注’;*脚注内容
note‘注解’; *内容说明至少要有一个语句任选语句第五章计量资料的统计描述5.2.1GCHART过程——语句说明
1.procgchart语句
格式:procgchart选择项; 可用选择项有:data=sas数据集名。gout=文件名:表示图形以指定的文件名保存。第五章计量资料的统计描述5.2.1GCHART过程——语句说明
2.hbar和vbar语句
格式:hbar变量表;vbar变量表; 常用选项:discrete:画出不连续、不累积的条形图。type=freq|cfreq(累积频数)|percent|cpercent(累积百分比)|sum(另一变量的和)|mean(另一变量的均值)
默认值:type=freqsumvar=变量:通常用于计算均值、和。默认为计算和。midpoints=值:指定中点值,一般用系统约定值。levels=n:将区间变量的数据分为n组。第五章计量资料的统计描述5.2.1GCHART过程——语句说明
2.hbar和vbar语句
group=变量:给变量的每个值画一组条形。subgroup=变量:变量必须是离散型,而且将每一条形分为几段,每段的长度表示该变量的一个取值所对应的频率、和等。ascending|descending:在每一组内,升序|降序排列条形。默认:变量值的顺序autoref:对横轴画格线。axis=值:X坐标轴的刻度。其余的选项还有许多,且可以选择圆形图、星形图等,选择的图形不同,可用的选择项也不同。第五章计量资料的统计描述5.2.1GCHART过程——程序实例
例5-2-2-1
dataprg5_9;
inputxy@@;cards;112439416525636749-11-24-39-416-525-636-7491122334455667788991010;procgslide;
title1c=bluef=centxi'First'c=green'lineTitle';
title3c=blackf=swiss'SAS'c=black'histogramplot';procgchart;
vbarxy;run;第五章计量资料的统计描述5.2.1GCHART过程——程序实例
例5-2-2-1
程序说明:程序中分别绘制变量x的y的垂直条图,并添加了两个标题“FirstLineTitle”及“SAShistogramplot”,分别指定了不同的颜色及字体。第五章计量资料的统计描述
第五章计量资料的统计描述5.2.1GCHART过程——程序实例
例5-2-2-2
下表给出了两种脱落牙再植的4种不同效果,要求绘制百分条图,以比较其不同的再植效果在各种脱落牙中所占的比例.效果嵌入性脱位牙脱落牙成功2420良好127较好1213失败410合计5250第五章计量资料的统计描述5.2.1GCHART过程——程序实例
例5-2-2-2
程序:datap1;
inputleveltype$freq@@;cards;112412202112227311232134144210procgchart;
hbartype/subgroup=levelascendingsumvar=freq;run;第五章计量资料的统计描述5.2.1GCHART过程——程序实例
例5-2-2-2
程序说明:本程序中字符型变量type表示两种脱落牙,用level1-4表示不同的再植结果,分别绘制两种脱落牙的水平条形图,在每个水平条形图中,以不同的种植效果作为subgroup,并有ascending选项使其按效果由好到差排列,每种种植效果的频数作为sumvar计算其和。在程序中,用户也可以根据需要添加标题及脚注等,以使显示结果更加清楚明了。第五章计量资料的统计描述5.2.1GCHART过程——程序实例
例5-2-2-2
第五章计量资料的统计描述5.2.1GPLOT过程——功能简介
gplot过程在坐标系上可产生一对变量的散点图或曲线图。如果用户不定义坐标系及其刻度,系统则采用默认(内定)的指标。第五章计量资料的统计描述5.2.1GPLOT过程——语句组成procgplot选择项; /*主语句*/ploty*x; /*绘图语句。可画各对变量的散点图、曲线图*/bubbley*x=z;/*气泡图。按z值在(x,y)处画圆。z负画虚线圆*/plot2y*x /*与POLT配对。但两语句的横坐标应相同,以便把两条曲线合成为一图,左右显示两个不同的纵坐标*/bubble2y*x=z; /*与plot2作用相似,并把纵轴也画在右边*/By变量; /*对by后面的变量的每个值画一幅图*/symboln; /*指定画图的连线,默认为+号*/patternn; /*指定图案花纹*/titlen; footnoten; note; 第五章计量资料的统计描述5.2.1GPLOT过程——语句组成
1.procgplot语句常用选项:data=数据集名gout=文件名:输出图形存入指定文件。uniform:同一个程序中,图形的坐标刻度相同。第五章计量资料的统计描述5.2.1GPLOT过程——语句组成
2.plot语句格式:ploty*x/option-list; 功能:绘图语句,主要绘制线图、散点图等,可根据设置的选择项不同而绘制不同的图形。常用的选择项:overlay:同一坐标系中重迭n个图;但只标注首变量的名字及变量标签。grid:给坐标系画网格。frame:给坐标系画出边框。haxis=axisn(或值):定义横轴刻度(如haxis=10to100by10)。若haxis=axisn,则用先前定义的axisn刻度。vaxis=axisn(或值):与haxis意义相同,对纵轴定义刻度。hminor=n(或vminor=n):在横轴(或纵轴)两个粗刻度内再细分为n段。第五章计量资料的统计描述5.2.1GPLOT过程——语句组成
3.symboln
语句格式:symboln; 功能:指定画图的连线,默认“+”选择项:i=join:表示用最简单的连线和折线画图。i=needle:点与点之间不连,但每点向横轴画垂线。i=Rabcdefg:回归拟合。其中abcdef分别表示不同的回归。如a=L表示线性回归。v=star:其余选项还有许多,且选择的图形不同,可用的选择项也不同。第五章计量资料的统计描述5.2.1GPLOT过程——程序实例
例5-2-3-1题目数据如下表,用gplot过程绘图。表某地1975~1990年痢疾与百日咳的死亡率年度痢疾百日咳19751.450.2219800.820.0519850.230.0219900.040.01第五章计量资料的统计描述5.2.1GPLOT过程——程序实例
例5-2-3-1程序dataa;inputyear$xy@@;cards;19751.450.2219800.820.0519850.230.0219900.040.01procgplot;symbol1i=joinc=redv=star;symbol2i=joinc=bluev=squarel=20;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 21《古诗三首》说课稿-2024-2025学年语文四年级上册统编版001
- 6《摸一摸》说课稿-2024-2025学年科学一年级上册青岛版
- 2024-2025学年高中生物 第3章 植物的激素调节 第1节 植物生长素的发现说课稿 新人教版必修3001
- 2024年五年级英语下册 Module 7 Unit 2 I will be home at seven oclock说课稿 外研版(三起)
- 2025住宅装修物业管理合同(合同范本)
- 8《池子与河流》(说课稿)-2023-2024学年统编版语文三年级下册
- 2025锅炉拆除安全施工合同
- 2025有关电梯广告的合同范本
- Unit 6 Disaster and Hope Understanding ideas 说课稿-2023-2024学年外研版高中英语(2019)必修第三册
- 代理制 合同范本
- 玻璃反应釜安全操作及保养规程
- 高中英语新课标词汇表(附词组)
- 2023年心理咨询师之心理咨询师基础知识考试题库附完整答案【有一套】
- 证券公司信用风险和操作风险管理理论和实践中金公司
- 一级建造师继续教育最全题库及答案(新)
- 2022年高考湖南卷生物试题(含答案解析)
- GB/T 20909-2007钢门窗
- GB/T 17854-1999埋弧焊用不锈钢焊丝和焊剂
- GB/T 15593-2020输血(液)器具用聚氯乙烯塑料
- 直线加速器专项施工方案
- 储能设备项目采购供应质量管理方案
评论
0/150
提交评论