![第四章 基础分析过程1_第1页](http://file4.renrendoc.com/view/5ac0fc6cfae6fd0d1b55c63a76382941/5ac0fc6cfae6fd0d1b55c63a763829411.gif)
![第四章 基础分析过程1_第2页](http://file4.renrendoc.com/view/5ac0fc6cfae6fd0d1b55c63a76382941/5ac0fc6cfae6fd0d1b55c63a763829412.gif)
![第四章 基础分析过程1_第3页](http://file4.renrendoc.com/view/5ac0fc6cfae6fd0d1b55c63a76382941/5ac0fc6cfae6fd0d1b55c63a763829413.gif)
![第四章 基础分析过程1_第4页](http://file4.renrendoc.com/view/5ac0fc6cfae6fd0d1b55c63a76382941/5ac0fc6cfae6fd0d1b55c63a763829414.gif)
![第四章 基础分析过程1_第5页](http://file4.renrendoc.com/view/5ac0fc6cfae6fd0d1b55c63a76382941/5ac0fc6cfae6fd0d1b55c63a763829415.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章基础统计分析过程第一节描述统计量第二节频数统计与柱状图第三节常用描述统计量计算第四节数据的探索性分析1第一节描述统计量已知一组试验(或观测)数据为:X1,X2……Xn,以下介绍描述这组数据的几类特征量。一、表示位置的特征量均值(mean)、众数(m0)、中位数(me)和百分位数(percentile)二、表示分散程度的特征量方差、标准差、极差、四分位差、变异系数和标准误(即均值的标准差)三、表示形状的特征量偏度和峰度p592第二节频数统计与柱状图样本数据的情况、取不同数值的比例描述了样本取值的分布,通过频数可进一步了解总体相应指标的分布。对于频数统计,除了用列表记录变量取不同数值的频数、百分数外,还常用柱状图或饼图等图形工具来表示。柱状图也称条形图。3第二节频数统计与柱状图一、用INSIGHT作频数统计和柱状图(一)用INSIGHT作柱状图Analyze=>Histogram/BarChart(Y)1、分析sex、age、height三个变量2、按性别分组输出3、解释图形的下三角菜单数据文件:class145678910单独考察女生的年龄分布11121314151617第二节频数统计与柱状图(二)用INSIGHT作频数统计Analyze=>Distribution(Y)1、作sex、age的频数统计2、按性别分组作age的频数统计181920212223第二节频数统计与柱状图二、用分析员应用作频数统计和直方图Statistics=>Descriptive=>Frequencycounts…1、分析变量sex、age2、解释各按钮3、注意图表输出位置4、按性别分组5、作加权演示242526272829第二节频数统计与柱状图三、用编程作频数统计与柱状图(一)用FREQ过程作频数统计利用编程统计频数和百分数可以使用PROCFEEQ。它最简单的用法是:procfreqdata=数据集名;tables变量名列;run;30第二节频数统计与柱状图例如对数据集CLASS的变量SEX和AGE要统计其频数和百分数,其程序为:
PROCfreqdata=sashelp.class;tablesagesex;run;3132第二节频数统计与柱状图若不要计算某些指标,可在tables语句设定选项,可用的选项有:nocum-----不要累计的频数和百分数nopercent-----不要百分数和累计百分数例如只要计算年龄取值的频数和累计频数,其程序为:procfreqdata=sashelp.class;tablesage/nopercent;run;3334第二节频数统计与柱状图若为了将频数高的放在前面或者有其他需求要改变输出结果中变量值的排列次序,可在procfreq语句中加入选项:order=internal|freq|data|formattedinternal----按变量的值排序freq----按频数降序排列data----按数据集中值的出现次序排列formatted----按变量格式化的值排序35第二节频数统计与柱状图若有权变量的数据,可用weight语句加权:datastud;inputsexn;cards;140055;
run;proc
freqdata=stud;tablessex;weightn;run;36第二节频数统计与柱状图对于连续型数据通常使用组距式分组。例如将数据class中的体重数值由24公斤至80公斤,每8公斤为一组,按组统计的体重频数表。这里常用的是使用Format过程或形成一个新的变量。37第一种:对变量weight规定一个格式procformat;valuewfmtlow-32=’24-32’32-40=’32-40’40-48=’40-48’48-56=’48-56’56-64=’56-64’64-72=’64-72’72-high=’72-80’;/*书上格式不好用*/run;procfreqdata=sasuser.class1;tablesweight;formatweightwfmt.;run;/*程序名为p58*/38第二种:形成一个新的变量gweight(1)datatmp;setsashelp.class;gweight=int((weight-16)/8);labelgweight=‘体重分组值’;run;procfreqdata=tmp;tablesgweight;run;/*程序在p59*/39(2)Datastud;setxw.class1;Ifweight>=72thengweight='72-80';If64<=weight<72thengweight='64-72';If56<=weight<64thengweight='56-64';If48<=weight<56thengweight='48-56';If40<=weight<48thengweight='40-48';If32<=weight<40thengweight='32-40';Ifweight<32thengweight='24-32';Run;proc
freqdata=stud;tablesgweight;run;文件:P59_2.sas40第二节频数统计与柱状图(二)用CHART过程作直方图CHART过程是用图表的方式形象地表示变量取值及两个以上变量之间的关系。它所描述的图形有直方图(条形图)、块形图、饼形图、星形图。这里着重介绍直方图。CHART过程产生的图形有三个因素决定:选择图形表示方法;显示图表变量值的统计量;规定分组的特性。41第二节频数统计与柱状图(1)图形表示方法的选择垂直条形图或垂直直方图(VBAR语句)横条形图或水平直方图(HBAR语句)块形图(BLOCK语句)饼形图(PIE语句)星形图(STAR语句)42第二节频数统计与柱状图(2)汇总统计量的选择频数(TYPE=FREQ)百分数(TYPE=PCT)累计频数(TYPE=CFREQ)累计百分数(TYPE=CPCT)总和(TYPE=SUM)平均数(TYPE=MEAN)通过选项TYPE=取以上几种选择来显示不同统计量的图形43第二节频数统计与柱状图(3)分组特性的选择用于分组的变量选项DISCRETE用于并排分组的选项GROUP=用于分子组的选项SUBGROUP=对连续变量用区间中点定位的选项MIDPOINTS=选项SUMVAR=规定收集对均值、总和、或频数的汇总变量44第二节频数统计与柱状图基本格式:PROCCHART<选项>;/*选项有DATA=*/VBAR变量名列</<标准选项><VBAR特有选项>>;HBAR变量名列</<标准选项><HBAR特有选项>>;RUN;45第二节频数统计与柱状图标准选项①DISCRETE——用来指明数值图表变量是离散的而不是连续的。如果省略该选项,则CHART过程假定所有数值变量都是连续的。②FREQ=变量——用来规定数据集中的某个变量,它的值表示相应观测的频数(或权数)③LEVELS=条图个数——当VBAR语句中给定的的图表量量是连续时,改选项用来规定每个图表变量的条图个数。46第二节频数统计与柱状图④MIDPOINTS=中值列——通过规定每个图表或线段表示的区间中点来定义图表变量的变化范围。例如语句,
vbarx/midpoints=1020304050;生成5个条图的图表:第一条代表以10为中心的数据值范围;第二条代表以20为中心的数据范围等等。该选项还允许使用以下形式:
midpoints=10to100by5;47第二节频数统计与柱状图⑤SUMVAR=变量——规定一个变量用来汇总概括数据特征的均值、总和数。例如用class的数据,要汇总不同性别的平均体重,如下:vbarsex/type=meansumvar=weightdiscrete;
产生的图表对男女生分别给出体重(weight)的平均值。48⑥TYPE=类型——指出在图表中,条图或线段表示的类型。若省略,TYPE的缺值是FREQ。当规定SUMVAR=时,TYPE的缺省值是SUM。用户可以规定下列用关键词表示的类型中的某一个:
FREQ---指每个条图或线段表示数据中图表变量出现的值或间隔的频数
PERCENT---指每个条图或线段表示图表变量含有给定值或落入给定区间的观测比例
CFREQ---指每个条图或线段表示的累计频数
CPERCENT---指每个条图或线段表示的累计百分数
SUM---指每个条图或线段表示在含有该条图值的所有观测中SUMVAR=的变量值之和。例如语句,vbarage/sumvar=heighttype=sum;生成的图表对每个age值对应一个条图。对于给定的age值,条图高度表示含有那个age值的所有观测中变量height值的总和
MEAN---指每个条图或线段表示在含有该条图值的这些观测中SUMVAR=的变量的均值49第二节频数统计与柱状图VBAR,HBAR语句的特有选项①GROUP=变量——该选项用于产生并排的一些图表,每个图表代表GROUP变量含有已知值的一组观测。该选项规定的变量可以是字符变量,也可以是数值的,但假定是离散的。例如语句:vbarage/group=sex;产生男女并排的年龄频数垂直直方图。50第二节频数统计与柱状图②SUBGROUP=变量——要求用不同字符对每个条图按SUBGROUP变量对该条图贡献大小细分为几部分。例如:vbarage/subgroup=sex;对每个年龄产生条图,在每个条图上又按sex用字符分成两部分。以数据集class为例,演示chart过程作条形图。51PROCCHARTHistogramsandbarchartsPROCCHARTDATA=SASdatasetoptions;VBARvariable/options;HBARvariable/options;options:MIDPOINTS=GROUP=SUMVAR=PROC
CHARTdata=sashelp.class;VBARage/midpoints=10
20
30
40
50;vbarsex/type=meansumvar=weightdiscrete;vbarage/group=sex;vbarage/subgroup=sex;vbarage/sumvar=heighttype=sum;RUN;52第三节常用描述统计量计算53第三节常用描述统计量计算一、用INSIGHT计算常用描述性统计量在INSIGHT环境中,只对区间型变量提供计算描述性统计量的功能。Analyze=>Distribution(y)1、分析变量weight、height2、用sex作分类分析545556第三节常用描述统计量计算二、用分析员应用计算常用描述统计量
在分析员应用环境下,有两种不同的方法获得数值变量的描述性统计量。第一种:Statistics=>Descriptive=>SummaryStatistics第二种:Statistics=>Descriptive=>Distributions演示数据加权57第三节常用描述统计量计算三、用编程计算常用描述性统计量
SAS系统中在BASESAS模块中就有好几个过程提供各种描述性统计量。最常用的是过程UNIVARIATE和过程MEANS。58第三节常用描述统计量计算(一)UNIVARIATE过程(单变量过程)语句一般格式:PROCUNIVARIATE<option-list>;VARvariable-list;FREQvariable-list;WEIGHTvariable;IDvariable-list;BYvariable-list;OUTPUT<OUT=SAS-data-set><output-statistic-list><PCTLPTS=百分位数PCTLPRE=前缀名列表>;59第三节常用描述统计量计算Output语句中OUT=SAS-data-set选项是将输出结果输出到指定数据集中;output-statistic-list规定在新数据集中你所要求的统计量,并规定存放这些统计量的变量名。规定统计量并命名的形式有以下几种:
统计关键词=/*按原变量名输出统计量值*/
统计关键词=名字列表/*给统计量命名*/
统计关键词(变量列表)=名字列表/*指定计算某个变量的某个统计量并在新数据集中命名新变量名义存放计算的统计量值。*/60第三节常用描述统计量计算说明:univariate过程中只用第二种形式命名,而means过程则三种都可用PCTLPTS=百分位数/*要求输出的百分位数。*/PCTLPRE=前缀名列表/*规定用PCTLPTS=要求计算的百分位数的输出变量名的前缀。*/61第三节常用描述统计量计算调用univariate最简单的形式为:
procunivariatedata=数据集名;var变量名列;/*要分析的变量*/run;62第三节常用描述统计量计算以数据集class为例,对变量height和weight计算描述统计量:
procunivariatedata=sashelp.class;varheightweight;run;63第三节常用描述统计量计算为了使极值部分的显示更为直接,对最大和最小的几个记录可以不用他们的序号,而改用相应的姓名,这样我们一看就知道谁的身高最高。程序为:procunivariatedata=sasuer.class1;varheight;idname;/*显示相应的姓名观测值*/run;64第三节常用描述统计量计算使用by语句还可以进行分组统计,程序为:procsortdata=sasuser.class1out=tem;bysex;run;procunivariatedata=tem;varheight;bysex;idname;run;65第三节常用描述统计量计算利用output语句将结果输出到数据集中procunivariatedata=sasuser.class1noprint;varheight;
outputout=resultmean=omstd=ostdq1=oq1range=orpctlpts=2080pctlpre=op;run;procprintdata=result;run;66第三节常用描述统计量计算(二)MEANS过程(均值过程)语句一般格式:PROCMEANS<option-list><statistic-keyword-list>;VARvariable-list;CLASSvariable-list;/*不用排序*/FREQvariable-list;WEIGHTvariable;IDvariable-list;BYvariable-list;OUTPUT<OUT=SAS-data-set><output-statistic-list>;在univariate过程中没有此选项67第三节常用描述统计量计算语句说明:statistic-keyword-list—此选项是要输出的统计量,可见附录1。Class语句—与by语句功能相同,区别在于class语句不要求事先对数据集按照某变量排序。OUTPUT语句—前两个选项与UNIVARIATE过程同。68第三节常用描述统计量计算Means过程的简单用法为:procmeansdata=数据集名;var变量名列;run;以数据集class为例,计算height和weight的描述统计量,程序为:procmeansdata=sashelp.class;varheightweight;run;69第三节常用描述统计量计算指定需要输出的描述统计量,程序为:procmeansdata=sashelp.classmeanvarmaxrangemaxdec=2fw=8;varheightweight;run;70第三节常用描述统计量计算在means过程中,还可以用class语句实现分组统计。如下面一段程序:procmeansdata=sashelp.classmeanvarmaxrangemaxdec=2fw=8;varheightweight;classsexage;run;71第三节常用描述统计量计算均值过程也可将结果存储到sas数据集中去,同样使用output语句。下面的程序将实现这一功能。procmeansdata=sashelp.classnoprint;varheightweight;classagesex;outputout=result;run;72第三节常用描述统计量计算在以下程序中只计算一个统计量均值,所以可以将每个变量的均值存入该变量名下。procmeansdata=sashelp.classnoprint;varheightweight;classsexage;outputout=result2mean=;run;73第三节常用描述统计量计算若输出到数据集中的统计量不止一个,那么就需要对每个变量的不同统计量都设定其存放的变量名。在下面的程序中,height和weight的均值分别存入名为hm和wm的变量下,height和weight的标准差分别存入名为hstd和wstd的变量下:74第三节常用描述统计量计算procmeansdata=sashelp.classnoprint;varheightweight;classsexage;outputout=result3mean=hmwmstd=hstdwstd;run;75第三节常用描述统计量计算如果只想计算height的均值,将height和weight的标准差分别存入hstd和wstd中,对weight单独计算方差存入vwt中。则程序为:procmeansdata=sashelp.classnoprint;varheightweight;classsexage;outputout=result4mean(height)=std=hstdwstdvar(weight)=vwt;run;76第四节数据的探索性分析在SAS系统当中提供了丰富的数据探索功能,通过各种各样风格各异的图表,我们可以对数据进行探索性的数据分析。本节的主要内容是介绍如何利用SAS系统来作各种统计图表,以形象地描绘数据,并进行探索性分析。77第四节数据的探索性分析一、利用INSIGHT模块的探索性分析SAS/INSIGHT提供了十分方便的数据探索功能。可以作直方图、盒形图、马赛克图、QQ图、经验分布图,也可以作散点图、曲线图、散点图矩阵等等。78第四节数据的探索性分析(一)直方图这里的直方图和前面所讲的频数直方图有所区别。若打开数据集class后,若要得到变量weight的密度直方图,可在下拉菜单选:1、Analyze=>Distrbution(Y)2、将weight选入Y3、output4、在弹出的对话框中选histogram/barchart5、OK7980第四节数据的探索性分析注意:此时直方图的纵坐标为密度(density)数值。与前面讲过的柱状图区别在于纵坐标不是频数或百分数。这里的密度也不是次数密度。81第四节数据的探索性分析拟合分布密度曲线
在制作了直方图后往往还希望拟合一个参数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学三年级数学三位数乘以一位数过关考核训练题带答案
- 四年级数学几百几十数乘以一位数单元考核模拟题带答案
- 2025年交通运输安全生产工作总结例文(二篇)
- 2025年人事人才网网络会员协议标准样本(2篇)
- 2025年度房地产销售合同备案与财务管理流程规范
- 2025年九年级班主任年终工作总结样本(2篇)
- 2025年度货运代理风险管理与控制合同范本
- 2025年事业单位工作人员年度考核的个人总结样本(二篇)
- 2025年二手设备买卖合同经典版(2篇)
- 2025年二手房买卖定金合同格式版(2篇)
- 必修3《政治与法治》 选择题专练50题 含解析-备战2025年高考政治考试易错题(新高考专用)
- 二零二五版电商企业兼职财务顾问雇用协议3篇
- 课题申报参考:流视角下社区生活圈的适老化评价与空间优化研究-以沈阳市为例
- 《openEuler操作系统》考试复习题库(含答案)
- 17J008挡土墙(重力式、衡重式、悬臂式)图示图集
- 《中南大学模板》课件
- 2024-2025学年人教版生物八年级上册期末综合测试卷
- 道教系统诸神仙位宝诰全谱
- 中国经济转型导论-政府与市场的关系课件
- 新视野大学英语读写教程 第三版 Book 2 unit 8 教案 讲稿
- 村务公开表格
评论
0/150
提交评论