第五章statar软件教程-描述性统计分析_第1页
第五章statar软件教程-描述性统计分析_第2页
第五章statar软件教程-描述性统计分析_第3页
第五章statar软件教程-描述性统计分析_第4页
第五章statar软件教程-描述性统计分析_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章描述性统计分析5.1描述性统计的原理5.1.1定性变量定义5.1对给定的类,类(或组)频数是指落入这个类中的观测值的个数。定义5.2对给定的类,类(或组)相对频率是指落入这个类中的观测值的个数相对于观测值总数的比例。因此,频率和频数是描述定性变量的两个重要指标。5.1.2.定量变量 集中趋势的度量:均值、中位数、众数。 变异程度的度量:极差、方差、标准差 相对位置的度量:标准得分 偏度和峰度:如果数据的分布是对称的,则偏度系数为0;如果偏度系数明显不等于0,表明分布是非对称的。若偏度系数大于1或者小于-1,被称为高度偏态分布。峰度通常是与标准正态分布比较,Stata计算的峰度系数未减3,故而是与3作比较而不是与0作比较。若峰度系数等于3则服从标准正态分布,反之则意味着分布比正态分布更尖或者更平。5.2描述性统计量的Stata实现使用summarize命令计算和导出描述性统计量summarize[varlist][if][in][weight][,options]summarize命令的选项及其含义detail

产生更加详细的统计变量,包括偏度、峰度、最小和最

大的四个值以及各种百分位数。meanonly 仅计算和显示平均数,本选项在编程中比较有用。format

使用变量的显示格式。separator(#) 每#个变量画一条分界线,默认为separator(5),separator(0)

禁止使用分界线。【例5-1】现在我们利用小时工资数据集举例说明summarize的使用。要求使用summarize命令对wage.dta执行如下操作:(1)对wage、educ、exper、tenure、nonwhite、female、married做基本的统计分析,(2)Summarize命令加上detail选项容许我们对某些重要的变量做更加详尽的分析,(3)在summarize后使用in或者if来限制条件,可以获得对某个子样本的描述性统计。(4)使用outreg2命令导出描述性统计量。使用tabstat命令计算描述性统计量.tabstatvarlist[if][in][weight][,options]选项 含义mean 平均数

count/n 观测值数目

sum 加总

max/min 最大值、最小值range 极差

sd 标准差var 方差

cv 变异系数(sd/mean)semean 平均标准误(sd/sqrt(n))skewness偏度

kurtosis

峰度median 中位数

p# #%百分位数iqr 四分位数间距(p75-p25)q 等价于写p25p50p75【例5-2】这里使用的是wage1.dta数据集,我们说明使用tabstat计算变量wage和log(wage)的相关统计量。(1)首先使用stat()要求定制输出地统计指标:观测值的个数、平均数、中位数、标准差、偏度、峰度,(2)如果在命令中加入选项col(stat)通过让统计量以列的方式呈现,可以使结果更便于分析和对比,(3)下面我们加入by(female)选项和long选项,要求Stata根据性别分别统计wage和lwage两个变量,并且标注变量名称:5.3探测异常值——箱线图 下面的第一个命令绘制纵向图,第二个命令绘制横向图。graphboxyvars[if][in][weight][,options]graphhboxyvars[if][in][weight][,options] graphbox命令的选项:over(varname[,over_subopts]):设定分组变量,变量可以是数值型或者字符型变量,可以设置多达三个的分组变量。[,over_subopts]可以指定用于排序的变量名称,也可以使用sort(1),则表明按照第一个分组变量排序。默认排序方式为从小到大,在[,over_subopts]加入descending则指定为按照中位数从大到小降序排列。by():另一种设置分组的方法,当分组变量过多时,利用该选项可以是图形更加美观明了。【例5-3】我们仍以wage数据集为例,说明箱线图绘制命令的使用。(1)首先在不加入任何选项的情况下绘制箱线图:(2)利用箱线图还可以比较不同性别的工资分布情况,5.4数据的正态性检验和数据转换 1.分位——正态图分位——正态图的绘制的命令格式如下,qnormvarname[if][in][,options] 2.正态性统计检验这里我们介绍进行偏度—峰度检验(sktest)、D’Agostino检验、Shapiro—WilkW检验和Shapiro—FranciaW’检验的Stata命令。各种正态性统计检验的命令格式和选项如下:①偏度—峰度检验sktestvarlist[if][in][weight][,noadjust]noadjust选项用未经调整过的检验结果代替Royston(1991)对整体卡方检验和显著性水平做调整后的结果,可能会降低检验的显著性水平,使拒绝原假设的可能下降。②Shapiro—WilkW检验swilkvarlist[if][in][,options] 该命令的选项及其含义是:generate(newvar):产生包含W检验系数的新变量;lnnormal:对ln(X-k)做正态性检验,其中k使得ln(X)偏度为0。我们使用lnskew0来确定k的取值。③Shapiro—FranciaW’检验sfranciavarlist[if][in]④D’Agostino检验sktestdcvarlist[=exp][ifexp][inrange][,noadjust] 【例5-4】下面我们依次举例说明这四个命令的使用,这里用到的数据仍然是小时工资数据集wage1.dta。首先我们对wage变量进行偏度—峰度检验,(2)接下来我们对wage变量分别进行W检验Swilk(Shapiro-WilkWtestfornormality)和W'检验Sfrancia(Shapiro-FranciaW'testfornormality),(3)最后演示D’Agostino检验,使用的命令是sktestdc,这里我们使用未经调整过的卡方检验,即添加noadjust选项:5.4.3改变数据的分布Stata提供了一个非常强大的工具“幂阶梯”(ladderofpowers)可以尝试表5-11所列的九种转换的可能,然后依次进行偏度——峰度检验。幂阶梯共有三个相关的命令,第一个命令ladder尝试表5.8所涉及到的九种转换,然后分别进行正态性检验,这是幂阶梯最基本的命令:laddervarname[if][in]接下来两个命令可以对这九种转换分别作直方图和分位正态图,以便直观地判断各种转换的可行性,它们的格式是:gladdervarname[if][in]qladdervarname[if][in]【例5-5】下面我们具体说明这三个命令的使用,这里仍然使用wage.dta数据集。(1)对wage尝试表5.11中的各种转换(2)尝试命令gladder以及分位—正态图的幂阶梯版本qladder,通过这两个命令可以非常轻松地比较每种转换的直方图和正态分布曲线。5.5相关系数常用的相关系数共有如下四种:Pearson相关系数、.Kendallτ相关系数、Spearman秩相关系数以及偏相关系数。Stata的相关系数命令不仅可以得到通常的相关系数,还可以计算协方差矩阵,更为有用的是它还提供了对缺失值的不同处理方法。Pearson相关系数correlate[varlist][if][in][weight][,correlate_options]pwcorr[varlist][if][in][weight][,pwcorr_options]【例5-6】使用数据集wage.dta,完成如下任务:(1)得到的wage、educ、exper、tenure之间的相关系数矩阵,(2)得到的wage、educ、exper、tenure之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论