Stata操作讲义资料_第1页
Stata操作讲义资料_第2页
Stata操作讲义资料_第3页
Stata操作讲义资料_第4页
Stata操作讲义资料_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Stata操作讲义

第一讲Stata操作入门

第一节概况

Stata最初由美国计算机资源中心(ComputerResource

Center)研制,如今为Stata公司的产品,其最新版本为7.0版。

它操作灵敏、简洁、易学易用,是一个特别有特色的统计分析软件,

如今已越来越受到人们的重视和欢送,并且和SAS、SPSS一起,被

称为新的三大权威统计软件。

Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版

整个系统只有10M左右,但已经包含了全部的统计分析、数据管理

和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大

小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全

部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极

快。

由于Stata的用户群始终定位于专业统计分析人员,因此他的操

作方式也独具匠心,在Windows席卷天下的时代,他始终坚持运用

嘱咐行/程序操作方式,拒不推出菜单操作系统。但是,Stata的嘱

咐语句极为简洁明快,而且在统计分析嘱咐的设置上又特别有条理,

它将一样类型的统计模型均归在同一个嘱咐族下,而不同嘱咐族又可

以运用一样功能的选项,这使得用户学习时极易上手。更为令人叹服

的是,Stata语句在简洁的同时又拥有着极高的灵敏性,用户可以充

分发挥自己的聪慧才智,娴熟应用各种技巧,真正做到为所欲为。

除了操作方式简洁外,Stata的用户接口在其他方面也做得特别简

洁,数据格式简洁,分析结果输出简洁明快,易于阅读,这一切都使

得Stata成为特别相宜于进展统计教学的统计软件。

Stata的另一个特点是他的很多高级统计模块均是编程人员用其

宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添

加和下载。用户可随时到Stata网站找寻并下载最新的晋级文件。事

实上,Stata的这一特点使得他始终处于统计分析方法开展的最前

沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这

也使得Stata自身成了几大统计软件中晋级最多、最常见的一个。

由于以上特点,Stata已经在科研、教化领域得到了广泛应用,

WHO的探讨人员如今也把Stata作为主要的统计分析工作软件。

第二节Stata操作入门

一、Stata的界面

图1即为Stata7.0启动后的界面,除了Windows版本的软件

都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗

口构成,分述如下:

1.结果窗口

位于界面右上部,软件运行中的全部信息,如所执行的嘱咐、执

行结果和出错信息等均在这里列出。窗口中会运用不同的颜色区分不

同的文本,如白色表示嘱咐,红色表示错误信息。

2.嘱咐窗口

位于结果窗口下方,相当于DOS软件中的嘱咐行,此处用于键入

须要执行的嘱咐,回车后即开场执行,相应的结果则会在结果窗口中

显示出来。

3.嘱咐回忆窗口

即review窗口,位于界面左上方,全部执行过的嘱咐会依次在该

窗口中列出,单击后嘱咐即被自动拷贝到嘱咐窗口中;假设须要重复

执行,用鼠标双击相应的嘱咐即可。

4.变量名窗口

位于界面左下方,列出当前数据与中的全部变量名称。

除以上四个默认翻开的窗口外,在Stata中还有数据编辑窗口、

程序文件编辑窗口、扶植窗口、绘图窗口、Log窗口等,假设须要运

用,可以用Window或Help菜单将其翻开。

二、数据的录入与储存

Stata为用户供应了简捷,但是特别完善的数据接口,熟识它的用

法是运用Stata的第一步,在Stata中读入数据可以有三种方式:干

脆从键盘输入、翻开已有数据文件和拷贝、粘贴方式交互数据。

(1)从键盘输入数据

在Stata中可以运用嘱咐行方式干脆建立数据集,首先运用input

嘱咐制定相应的变量名称,然后一次录入数据,最终运用end语句

说明数据录入完毕。

例1在某试验中得到如下数据,请在Stata中建立数据集。

观测数据:X13579,F246810

解:此处须要建立两个变量木匕分别录入相应数值,Stata中

的操作如下,其中划线局部为操作者输入局部。

.dropall

.inputxy

xy

1.12

2.34

3.56

4.78

5.91。

6.end

⑵用Stata的数据编辑工具

①进入数据编辑器

进入stata界面,在命令栏键入edit或在stata的window下拉菜单中单击[dataeditoij

图2

②数据编辑

Stata数据编辑器界面:此时进入了数据全屏幕编辑状态。

RFrl

图3

在第一列输入数据后,Stata第一列自动命名为varl;在第二列

输入数据后,第二列自动命名为var2……依次类推。在输入数据后,

双击纵格顶端的变量名栏(如:Vari或Var2处),可以更变更量名,

并可以在label栏中注释变量名的含义,点击国确认(如图4所示)。

仍沿用上例,双击视察值所在列顶端的变量名栏,更变更量名为x,

并在label栏中注明“7岁男童身高/cm”。

图4

数据输入完毕后,单击国亟键确认所输数据,按关闭键X即可

退出编辑器。

^121211

数据输入完毕后,单击国亟认所输数据,按关闭键区即可退出

编辑器。

(3)拷贝、粘贴方式交互数据

Stata的数据编辑窗口是一个简洁的电子表格,可以运用拷贝、粘

贴方式干脆和EXCEL等软件交互数据,在数据量不大时,这种方式

操作极为便利。

例2如今EXCEL中已录入了三个变量,共五条记录,格式见下

图,请将数据读入Stata。

解:首先将EXCEL中的A1-C6全部18个单元格选中,选择

菜单编辑©复制,将数据拷贝到剪贴板上;然后切换到Stata,选择

菜单Window->DataEditor,翻开数据编辑窗口;再选择

Edit->Paste,相应的数据就会被干脆粘贴如数据编辑窗口中,并且

变量名、记录数、变量格式等均会被自动正确设置,见图6和图7。

ABc

1Xyz

212Q

334wqw

456e

578dfw

6910f

图6在EXCEL中的数据格式图7粘贴入Stata后的数据格式

(4)翻开已有的数据文件

Stata可以干脆翻开的数据文件只能是自身专用格式或者以符号

分隔的纯文本格式,后者第一行可以是变量名,分述如下:

①点击图标回,然后选择途径和文件名,可以翻开Stata专用

格式的数据文件,并且扩展名为dta。

②翻开Dta数据文件:该格式文件是Stata的专用格式数据文件,

也运用use嘱咐即可翻开,例如要翻开数据文件“C:\dataLdta”,

则嘱咐为:

.usec:\datal

即扩展名可以省略,假设Stata中已经修改或者建立了数据集,

则须要运用clear选项去除原有数据,嘱咐为:

.usec:\datal,clear

②读入文本格式数据:须要运用insheet嘱咐实现,例如须要读

入已建立好的文本格式数据文件“C:\datal.txt",则嘱咐为:

.insheetusingc:\datal.txt

该嘱咐会自动识别第一行是否为变量名,以与变量列间的分隔符

是tab、逗号还是其他字符。假设Stata中已经修改或者建立了数据

集,则须要运用clear选项去除原有数据,嘱咐为:

.insheetusingc:\datal.txt,clear

(5)数据文件的保存

为了便利以后重复运用,输入Stata的数据应存盘。Stata事实

上只能将数据存为自身专用的数据格式或者纯文本格式,分述如下:

①点击图标IW,然后选择途径和文件名,点击画。

②存为dta格式:可以干脆运用文件菜单,也可以运用save嘱

咐操作,如欲将上面建立的数据文件存入“C:\”中,文件名为

Data1.dta,则嘱咐为:

.savec:\datal

filec:\datal.dtasaved

该指令将在C盘根书目建立一个名为“dataLdta”的Stata数

据文件,后缀dta可以在嘱咐中省略,会被自动添加。该文件只能在

Stata中用use嘱咐翻开。如所指定的文件已经存在,则该嘱咐将给

出如下信息:filec:\datal.dtaalreadyexists,告知用户在该目的

盘与子书目中已有一样的文件名存在。如欲覆盖已有文件,则加选择

项replace。嘱咐与结果如下:

.savec:\datal.dta,replace

filec:\datal.dtasaved

3.存为文本格式:须要运用。utsheet嘱咐实现,该嘱咐的根本

格式如下。

outsheet[变量名列表]using文件名[,nonamesreplace]

其中变量名列表假设省略,则将全部变量存入指定文件。如欲将

上面建立的数据文件存入文本文件“C:\datal.txt”中,则嘱咐为:

.outsheetusingc:\datal.txt

此时建立的文件datal.txt第一行为变量名,第2-6行为变量值。

变量列间用Tab键分隔。假设不渴望在第一行存储变量名,则可以

运用nonames选项。假设文件已经存在,则须要运用replace选项。

第二讲统计描绘入门

例调查某市1998年110名19岁男性青年的身高/cm资料如下,

计算均数、标准差、中位数、百分位数和频数表。

173.1167.8173.9176.9173.8171.5175.1175.2176.7174.5

169.2174.7185.4175.8173.5175.9175.9173.2174.8177.2

171.9166.0177.3175.2179.8175.7180.8171.4178.9172.6

166.9170.8168.7175.0183.7171.6172.9173.6177.7172.4

181.2178.1173.3177.5173.0174.3174.5172.5171.3174.0

177.9170.7175.2178.5177.6183.3173.1170.9180.5176.8

179.6180.6176.6174.3168.7175.2179.5172.5173.0174.2

169.5177.0183.6170.3178.8181.1182.9177.8164.1169.1

176.3169.4171.1172.9177.0179.8178.2174.4169.2176.4

178.3165.0175.8181.0177.6177.4178.7175.1181.8171.3

174.8181.7177.3178.5179.3177.0175.8181.8177.5180.2

Stata数据构造(读者可以把数据干脆粘贴到Stata的Edit窗口)

在介绍统计分析嘱咐之前,先介绍翻开一个保存统计分析结果的

文件操作:

点击log图标,然后选择路径和输入保存结果的文件

名,建议选择扩展名为log的文件,这样以后统计分

析结果都将保存在这个文件中并且可以用word打开

和编辑.当分析结束时,仍点击该图标,关闭文件.

计算样本的均数、标准差、最大值和最小值

嘱咐l:su变量名(可以多个变量:即:SU变量名1变量名2…

变量名m)

嘱咐2:su变量名,d(可以多个变量:即:su变量名1变量名

2…变量名m,d)

本例嘱咐sux

PercentilesSmallest

1%165164.1

5%168.7165

10%169.45166Obs110

25%172.9166.9SumofWgt.110

50%175.2Mean175.3655

LargestStd.Dev.4.222297

75%178.1183.3

90%180.9183.6Variance17.82779

95%181.8183.7Skewness1756947

99%183.7185.4Kurtosis2.895843

本例嘱咐.sux,d

结果说明

Smallest最小值Obs110样本量

164.1第1最小值SumofWgt.110加权和(即每个

165第2最小值记录的权是1)

166第3最小值Mean175.3655均效

166.9第4最小值Std.Dev.4.222297标准差

Largest最大值Variance17.82779方差

183.3第4最大值Skewness1756947偏度系数

183.6第3最大值Kurtosis2.895843峰度系数

183.7第2最大值

185.4第1最大值

百分位数

Percentiles

1%=E

165

5%*

168.7

10%

169.45

百分位数月表示样本中的数据小于等2

25%=Bs

并且(loo—M%的数据大于等于月.

172.9

特别:当就是中位数,表示一半的数据小于

等于它,另一半的数据大于等于它.本例:

50%=/so

4=175.2

175.2

样本量obS=110,因此有55个数据小于等

于175.2,另有55个数据大于等于175.2

75%=&

178.1

90%;兄

180.9

95%出

181.8

99%二凡9

183.7

计算百分位数还可以用专用嘱咐centileo

centile变量名(可以多个变量),centile(要计算的百分位数)例如

计算巳.5,a7.5等centile变量名,centile(2.597.5)

本例计算三,5,87.5,P50'>「25,075。

本例嘱咐.centilex,centile(2.525507597.5)

-Binom.Interp.一

Variable|ObsPercentileCentile[95%Conf.Interval]

x11102.5165.775164.1168.7*

125172.825171.3314173.6267

150175.2174.5176.6789

175178.125177.3179.4371

197.5183.6225181.8185.4*

*Lower(upper)confidencelimitheldatminimum(maximum)ofsample

结果说明

PercentileCentile百分位数

2.5165.775=^z.s

25172.825

50175.2=&仲位数)

75178.125二Rs

97.5183.6225=&s

制作频数表,组距为2,从164开场,

genf=int((x-164)/2)*2+164其中int()表示取整数

tabf频数汇总和频率计算

频数频率累积频率

f1Freq.PercentCum.

164|21.821.82

166|32.734.55

168|76.3610.91

170|1110.0020.91

172|1614.5535.45

174|2320.9156.36

176|2018.1874.55

178|1311.8286.36

180|109.0995.45

182|43.6499.09

184|10.91100.00

Total|110100.00

作频数图

嘱咐graph变量,bin(#)norm

其中#表示频数图的组数;norm表示画一条相应的正态曲线(可以

不要)

本例嘱咐为graphx,bin(8)norm

必4

为了使坐标更清晰地在图上显示,可以输入下列嘱咐

graphx,bin(8)xlabelnormylabel

图形可以从Stata中复制到word中来,操作如下:

IntercooledStata7.0

点击Edit

后,再点击

CopyGre0

edit

sux

sux,d

centilex,centile(2.5

然后到Word中粘贴和编辑,便可以得到所须要的图形。

计算几何均数可以用means变量名(可以多个变量:即:means

变量1…变量m)

meansx

Variable|TypeObsMean[95%Conf.Interval]

x|Arithmetic110175.3655174.5676176.1634

Geometric110175.3149174.5168176.1166

Harmonic110175.2642174.4657176.07

Arithmetic(算术均数)Geometric(几何均数)调和均数

(Harmonic)

作Pie图描绘构成比:每一类的频数用一个变量表示,嘱咐:

graph各类频数变量名,pie

例:下列有2个地区的血型频数分布数据,请用Pie描绘:

频数

地区AB0AB

第1地区area=l10012024075

第2地区area=2807020050

Stata数据格式

ab0abarea

1100120240751

28070200502

第1地区血型构成比的Pie图的嘱咐和图

graphaboabifarea==l,pie

19%A

22%B

留意逻辑表达式中ifarea==l是两个等号。

第2地区血型构成比的Pie图的嘱咐和图

graphaboabifarea==2,pie

20%A

18%B

两个地区合并后的血型构成比的Pie图的嘱咐和图

19%A

20%B

正态性检验.swilk变量名1变量名2­••变量名m

在上例中的11。名19岁男性青年的身高资料正态性检验如下:

.swilkx

Shapiro-WilkWtestfornormaldata

Variable|ObsWVzProb>z

XI1100.995000.447-1.7970.96381

无效假设品:资料听从正态分布

备选假设印:资料不听从正态分布

设a=O.O5(样本比拟大时,a取0.05,样本很小时,a取0.1)

Prob>z户值

.96381=产值>0.05

因此可以认为资料近似听从正态分布。

计量资料统计描绘的主要策略小结

若资料近似正态分布,则用均数土标准差描绘

若资料偏态分布(频数图明显不对称),则用中位数(吕5一尸75)描

P25---尸75称为四分位数范围(Inter-quartilerange,IQR)

但在一些临床试验资料统计分析时,往往给出样本均数、标准差、

中位数、四分位数范围、最小值和最大值,但对结果的主要说明依据

上述策略进展进展。

第三讲概率分布和抽样分布

概率分布累积函数

1.标准正态分布累积函数norm(A)

2.1分布右侧累积函数ttail(d/,因,其中以是自由度

3."分布累积函数chi2(",因,其中也是自由度

4.4分布右侧累积函数chi2tail(d7,A),其中"是自由度

5.斤分布累积函数F(d〃,df2,困,d〃为分子自由度,df2为

分母自由度

6.F分布右侧累积函数网df2,因,d〃为分子自由度,df2

为分母自由度

累积函数的计算运用

正态分布计算

x服从可。,1),计算概率尸(X<1.9。

.displaynorm(L9。

.9750021即概率P(X<1.96)=0.9750021

display可简写为di,如:dinortn(1.96).同样可以得到上述结果.

X服从凶8,»计算概率F(X>1.96),贝U

.dil-norm(1.96)

.0249979即癖P(X>1,96)=0.0249979

X服从NdQ2),则y=4二巴~笈(0,1),因此对其他正态分布只要在函数括号中插入一个

上述表达式就可以得到相应概率.

例如:X服从阳100,62),计算概率在年111.76),则操作如下

.dinonn((lll.76-100)/6)

,9750021即:P(X<111,76)=0.9750021

又如X服从100,6)计算概率玳为90),操作如下

.dil-nomn((90-100)/6)

.95220965

炉分布累积概率计算

设X服从自由度为1的炉分布,计算概率也心3.84),则操作如下

.dil-chi2(l,3.84)

.05004353概率P(X>3.84)=0.05004353

设X服从自由度为3的寸分布,计算概率P(X5),则操作如下一

.dichi2(3,5)

.82820288概率P(X<5)=0.82820288

户分布右侧累积概率计算

设X服从自由度为1的寸分布,计售概率也G3.84),则操作如下

.dichi2tail(l,3.84)

.05004353概率P(X>3.84)=0.05004353

设万服从自由度为3的炉分布,计算概率尸(X<5),则操作如下

.dichi2(3,5)

.82820288WP(X<5)=0.82820288

,分布右侧累积概率计算

设才服从自由度为10的?分布,计算概率共>22),操作如下

.dittail(10,2.2)

,02622053概率P(t>2.2)=0.02622053(注意:这是右累积函数)

设才服从自由度为10的上分布,计算概率%<一外操作如下

.dil-ttail(10,-2)

.03669402概率P(t<-2)=0.03669402

支分布累积概率计算

设尸月飒川(3,27),计算概率广阴》操作如下:

.diF(3,27,l)注意这里的函数是大写'F,stata软件中是区分大小写的

.59208514概率(F<1)=0.59208514

设9月飒产(4,40),计算概率尸(尸>3),操作如下:

.dil-F(4,40,3)

.02954694WP(F>3)=0.02954694

产分布右侧累积概率计算

设歹服从歹口,27),计算概率操作如下:

.di1-Ftail(3,27,l)注意这里的函数是大写F,stata软件中是区分大小写的

.59208514概率P(Fv1)=0.59208514

设尸服此”4,40),计算概率操作如下:

.diFtail(4,40,3)

.02954694WP(F>3)=0.02954694

t分布的临界值计算函数invchi2tail(也0)

例如计算自由度为28的右侧累积概率为0.025的临界值5.a操作如下

.diinvttail(28,0.025)

2.0484071临界值t物广2.0484071

然分布的临界值计算函数invchi2(以为或invchi2tail(瓶月

例如:计算自由度为1的/右侧累积概率为0.05的临界值/。步操作如下:

.diinvchi2(l,0.95)

3.8414591临界值e)a=3.8414591

或者操作如下:一

.diinvchi2tail(l,0.05)

3.8414591临界值%%必=3.84145gl

产分布的临界值计算函数inv巴切,拦产)或inv网切,羽门

例如计算分子自由度为3和分母自由度27的右侧累积概率为(W5的临界值,操作如下:

.diinvF(3,27,0.95)

2.9603513临界值FOJ05(3,27)=2.9603513

产生随机数

计算机所产生的随机数是通过一串很长的序列数模拟随机数,故

称为伪随机数,在实际应用这些随机数时,这些随机数一般都能具有

真实随机数的全部概率性质和统计性质,因此可以产生许很多多的序

列伪随机数,一个序列的第一个随机数对应一个数,这个数称为种子

数(seed),因此可以利用种子数,使随机数重复实现。

设置种子数的嘱咐为setseed数。每次设置同一种子数,则产生

的随机序列是一样的。

产生(0,1)区间上的匀整分布的随机数uniform()

例如产生种子数为100的20个在(0,1)区间上的匀整分布的随机

数,则操作如下:

clear去除内存

setseed100设置种子数为100

setobs20设置样本量为20

genr=uniform()产生20个在(0,1)区间上匀整分布的随机数。

list显示这些随机数

结果如下

1..7185296

2..1646728

3.,9258041

4.,1833736

5..0067327

6..7413361

7..3599943

8..1634543

9.,445553

10..6489049

11..3799431

12..5964895

13..0251346

14..2164402

15.,6848479

16..1270018

17..6466258

18.,1869288

19..4522384

20..067132

利用匀整分布随机数进展随机分组:

例:某试验要把20只大鼠随机分为2组,每组10只,请制定随

机分组方案和措施。

第一步、把20只大鼠编号,1,2,3,4,5,6,7,8,9,10,

11,12,13,14,15,16,17,18,19,20。并且标明。

第二步、用Stata软件制定随机分组方案,操作如下:

clear清除内存

setseed200设置种子数为200

setobs20设置样本量为20

rangeno120建立编号1至20

gent^=uniform()产生在(0,1)均匀分布的随机数

gengroup=l设置分组变量group的初始值为1

sortr对随机数从小到大排序

replacegroup=2in11/20设置最大的10个随机数所对应的记录为第2组,即:

最小的10个随机数所对应的记录为第1组

sortno按照编号排序

list显示随机分组的结果

结果如下:

norgroup

1.95120072

2,52498762

3

3.51299861

4.4,1264391

5.5,58661612

6.

6,70592092

7&.7,26332861

8,56446882

9.9.11710331

10.

11.10.9540652

1211,48228631

12.33477361

13

113.56789022

14.14.79944312

5.15.11805031

16.

178.16.98342992

1017,28078741

C

1518.0952451

219,94460512

20.34675241

随机分组整理如下

第一蛆

编号3479111215171820

第二组

编号125681013141619

N产生服从正态分布(〃,GJ》的随机数invnorm(unifonn())cr+.例如产生10个服从正

态分布#。00,D2)的随机数,操作如下:

clear清除内存

setseed200设置种子数为200

setobs10设置样本量为10

genxMnvnorm(uniform())*6+100产生服从曾(100,62)的随机数

list显示随机数

结果如下:

1.109.9397

2.100.3761

3.100.1955

4.93.13968

5.101.3131

6.103.249

7.96.2013

8.100.9739

9.92.86244

10.110.1137

教学应用:考察样本均数的分布。

由于个体变异的缘由,样本均数刀的抽样误差(其定义为样本均数

与总体均数的差值)是不行避开的,并且样本均数的抽样误差是呈随

机变更的。对于一次抽样而言,无法考察样本均数的抽样误差的规律

性,但当大量地重复抽样,计算每次抽样的样本均数刀,发考察样

本均数的随机分布规律性和统计特征。举例如下:

利用计算机模拟产生1OOOOO个听从正态分布川100,6。的样本,

样本量分别为刀=4,n=9,n=16,n=36,每个样本计算样本均

数。这里关键处是要清晰什么是样本量(每次抽样所视察的对象个数,

也就是每个样本的个体数n)、什么是样本个数(指抽样的次数),现以

刀=4为例,一条记录存放一个样本,样本量力=4,也就是每个样本

的第1个数据放在第1歹IJ,第2个数据放在第2列,第3个数据放

在第3列,第4个数据放在第4歹!J,因此第1行是第一个样本,第

2行是第2个样本,第100000行是第100000个样本,计算样本

均数放在第5歹因此共有100000个样本均数。具体操作如下:

clear清除内存

setmemory60m扩大虚拟内存为60M

setobs100000设置记录数为100000

setseed200设置种子数为200

genx1MnvnornXunifomi())*6+100产生第1个随机数据

genx2=invnorm(uniform0)*6+100产生第2个随机数据

genx3=dnvnonn(uniforrn())*6+100产生第3个随机数据

genx4=invnorm(unifbnnO)*6+100产生第4个随机数据

genmean=(x1+x2+x3+x4)/4计算平均数,并且存放在变量名为

mean

sumean以样本均数为数据,计算其平均值和

标准差

结果

Variable|ObsMeanStd.Dev.MinMax

mean|10000099.983883.00222587.97424112.0461

现共有100000个样本,每个样本计算一个样本均数,因此有

100000个样本均数,如今把一个样本均数发视为一个数据,把

100000个样本均数视为一个样本量为100000的新样本(这个样本

里有100000个刀),计算这100000个3的平均值和标准差:得

到:

这100000个刀的平均值=99.98388特别接近总体均数口=100

这100000个了的标准差=3.002225(理论上可以证明样本均数的

总体均数与样本所在的总体的总体均数一样,样本均数的标准差

样本所在总体的总体标准差

=赤)

再考察这100000个刀的频数图

graphmean,bin(50)xlabelylabelnorm

可以觉察正态分布的样本均数仍呈正态分布,峰的位置在4=

100o再考察这100000个发的百分位数

—Binom.Interp.一

Variable|ObsPercentileCentile[95%Conf.Interval]

mean|1000002.594.1122494.0593494.15675

|595.0483195.0075895.08677

|5099.9767299.95568100.0002

|95104.9248104.8881104.9571

|97.5105.8656105.8161105.9181

比较理论上的百分位数

百分位数Stata操作理论百分位数模拟百分位数

PKSdi100+invnorm(0.025)*394.12010894.11224

Rdi100+invnorm(0.05)*395.06543995.04831

di100+invnorm(0.5)*310099.97672

Rsdi100+invnorm(0.95)*3104.93456104.9248

di100+invnorm(0.975)*3105.87989105.8656

P,T.5

可以觉察理论上的百分位数与模拟数据的百分位数特别接近。可

以证明:样本量越大,这种刀的误差小的可能性越大。

由于在实际探讨中,只有一个样本,因此只有一个样本均数,无

法如模拟数据一样计算样本均数的标准差,但是一个样本的数据可以

计算样本的标准差S近似d利用样本均数的标准差关系,间接

估计得到样本均数的标准差估计为,为了区分样本的标准差和样

本均数的标准差,故称为标准误。

为了扶植大家便利地进展模拟实习,特地编制的相应的Stata模

拟程序:模拟正态分布的样本均数分布的模拟程序simumean.ado

复制到Stata软件安装的书目下的子书目ado'base。例如:Stata

软件安装在D:\stata,则simumean.ado复制到

d:\stata\ado\base然后启动Stata软件后,输入连接嘱咐:netset

adod:\stata\ado\base

若Stata安装在其他书目下,则相应变更上述途径便是(这是一次

性操作,以后无需再重复进展)。这是模拟抽10000个正态分布的样

本,具体说明如下:

举例说明

simumean样本量均数标准差

例如模拟抽1000。个正态分布的样本,样本量为4、总体均数是

20、标准差为6,则操作如下:

simumean4206

得到下列结果(随机的)

Variable|ObsMeanStd.Dev.MinMax

mean|1000019.993522.9906168.34450631.40937

ssdI100005.5114692.346368.25849615.51934

即10000个样本均数(视为一个新的样本数据)的平均值为19.99352*总体均数20,10000

个样本均数的标准差=2.990616级A=总体可准差=3•

变量样本量%百分位数

-Binom.Interp.一一

VariableIObsPercentileCentile[95%Conf.Interval]

mean|100002.514.1962914.0139214.31436

1515.0889914.9628115.2017

150

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论