版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
stata中变量描述分析和实际作图进行描述性统计分析的目的:对数据进行描述性分析的目的是熟悉和了解数据的基本统计特征,把握数据的总体分布形态,进而决定如何对数据作进一步处理,进而回答所要研究的问题。stata中变量描述分析和实际作图本章主要内容.频数分布.条件频数分布.频数分布的常见错误分析及解决方法.变量的中央趋势和离散趋势.描述数值型数据统计量的其它方法.画图stata中变量描述分析和实际作图数据描述的方法获得数据的目的是为了描述和分析数据,回答研究问题数据分析的第一步是描述变量的基本特征。只有在熟悉数据的基本特征和变量分布的基础上,才能决定如何对数据作进一步处理描述性统计通过一系列的程序帮助组织、归纳、总结样本的基本特征。常见的方法包括频数分布、百分比、分位数、均值和标准差、中数、众数、最大值和最小值等单变量分析(univariateanalysis)。考察变量的属性分布二元或多元交叉表、二元相关关系分析图形stata中变量描述分析和实际作图描述性分析的菜单窗口该内容是statistics菜单下的首个选项:Statistics–Summaries,tables&testsstata中变量描述分析和实际作图.频数分布频数、比例(proportion)、百分比(percentage)和比率(ratio)等描述性统计方法适用于所有类型数据,包括定性、定序、定距和定比数据。stata中变量描述分析和实际作图频数与频数分布频数也称次数,即分布在各个类别中的数据个数频数分布就是对样本中变量的不同属性出现次数的描述假如一个班60%的同学是女生,40%的同学是男生,则60%和40%是女生和男生的分布情况2000年人口普查显示,中国7%的人群年龄在65岁及以上,则7%是当时老年人口在总人口中所占的比例stata中变量描述分析和实际作图菜单窗口在Stata的窗口菜单下,有多种描述数据频数分布特征的选项,每一选项都具有一定独特的功能,但有些功能是相通的stata中变量描述分析和实际作图stata中变量描述分析和实际作图单变量频数分布.tab[变量名]
①②
①:.tab也可写为tabulation,是获得频数分布的基本命令
②:需要输出频数分布的变量名称该命令不对频数分布作任何定义,只提供单个变量的频数分布.tabgirl该命令告诉Stata,给变量girl生成一张频数分布表stata中变量描述分析和实际作图girlin|2004,0=boy|---1=girl|Freq.PercentCum.------------+-----------------------------------------------+-----------------------------------
输出结果显示,该数据一共有2324个观察值变量girl有两个取值:0代表男孩,1代表女孩样本中有1248个男孩,占53.7%;女孩为1075,占46.3%stata中变量描述分析和实际作图多变量频数分布.tab1[变量a
变量b
变量c]
①②
①:同时获得多个变量频数分布的基本命令
②:需要输出频数分布的变量名称与tab或tabulate不同的是,.tab1可接多个变量
.tabgirlurban该命令告诉Stata,给变量girl和urban各自生成一张频数分布表stata中变量描述分析和实际作图.条件频数分布条件频数分布也称交叉频数表为或列联表,同时生成两个变量之间关系的频数分布,属于相关分析中的一种.stata中变量描述分析和实际作图基本命令.tab提供、且只能提供双变量的交叉分析,生成二者之间的交叉频数分布,相当于命令tabulate若其令后面仅有一个变量,则Stata输出该变量的频数分布若多于两个变量,则会出现错误提示Stata的默认方法是,tab后面的第一个变量被当成行变量,第二个变量被当成列变量.tab2也提供双变量的交叉分析表.tab和tab2的主要区别在于,前者仅可以用于两个变量的交互分析(tab后面最多只能有两个变量);tab2可同时生成多个两两变量之间的交互频数分布表stata中变量描述分析和实际作图例1.tabgirlenroll,chi2
column
row
miss
nokey
①②③④⑤①:提供两个变量关系的卡方②:提供列变量的百分比③:提供行变量的百分比④:提供缺失变量的比例⑤:压缩单元格内容的提示stata中变量描述分析和实际作图stata中变量描述分析和实际作图.频数分布的常见错误之一toomanyvariablesspecified导致I类错误的原因在于,混淆了tab,tab1,tab2的用法.tab可用于生成单个变量的频数分布,其后只能接一个变量;.tab也可用来描述两个变量的交叉分布,其后面只能接两个变量tab1后面可以接多个变量,但只能分别生成单个变量的频数分布,而不能生成交叉表tab2则可以生成多个双变量的交叉表因此,若使用下列命令,则会遇到这类错误.taburbanyrschenrolltoomanyvariablesspecifiedr(103);stata中变量描述分析和实际作图.频数分布的常见错误之二toomanyvalues导致这类错误的原因在于,在试图生成两个变量的交叉表时,每个变量都包含太多的取值。比如:.tabageweight.toomanyvalues(变量的取值太多)这里,变量age和weight均为连续变量,且都有很多的取值,尤其是weight若需要生成二者之间的交叉表,可以限制其中一个或两个变量的取值,或者将它们转换为分类变量stata中变量描述分析和实际作图.变量的中央趋势和离散趋势stata中变量描述分析和实际作图集中趋势:众数数据分布的一种表现形式。频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布逐渐增加描述集中趋势的方式包括:众数、均值、中位数众数(mode):最常出现的观察值或属性如果在全班30个学生中,20个18岁的学生、5个19岁、5个20岁,则18是众数众数适用于所有类型数据,但主要用于测度分类数据的集中趋势一个数据可以有两个或多个众数,故众数具有不唯一性的特点
stata中变量描述分析和实际作图集中趋势:算术均值(mean,average)加总多个观察值,除以总观察量得到的数值适用于正态分布或者近似正态分布;均数受特大值和特小值的影响,会偏大或偏小,故对偏态分布的资料,均数的代表性差,不适合描述偏态分布的集中趋势;全域(总体)均数称为µ;样本均数称为stata中变量描述分析和实际作图集中趋势:中位数(median)将一组数值从小到大排列后,位于中间的数值;若5个人的年龄分别为1,3,6,8,32,则中位数为6(均值为10);中位数度量方式适用于偏态分布数据。中位数不受两端特大值和特小值的影响,只和位置居中的观察值有关;对于正态分布,理论上中位数等于均数;stata中变量描述分析和实际作图离散趋势:极差或者全距(range,R)数据分布的另一种表现形式。从中心到两侧,频数分布逐渐减少。反映了数据的离散程度或变异程度;描述离散趋势的方法包括:级差、方差、标准差;极差或者全距(range,R):表示变量取值中的最大值和最小值之差。适合所有分布类型的数据;R=最大值-最小值计算简单,但不能反映所有变量值的变异程度,易受最大值和最小值的影响,不稳定stata中变量描述分析和实际作图离散趋势:方差(variance)方差(variance):表示一组变量取值的平均离散程度。方差越大,离散或者变异程度越大。适合描述近似正态分布资料的离散趋势。stata中变量描述分析和实际作图离散趋势:标准差(standarddeviation)方差的开方,和均数的单位一致,也是数据波动性的一种度量,即是对围绕均值的离散趋势的测量标准差和方差是实际中应用最广的测量离散程度的统计量如果一个变量具有正态分布,则均值68%的数值将会位于离平均值加减一个标准差的范围内;95%的个案将会位于加减两个标准差的范围内;99.9%的个案将会位于加减三个标准差的范围内标准差越小,数据的分布就越围绕均值聚集;标准差越大散,数据的分布就越分散。stata中变量描述分析和实际作图离散趋势:标准差(II)适合描述近似正态分布资料的离散趋势方差或标准差都是根据全部数据计算的,反映了每个数据与其均值相比平均相差的数值,因此能准确地反映数据的离散程度计算公式:stata中变量描述分析和实际作图离散趋势:自由度为什么样本标准差的分母是n-1呢自由度:一组数据中可以自由取值的个数。当样本的个数为n时,若样本均值确定后,必有一个数据不能自由取值。因此,只有n-1个数据可以自由取值;假如样本有3个数值,x=4,y=8,z=18,则均值=10。当均值=10确定后,x,y,z中只有两个数可以自由取值;在抽样估计中,当用样本方差去估计总体方差时,样本方差是总体方差的无偏估计量。stata中变量描述分析和实际作图正态分布与偏态分布stata中变量描述分析和实际作图正态分布(normaldistribution)一个变量的集中位置居中,左右两侧频数基本对称的分布从形态上看,正态曲线两头低、中间高、左右对称正态分布是一条单峰、对称呈钟形的曲线,其对称轴为x=μ,并在x=μ时取最大值。从x=μ点开始,曲线向正负两个方向递减延伸,不断逼近x轴,但永不与x轴相交,因此说曲线在正负两个方向都是以x轴为渐近线的其性质如下:函数方程中μ为位置参数;σ为形状参数若σ不变,函数曲线形状不变。μ变大时,曲线位置向右移;μ变小时,曲线位置向左移若μ不变,函数曲线位置不变。σ变大时,曲线形状变得越来越胖、矮;σ变小时,曲线形状变得越来越瘦、高stata中变量描述分析和实际作图正态分布.histogramyrschifyrsch<=13,percentstart(0)width(1)normalstata中变量描述分析和实际作图偏态分布数据的集中位置偏向一侧,频数分布不对称。偏态分布有两种表现形式正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部.histogramweight,percentstart(0)normalysize(4.5)xsize(2.5).histogramheight,percentstart(0)normalysize(4.5)xsize(2.5)stata中变量描述分析和实际作图6.5描述性统计.sum[连续变量]
该命令给出标准统计量。输出结果包括:
ObsMeanStd.Dev.MinMax(观察量)(均值)(标准差)(最小值)(最大值).sum[连续变量],detailsumm或summarize得出同样的结果stata中变量描述分析和实际作图标准信息描述.sumageyrschweightheightVariable|ObsMeanStd.Dev.MinMax-------------+--------------------------------------------------------age|234110.092275.283423019yrsch|18306.0316943.440358015weight|210334.8563518.54676.4151由于缺失值个数的差异,几个变量的观察值都不一样stata中变量描述分析和实际作图详细情况描述.sumage,detailagein2004-------------------------------------------------------------PercentilesSmallest1%005%1010%20Obs232125%50SumofWgt.232175%1418stata中变量描述分析和实际作图变量age有2321个观察值最小值为0,最大值为191%的样本为0岁5%的样本1岁或以下10%的样本2岁或以下25%的样本5岁或以下
……99%的样本在19岁及以下样本的均值为;标准差为;Variance、Skewness和Kurtosis分别表示样本的方差为、偏移度为和年龄分布的峰度为。stata中变量描述分析和实际作图.描述数值型数据统计量的其它方法stata中变量描述分析和实际作图均值估计(mean).meangirlurbanMeanestimationNumberofobs=5381--------------------------------------------------------------|MeanStd.Err.[95%Conf.Interval]-------------+------------------------------------------------girl|.4781639.0068103.464813.4915148urban|.1908567.0053577.1803535.2013599--------------------------------------------------------------stata中变量描述分析和实际作图比例估计(proportion).proportiongirlurbanProportionestimationNumberofobs=5381--------------------------------------------------------------|BinomialWald|ProportionStd.Err.[95%Conf.Interval]-------------+------------------------------------------------girl|_prop_1|.5218361.0068103.5084852.535187_prop_2|.4781639.0068103.464813.4915148-------------+------------------------------------------------urban|_prop_3|.8091433.0053577.7986401.8196465_prop_4|.1908567.0053577.1803535.2013599--------------------------------------------------------------stata中变量描述分析和实际作图使用table命令描述数据.table[变量a],contents[mean
变量b
sd
变量b]①②③④⑤④⑤ ①:计算和表现统计量的命令 ②:分组变量。按照其分类描述中央趋势或离散趋势的统计量 ③:需要输出统计量的内容。后面括号内列出(1)要描述的统计量,(2)需要计算统计量的变量名称 ④:分别指均值和标准差 ⑤:需要计算均值和标准差的变量.tableab,contents(meancsdd)按变量a和b的分类,计算变量c的均值、d的标准差stata中变量描述分析和实际作图.tableurban,contents(meanyrschsdsibs)------------------------------------urban|residence|mean(yrsch)sd(sibs)----------+-------------------------0,Rural|5.622172.62964511,Urban|7.109127.5369387------------------------------------按urban的分类,计算变量yrsch的均值和sibs的标准差stata中变量描述分析和实际作图使用tabstat命令描述数据.tabstat
abcd①②①:展示一个或多个数值型变量的描述性统计②:为变量a,b,c,d提供均值统计量输出的统计量是可选择的。若不选择,则默认值为均值。其主要选项包括:.tabstatabcd,by(e)statistics(meansd)columns(statistics) ①②③④①:按照选项by后面变量的类别,分组计算统计量;by后面的变量多是分类变量,也可以是取值不多的连续变量②:需要得到的统计量,可多选,不同统计量之间需用空格隔开③:输出结果的格式可以选择④:选择columns(statistics),则竖列表述的是统计量,横行表现的是变量。若选择columns(variables)格式,则反之stata中变量描述分析和实际作图使用tabulate,sum命令描述数据.tab
ab,sum(c)①②
③④
①:接变量a、b的分类变量,计算变量c的统计量,并输出a、b的频数分布③:sum后面接一个需要输出统计量的数值型变量②:分类变量;④:连续变量.tabstrata,sum(yrsch)|Summaryofyearofschoolstrata|MeanStd.Dev.Freq.------------+------------------------------------1.city|5.41916173.69704186682.suburb|6.69467213.38783494883.town|5.75415283village|6.48525472.9960408373------------+------------------------------------Total|6.0316943.44035821830stata中变量描述分析和实际作图6.6画图数据往往使人眼花缭乱。没有人能记住数据中的所有数值。频数分布提供数据分布的一些基本特征和规律。若用图形表示频数分布,则更形象和直观统计图形是用点的位置、线段的升降、线条的长短或面积的大小等方法来表达数据的内容,包括统计资料反应的变化趋势、数量的多少、分布状态和相互关系等通过图形描述出来的数据便于阅读、比较和分析一张好的统计图表,胜过冗长的文字表述stata中变量描述分析和实际作图Stata的制图功能既可通过命令产生图形,也可以直接使用Graphics窗口菜单中的选项来实现在Easygraph的菜单下,Stata的作图模块主要提供十种基本图形的制作:散点图(twoway)、线图(line)、面积图(area)、柱形图(bar)、点图(dot)、圆形图(饼图)(pie)、直方图(histogram)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林艺术学院《外国文学》2021-2022学年第一学期期末试卷
- 文言主观简答试题专训(二)-2025新高考语文一轮复习
- 吉林艺术学院《概念设计》2021-2022学年第一学期期末试卷
- 手工品订单承揽协议书范文范本
- 2024年大学生接活互助协议书模板
- 吉林师范大学《习近平总书记关于教育的重要论述研究》2021-2022学年第一学期期末试卷
- 2024年处理废石协议书模板
- 农村地基自建房转让协议书范文
- 畜牧业对气候变化的影响分析报告
- 企业卫生安全检查管理制度
- 仓库货物条码管理培训
- 第六章-中国早期社会学中的社区学派-《中国社会学史》必备
- 水产品质量安全知识讲座
- 技术协议范本通用模板
- 香港十日游旅游计划书
- 屠宰工培训课件
- 生命的价值课件
- 动车组空调及换气系统维护与检修 CRH380A型动车组空调及换气系统的控制
- 运维知识库管理制度(模板)
- 2023年新华社招聘122人笔试参考题库(共500题)答案详解版
- 流行病学的误差和偏倚
评论
0/150
提交评论