第二章描述统计_第1页
第二章描述统计_第2页
第二章描述统计_第3页
第二章描述统计_第4页
第二章描述统计_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一部分:描述统计第二章组织数据第三章集中趋势的测量第四章变异性的测量

主要内容第二章组织数据定类、定序数据的整理与显示定距数据的整理与显示统计表数据的预处理第一节数据的预处理

数据审核

数据筛选

数据排序

变量计算一、数据的审核

(一)原始数据的审核逻辑检查:从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象。(主要用于对定类数据和定序数据的审核)

计算检查:检查调查表中的各项数据在计算结果和计算方法上有无错误。(主要用于对定距数据的审核)(二)二手数据的审核

适用性审核:弄清楚数据的来源、数据的口径以及有关的背景材料;确定这些数据是否符合自己分析研究的需要。时效性审核:应尽可能使用最新的统计数据,确认是否必要做进一步的加工整理。二、数据的筛选对审核过程中发现的错误应尽可能予以纠正。当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容包括:1.将某些不符合要求的数据或有明显错误的数据予以剔除2.将符合某种特定条件的数据筛选出来,而将不符合特定条件的数据予以剔出

三、数据的排序按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索。排序有助于对数据检查纠错,以及为重新归类或分组等提供依据;在某些场合,排序本身就是分析的目的之一。排序可借助于计算机完成。四、变量计算变量的计算是指根据研究统计的需要,把已经录入计算机的数据按照一定的算术表达式或函数,计算产生一系列新变量并予以保存的过程。例1,以“sfgz”为变量名计算“年龄”在50岁以下性别为“女”的职工的“实发工资”。(“实发工资”=“基本工资”-“保险”)例2,根据农民工的出生年份计算他们的周岁。(“周岁”=2011-“出生年份”)第二节定类、定序数据的

整理与显示原始资料杂乱无章,需加整理,才能为人所用。统计资料的整理,其基础是统计分组。所谓统计分组.就是按统计研究的目的和要求,将总体单位或全部调查数据按一定的标志划分成若干组,使组内差异尽量小,而组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以便为在统计分析中提炼各种有用信息打下基础。一、定类数据的整理(基本过程)1.列出各类别;2.计算各类别的频数;3.制作频数分布表;4.用图形显示数据。可计算的指标:1.频数:落在各类别中的数据个数2.比例:某一类别数据占全部数据的比值3.百分比:指定的比例乘以100.4.比与比率:性别比、出生率、死亡率、人口自然增长率

职业fp%干部1100.20020.0工人1520.27627.6农民2880.52452.4总数5501.000100.0

甲校学生的父亲职业二、定类数据的图示——条形图、圆形图条形图是用宽度相同的条形的高度或长短来表示数据变动的图形;条形图有单式、复式等形式在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率;绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图三、定序数据的整理(可计算的指标)计算指标:频数、累计频数、百分率、累计百分率适用于简化定类资料的技术也适用定序资料,但以下技术适用于定序资料1.累计频数:将各类别的频数逐级累加2.累计频率:将各类别的频率(百分比)逐级累加某高校专业教师学历统计表学历人数累计频数累计百分率学士262628.9硕士426875.6博士2290100.0

甲校学生家庭月收入收入(元)fcf↑cf↓1500-189940550401300-1499141510181500-1299369369550总数550四、定类、定序数据的图示—环形图环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别:圆形图只能显示一个总体各部分所占的比例;环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。环形图可用于进行比较研究

。环形图可用于展示定类和定序的数据。第三节定距数据的整理与显示适用于简化品质数据的技术同样适用于数值型数据一、单变量值分组(要点)1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况例1统计某社区家庭户人口数分布情况。某社区家庭户人口数统计表人口数(X)户数(f)频率(P)23456785816106410.100.160.320.200.120.080.02合计501.00二、组距分组根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。例:把“居民储蓄调查数据(存款)”中的存款数额(定距数据)按:1000元以下,1001-3000,3001-6000,6001-10000;10001-15000;15001-20000,20001元以上分组。通过频次统计可以了解数据的分布情况。(一)组距分组要点1.将变量值的一个区间作为一组2.适合于连续变量3.适合于变量值较多的情况必须遵循“不重不漏”的原则;可采用等距分组,也可采用不等距分组(二)组距分组的原则1.分组应使各类别构成之和等于总体“穷举”“互斥”

2.分组设计应能反映统计总体的分布规律性统计分组主要是为了能很好地反映统计总体的构成状况,即反映总体中各单位的分布特征。分组设计要适应这一要求,必须在分组后使总体单位总数在各组的分配情况能够反映总体的分布规律性。100名学生的成绩分布成绩组中值人数41-6061-8081-100205030合计100(三)组距分组的步骤1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数:

K=1+(lgn/lg2)其中n为数据的个数(经验公式而已)2.确定各组的组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,等距分组组距=(最大值-最小值)÷组数3.根据分组整理成频数分布表(四)几个概念

1、

分组数据的最大值与最小值2、分组数据的真实上限与真实下限90~94,95~99,100~1043、

组距:真实上限与真实下限之差4、组距中位点:一组数据中最居中的数值。m=(最大值+最小值)/2,

等距分组表的几种形式:(1)上下组限重叠;(2)上下组限间断男青年身高按4厘米的间距分组时的频数分布身高间距(厘米)组中值(Xi)频数(fi)频率(Pi)148―152152―156156―160160―164164―168168―172172―176176―180180―184184―188188―192192―196150154158162166170174178182186190194125101925171253010.010.020.050.100.190.250.170.120.050.030.000.01合计

——100——上下组限重叠分组,恰等于某一组限的数据(如下表中身高164厘米)归于哪一组?应该按照“上限不包括在内”的原则处理。这就是说,164应归于“164—168”这一组,而不应归于“160—l64”这一组。有了这一规定,就不会在编制连续变量的数列时,发生违背“穷举”与“互斥”这两个基本原则的情况了。(五)内插法求百分比等级成绩频数百分比累计频数累计百分比90-9980-8970-7960—6950—5940—493463221520301510102017137421008565352010合计2010077分在全班同学成绩的百分比等级PR=百分比等级C%b=低于临界组距下限的累积百分比X=需要计算的原始分数L=临界组距的下限i=组距的大小r%=临界组距的百分比等距分组与不等距分组在频数分布上的差异等距分组:各组频数的分布不受组距大小的影响;可直接根据绝对频数来观察频数分布的特征和规律。不等距分组:各组频数的分布受组距大小不同的影响;各组绝对频数的多少不能反映频数分布的实际状况,需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况。

(六)频数密度计算男青年按身高分组(厘米)频数组距频数密度148―156156―164164―168168―172172―176176―180180―188188―1963151925171281884444883/815/819/425/417/412/48/81/8合计100——

——男青年身高分组数据表三、分组数据的图示1、直方图用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布。在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)。分别称为次数直方图或者百分率直方图。

102030405090f/d35252015

60f=6(40)=240f=20(10)=200x102030405090f/d35252015

60f=6(40)=240f=20(10)=200x直方图与条形图的区别:(1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。(2)直方图的各矩形通常是连续排列,条形图则是分开排列。2、折线图:折线图也称频数多边形图(Frequencypolygon),是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉,折线图的两个终点要与横轴相交。具体的做法是:第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。

原来的矩形抹掉,就得到折线图。

当变量数列中的组数愈加增多,变量值也非常多时,折线图会逐步过渡到平滑曲线。

3、曲线图n增大n

练习下表是诺贝尔获奖者的年龄分布表。(1)请根据数据制作直方图和折线图;(2)将折线图修匀为一条曲线图,并描述该曲线的特点。年龄获奖人数25岁以下25~3030~3535~4040~4545~5050岁以上15347068533728合计3054、定距数据的散点图四、常见曲线图类型(一)正态分布也称为高斯分布,是连续随机变量的概率分布的一种。正态曲线可以用曲线函数来描述:为纪念高斯的贡献,德国的货币上就印有他的头像。其中:μ是均值,σ是标准差。变量X服从正态分布,则记为:JohannCarlFriedrichGauss(1777-1855)

正态分布的图形

利用正态分布密度函数f(x)可以绘制其图形,即正态分布曲线。曲线呈开口向下的钟型;以过均值的垂线为轴,曲线左右完全对称;其两侧尾端沿横轴的方向左右无限伸展,但永不与横轴相交。正态分布曲线μ正态分布的特点正态分布是对称的单峰分布,其曲线下的面积表示的是概率,其值为1。正态分布是由平均数和标准差唯一决定的分布(没有自由度)。它随着随机变量的平均数和标准差的大小及单位不同而有不同的分布形态。平均数决定曲线在横坐标上的位置(中心位置的大小),标准差决定总体的离散程度(分布形态)。μ确定密度曲线在坐标系中的位置。μ越大,曲线沿横轴越向右移动;μ越小,曲线沿横轴越向左移动。σ确定曲线的形状。σ越大,曲线越平缓;σ越小,曲线越尖峭。有了μ与σ,就把正态分布确定下来了。N(0,12)N(0,1.52)N(1,22)不同μ与σ的正态分布曲线正态分布的概率计算实际应用中,正态曲线下,横轴上一定区间的面积占总面积的百分数,可以估计该区间的例数占总例数的百分数或变量值落在该区间的概率。利用对正态分布密度函数f(x)求积分可以得到正态分布曲线下一定区间的面积(概率),即:

理论上,正态曲线下μ±1.96σ和μ±2.58σ的区间的面积分别各占总面积的95%及99%。图示见图。正态曲线下面积分布示意图μ±1.96σ95%μ±2.58σ99%正态曲线下面积分布示意图正态分布是一组分布。每一对参数μ与σ都能确定一个正态分布。当μ=0,σ=1时,是正态分布的最简单形式N(0,1),便于研究与应用,

N(0,1)被称为标准正态分布(standardnormaldistribution)。任何一个正态变量x都可以通过下述变换,转换为标准正态分布:(二)标准正态分布此变换称为标准化变换,也称Z变换。如果变量x服从正态分布N(μ,σ2),那么通过变换得到的变量Z服从标准正态分布N(

0,1)。而在实际应用中,σ往往未知,是通过样本值S来估计,此时的变换为(三)t分布由此得到的变量t服从t分布(t-distribution)。t分布也称为Student‘st-distribution,是为纪念英国统计学家Gosset对t分布做的贡献。Student是Gosset发表关于t分布的论文所用的笔名。t分布对于小样本研究的意义非常大。由此产生的t检验(t-test)成为了小样本定量研究的最常用的分析方法。WilliamSealyGosset(1876-1937)Student

t

分布的图形(即t

分布曲线)利用t分布密度函数f(t)(见下式)可以绘制其图形,即t分布曲线。曲线形态类似正态分布曲线。

其中df为自由度,df=n-1,Γ为伽玛(gamma)函数。

t分布曲线

t分布的特征以0为中心,左右对称。t分布具有一个参数df。df取值为正整数。每个正整数确定一个t分布。t分布曲线的峰均较N(0,1)曲线的峰低,而其尾部均高于N(0,1)的尾部。随着t分布自由度df的增大,t分布曲线的峰逐渐上升,逼近N(

0,1)的峰;而相应地,t分布曲线两侧尾端则不断下降,趋向N(

0,1)的两尾端;当df=∞时,t分布就完全成为标准正态分布。df=∞(标准正态曲线)df=4df=1f(t)自由度分别为1、4、∞的t分布曲线t分布曲线下双侧面积分布示意

t

分布曲线下面积分布规律(即t界值)

通过对t分布密度函数f(t)求积分可以得到t分布曲线下一定区间的面积(概率),为便于研究与应用,统计学家制作了专门的t界值表。如果一种过程(随机实验)的结局只能是相互对立的两种结果中的一种,例如射击的命中与未中、治疗的有效与无效等。其中一种结果发生的可能性(概率)为一常数p,不可能概率为q(q=1-p)。重复性:每次试验条件不变,每次事件中A出现的概率皆为p。独立性:任何一次试验中事件A的出现与其余各次试验中出现的结果无关。记录n个观察单位中发生某一种结果的频数X,则称随机变量X服从二项分布(binomialdistribution)。二项分布属于离散型分布。(四)二项分布二项分布概率例题:某鸡蛋孵化率为0.90,若每次任选5个进行孵化,问小鸡的各种可能孵化概率(0、1、2、3、4、5)?解:p=0.90,q=0.10,n=5孵化概率函数Cnxpxqn-xP(x)得零只,f(0)得一只,f(1)得二只,f(2)得三只,f(3)得四只,f(4)得五只,F(5)1x0.900x0.1055x0.901x0.10410x0.902x0.10310x0.903x0.1025x0.904x0.1011x0.905x0.1000.000010.000450.008100.072900.328050.59049总和F(x)=1

二项分布的图形二项分布的形状是由n和p两个参数决定。当p值较小,且n值不大时,图形是偏倚的。随着n值增大,分布逐渐对称。当p值趋近0.5时,分布趋于对称。p=0.3p=0.5p=0.7n=10n=50n=100二项分布的均数与标准差

如果用(百分数)率表示,则为:当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似。若随机变量

X只取非负整数值,X=k值的概率为(k=0,1,2,…),则随机变量X的分布称为泊松分布,记作P(λ),其中λ=np。通常当n≧10,p≦0.1时,就可以用泊松公式近似计算。法国数学家西莫恩·德尼·泊松SiméonDenisPoisson(1781-1840)(五)Poisson分布(泊松分布)

(Poissondistribution)泊松分布P(λ)中只有一个参数λ,它既是泊松分布的均值,也是泊松分布的方差。在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布。因此泊松分布在管理科学,运筹学以及自然科学的某些问题中都占有重要的地位。泊松分布是离散型分布。

Poisson分布的概率

Poisson分布的图形

在应用中,常通过图形表达(或描述)Poisson分布变量的分布状况。100.6λ=0.5λ=1.5λ=2.5(六)F

分布如果变量x1和

x2分别服从正态分布,那么分别从两个正态分布总体随机抽取的样本n1和n2可求得方,由下式得到的变量F服从F(df1,df2

)分布(F-distribution)

F

分布的图形(即F

分布曲线)

利用F分布密度函数f(x)(见下式)可以绘制其图形,即F分布曲线,见图。

不同自由度df1和df2的F分布曲线如图F(8,)F(8,50)F(8,10)F(8,4)F(df1,df2

)(七)χ2

分布(Chi-squaredistribution)

如果变量x服从正态分布,那么从此正态分布总体随机抽取样本n,由下式得到的变量服从自由度为df(=n-1)的χ2分布。χ2分布密度函数f(χ2):

不同自由度df的χ2

分布曲线图。χ2df=3df=5df=10df=302002年我国城乡人口情况

按城乡分

比重(%)

人口数(万人)

12845339.0960.9178241502121.格式统计表是表示统计资料的表格,在由横行、纵栏交叉结合而成的表格上,它能系统地组织和合理地安排大量数字资料。总标题乡村

城镇100.00合计

纵栏标题统计数值

横行标题

第四节统计表表3.4

离婚案件构成草率型外遇型猜疑型虐待型再婚型家务型生理型分居型其他型合计离婚案件(件)比重(%)851479136410447447188314671425996231002.内容主词——统计表所要说明的对象。宾词——用来说明主词的标志和标志值。如需要,主宾词可互换。●简单表我国城市居民家庭基本情况(2002年)主要指标单位数值平均每户家庭人口平均每户就业人口平均每个就业者负担数平均每人全部年收入平均每人可支配收入平均每人消费性支出人人人元元元3.041.581.928177.407702.806029.883.统计表按主词是否分组以及分组的程度可分为简单分组表复合分组表简单表简单设计复合设计

中国人口年龄结构状况单位:%年龄组1953年1964年1982年1990年2000年0―14岁15―64岁65岁以上36.359.34.440.755.73.633.661.54.927.766.75.622.970.17.0

资料来源|:《2003中国统计年鉴》第99页。●

简单分组表●复合分组表我国社会福利主要费用情况单位:亿元项目

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论