第六讲-数据的统计图及正态分布_第1页
第六讲-数据的统计图及正态分布_第2页
第六讲-数据的统计图及正态分布_第3页
第六讲-数据的统计图及正态分布_第4页
第六讲-数据的统计图及正态分布_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

社会统计学龙书ongshuqin@sina.com第六讲:数据的统计图及正态分布知识点一、相关图形的含义及特征二、正态分布的特征;三、正态分布曲线下的面积;四、标准正态分布;五、标准正态分布表的使用;学习目标了解条形图、直方图的意义掌握偏态、峰度的含义及其判断掌握正态分布的特性;正态分布曲线下面积的含义;标准分的计算和应用;利用标准正态分布表计算概率。一、基本的图形分布1、饼图(略)2、条形图(Bargraphs)

就是用长条的高度来表示资料类别的次数或百分数。长条的宽度没有意义,一般都画成等宽长条。长条既可以平行于横轴,也可以平行于纵轴。如果是定类变量,长条排列顺序可以任意,条形是离散的如果是定序变量,长条按序排列,条形可以是离散的,也可以是紧挨着的3、直方图(histograms)

从图形来看,也是由紧挨着的长条所组成,但它与条形图不同的是,直方图的宽度是有意义的。一般而言:直方图是以长条的面积(长乘宽的面积)来表示频次或相对频次;长条的长度(即纵轴高度)表示的是频次密度(即单位组距所含有的频次)或相对频次密度(Relativefrequencydensity)直方图仅适用于定距变量

用密度作为条形高度的原因在于,连续型定距变量可以采用非等距分组的缘故对于等距分组,用频次或密度作为条形的高度,图形的相对比例关系是不变的;在非等距分组的情况下,如果用频次作为条形高度,就会产生错误,如右表:婚龄组(岁)频次(人)……26-2730……40-5035……如果根据频次来比较,就会得出40-50岁结婚的人比26-27岁结婚的人还多的结论?这个结论正确吗?26-27岁结婚的人的频次密度远比40-50岁之间的频次密度高26-274050频次密度年龄4、折线图如果用直线连接直方图中条形顶端的中点,就得到了折线图。对于离散型定距变量,将变量值、频数对(x,n)的结合根据坐标连成的图就是折线图对于连续型变量,用组中值b代替变量值,并用该组相应的频次作为b的频次,于是(b,n)坐标的连线就是折线图5、定距变量的分布图当直方图的组距逐渐减小时,折线将逐渐平滑为曲线。(1)峰点(Peak)研究单峰多峰(2)偏态(skewness)研究对称分布右偏分布左偏分布偏态的测定方法:(1)、动差法:将三阶中心距与其标准差的三次方对比,求得偏斜度,即:=0,表示数据为对称分布,

>0,则表示数据为右偏或正偏;

<0,则表示数据为左偏或负偏,一般的的范围在[-3,+3]之间(2)、比较法:用算术平均数与众数的绝对差额来表示偏斜系数一般也在+3与-3之间偏斜系数为0表示对称分布偏斜系数为+3表示极右偏态偏斜系数为-3表示极左偏态(3)峰度(kurtosis)的测定在统计学中,运用动差法测定峰度,是将四阶中心距与其标准差的四次方对比,求得以无名数表示的峰度当=3时,为正态分布当>3时,分布曲线为尖峰当<3时,分布曲线为平峰二、正态分布曲线

xφ(x)1、什么是正态分布?由德国数学家高斯提出,也叫高斯分布;自然界、社会经济生活中大量存在的分布规律;经典统计推断的基础;在所有的分布中,正态分布居于首要位置。xf(x)众数=中位值=均值2、正态分布的基本特征特征一:一个高峰特征二:一条对称轴特征三:一条渐近线对称轴x=μxf(x)M0=Md=Mean(μ)

3、正态分布的数学表达式=总体标准差;

=总体方差

=总体均值

=3.14159;e=2.71828x=随机变量的取值(-

<x<

)只要将每个X值代入公式中,就可以求出该X值在正态分布中的次数有多少4、两个参数的影响(总体的均值和标准差μ,σ)均值μ标准差σ

(1)μ对正态曲线的影响--决定曲线的位置μ1

μ2

μ3μ1<μ2<

μ3(2)σ

对正态曲线的影响xφ(x)CAB曲线A和B的比较总结:两个参数对正态曲线形状的影响正态曲线的位置由均值μ决定;在方差一定的情况下,如μ增大,则图形右移,如μ减小,则图形左移,但整个图形形状不变。正态曲线的形状“高,矮,胖,瘦”的特点由标准差σ决定;在μ不变的情况下,σ越小,则对应的图形越尖瘦。三、正态曲线下的面积1、正态曲线下面积的涵义我们想象一个频率直方图,纵轴是频率,将横轴的区间(组距)划分的越来越细、越来越细,于是频率直方图就转化为分布密度曲线或概率密度曲线。因此,分布密度曲线实际上就是频率直方图的极限分布或理论分布。而正态曲线下的面积,实质上就是由这无数个小直方形拼接而成的。每一块直方图面积表示的是总体中某一个的随机变量在该小块上取值所出现的概率。根据正态分布的公式,计算得出:变量取值在[μ-σ,μ+σ]之间的概率为0.6827变量取值在[μ-2σ,μ+2σ]之间的概率为0.9545变量取值在[μ-3σ,μ+3σ]之间的概率为0.9973参见卢淑华《社会统计学》,北京大学出版社2001年版p156-15795.45%正态曲线下的面积(图)

-2

+2

2.275%2.275%

-

+

68.27%2、正态曲线的一个重要性质无论正态曲线具有哪种均值和标准差,在均值和横坐标某一点的距离内(用标准差来表示)曲线下的面积是常数。一般把正态曲线下的总面积约等于1为什么用标准差作为单位,而不用原来的衡量单位呢?(李沛良p64)思考:

由于不同的变量会有不同的计量单位(如身高用厘米、体重用公斤),即使是同一个变量也可能会用不同的计量单位(如工资可能用一元、十元、或一百元作单位),结果形成了大小和形状不同的正态分布:他们的均值和标准差数值各不相同,其扁平或高耸的程度也各不相同,如果要分别计算每一种正态分布内的各部分面积,就会很麻烦。用标准差作为单位的好处,就是可以使正态分布标准化,不受变量的计量单位的影响。因此,将正态分布的数值改用标准差为单位具有重要意义,即可以将不同形态的正态分布归纳为一种分布。三、标准正态分布1、什么是标准正态分布以标准差为单位的正态分布一般称为标准正态分布(standardizednormaldistribution)2、标准值(Standardscores)

公式:

Z称为标准值或标准分,它代表每个X值在标准正态分布上的数值。【例1】

某地家庭的平均每月娱乐费用()是90元,标准差(S)是5,假定某个家庭的娱乐费用(x)是102元,那么它的标准值为:根据标准值的公式可知,标准正态分布的均值为0,标准差为1。因此,Z=2.4表示该值与均值(等于0)的距离是2.4个标准差。3、标准正态分布的数学表达式4、标准正态分布的表达式正态分布的表达式为:

N(,

)标准正态分布的表达式为:

N(0,1)标准正态分布是一般正态分布的特例,即=0,

=1的正态分布。当x=μ+σ时,

z=(x-μ)/σ=(μ+σ-μ)/σ=1当x=μ-σ时,

z=(x-μ)/σ=(μ-σ-μ)/σ=-1当x=μ+2σ时,

z=(x-μ)/σ=(μ+2σ-μ)/σ=2当x=μ-2σ时,

z=(x-μ)/σ=(μ+2σ-μ)/σ=-200.135%0.135%68.26%1-195.45%2-2-335、标准正态分布的面积P(-1≤Z≤1)=0.6827;P(-2≤Z≤2)=0.9545;P(-3≤Z≤3)=0.9973;

由于标准正态分布N(0,1)的图形是唯一的,因此使用标准正态分布无须自己计算,只需要学会查表就行了。

6、标准值的应用和实际意义现有两名学生A和B,分别来自甲、乙两班,他们的成绩都是80分。能说他们的成绩是一样好吗?【例2】

设甲班的均值是80分,乙班的均值是60分,标准差都是10分,比较A、B两学生在班上的成绩。解:Z(A)=(80-80)/10=0Z(B)=(80-60)/10=2Z(B)>Z(A)B生在乙班的成绩比A生在甲班的成绩好【例3】

假设两个班的平均分都是60分,但是甲班的标准差为10分,乙班的标准差为20分,试比较A、B两个学生在班上的成绩解:

Z(A)=(80-60)/10=2Z(B)=(80-60)/20=1Z(A)>Z(B)A在甲班的成绩比B在乙班的成绩好【例4】

思考题:高考分数的录取线按原始分数加总合理还是按标准值分数加总合理?7、根据标准值表查数值求任何两个标准值之间包含的面积任意两点[Z1,Z2]之间的面积就是就是用的面积减去的面积【例5】

已知服从标准正态分布N(0,1),

求解:根据Z=1.3,查表得到数字0.4032,所以【练习】对于例5,求【例6】

已知x服从标准正态分布(0,1),求P(1.3<x<2.3)解:因为x服从标准正态分布,所以,【练习】,对于例6,求【例7】

已知x满足标准正态分布(0,1),求满足之值解:【例8】

根据统计,北京市居民的初婚年龄服从正态分布,其均值为25岁,标准差为5岁,问25-30岁之间结婚的人,其百分数是多少?解:为了使用正态分布表,首先必须将年龄换算成标准分所以,25-30岁之间结婚的人,其百分数是34.13%【练习&作业】1、已知随机变量§满足正态分布§~N(50,25),求P(§>61)2、用上题的条件,求P(44<§<55)3、一直Z满足标准正态分布N(0,1),求以下各个a值情况下,中的值(1)当a=0.1(2)当a=0.05(3)当a=0.014、根据调查,儿童智商分布为N(100,100),某幼儿园共有儿童100人,请问智商在110-120之间的儿童有多少人?补充:洛伦茨曲线它是西方经济学中描述收入分配中平均程度的一种方法,以家庭(或人数)的累计百分数为X轴,收入累计百分数为Y轴。当所有家庭家庭具有相同收入时,x的取值与y的取值相同,这称作完全的收入分配直线。x020%40%50%60%80%100%y020%40%50%60%80%100%当社会财富集中在极少数人手中的时候,极限情况如下表所示,成为完全的分配不均而实际情况是介于两者之间的曲线,又称为洛伦茨曲线。基尼系数:意大利经济学家基尼(Gini)根据洛伦兹曲线提出了判断收入平均程度的指标,即基尼系数x020%40%50%60%80%100%y000000100%A:洛伦兹曲线与绝对平均线围成的面积B:完全不平等折线与绝对平等线围成的面积

G=A/BA=0:G=0,完全平等A=B:G=1,完全不平等,全部财产或收入集中在一人手中高度平均:G小于等于0.2相对平均:G在0.2一0.3之间中等不平等:G在0.3与0.4之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论