




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一部分:描述统计第一部分:描述统计第二章第二章 组织数据组织数据第三章第三章 集中趋势的测量集中趋势的测量第四章第四章 变异性的测量变异性的测量 主要内容主要内容第二章第二章 组织数据组织数据定类、定序数据的整理定类、定序数据的整理与显示与显示定距数据的整理与显示定距数据的整理与显示统计表统计表数据的预处理数据的预处理第一节第一节 数据的预处理数据的预处理 数据审核数据审核 数据筛选数据筛选 数据排序数据排序 变量计算变量计算一、数据的审核一、数据的审核 (一)原始数据的审核(一)原始数据的审核 逻辑检查逻辑检查:从定性角度,审核数据是否符合:从定性角度,审核数据是否符合逻辑,内容是否合理,
2、各项目或数字之间有逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象。(主要用于对定类数据无相互矛盾的现象。(主要用于对定类数据和定序数据的审核)和定序数据的审核) 计算检查计算检查:检查调查表中的各项数据在计算:检查调查表中的各项数据在计算结果和计算方法上有无错误。(主要用于对结果和计算方法上有无错误。(主要用于对定距数据的审核)定距数据的审核)(二)二手数据的审核(二)二手数据的审核 适用性审核:适用性审核:弄清楚数据的来源、数据的弄清楚数据的来源、数据的口径以及有关的背景材料;确定这些数据口径以及有关的背景材料;确定这些数据是否符合自己分析研究的需要。是否符合自己分析研究的需要。 时
3、效性审核:时效性审核:应尽可能使用最新的统计数应尽可能使用最新的统计数据,确认是否必要做进一步的加工整理。据,确认是否必要做进一步的加工整理。二、数据的筛选二、数据的筛选对审核过程中发现的错误应尽可能予以纠正。对审核过程中发现的错误应尽可能予以纠正。当发现数据中的错误不能予以纠正,或者有些当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要数据不符合调查的要求而又无法弥补时,需要对数据进行筛选对数据进行筛选 数据筛选的内容包括:数据筛选的内容包括:1.1.将某些不符合要求的数据或有明显错误的数将某些不符合要求的数据或有明显错误的数据予以剔除据予以剔除2.2.将符合某
4、种特定条件的数据筛选出来,而将将符合某种特定条件的数据筛选出来,而将不符合特定条件的数据予以剔出不符合特定条件的数据予以剔出 三、数据的排序三、数据的排序 按一定顺序将数据排列,以发现一些明显的按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索。特征或趋势,找到解决问题的线索。排序有助于对数据检查纠错,以及为重新归排序有助于对数据检查纠错,以及为重新归类或分组等提供依据;在某些场合,排序本类或分组等提供依据;在某些场合,排序本身就是分析的目的之一。排序可借助于计算身就是分析的目的之一。排序可借助于计算机完成机完成 。四、变量计算四、变量计算变量的计算是指根据研究统计的需要,把
5、已变量的计算是指根据研究统计的需要,把已经录入计算机的数据按照一定的算术表达式经录入计算机的数据按照一定的算术表达式或函数,计算产生一系列新变量并予以保存或函数,计算产生一系列新变量并予以保存的过程。的过程。例例1,以,以“sfgz”为变量名计算为变量名计算“年龄年龄”在在50岁岁以下性别为以下性别为“女女”的职工的的职工的“实发工资实发工资”。(。(“实实发工资发工资”=“基本工资基本工资”-“保险保险” )例例2,根据农民工的出生年份计算他们的周岁,根据农民工的出生年份计算他们的周岁。(。(“周岁周岁”=2011-“出生年份出生年份”)第二节第二节 定类、定序数据的定类、定序数据的整理与显
6、示整理与显示 原始资料杂乱无章,需加整理,才能为人原始资料杂乱无章,需加整理,才能为人所用。统计资料的整理,其基础是统计分所用。统计资料的整理,其基础是统计分组。所谓统计分组就是按统计研究的目组。所谓统计分组就是按统计研究的目的和要求,将总体单位或全部调查数据按的和要求,将总体单位或全部调查数据按一定的标志划分成若干组,使组内差异尽一定的标志划分成若干组,使组内差异尽量小,而组与组之间则有明显差异,从而量小,而组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以便为在使原本杂乱无章的资料有序化,以便为在统计分析中提炼各种有用信息打下基础。统计分析中提炼各种有用信息打下基础。一、定类数据的
7、整理一、定类数据的整理( (基本过程基本过程) )1.1.列出各类别;列出各类别;2.2.计算各类别的频数;计算各类别的频数;3.3.制作频数分布表;制作频数分布表;4.4.用图形显示数据。用图形显示数据。可计算的指标:可计算的指标:1.1.频数:落在各类别中的数据个数频数:落在各类别中的数据个数2.2.比例:某一类别数据占全部数据的比值比例:某一类别数据占全部数据的比值3.3.百分比:指定的比例乘以百分比:指定的比例乘以100.100.4.4.比与比率:性别比、出生率、死亡率、人口自然增比与比率:性别比、出生率、死亡率、人口自然增长率长率 职业职业fp%干部干部1100.20020.0工人工
8、人1520.27627.6农民农民2880.52452.4总数总数5501.000100.0 甲校学生的父亲职业甲校学生的父亲职业二、定类数据的图示二、定类数据的图示条形图、圆形图条形图、圆形图条形图是用宽度相同的条形的高度或长短来表示数据变动的图条形图是用宽度相同的条形的高度或长短来表示数据变动的图形;条形图有形;条形图有单式单式、复式复式等形式等形式在表示定类数据的分布时,是用条形图的高度来表示各类别数在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率;绘制时,各类别可以放在纵轴,称为据的频数或频率;绘制时,各类别可以放在纵轴,称为条形图条形图,也可以放在横轴,称为也可以
9、放在横轴,称为柱形图柱形图050100150200250300350123系列1050100150200250300350123系列1123123三、定序数据的整理(可计算的指标)三、定序数据的整理(可计算的指标)计算指标:频数、累计频数、百分率、累计算指标:频数、累计频数、百分率、累计百分率计百分率适用于简化定类资料的技术也适用定序资适用于简化定类资料的技术也适用定序资料,但以下技术适用于定序资料料,但以下技术适用于定序资料1. 1. 累计频数:将各类别的频数逐级累加累计频数:将各类别的频数逐级累加2. 2. 累计频率:将各类别的频率累计频率:将各类别的频率( (百分比百分比) )逐逐级累加
10、级累加 某高校专业教师学历统计表某高校专业教师学历统计表学历学历人数人数累计频数累计频数累计百分率累计百分率学士学士262628.9硕士硕士426875.6博士博士2290100.0 甲校学生家庭月收入甲校学生家庭月收入收入(元)收入(元)fcfcf1500-189940550401300-1499141510181500-1299369369550总数总数550四、定类、定序数据的图示四、定类、定序数据的图示环形图环形图环形图中间有一个环形图中间有一个“空洞空洞”,总体中的每一部分数,总体中的每一部分数据用环中的一段表示据用环中的一段表示环形图与圆形图类似,但又有区别:圆形图只能显环形图与圆
11、形图类似,但又有区别:圆形图只能显示一个总体各部分所占的比例;环形图则可以同时示一个总体各部分所占的比例;环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列绘制多个总体的数据系列,每一个总体的数据系列为一个环。环形图可用于进行比较研究为一个环。环形图可用于进行比较研究 。环形图。环形图可用于展示定类和定序的数据。可用于展示定类和定序的数据。1234第三节第三节 定距数据的整理与显示定距数据的整理与显示适用于简化品质数据的技术同样适用于简化品质数据的技术同样适用于数值型数据适用于数值型数据一、单变量值分组(要点)一、单变量值分组(要点)1. 将一个变量值作为一组将一个变量值作为一组2.
12、 适合于离散变量适合于离散变量3. 适合于变量值较少的情况适合于变量值较少的情况例例1 统计某社区家庭户人口数分统计某社区家庭户人口数分布情况。布情况。某社区家庭户人口数统计表某社区家庭户人口数统计表人口数(人口数(X)户数户数(f)频率频率(P)23456785816106410.100.160.320.200.120.080.02合计合计501.00二、组距分组二、组距分组根据统计研究的需要,将数据按照某种标准根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。重新划分为不同的组别。例:把例:把“居民储蓄调查数据(存款)居民储蓄调查数据(存款)”中的中的存款数额(定距数据)按:存款
13、数额(定距数据)按:1000元以下,元以下,1001-3000,3001-6000,6001-10000;10001-15000;15001-20000,20001元以上元以上分组。分组。通过频次统计可以了解数据的分布情况。通过频次统计可以了解数据的分布情况。(一)组距分组要点(一)组距分组要点1.将变量值的一个区间作为一组将变量值的一个区间作为一组2.适合于连续变量适合于连续变量3.适合于变量值较多的情况适合于变量值较多的情况必须遵循必须遵循“不重不漏不重不漏”的原则;可采用等距分的原则;可采用等距分组,也可采用不等距分组组,也可采用不等距分组(二)组距分组的原则(二)组距分组的原则 1分组
14、应使各类别构成之和等于总体分组应使各类别构成之和等于总体 “穷举穷举” “互斥互斥” 2分组设计应能反映统计总体的分布规律性分组设计应能反映统计总体的分布规律性 统计分组主要是为了能很好地反映统计总体的构统计分组主要是为了能很好地反映统计总体的构成状况,即反映总体中各单位的分布特征。分组设计成状况,即反映总体中各单位的分布特征。分组设计要适应这一要求,必须在分组后使总体单位总数在各要适应这一要求,必须在分组后使总体单位总数在各组的分配情况能够反映总体的分布规律性。组的分配情况能够反映总体的分布规律性。 100名学生的成绩分布名学生的成绩分布成绩成绩组中值组中值人数人数4160618081100
15、205030合计合计100(三)组距分组的步骤(三)组距分组的步骤1.1.确定组数:组数的确定应以能够显示数据的确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以分布特征和规律为目的。在实际分组时,可以按按 Sturges Sturges 提出的经验公式来确定组数:提出的经验公式来确定组数: K1+(lg n / lg2)其中其中n n为数据的个数(经验公式而已)为数据的个数(经验公式而已)2.2.确定各组的组距:组距是一个组的上限与下确定各组的组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及限之差,可根据全部数据的最大值和最小值及所分的组数来确
16、定,所分的组数来确定,等距分组组距等距分组组距( (最大值最大值 - - 最小值最小值) ) 组数组数3.3.根据分组整理成频数分布表根据分组整理成频数分布表(四)几个概念(四)几个概念1、 分组数据的最大值与最小值分组数据的最大值与最小值2、分组数据的真实上限与真实下限、分组数据的真实上限与真实下限 9094,9599,1001043、 组距:真实上限与真实下限之差组距:真实上限与真实下限之差4、组距中位点:一组数据中最居中的数值。、组距中位点:一组数据中最居中的数值。 m(最大值最小值)(最大值最小值)/2, 等距分组表的几种形式:等距分组表的几种形式:(1)上下组限重叠;)上下组限重叠;
17、(2)上下组限间断)上下组限间断男青年身高按男青年身高按4厘米的间距分组时的频数分布厘米的间距分组时的频数分布上下组限重叠分组,恰等于某一组限的数据上下组限重叠分组,恰等于某一组限的数据(如下如下表中身高表中身高164厘米厘米)归于哪一组?归于哪一组?应该按照应该按照“上限不包括在内上限不包括在内”的原则处理。这就的原则处理。这就是说,是说,164应归于应归于“164168”这一组,而不应归这一组,而不应归于于“160l64”这一组。这一组。有了这一规定,就不会在编制连续变量的数列时有了这一规定,就不会在编制连续变量的数列时,发生违背,发生违背“穷举穷举”与与“互斥互斥”这两个基本原则这两个基
18、本原则的情况了。的情况了。(五)内插法求百分比等级(五)内插法求百分比等级成绩成绩频数频数百分比百分比 累计频数累计频数累计百分比累计百分比9099808970796069505940493463221520301510102017137421008565352010合计合计20100%)(%riLXcPRb77分在全班同学成绩的百分比等级分在全班同学成绩的百分比等级PR=百分比等级百分比等级C%b=低于临界组距下限的累积百分比低于临界组距下限的累积百分比X=需要计算的原始分数需要计算的原始分数L=临界组距的下限临界组距的下限i=组距的大小组距的大小r%=临界组距的百分比临界组距的百分比%)(
19、%riLXcPRb5 .57%30)105 .6977(0 .35%)(%riLXcPRb等距分组与不等距分组在频数分布上的差异等距分组与不等距分组在频数分布上的差异等距分组:等距分组:各组频数的分布不受组距大小的影各组频数的分布不受组距大小的影响;可直接根据绝对频数来观察频数分布的特响;可直接根据绝对频数来观察频数分布的特征和规律。征和规律。不等距分组:不等距分组:各组频数的分布受组距大小不同各组频数的分布受组距大小不同的影响;各组绝对频数的多少不能反映频数分的影响;各组绝对频数的多少不能反映频数分布的实际状况,需要用频数密度(频数密度布的实际状况,需要用频数密度(频数密度频数频数/组距)反
20、映频数分布的实际状况。组距)反映频数分布的实际状况。 (六)频数密度计算频数密度计算男青年身高分组数据表男青年身高分组数据表三、分组数据的图示三、分组数据的图示1、直方图、直方图用矩形的宽度和高度来表用矩形的宽度和高度来表示频数分布的图形,实际示频数分布的图形,实际上是用矩形的面积来表示上是用矩形的面积来表示各组的频数分布。在直角各组的频数分布。在直角坐标中,用横轴表示数据坐标中,用横轴表示数据分组,纵轴表示频数或频分组,纵轴表示频数或频率,各组与相应的频数就率,各组与相应的频数就形成了一个矩形,即直方形成了一个矩形,即直方图图(Histogram)。分别称为。分别称为次数直方图或者百分率直次
21、数直方图或者百分率直方图。方图。 10 20 30 40 50 90 f/d35252015 6 0f=6(40)=240f=20(10)=200 x10 20 30 40 50 90 f/d35252015 6 0f=6(40)=240f=20(10)=200 x050100150200250300350123系列1直方图与条形图的区别:直方图与条形图的区别:(1)条形图是用条形的长度)条形图是用条形的长度(横置时横置时)表示各表示各类别频数的多少,其宽度类别频数的多少,其宽度(表示类别表示类别)则是固则是固定的;直方图是用面积表示各组频数的多少,定的;直方图是用面积表示各组频数的多少,矩形
22、的高度表示每一组的频数或百分比,宽矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意度则表示各组的组距,其高度与宽度均有意义。义。(2)直方图的各矩形通常是连续排列,条形)直方图的各矩形通常是连续排列,条形图则是分开排列。图则是分开排列。2、折线图、折线图:折线图也称频数多边形图折线图也称频数多边形图(Frequency polygon),是在直方图的基础上,把直方图顶部的中点是在直方图的基础上,把直方图顶部的中点(组组中值中值)用直线连接起来,再把原来的直方图抹掉,用直线连接起来,再把原来的直方图抹掉,折线图的两个终点要与横轴相交。具体的做法折线图的两个终点要与横轴
23、相交。具体的做法是:第一个矩形的顶部中点通过竖边中点(即是:第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。折线矩形顶部中点与其竖边中点连接到横轴。折线图下所围成的面积与直方图的面积相等,二者图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。所表示的频数分布是一致的。 原来的矩形抹掉,就得到折线图。原来的矩形抹掉,就得到折线图。 当变量数列中的组数愈加增多,变量当变量数列中的组数愈加增多,变量值也非常多时,折线图会逐步过渡到平值也非常多时,折线图会逐步过渡到平滑曲线。滑曲线。
24、 3、曲线图曲线图n增大n 练练 习习下表是诺贝尔获奖者的年龄分布表。下表是诺贝尔获奖者的年龄分布表。(1)请根据数据制请根据数据制作直方图和折线图;(作直方图和折线图;(2)将折线图修匀为一条曲线)将折线图修匀为一条曲线图,并描述该曲线的特点。图,并描述该曲线的特点。年龄年龄获奖人数获奖人数25岁以下岁以下2530303535404045455050岁以上岁以上15347068533728合计合计3054、定距数据的散点图、定距数据的散点图4050607080男性平均预期寿命22.533.544.5log(人均gdp)4050607080男性平均预期寿命22.533.544.5log(人均g
25、dp)bandwidth = .8Lowess smoother四、常见曲线图类型四、常见曲线图类型(一)正态分布也称为高斯分布,是(一)正态分布也称为高斯分布,是连续随连续随机变量机变量的概率分布的一种。正态曲线可以用的概率分布的一种。正态曲线可以用曲线函数来描述:曲线函数来描述:85.090.095.0100.0Hight (cm)1 %222)(21)(xexfyx为纪念高斯的贡献,德国的货币上就印有他为纪念高斯的贡献,德国的货币上就印有他的头像。的头像。其中其中: :是均值,是均值,是标准差。是标准差。变量变量X X服从正态分布,则记为:服从正态分布,则记为:),(2NXJohann
26、Carl Friedrich Gauss (1777-1855) 正态分布的图形正态分布的图形 利用利用正态分布密度函数正态分布密度函数 f(x)f(x)可以绘制其图形,可以绘制其图形,即正态分布曲线。曲线呈开口向下的钟型;以过均即正态分布曲线。曲线呈开口向下的钟型;以过均值的垂线为轴,曲线左右完全对称;其两侧尾端沿值的垂线为轴,曲线左右完全对称;其两侧尾端沿横轴的方向左右无限伸展,但永不与横轴相交。横轴的方向左右无限伸展,但永不与横轴相交。正态分布曲线正态分布曲线正态分布的特点正态分布的特点正态分布是正态分布是对称对称的单峰分布,其曲线下的面的单峰分布,其曲线下的面积表示的是概率,其值为积表
27、示的是概率,其值为1。正态分布是由平均数和标准差唯一决定的分正态分布是由平均数和标准差唯一决定的分布布(没有自由度)(没有自由度)。它随着随机变量的平均。它随着随机变量的平均数和标准差的大小及单位不同而有不同的分数和标准差的大小及单位不同而有不同的分布形态。布形态。平均数决定曲线在横坐标上的位置(中心位平均数决定曲线在横坐标上的位置(中心位置的大小),标准差决定总体的离散程度(置的大小),标准差决定总体的离散程度(分布形态)。分布形态)。确定密度曲线在坐标系中的位置。越大,曲线沿横轴越向右移动;越小,曲线沿横轴越向左移动。-6-5-4-3-2-10123456123321确定曲线的形状。越大,
28、曲线越平缓;越小,曲线越 尖峭。-3-2-10123332121有了有了与与,就把正态分布确定下来了。,就把正态分布确定下来了。N(0,12)N(0,1.52)N(1,22)不同与的正态分布曲线正态分布的概率计算正态分布的概率计算 实际应用中,正态曲线下,横轴上一定区间的面积占总面积的百分数,可以估计该区间的例数占总例数的百分数或变量值落在该区间的概率。 利用对正态分布密度函数 f(x) 求积分可以得到正态分布曲线下一定区间的面积(概率),即: xdxxfxF)()(abdxxfaxbP)()( 理论上,正态曲线下1.96和2.58的区间的面积分别各占总面积的95%及99%。图示见图。 正态曲
29、线下面积分布示意图1.96 95%2.58 99% -2.58 -1.96 - + +1.96 +2.58 68.27% 95.00% 99.00% -3-2-10123正态曲线下面积分布示意图正态分布是一组分布。每一对参数 与都能确定一个正态分布。当=0,=1时,是正态分布的最简单形式N(0,1),便于研究与应用, N(0,1)被称为标准正态分布(standard normal distribution)。任何一个正态变量x都可以通过下述变换,转换为标准正态分布:xZ2221)(zezfz(二)标准正态分布此变换称为标准化变换,也称Z变换。) 10(,Nz如果变量如果变量x x服从正态分布服
30、从正态分布N N( (, ,2 2) ),那么通过变换,那么通过变换得到的变量得到的变量Z Z 服从标准正态分布服从标准正态分布N N( ( 0 0,1)1)。xZnXXZX而而在实际应用中,在实际应用中,往往未知,是通过样本值往往未知,是通过样本值S S来来估计,此时的变换为估计,此时的变换为nSXSXtX(三)(三)t t 分布分布由此得到的变量由此得到的变量t t服从服从t t 分布分布( (t t-distribution-distribution) )。t t 分布也称为分布也称为StudentStudents s t t- -distributiondistribution,是为纪
31、念英国统计,是为纪念英国统计学家学家GossetGosset对对t t 分布做的贡献。分布做的贡献。StudentStudent是是GossetGosset发表关于发表关于t t 分布分布的论文所用的笔名。的论文所用的笔名。t t 分布对于小样本研究的意义非常分布对于小样本研究的意义非常大。大。由此产生的由此产生的t t 检验检验( (t t-test-test) )成成为了小样本定量研究的最常用的分为了小样本定量研究的最常用的分析方法析方法。 William Sealy Gosset (1876-1937)Student t t 分布的图形(即分布的图形(即t t 分布曲线)分布曲线)利用利
32、用t t分布密度函数分布密度函数 f f( (t t) () (见下式见下式) )可以绘制其图形,可以绘制其图形,即即t t分布曲线。曲线形态类似正态分布曲线。分布曲线。曲线形态类似正态分布曲线。2121221)(dfdftdfdfdftf 其中其中dfdf为自由度,为自由度,dfdf= =n-n-1 1,为伽玛为伽玛( (gamma)gamma)函数。函数。0 t t 分布曲线分布曲线 t t 分布的特征分布的特征以以0 0为中心,左右对称。为中心,左右对称。t t 分布具有一个参数分布具有一个参数dfdf。dfdf取值为正整数。每个正取值为正整数。每个正整数确定一个整数确定一个t t 分布
33、。分布。t t 分布曲线的峰均较分布曲线的峰均较N N( (0 0,1)1)曲线的峰低,而其尾曲线的峰低,而其尾部均高于部均高于N N( (0 0,1)1)的尾部。的尾部。随着随着t t 分布自由度分布自由度df df 的增大,的增大,t t 分布曲线的峰逐渐上升,逼近分布曲线的峰逐渐上升,逼近N N( ( 0 0,1)1)的峰;而相应地,的峰;而相应地,t t 分布曲线两侧尾端则不断下降,分布曲线两侧尾端则不断下降,趋向趋向N N( ( 0 0,1)1)的两尾端;当的两尾端;当dfdf = = 时,时,t t 分布就分布就完全成为标准正态分布。完全成为标准正态分布。df = (标准正态曲线)
34、df = 4df = 1f(t)自由度分别为自由度分别为1 1、4 4、的的t t 分布曲线分布曲线,2/t,2/t22t t 分布曲线下双侧面积分布示意分布曲线下双侧面积分布示意 t t 分布曲线下面积分布规律(即分布曲线下面积分布规律(即t t 界值)界值) 通过对通过对t t 分布密度函数分布密度函数 f f( (t t) ) 求求积分可以得积分可以得到到t t 分布曲线下一定区间的面积(概率),为便于分布曲线下一定区间的面积(概率),为便于研究与应用,统计学家制作了专门的研究与应用,统计学家制作了专门的t t 界值表。界值表。如果一种过程(随机实验)的结局只能是相互对立的两种结果中的一
35、种,例如射击的命中与未中、治疗的有效与无效等。其中一种结果发生的可能性(概率)为一常数p,不可能概率为q(q=1-p)。重复性:每次试验条件不变,每次事件中A出现的概率皆为p。独立性:任何一次试验中事件A的出现与其余各次试验中出现的结果无关。记录n个观察单位中发生某一种结果的频数X,则称随机变量X服从二项分布(binomial distribution)。二项分布属于离散型分布。(四)二项分布(四)二项分布二项分布概率二项分布概率nxnxxnxnxxnxnxxnxPxFxNPxPxnxnCnxnppCqpCxP001)()(:)(1)()!( !43210 ,An( .3 , 2 , 1)1
36、()(概率积累函数理论次数次红花)、现如红白花相配,可能出出现的次数次试验中事件第每组样品个数例题:例题:某鸡蛋孵化率为某鸡蛋孵化率为0.900.90,若每次任选,若每次任选5 5个进个进行孵化,问小鸡的各种可能孵化概率(行孵化,问小鸡的各种可能孵化概率(0 0、1 1、2 2、3 3、4 4、5 5)?)?解:解:p=0.90p=0.90,q=0.10q=0.10,n=5n=5 二项分布的图形二项分布的图形二项分布的形状是由二项分布的形状是由n n和和p p两个参数决定。两个参数决定。当当p p值较小,且值较小,且n n值不大时,图形是偏倚的。随着值不大时,图形是偏倚的。随着n n值增大,分
37、布逐渐对称。值增大,分布逐渐对称。当当p p值趋近值趋近0.50.5时,分布趋于对称。时,分布趋于对称。p=0.3 p=0.5 p=0.7n=10 n=50 n=100二项分布的均数与标准差二项分布的均数与标准差 pq)(xnnpxpxiix总体标准差:均数:如果用(百分数)率表示,则为:如果用(百分数)率表示,则为:npqnnpqnpnnpnxpxp当二项分布的当二项分布的n n很大而很大而p p很小时,泊很小时,泊松分布可作为二项分布的近似。松分布可作为二项分布的近似。若若随机变量随机变量 X X 只取只取非负整数非负整数值,值,X=kX=k值的概率为值的概率为(k=0,1,2,),(k=
38、0,1,2,),则随机变量则随机变量X X 的分布的分布称为泊松分布,记作称为泊松分布,记作P()P(),其中,其中=np=np。通常当。通常当n10,p0.1n10,p0.1时,就时,就可以用泊松公式近似计算。可以用泊松公式近似计算。法国数学家西莫恩德尼泊松Simon Denis Poisson(1781-1840)(五)(五)Poisson Poisson 分布分布( (泊松分布泊松分布) )( (Poisson distributionPoisson distribution) )!kekxPk)(泊松分布泊松分布P ()P ()中只有一个参数中只有一个参数 ,它既是泊松分,它既是泊松分
39、布的均值,也是泊松分布的布的均值,也是泊松分布的方差方差。在实际事例中,当。在实际事例中,当一个一个随机事件随机事件,例如某电话交换台收到的呼叫、来到,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、显微镜下某区域中的白血球等某公共汽车站的乘客、显微镜下某区域中的白血球等等,以固定的平均瞬时速率等,以固定的平均瞬时速率 (或称密度或称密度) )随机且独随机且独立地出现时,那么这个事件在单位时间(面积或体积立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布。因此)内出现的次数或个数就近似地服从泊松分布。因此泊松分布在管理科学,运筹学以及自然科学的某些问泊松
40、分布在管理科学,运筹学以及自然科学的某些问题中都占有重要的地位。题中都占有重要的地位。泊松分布是离散型分布。泊松分布是离散型分布。 Poisson Poisson 分布的概率分布的概率标准差:方差:平均数:均数)参数200(,.2, 1 ,01!)(!)(npxeexexPxexPxxxx Poisson Poisson 分布的图形分布的图形 在应用中,常通过图形表达(或描述)在应用中,常通过图形表达(或描述)PoissonPoisson分布变分布变量的分布状况。量的分布状况。100.6=0.5=1.5=2.5(六)(六)F 分布分布如果变量如果变量x x1 1和和 x x2 2分别服从正态分
41、布分别服从正态分布 , 那么分别从两个正态分布总体随机抽取的样本那么分别从两个正态分布总体随机抽取的样本n n1 1和和n n2 2可求得方可求得方 ,由下式,由下式),(211N),(222N21S22S同一总体)不同总体).(.() 1() 1(2221211222222211SSFnnSnSnF得到的变量得到的变量 F F 服从服从F F( (dfdf1 1, ,dfdf2 2 ) )分布分布( (F F-distribution-distribution) ), 111 ndf122 ndf F F 分布的图形(即分布的图形(即F F 分布曲线)分布曲线) 利用F分布密度函数 f(x
42、) (见下式)可以绘制其图形,即F分布曲线,见图。221122122212121121)()2()2()2()(dfdfdfdfdfdfxdfxdfdfdfdfdfdfxf 不同自由度df1和df2的F 分布曲线如图F(8,)F(8,50)F(8,10)F(8,4)F(df1,df2 )(七)(七)2 2 分布(分布(Chi-square distributionChi-square distribution) 如果变量如果变量x x服从正态分布服从正态分布 ,那么从此那么从此正态分布总体随机抽取样本正态分布总体随机抽取样本n n,由下式,由下式),(2N22nS得到的变量服从自由度为得到的变
43、量服从自由度为dfdf(=(=n n -1)-1)的的2 2分布。分布。2 2分布密度函数分布密度函数 f f( (2 2) ):)2(2)()(2212222dfexxfdfxdf 不同自由度不同自由度 df df 的的2 2 分布曲线图。分布曲线图。2df= 3df= 5df= 10df= 302002年我国城乡人口情况年我国城乡人口情况 按城乡分按城乡分 比重(比重(%) 人口数(万人)人口数(万人) 12845339.0960.917824150212 1. 格式格式 统计表是表示统计统计表是表示统计资料的表格,在由横行资料的表格,在由横行、纵栏交叉结合而成的、纵栏交叉结合而成的表格上
44、,它能系统地组表格上,它能系统地组织和合理地安排大量数织和合理地安排大量数字资料。字资料。 总标题总标题 乡村乡村 城镇城镇100.00合计合计 纵栏标题纵栏标题 统计数值统计数值 横行标题横行标题 第四节第四节 统计表统计表表34 离婚案件构成离婚案件构成草草率率型型外外遇遇型型猜猜疑疑型型虐虐待待型型再再婚婚型型家家务务型型生生理理型型分分居居型型其其他他型型合合计计 2. 内容内容 主词主词统计表所要说明的对象。统计表所要说明的对象。 宾词宾词用来说明主词的标志和标志值。用来说明主词的标志和标志值。 如需要,主宾词可互换。如需要,主宾词可互换。简单表简单表 我国城市居民家庭基本情况(我国
45、城市居民家庭基本情况(2002年)年)主要指标主要指标单位单位数值数值平均每户家庭人口平均每户家庭人口平均每户就业人口平均每户就业人口平均每个就业者负担数平均每个就业者负担数平均每人全部年收入平均每人全部年收入平均每人可支配收入平均每人可支配收入平均每人消费性支出平均每人消费性支出人人人人人人元元元元元元 3 30404 1 15858 1 19292817781774040770277028080602960298888 3. 统计表按统计表按主词是否分组主词是否分组以及分组的程以及分组的程度可分为度可分为简单分组表简单分组表复合分组表复合分组表简单表简单表简单设计简单设计复合设计复合设计 中国人口年龄结构状况中国人口年龄结构状况 单位:单位:%年龄组年龄组1953年年1964年年19
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国中式笔记本电脑袋项目投资可行性研究报告
- 2025至2030年PS版铝版基项目投资价值分析报告
- 2025至2030年FR草绳三鞭项目投资价值分析报告
- 提振消费行动计划
- 共文化旅游融合发展项目可行性研究报告
- 2025年施工标牌项目可行性研究报告
- 2025年新入职工安全培训考试试题(完整)
- 赢在网络营销
- 25年各个班组安全培训考试试题附参考答案【综合卷】
- 2024-2025企业安全管理人员安全培训考试试题含答案【基础题】
- 新版药品经营质量管理规范应知应会
- 初一下册生物期中考试复习提纲
- 站务一号线low培训
- APQP培训-经典案例(完整版)
- 矿浆比重与矿浆浓度对照换算表 (1)
- 防汛应急值班表(共2页)
- 最全的L13J1建筑工程做法(共170页)
- GB_T 40081-2021 电梯自动救援操作装置(高清-现行)
- 钢筋混凝土检查井技术交底
- GH2-B组合型电气火灾监控探测器安装使用说明书
- 单位公章使用登记表
评论
0/150
提交评论