版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本资料来源本资料来源统计学教学课件天津财经学院统计系高建国统计学天津财经学院统计系第1章总论统计学是搜集数据、整理数据并从数据中获取有用信息的一门方法论科学。我们从数据中获取的有用信息是来说明社会经济现象总体
数量特征的。有限总体和无限总体(1)认识事物的现实状况;(2)认识随机现象的统计规律;(3)减少人们对某种系统知识的无知而产生的认识上的不确定性。第1章总论统计学是搜集数据、整理数据并从第2章数据的搜集一、一些基本概念总体单位总体标志指标数量指标质量指标数量标志品质标志数据的搜集也就是统计调查,它是保证我们获取有用信息的关键。变量分为连续变量和离散变量,数量型和属性变量第2章数据的搜集一、一些基本概念总体单例1:调查天津市工业企业2001年增加值的规模。总体是“全部工业企业”,总体单位是“每一工业企业”,标志是“每一工业企业的增加值”——数量标志,指标是“增加值总和”——数量指标。例2:调查天津市学龄儿童入学情况。总体是“所有儿童”,总体单位是“每一个儿童”,标志是“是否入学”——品质标志,指标是“入学率”——质量指标。例3:调查天津市2001年居民年收入情况。总体是“所有居民”,总体单位是“每位居民”,标志是“每位居民的年收入”——数量标志,指标是年均收入———质量指标。例1:调查天津市工业企业2001年增加值的规模。例2:调查天二、统计分组1.将统计调查所获取的零散的不系统的资料,按照一定的研究目的和任务,进行加工和整理的一种行之有效的统计方法。它可以帮助我们完成4种任务。2.分组时应该正确选择分组标志,以免不能准确的完成4种任务;同时应遵循互斥性和包容性原则,以免重复或遗漏。3.组距式分组中,应该弄清一些概念:组数、组距及组距的类型(如等组距、异组距、开口组距、闭口组距)、组限(上限、下限、如何确定组限)、组中值(它的假定性、开口组距的组中值如何计算、用组中值计算的平均数是一个准确值吗)。三、统计调查方案是在背景分析的前提下,制定出的周密完整的,以指导调查工作顺利完成的一项计划任务书。一项完整的统计调查方案包括8方面的内容。二、统计分组1.将统计调查所获取的零散的不系统的资料,按照一第3章数据和统计指标的基本类型一、数据的类型
它分为总体总量和标志总量(两者要成对出现才能判断,比如职工人数如何判断,只有将它和工资总额或者和工业企业数结合在一起才能判断出它的归属,即它和工资总额结合在一起,它是总体总量;它和工业企业数结合在一起,它是标志总量);时期数又称流量指标和时点数又称存量指标(两者判断的正确与否对序时平均数的计算有至关重要的影响,序时平均数的计算将在第13章里讲解,而如何判断呢,二、指标的类型
有数量型数据(用数来表示且数的计算有意义)和品质型数据(用文字来表示也可用数来表示但数的计算没有意义)。1.总量指标第3章数据和统计指标的基本类型一、数据的类型应根据其特点即(1)与时间长短是否相关,(2)前后时间上的数值相加是否有意义来判断)。2.平均指标
在同质总体内,通过“填平补齐”,“取长补短”的方式,获得的描绘总体一般水平的指标。3.相对指标
它有5种形式:动态相对指标,比较相对指标,计划完成相对指标,结构相对指标,强度相对指标。
平均指标和相对指标统称为比率型变量,我们在第4章里将涉及到这个概念,到时在详谈。应根据其特点即(1)与时间长短是否相关,(2)前后时间上的数第4章数据的描述性整理一、数据分布状态的描述方法1.分布列:有品质型和数量型分布列。它们是通过统计表来描述数据的分布状态。
在这里还应该弄清楚以下概念:次数又叫频数、频率、频数密度、频率密度。因为这些概念可以帮助我们了解数据的分布状态。2.分布图:有棒图、直方图、折线图、曲线图。它们是通过统计图来描述数据的分布状态。它们与分布列相比更加直观。
画图时如果是等组距,那么可用频数或频率来做图;如果是异组距,那么应该用频数密度或频率密度来做图。第4章数据的描述性整理一、数据分布状态的描述方法二、数据分布的特征及特征数分布特征分布特征数位置特征平均数、中位数、众数离散特征全距、平均差、标准差、离散系数偏斜特征偏态系数峰度特征峰度系数
三、几种常用的位置特征数(一)平均数常见的有算术平均数、调和平均数、几何平均数。几何平均数在第13章里会详细加以解释,这里主要讲解前两个。二、数据分布的特征及特征数分布特征对于绝对数和比率变量如何计算平均数,我们可这样做:1.先确定变量。根据题意平均“谁”,“谁”就是变量。比如,求平均日产量,则“日产量”就是变量;又如,求50家企业的平均计划完成百分比,则“计划完成百分比”就是变量。2.判别“所确定变量”的类型是绝对数变量,还是比率变量。3.如果是绝对数变量,那么权数是次数(频数)或频率,并采用加权算术平均数的公式来计算。如:“日产量”是绝对数变量,则权数是各组的人数或人数比重。4.如果是比率变量,那么要找出比率变量的基本比式,然后再根据已知资料来确定权数和计算公式。如:“计划完成百分比”是比率变量,其基本比式是实际数与对于绝对数和比率变量如何计算平均数,我们可这样做:1.先确定计划数的比值。那么权数和公式这样选择:(1)若已知资料是比率变量和基本比式的分母资料,则权数为分母资料,用f表示,并采用加权算术平均数。(2)若已知资料是比率变量和基本比式的分子资料,则权数为分子资料,用M表示,并采用加权调和平均数。例如:通过调查获取了15个企业的产值计划执行情况,如下表(单位:万元)计划完成% 企业数 计划产值80——902 10090——1003 200100——1106 400110以上4300
合计 15 1000计算15个企业的平均计划完成百分比。计划数的比值。那么权数和公式这样选择:(1)若已知资料是比率(1)在这道题中,我们平均的是“计划完成百分比”,那么,它就是变量,用x表示,变量值为各组的组中值。(2)该变量的性质是比率变量,其基本比式是实际产值与计划产值之比。(3)从已知资料中可知条件是比率变量和基本比式的分母资料,则权数是分母资料“计划产值”,用f来表示,采用加权算术平均数公式来计算即可。(二)中位数
平均数的着眼点在于抵消各观察值之间的数量差异,表明将各个观察值“截长补短”以后的平均水平。中位数的着眼点在于寻求全部观察值按其大小顺序排列,居中间位置的一般水平。例如:人口的年龄分布往往近似J型:婴儿数最多,随着年龄的增大,人数逐渐下降,到了百岁左右,所剩的人(1)在这道题中,我们平均的是“计划完成百分比”,那么,它就(三)众数
众数的着眼点在于寻求各组中频数最多的观察值。用来反映要了解的现象中最普通、最常见的数值水平。数就很少了。如果计算年龄的算术平均数,老年人口数虽然较少,但其年龄数值很高,这样一来,计算的平均年龄就会偏向老年一方。因此,各国的人口统计资料中,平均年龄的计算一般采用中位数。
比如,一位食品部经理想按照预期的销售量来分配货物架的空间。从这个意义上来说,我们应该依据众数,而不是平均数或中位数来确定,即过去具有最高销售量的食品将得到最大限度的货物架空间。
又如,如果你的业务是提供足球运动衫的号码,那么,哪一种度量对你来说更为有用:平均数、中位数或众数?当然是众数。(三)众数众数的着眼点在于寻求各组中频数最四、离散特征数有4种:一是全距:在实际生产中称之为极差,用R表示。
二是平均差:有简单式和加权式之分。当平均数是简单算术平均数时,平均差便采用简单式;当平均数是加权算术平均数时,平均差便采用加权式。
三是标准差(方差):也有简单式和加权式之分。和平均差一样,选择哪种形式要依赖于平均数的计算。
四是离散系数:有全距系数、平均差系数和标准差系数。一般地,标准差系数的应用场合较多。
例1.甲、乙两个企业平均每月的劳动生产率都是8000元,它们的标准差分别是320元和240元,那么哪个企业的劳动生产率的代表性更强?
对于这种情况,因为甲乙两个企业的总体平均水平是相同的,所以,我们可以直接根据标准差的大小来判别乙企四、离散特征数有4种:一是全距:在实际生产中称之为极差,用R业的劳动生产率的代表性强。
例2.A、B两个商场2000年平均每月的销售额分别为16000元和8000元,它们的标准差各为320元和240元,那么哪个商场的销售额稳定些?
例3.对某系一年级的100名男生进行调查,得到平均身高为172厘米,平均体重68公斤,各自的标准差分别为6厘米和4公斤,那么100名男生的身高和体重何者离散较严重?
对于例2和例3这两种情况,由于面对的一个是两个总体水平相差很悬殊,一个是两个总体的性质或计量单位不同,我们不能直接根据已知的标准差的大小来判别总体内变量值的离散程度,应该计算两个总体各自的标准差系数。结果是例2中,A商场的标准差系数是2%,B商场的标准差系数是3%,即A商场的销售额稳定。例3中,身高的标准差系数是3.49%,体重的标准差系数是5.88%,即100名男生体重的离散较严重。业的劳动生产率的代表性强。例2.A、B两个商场200第5章随机试验和随机变量一、随机现象在给定条件下,不能确切预见其结果的现象。1.由于存在着不能确定的和不能完全预见的偶然性的影响因素,随机现象便产生了。2.随机现象具有一定的规律性。规律值附近发生的可能大,规律值远处发生的可能小。3.要保证给定的条件是相同的。二、随机试验(可重复、不可重复)、事件(基本事件、复合事件;必然事件、不可能事件)三、概率第5章随机试验和随机变量一、随机现象在给定条件下,不有主观概率和客观概率之分。在以后章节中涉及到的概率是指客观概率,即大量观察条件下频率的稳定值。四、随机变量及其分布
书中127页第1个例子的随机变量是“可能出现的点数”,第2个例子的随机变量是“等待时间”,第3个例子的随机变量是“取出球的颜色”。
从上述3个例子中可以看到例1和例3是离散型随机变量,例2是连续型随机变量。
我们通过“分布”来刻画随机变量的特征。也可以通过特征数来认识随机变量的特征。有主观概率和客观概率之分。在以后章节中涉及到的概率是指客观概第6章有限总体概率抽样一、一般问题
抽取样本时我们应该作到:对每一次抽取行为都应精心组织,使得此时尚留在总体中的所有单位都有可能被抽到,且有确定的,不等于零的被抽中的概率。
例如,一个笼子里装有800只兔子,调查人员闭上眼睛将手伸入笼中抓取兔子的行为,是不是符合随机抽取的原则。
正确的作法是:在800只兔子身上编上号码,并做好800个阄,放在盒子里充分搅匀,从盒子里随机抽取一个号码,号码是几,就从笼子中抓出相同号码的兔子。这就符合随机抽取的原则了。
如果向例子中所描述的那样“闭上眼抓兔子”那属于随便抓取,因为在笼口附近的兔子被抓住的可能大于远离笼口的兔子。第6章有限总体概率抽样一、一般问题
等概率和不等概率抽样的共同点:各单位都有确定的不等于零的被抽中的概率。二、一些基本概念
例:某微波炉生产厂家想要了解微波炉进入居民家庭生活的深度。为此从某地区已购买了微波炉的2200个居民户中用简单随机抽样方法以户为单位抽取了30户,询问每户一个月使用微波炉的时间。调查结果依次为(分钟):45090050700400520600340280800750550201100440460580650430460450400360370560610710200试估计该地区已购买了微波炉的居民户平均一户一个月使用微波炉的时间,并以95.45%的置信概率做保证对平均使用微波炉的时间进行区间估计。等概率和不等概率抽样的共同点:各单位都有确定的根据该例子我们来了解一下一些概念。1.题中的N=2200就是“有限总体”,n=30就是“概率样本”。2.30户居民的平均使用微波炉的时间:(分钟)和方差是“统计量”。3.我们用样本统计量作为对有限总体指标的估计,用来表示,称之为“估计量”。4.点估计:用样本估计量及其观察值来表达对总体指标的估计。即5.区间估计:用一个取值区间来表达对总体指标的估计。这个数值区间叫作置信区间。根据该例子我们来了解一下一些概念。1.题中的N=2200该题的置信区间为至
区间的左端为置信下限,右端为置信上限。式中的临界值z,根据置信概率来确定。本题的样本容量为30,属大样本,应查标准正态分布表,不过本题给的置信概率所对应的临界值为常见值,即z=2。那么,将所知数据带入置信区间得:
下限
上限该题的置信区间为如果我们的样本容量n小于30,那么在确定临界值时要改用自由度为n-1的t分布双尾面积。即如果我们的已知资料是无限总体,样本容量时,置信区间为,与有限总体相比少一个小尾巴。书后习题6.6和6.7便是无限总体。另外,对于对“总体总值、总体比例和相应单位数目”的进行估计时,估计的情景和上述例子相似,可“以次类推”。如果我们的样本容量n小于30,那么在确定临界值时要改如果我们第7章显著性检验的基本问题
显著性检验又称假设检验。就是事先对无限总体的参数或分布作出一个假设,然后利用样本信息来判断这个假设是否合理。例如,咖啡的分袋包装生产线按装袋净重150克的技术标准控制操作。现从生产线抽取简单随机样本n=100袋,测得其平均重量为克,样本标准差s=0.872克。问该生产线是否处于控制状态?(显著水平为0.1)
根据上述问题,我们怎么引入显著性检验这一问题呢?在给定的条件下,从生产线上生产的袋装茶叶所组成的总体为无限总体,而装袋净重要符合技术标准的150克是对总体所做的假设,我们称之为原假设,用来表示,但是如果装袋净重与技术标准的150克有出入,如何与原假设相协调,那么还提出了备择假设,用表示。这样原假设和备择假设合在一起,就涵盖了我们第7章显著性检验的基本问题显著性检验所研究的总体特征的所有可能性。结合例子,可以这样表示原假设和备择假设。其中,原假设指观察到的差异只反映机会差异,即通过样本数据计算的袋装茶叶的平均净重和总体平均净重之间的差异,只是一个偶然变动造成的,不会影响整条生产线的质量;备择假设指观察到的差异是真实的,即“样本”的平均净重和总体的平均净重之间的差异,表明生产线上生产的袋装茶叶的净重已偏离了质量技术标准,应该予以调整。
根据备择假设确定是双尾检验还是单尾检验。拒绝域位置
原假设
备择假设双尾
左单尾
右单尾所研究的总体特征的所有可能性。结合例子,可以这样表示原假设和该题中的备择假设为因此应该采用双尾检验。在原假设成立的情况下,我们如何来构造统计量呢?具体情况如下:
已知条件
统计量1.总体为正态分布,总体方差已知,不论样本大小
(公式中的方差要用已知总体方差而不用)。2.总体分布未知,总体方差已知,大样本
(公式中的方差要用已知总体方差而不用)。3.总体为正态分布,总体方差未知,小样本4.总体分布未知,总体方差未知,大样本
(这里要和第2种情况区别开,即方差用,而统计量用Z,而不是t。该题中的备择假设为因此例题中的已知条件符合第4种情况,所以应计算Z统计量,即:接下来根据给定的显著水平和所构造的统计量是Z还是t,是双尾还是单尾,来确定临界值。如果是Z统计量、双尾,那么就查标准正态分布表:;若是单尾那么就查标准正态分布表:。如果是t统计量、双尾,那么就查自由度为n-1的t分布表:;若是单尾,则查自由度为n-1的t分布表:。例题中所构造的统计量是Z、双尾,则应查标准正态分布表例题中的已知条件符合第4种情况,所以应计算Z统计量,即:有了临界值,我们就可以依此来确定拒绝域和接受域。若是Z统计量、双尾,则拒绝域为,;接受域为,本例题符合该条件,则将上面确定的临界值1.645代入得,拒绝域为接受域为对于Z统计量、单尾;t统计量、双尾或单尾过程和上述确定Z统计量、双尾一样,这里就不在重述。最后,将算出的统计量的具体值和确定的临界值比较,即若,则落入拒绝域,结论为:样本水平和总体水平之间存在着真实差异;若,则落入接受域,结论为样本水平和总体水平之间的差异是机会差异。同样对于对于Z统计量、单尾;t统计量、双尾或单尾过程和上述确定Z统计量、双尾一样,这里就不在重述。有了临界值,我们就可以依此来确定拒绝域和接受域。若是对于Z统例题中的统计量的具体数值那么落入拒绝域,则说明生产线生产的袋装茶叶的平均重量已偏离了质量技术标准,应予以调整。我们将上述过程根据例题再完整的叙述一下:1.提出假设:2.构造统计量:3.依给定的显著水平,确定临界值和拒绝域以及接受域4.作出判断:因则落入拒绝域,则说明生产线生产的袋装茶叶的平均重量已偏离了质量技术标准,应予以调整。例题中的统计量的具体数值第8章两个总体的比较第9章方差分析第10章皮尔逊检验
当我们熟悉了“第7章显著性检验”的问题后,第8、9、10三章就好处理了。因为这三章也是显著性检验问题,只不过是检验的对象发生了变化,即两总体(第8章)、多总体(第9章方差分析)以及独立性检验和拟合优度检验(第10章)。所以,我们将它们放在一起来讲,使同学们的整体感更强些。第8章两个总体的比较第9章方差分析第10章两个总体
多总体比较
(方差分析)皮尔逊检验均值比较比例比较拟合优度检验独立性检验1.提出假设不全相等
服从正态分布不服从正态分布
变量之间独立两者不独立2.构造统计量3.给定显著水平,确定临界值和拒绝域根据备择假设做双尾或单尾检验.给定显著水平确定临界值和拒绝域同左因F的比值恒为正,则为右单尾,给定显著性水平,确定临界值和拒绝域。因值恒为正,则为右单尾,给定显著水平,确定临界值和拒绝域
同左4.根据上述结果作出结论若是双尾拒绝原假设接受原假设若是单尾,略同左如果那么拒绝原假设,如果那么接受原假设。如果则拒绝原假设,若则接受原假设。同左均值比较比例比较拟合优度检验独立性检验服从
另外,(1)要注意方差分析中的因变量是数量型变量,自变量可以是品质型变量,也可以是数量型变量;而独立性检验中的因变量和自变量都是品质型变量。(2)要理解方差分析中因子和处理的含义。每一“处理”就是一个总体。(3)要将方差分析表中的各数字的来源及它们之间的关系弄清。如:方差来源离差平方和自由度均方差F值组间变差SSR=7112.1423组内变差MSE=2341.863总变差20另外,(1)要注意方差分析中的因变量是数量型变量如何将表中数字填全呢?1.组内变差的自由度(m-1)=总变差的自由度(n-1)-组间变差的自由度(n-m)=20-3=17,2.因组内均方差MSE=组内方差SSE/m-1=2341.863所以组内方差SSE=组内均方差*自由度(m-1)=2341.863*17=39811.6673.总变差SST=组内变差SSE+组间变差SSR=39811.667+7112.142=46923.814.组间均方差MSR=组间变差SSR/m-1=7112.142/3=2370.7145.F=MSR/MSE=2370.714/2341.863=1.06如何将表中数字填全呢?第12章统计指数
指数是反映复杂经济现象总体(即复杂总体)变动的特殊相对数。如果有限总体中的各个单位不能直接相加汇总得到总体单位总量,这样的有限总体叫复杂总体。与之相对应的是简单总体。我们引入“同度量因素”这一概念,复杂总体中的各个单位就变得可以直接相加了。同度量因素是指使不能相加的事物过渡到可以直接相加的因素。弄清同度量因素的作用和选择时应遵循的条件,对同度量的理解更深刻。指数编制的基本途径有两个:一是综合的方法,形成综合指数;一是平均的方法,形成平均指数。第12章统计指数指数是反映复杂经济现象总
在这一章节中要能准确地区分数量指标和质量指标,这有助于计算指数,还要能够准确地判断分析对象是总量指标还是平均指标,这有助于我们进行因素分析。我们以因素分析为例。例如,某企业工资和人数资料:分析由于各组平均工资和职工人数的变化对工资总额的影响。我们的分析对象是“工资总额”,这一指标是总量指标,工资总额=职工人数*平均工资。应选择两因素的综合指数因素分析。职工分组工资总额(元)职工人数(人)基期报告期基期报告期中老年人青年人2100080003120025200300200400600合计29000564005001000在这一章节中要能准确地区分数量指标和质量指标
接上例,如果我们的问题是:分析职工总体内部人数构成和各组平均工资的变化对总平均工资的影响。那么我们的分析对象“总平均工资”是加权算术平均数(平均指标)。总平均工资=工资总额/职工人数。应选择加权算术平均数变动的因素分析即接上例,如果我们的问题是:分析职工总体内部人数构
如习题12.14中题目的要求是(1)分析产量和单位成本的变动对总成本的影响。(2)分析产量和价格的变动对总产值的影响。要求(1)和(2)中的分析对象分别是“总成本”和“总产值”,这两个指标是都是总量指标。总成本=产量q*单位成本p;总产值=产量q*价格p。应选择综合指数变动的因素分析。即:如习题12.19中题目的要求是对全厂的劳动生产率的变动进行因素分析。要求中的分析对象是“劳动生产率”,这一指标是加权算术平均数(平均指标)劳动生产率=总产值或总产量/职工人数。应选择加权算术平均如习题12.14中题目的要求是(1)分析产量数变动的因素分析。即
平均指数是指个体指数的平均数。它在实际工作中应用非常广泛。那是因为(1)平均指数可以使用附加权数,这就为通过分类选样观察一部分商品来计算全部商品的总指数提供了可能。(2)平均指数可以使用比重权数,这个比重可以用抽样调查资料来估计,同时通过比重权数可以反映总体中各个部分的相对重要性。习题12.2和12.3就是常见的平均指数在实际中的应用,我们应予以掌握。数变动的因素分析。即平均指数是指个体指数的平均
我们还可以根据指数进行推算或剔除价值量指标中的价格因素。指数推算的例子:如习题12.9题目(1)的要求是以价格水平提高后同样多的人民币少购商品10%,求价格指数?该题目中的指数体系是:销售额指数=销售量指数*价格指数则价格指数=销售额指数/销售量指数,根据题目中已知条件可知“以同样多的人民币”是销售额指数100%,少购商品10%是销售量指数110%,则将数据代入指数体系中得价格指数=100%/110%=90.91%.剔除价值量指标中的价格因素的例子:如书中例12.8。题目的要求是剔除职工人均月生活费收入中价格因素的影响。1991年的人均月生活费收入为428.5元,但该年的价格水平也有所上升为100.5%,要想真实的衡量收入的提高情况,应剔除价格的变化即:428.5/100.5%=426.4。我们还可以根据指数进行推算或剔除价值量指标中的第13章时间数列数据研究
本章涉及三部分内容:一是序时平均数的计算;二是增量与速度的计算;三是预测。一、序时平均数的计算1.“绝对数”的序时平均数的计算在这一问题中,关键是要能够准确地判断出所要平均的绝对数的时间所属性质是“时期数”还是“时点数”。因为它们的计算公式有很大差别。比如,某企业2001年第一季度每月的钢产量如表(万吨)根据资料计算每月平均钢产量。月份一二三钢产量404642第13章时间数列数据研究本章涉及三部分
我们知道该题被平均的对象“钢产量”是一“时期数”,用来表示,那么应采用即平均钢产量又如,某商店的商品库存资料如下:(万元)计算该商店第一季度的平均库存额。我们知道该题被平均的对象“库存额”是一“时点数”,用来表示,且各时点间的间隔都相等,那么采用月份一月初二月初三月初四月初库存额20404060我们知道该题被平均的对象“钢产量”是一“时期数即“首末折半”公式。代入数字得如果各时点间的间隔不相等,应该用间隔的长短作权数,采用书中(13.4)式来计算。这里就不详述。2.“比”类型变量的序时平均数的计算某商店2001年第一季度各月商品流转资料计算第一季平均每月流转次数。1234商品销售额(万元)60120200---月初商品库存额(万元)20404060商品流转次数(次)234---1234商品销售额(万元)60120200---月初商品库存根据题目的要求我们可以采用如下步骤:(1)找出“比”类型变量的基本公式,如“周转次数”这一“比”类型变量的基本公式=商品销售额/平均商品库存额。(2)正确判别基本公式中分子、分母的时间所属性质是时期数还是时点数,时间间隔是否相等。本题的分子“商品销售额”是时期数,分母“库存额”是时点数,且间隔相等,(3)根据正确判别出的分子分母的时间所属性质,分别对分子分母计算序时平均数。
分子的序时平均数
分母的序时平均数(4)将求得的分子分母的序时平均数按基本公式加以对比,根据题目的要求我们可以采用如下步骤:便是“比”类型变量的序时平均数。即二是增量与速度的计算年份199619971998199920002001国内生产总值(亿元)增长量(亿元)逐期+3566累计+24447发展速度(%)环比110.15定基增长速度(%)环比7.80定基15.41增长1%的绝对值(亿元)678.85便是“比”类型变量的序时平均数。即二是增量与速度的计算年1.将表中所缺数字填全,不能填写的地方用“------”表示。其实,当你将表中空缺填全后,增长量如何计算、发展速度和增长速度之间的关系自然而然就会明白。2.当完成了上述工作之后还可以计算:(1)1996年至2001年间的平均增长量。(2)1996年至2001年间的平均发展速度和平均增长速度。(水平法)三、预测1.时间数列的类型:(1)水平型移动平均修匀适用的对象、意图、思路。指数平滑平均修匀的公式指数平滑预测的公式1.将表中所缺数字填全,不能填写的地方用“------”表示演讲完毕,谢谢观看!演讲完毕,谢谢观看!本资料来源本资料来源统计学教学课件天津财经学院统计系高建国统计学天津财经学院统计系第1章总论统计学是搜集数据、整理数据并从数据中获取有用信息的一门方法论科学。我们从数据中获取的有用信息是来说明社会经济现象总体
数量特征的。有限总体和无限总体(1)认识事物的现实状况;(2)认识随机现象的统计规律;(3)减少人们对某种系统知识的无知而产生的认识上的不确定性。第1章总论统计学是搜集数据、整理数据并从第2章数据的搜集一、一些基本概念总体单位总体标志指标数量指标质量指标数量标志品质标志数据的搜集也就是统计调查,它是保证我们获取有用信息的关键。变量分为连续变量和离散变量,数量型和属性变量第2章数据的搜集一、一些基本概念总体单例1:调查天津市工业企业2001年增加值的规模。总体是“全部工业企业”,总体单位是“每一工业企业”,标志是“每一工业企业的增加值”——数量标志,指标是“增加值总和”——数量指标。例2:调查天津市学龄儿童入学情况。总体是“所有儿童”,总体单位是“每一个儿童”,标志是“是否入学”——品质标志,指标是“入学率”——质量指标。例3:调查天津市2001年居民年收入情况。总体是“所有居民”,总体单位是“每位居民”,标志是“每位居民的年收入”——数量标志,指标是年均收入———质量指标。例1:调查天津市工业企业2001年增加值的规模。例2:调查天二、统计分组1.将统计调查所获取的零散的不系统的资料,按照一定的研究目的和任务,进行加工和整理的一种行之有效的统计方法。它可以帮助我们完成4种任务。2.分组时应该正确选择分组标志,以免不能准确的完成4种任务;同时应遵循互斥性和包容性原则,以免重复或遗漏。3.组距式分组中,应该弄清一些概念:组数、组距及组距的类型(如等组距、异组距、开口组距、闭口组距)、组限(上限、下限、如何确定组限)、组中值(它的假定性、开口组距的组中值如何计算、用组中值计算的平均数是一个准确值吗)。三、统计调查方案是在背景分析的前提下,制定出的周密完整的,以指导调查工作顺利完成的一项计划任务书。一项完整的统计调查方案包括8方面的内容。二、统计分组1.将统计调查所获取的零散的不系统的资料,按照一第3章数据和统计指标的基本类型一、数据的类型
它分为总体总量和标志总量(两者要成对出现才能判断,比如职工人数如何判断,只有将它和工资总额或者和工业企业数结合在一起才能判断出它的归属,即它和工资总额结合在一起,它是总体总量;它和工业企业数结合在一起,它是标志总量);时期数又称流量指标和时点数又称存量指标(两者判断的正确与否对序时平均数的计算有至关重要的影响,序时平均数的计算将在第13章里讲解,而如何判断呢,二、指标的类型
有数量型数据(用数来表示且数的计算有意义)和品质型数据(用文字来表示也可用数来表示但数的计算没有意义)。1.总量指标第3章数据和统计指标的基本类型一、数据的类型应根据其特点即(1)与时间长短是否相关,(2)前后时间上的数值相加是否有意义来判断)。2.平均指标
在同质总体内,通过“填平补齐”,“取长补短”的方式,获得的描绘总体一般水平的指标。3.相对指标
它有5种形式:动态相对指标,比较相对指标,计划完成相对指标,结构相对指标,强度相对指标。
平均指标和相对指标统称为比率型变量,我们在第4章里将涉及到这个概念,到时在详谈。应根据其特点即(1)与时间长短是否相关,(2)前后时间上的数第4章数据的描述性整理一、数据分布状态的描述方法1.分布列:有品质型和数量型分布列。它们是通过统计表来描述数据的分布状态。
在这里还应该弄清楚以下概念:次数又叫频数、频率、频数密度、频率密度。因为这些概念可以帮助我们了解数据的分布状态。2.分布图:有棒图、直方图、折线图、曲线图。它们是通过统计图来描述数据的分布状态。它们与分布列相比更加直观。
画图时如果是等组距,那么可用频数或频率来做图;如果是异组距,那么应该用频数密度或频率密度来做图。第4章数据的描述性整理一、数据分布状态的描述方法二、数据分布的特征及特征数分布特征分布特征数位置特征平均数、中位数、众数离散特征全距、平均差、标准差、离散系数偏斜特征偏态系数峰度特征峰度系数
三、几种常用的位置特征数(一)平均数常见的有算术平均数、调和平均数、几何平均数。几何平均数在第13章里会详细加以解释,这里主要讲解前两个。二、数据分布的特征及特征数分布特征对于绝对数和比率变量如何计算平均数,我们可这样做:1.先确定变量。根据题意平均“谁”,“谁”就是变量。比如,求平均日产量,则“日产量”就是变量;又如,求50家企业的平均计划完成百分比,则“计划完成百分比”就是变量。2.判别“所确定变量”的类型是绝对数变量,还是比率变量。3.如果是绝对数变量,那么权数是次数(频数)或频率,并采用加权算术平均数的公式来计算。如:“日产量”是绝对数变量,则权数是各组的人数或人数比重。4.如果是比率变量,那么要找出比率变量的基本比式,然后再根据已知资料来确定权数和计算公式。如:“计划完成百分比”是比率变量,其基本比式是实际数与对于绝对数和比率变量如何计算平均数,我们可这样做:1.先确定计划数的比值。那么权数和公式这样选择:(1)若已知资料是比率变量和基本比式的分母资料,则权数为分母资料,用f表示,并采用加权算术平均数。(2)若已知资料是比率变量和基本比式的分子资料,则权数为分子资料,用M表示,并采用加权调和平均数。例如:通过调查获取了15个企业的产值计划执行情况,如下表(单位:万元)计划完成% 企业数 计划产值80——902 10090——1003 200100——1106 400110以上4300
合计 15 1000计算15个企业的平均计划完成百分比。计划数的比值。那么权数和公式这样选择:(1)若已知资料是比率(1)在这道题中,我们平均的是“计划完成百分比”,那么,它就是变量,用x表示,变量值为各组的组中值。(2)该变量的性质是比率变量,其基本比式是实际产值与计划产值之比。(3)从已知资料中可知条件是比率变量和基本比式的分母资料,则权数是分母资料“计划产值”,用f来表示,采用加权算术平均数公式来计算即可。(二)中位数
平均数的着眼点在于抵消各观察值之间的数量差异,表明将各个观察值“截长补短”以后的平均水平。中位数的着眼点在于寻求全部观察值按其大小顺序排列,居中间位置的一般水平。例如:人口的年龄分布往往近似J型:婴儿数最多,随着年龄的增大,人数逐渐下降,到了百岁左右,所剩的人(1)在这道题中,我们平均的是“计划完成百分比”,那么,它就(三)众数
众数的着眼点在于寻求各组中频数最多的观察值。用来反映要了解的现象中最普通、最常见的数值水平。数就很少了。如果计算年龄的算术平均数,老年人口数虽然较少,但其年龄数值很高,这样一来,计算的平均年龄就会偏向老年一方。因此,各国的人口统计资料中,平均年龄的计算一般采用中位数。
比如,一位食品部经理想按照预期的销售量来分配货物架的空间。从这个意义上来说,我们应该依据众数,而不是平均数或中位数来确定,即过去具有最高销售量的食品将得到最大限度的货物架空间。
又如,如果你的业务是提供足球运动衫的号码,那么,哪一种度量对你来说更为有用:平均数、中位数或众数?当然是众数。(三)众数众数的着眼点在于寻求各组中频数最四、离散特征数有4种:一是全距:在实际生产中称之为极差,用R表示。
二是平均差:有简单式和加权式之分。当平均数是简单算术平均数时,平均差便采用简单式;当平均数是加权算术平均数时,平均差便采用加权式。
三是标准差(方差):也有简单式和加权式之分。和平均差一样,选择哪种形式要依赖于平均数的计算。
四是离散系数:有全距系数、平均差系数和标准差系数。一般地,标准差系数的应用场合较多。
例1.甲、乙两个企业平均每月的劳动生产率都是8000元,它们的标准差分别是320元和240元,那么哪个企业的劳动生产率的代表性更强?
对于这种情况,因为甲乙两个企业的总体平均水平是相同的,所以,我们可以直接根据标准差的大小来判别乙企四、离散特征数有4种:一是全距:在实际生产中称之为极差,用R业的劳动生产率的代表性强。
例2.A、B两个商场2000年平均每月的销售额分别为16000元和8000元,它们的标准差各为320元和240元,那么哪个商场的销售额稳定些?
例3.对某系一年级的100名男生进行调查,得到平均身高为172厘米,平均体重68公斤,各自的标准差分别为6厘米和4公斤,那么100名男生的身高和体重何者离散较严重?
对于例2和例3这两种情况,由于面对的一个是两个总体水平相差很悬殊,一个是两个总体的性质或计量单位不同,我们不能直接根据已知的标准差的大小来判别总体内变量值的离散程度,应该计算两个总体各自的标准差系数。结果是例2中,A商场的标准差系数是2%,B商场的标准差系数是3%,即A商场的销售额稳定。例3中,身高的标准差系数是3.49%,体重的标准差系数是5.88%,即100名男生体重的离散较严重。业的劳动生产率的代表性强。例2.A、B两个商场200第5章随机试验和随机变量一、随机现象在给定条件下,不能确切预见其结果的现象。1.由于存在着不能确定的和不能完全预见的偶然性的影响因素,随机现象便产生了。2.随机现象具有一定的规律性。规律值附近发生的可能大,规律值远处发生的可能小。3.要保证给定的条件是相同的。二、随机试验(可重复、不可重复)、事件(基本事件、复合事件;必然事件、不可能事件)三、概率第5章随机试验和随机变量一、随机现象在给定条件下,不有主观概率和客观概率之分。在以后章节中涉及到的概率是指客观概率,即大量观察条件下频率的稳定值。四、随机变量及其分布
书中127页第1个例子的随机变量是“可能出现的点数”,第2个例子的随机变量是“等待时间”,第3个例子的随机变量是“取出球的颜色”。
从上述3个例子中可以看到例1和例3是离散型随机变量,例2是连续型随机变量。
我们通过“分布”来刻画随机变量的特征。也可以通过特征数来认识随机变量的特征。有主观概率和客观概率之分。在以后章节中涉及到的概率是指客观概第6章有限总体概率抽样一、一般问题
抽取样本时我们应该作到:对每一次抽取行为都应精心组织,使得此时尚留在总体中的所有单位都有可能被抽到,且有确定的,不等于零的被抽中的概率。
例如,一个笼子里装有800只兔子,调查人员闭上眼睛将手伸入笼中抓取兔子的行为,是不是符合随机抽取的原则。
正确的作法是:在800只兔子身上编上号码,并做好800个阄,放在盒子里充分搅匀,从盒子里随机抽取一个号码,号码是几,就从笼子中抓出相同号码的兔子。这就符合随机抽取的原则了。
如果向例子中所描述的那样“闭上眼抓兔子”那属于随便抓取,因为在笼口附近的兔子被抓住的可能大于远离笼口的兔子。第6章有限总体概率抽样一、一般问题
等概率和不等概率抽样的共同点:各单位都有确定的不等于零的被抽中的概率。二、一些基本概念
例:某微波炉生产厂家想要了解微波炉进入居民家庭生活的深度。为此从某地区已购买了微波炉的2200个居民户中用简单随机抽样方法以户为单位抽取了30户,询问每户一个月使用微波炉的时间。调查结果依次为(分钟):45090050700400520600340280800750550201100440460580650430460450400360370560610710200试估计该地区已购买了微波炉的居民户平均一户一个月使用微波炉的时间,并以95.45%的置信概率做保证对平均使用微波炉的时间进行区间估计。等概率和不等概率抽样的共同点:各单位都有确定的根据该例子我们来了解一下一些概念。1.题中的N=2200就是“有限总体”,n=30就是“概率样本”。2.30户居民的平均使用微波炉的时间:(分钟)和方差是“统计量”。3.我们用样本统计量作为对有限总体指标的估计,用来表示,称之为“估计量”。4.点估计:用样本估计量及其观察值来表达对总体指标的估计。即5.区间估计:用一个取值区间来表达对总体指标的估计。这个数值区间叫作置信区间。根据该例子我们来了解一下一些概念。1.题中的N=2200该题的置信区间为至
区间的左端为置信下限,右端为置信上限。式中的临界值z,根据置信概率来确定。本题的样本容量为30,属大样本,应查标准正态分布表,不过本题给的置信概率所对应的临界值为常见值,即z=2。那么,将所知数据带入置信区间得:
下限
上限该题的置信区间为如果我们的样本容量n小于30,那么在确定临界值时要改用自由度为n-1的t分布双尾面积。即如果我们的已知资料是无限总体,样本容量时,置信区间为,与有限总体相比少一个小尾巴。书后习题6.6和6.7便是无限总体。另外,对于对“总体总值、总体比例和相应单位数目”的进行估计时,估计的情景和上述例子相似,可“以次类推”。如果我们的样本容量n小于30,那么在确定临界值时要改如果我们第7章显著性检验的基本问题
显著性检验又称假设检验。就是事先对无限总体的参数或分布作出一个假设,然后利用样本信息来判断这个假设是否合理。例如,咖啡的分袋包装生产线按装袋净重150克的技术标准控制操作。现从生产线抽取简单随机样本n=100袋,测得其平均重量为克,样本标准差s=0.872克。问该生产线是否处于控制状态?(显著水平为0.1)
根据上述问题,我们怎么引入显著性检验这一问题呢?在给定的条件下,从生产线上生产的袋装茶叶所组成的总体为无限总体,而装袋净重要符合技术标准的150克是对总体所做的假设,我们称之为原假设,用来表示,但是如果装袋净重与技术标准的150克有出入,如何与原假设相协调,那么还提出了备择假设,用表示。这样原假设和备择假设合在一起,就涵盖了我们第7章显著性检验的基本问题显著性检验所研究的总体特征的所有可能性。结合例子,可以这样表示原假设和备择假设。其中,原假设指观察到的差异只反映机会差异,即通过样本数据计算的袋装茶叶的平均净重和总体平均净重之间的差异,只是一个偶然变动造成的,不会影响整条生产线的质量;备择假设指观察到的差异是真实的,即“样本”的平均净重和总体的平均净重之间的差异,表明生产线上生产的袋装茶叶的净重已偏离了质量技术标准,应该予以调整。
根据备择假设确定是双尾检验还是单尾检验。拒绝域位置
原假设
备择假设双尾
左单尾
右单尾所研究的总体特征的所有可能性。结合例子,可以这样表示原假设和该题中的备择假设为因此应该采用双尾检验。在原假设成立的情况下,我们如何来构造统计量呢?具体情况如下:
已知条件
统计量1.总体为正态分布,总体方差已知,不论样本大小
(公式中的方差要用已知总体方差而不用)。2.总体分布未知,总体方差已知,大样本
(公式中的方差要用已知总体方差而不用)。3.总体为正态分布,总体方差未知,小样本4.总体分布未知,总体方差未知,大样本
(这里要和第2种情况区别开,即方差用,而统计量用Z,而不是t。该题中的备择假设为因此例题中的已知条件符合第4种情况,所以应计算Z统计量,即:接下来根据给定的显著水平和所构造的统计量是Z还是t,是双尾还是单尾,来确定临界值。如果是Z统计量、双尾,那么就查标准正态分布表:;若是单尾那么就查标准正态分布表:。如果是t统计量、双尾,那么就查自由度为n-1的t分布表:;若是单尾,则查自由度为n-1的t分布表:。例题中所构造的统计量是Z、双尾,则应查标准正态分布表例题中的已知条件符合第4种情况,所以应计算Z统计量,即:有了临界值,我们就可以依此来确定拒绝域和接受域。若是Z统计量、双尾,则拒绝域为,;接受域为,本例题符合该条件,则将上面确定的临界值1.645代入得,拒绝域为接受域为对于Z统计量、单尾;t统计量、双尾或单尾过程和上述确定Z统计量、双尾一样,这里就不在重述。最后,将算出的统计量的具体值和确定的临界值比较,即若,则落入拒绝域,结论为:样本水平和总体水平之间存在着真实差异;若,则落入接受域,结论为样本水平和总体水平之间的差异是机会差异。同样对于对于Z统计量、单尾;t统计量、双尾或单尾过程和上述确定Z统计量、双尾一样,这里就不在重述。有了临界值,我们就可以依此来确定拒绝域和接受域。若是对于Z统例题中的统计量的具体数值那么落入拒绝域,则说明生产线生产的袋装茶叶的平均重量已偏离了质量技术标准,应予以调整。我们将上述过程根据例题再完整的叙述一下:1.提出假设:2.构造统计量:3.依给定的显著水平,确定临界值和拒绝域以及接受域4.作出判断:因则落入拒绝域,则说明生产线生产的袋装茶叶的平均重量已偏离了质量技术标准,应予以调整。例题中的统计量的具体数值第8章两个总体的比较第9章方差分析第10章皮尔逊检验
当我们熟悉了“第7章显著性检验”的问题后,第8、9、10三章就好处理了。因为这三章也是显著性检验问题,只不过是检验的对象发生了变化,即两总体(第8章)、多总体(第9章方差分析)以及独立性检验和拟合优度检验(第10章)。所以,我们将它们放在一起来讲,使同学们的整体感更强些。第8章两个总体的比较第9章方差分析第10章两个总体
多总体比较
(方差分析)皮尔逊检验均值比较比例比较拟合优度检验独立性检验1.提出假设不全相等
服从正态分布不服从正态分布
变量之间独立两者不独立2.构造统计量3.给定显著水平,确定临界值和拒绝域根据备择假设做双尾或单尾检验.给定显著水平确定临界值和拒绝域同左因F的比值恒为正,则为右单尾,给定显著性水平,确定临界值和拒绝域。因值恒为正,则为右单尾,给定显著水平,确定临界值和拒绝域
同左4.根据上述结果作出结论若是双尾拒绝原假设接受原假设若是单尾,略同左如果那么拒绝原假设,如果那么接受原假设。如果则拒绝原假设,若则接受原假设。同左均值比较比例比较拟合优度检验独立性检验服从
另外,(1)要注意方差分析中的因变量是数量型变量,自变量可以是品质型变量,也可以是数量型变量;而独立性检验中的因变量和自变量都是品质型变量。(2)要理解方差分析中因子和处理的含义。每一“处理”就是一个总体。(3)要将方差分析表中的各数字的来源及它们之间的关系弄清。如:方差来源离差平方和自由度均方差F值组间变差SSR=7112.1423组内变差MSE=2341.863总变差20另外,(1)要注意方差分析中的因变量是数量型变量如何将表中数字填全呢?1.组内变差的自由度(m-1)=总变差的自由度(n-1)-组间变差的自由度(n-m)=20-3=17,2.因组内均方差MSE=组内方差SSE/m-1=2341.863所以组内方差SSE=组内均方差*自由度(m-1)=2341.863*17=39811.6673.总变差SST=组内变差SSE+组间变差SSR=39811.667+7112.142=46923.814.组间均方差MSR=组间变差SSR/m-1=7112.142/3=2370.7145.F=MSR/MSE=2370.714/2341.863=1.06如何将表中数字填全呢?第12章统计指数
指数是反映复杂经济现象总体(即复杂总体)变动的特殊相对数。如果有限总体中的各个单位不能直接相加汇总得到总体单位总量,这样的有限总体叫复杂总体。与之相对应的是简单总体。我们引入“同度量因素”这一概念,复杂总体中的各个单位就变得可以直接相加了。同度量因素是指使不能相加的事物过渡到可以直接相加的因素。弄清同度量因素的作用和选择时应遵循的条件,对同度量的理解更深刻。指数编制的基本途径有两个:一是综合的方法,形成综合指数;一是平均的方法,形成平均指数。第12章统计指数指数是反映复杂经济现象总
在这一章节中要能准确地区分数量指标和质量指标,这有助于计算指数,还要能够准确地判断分析对象是总量指标还是平均指标,这有助于我们进行因素分析。我们以因素分析为例。例如,某企业工资和人数资料:分析由于各组平均工资和职工人数的变化对工资总额的影响。我们的分析对象是“工资总额”,这一指标是总量指标,工资总额=职工人数*平均工资。应选择两因素的综合指数因素分析。职工分组工资总额(元)职工人数(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度网络安全防护系统建设公司正规合同3篇
- 二零二五年度公司对公司展览展示空间租赁合同3篇
- 2025年度生物科技企业职工招聘与生物多样性保护合同3篇
- 二零二五年度矿产资源开发承包合同3篇
- 养老院院民2025年度社区活动出行安全协议3篇
- 2025年度建筑材料供货与建筑节能改造合同3篇
- 二零二五年度全屋衣柜定制及安装一体化合同3篇
- 二零二五年度文化创意产业合伙合同协议3篇
- 2025年度企业合规管理委托代理合同3篇
- 2025年度全新出售房屋买卖智能家居集成协议3篇
- 2023瑞幸员工合同协议书
- 大气数据测试仪校准规范
- 升降柱 施工方案
- 堤防工程施工规范
- 成品出货检验报告模板
- 蓝色手绘风美术学硕士毕业论文答辩ppt模板
- 锅炉使用记录三张表
- 五年级上册书法教学设计-7《点与撇的分布》 湘美版
- 产品安规认证知识培训课件
- 2023年湘潭市农村信用社(农村商业银行)招聘员工参考题库附答案解析
- 医院职能科室管理考核标准
评论
0/150
提交评论