统计学原理复习重点概述_第1页
统计学原理复习重点概述_第2页
统计学原理复习重点概述_第3页
统计学原理复习重点概述_第4页
统计学原理复习重点概述_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学原理复习重点概述本课程主要包括三部分知识。 第一部分统计基础知识第一章和第二章数据收集部分。第二部分描述统计第二章统计数据整理部分(表格与图形法) 、第三章数据分布特征的描述 (静态数据描述法) 和动态数据描述法, 即第六章时间数列分析和第八章统计指数。 第三部分推断统计第四章抽样估计和第五章假设检验与方差分析。第一章 绪论。本章介绍统计学及相关概念,勾勒了本课程的框架结构——描述统计学和推断统计学。是统计的三层含义 ,总体、样本及指标等概念。统计的三层含义及相互关系统计学是一门关于数据的科学,是一门关于数据的收集、整理、分析、解释和推断的科学。(一)统计工作 (统计的基本含义 )即统计实践活动, 是人们对客观事物的数据资料进行搜集、 整理、分析的工作活动的总称。(二)统计资料是统计工作的成果,包括各种统计报表、统计图形及文字资料等。(三)统计学是一门收集、整理、描述、显示和分析统计数据的方法论的科学,其目的是探索事物的内在数量规律性,以达到对客观事物的科学认识。(四)三者关系统计学与统计实践活动的关系是理论与实践的关系, 理论源于实践, 理论又高于实践,反过来又指导实践 。统计工作和统计数据是工作和工作成果关系。统计实践活动的产生与发展三个主要的统计学派1、政治算术学派代表人物:英国的威廉配第(1623-1687)、约翰格朗特(1620-1674)等。威廉配第的代表著《政治算术》对当时的英、荷、法等国的“国富和力量”进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。可以说,威廉配第是统计学的创始人。2、记述学派(国势学派〕代表人物:德国的康令( 1606-1681)阿亨瓦尔( 1719-1772; 1764年首创统计学一词)他们在大学中开设 “国势学”课程,采用记述性材料,讲述国家 “显著事项”,籍以说明管理国家的方法。特点是偏重于事物质的解释而忽视量的分析。3、数理统计学派代表人物:比利时的凯特勒 (1796-1874)他把古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应用。凯特勒把德国的国势学派、 英国的政治算术学派和意大利、 法国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人。代表著作:社会物理学有的教材分类古典统计学时期(17世纪中后期〜18世纪中后期).政治算术学派:代表人物威廉配第(政治经济学之父),首次运用数量对比分析法,又称 “有名无实 ”的统计学。.记述学派 /国势学派: “统计学是研究一国或多国的显著事项之学 ”,以文字描述为主,又称 “有实无名 ”的统计学。.图表学派: 用统计图和统计表表现和保存统计资料。近代统计学时期(18世纪末〜19世纪末).数理统计学派:创始人阿道夫凯特勒,第一次将概率论引入社会经济现象的研究中,被誉为 “近代统计学之父 ”。.社会统计学派: 代表人物恩格尔,采用大量观察法 研究社会经济现象总体。现代统计学时期 (20世纪初至今).主要成果 :在随机抽样基础上建立了推断统计学。.数理统计学的发展特点与趋势(1)数学方法的广泛应用。(2)边缘统计学的形成。(3)借助计算机手段 ,统计学的应用日益广泛和深入。统计学的分类从统计方法的构成角度分:1、描述统计学 (descriptivestatistics)研究如何取得、 整理和表现数据资料 ,进而通过综合、 概括与分析 反映客观现象的数量特征 。包括数据的收集与整理、 数据的显示方法、 数据分布特征的描述与分析方法等。2、推断统计学 (inferentialstatistics)研究如何根据样本数据去推断总体数量特征 的方法。包括抽样估计、假设检验、方差分析及相关和回归分析等。描述统计学和推断统计学的关系描述统计学 是统计学的 基础和统计研究工作的 前提,推断统计学 则是现代统计学的核心和统计工作的 关键。从统计方法的研究和应用角度分:1、理论统计学( theoreticalstatistics)利用数学原理研究统计学的一般理论和方法的统计学,如概率论与数理统计2、应用统计学 (appliedstatistics)*研究如何应用统计方法解决实际问题,大多是以数理统计为基础形成的边缘学科。如自然科学领域的生物统计学、社会科学领域的社会经济统计学等。统计学与其他学科的关系(一)统计学与数学的关系1、区别研究对象不同 :数学研究抽象的量,统计研究具体的量。研究方法不同 :数学是演绎,统计是归纳和演绎的结合。2.、联系数学为统计研究提供数学公式、模型和分析方法。(二、)统计学与其他学科的关系统计几乎与所有学科都有联系。 统计方法可以帮助其他学科探索学科内的数量规律性,但对这种数量规律性的解释与进一步的研究, 只能由各学科自已的研究完成。统计的研究对象、特点、作用统计的研究对象、特点:社会经济统计,也可称为经济统计,其研究对象是社会经济现象总体的数量规律,即通过对(社会)经济现象的规模、水平、结构、比例和速度等数量关系的调查研究,说明国民经济和社会发展在一定时间、地点、条件下的数量表现及变化规律,其中涉及到数量的多少、现象间的数量关系以及质量互变的数量界限等。社会经济统计学研究的就是在一定的质的规定下具体的不是抽象的数量表现与变化规律。社会经济统计的特点:1、数量性:统计研究对象是客观事物的数量方面。2、总体性:社会经济统计认识社会经济现象时,主要是研究社会经济现象的总体数量规律,即通过大量的观察,获得足够多的统计资料,说明、认知总体现象的变化情况及规律。3、具体性:社会经济统计的研究对象是具体事物的数量,不是抽象的量。它与数学研究的数量是不尽相同的。4、社会性:社会经济统计认识的对象是社会经济现象,它包括人类经济社会活动的各种条件(自然条件、社会条件)、人类各种活动的过程与结果(生产活动、交换活动、分配活动、消费活动等)。统计的职能:信息职能、咨询职能、监督职能。统计研究的基本环节统计学中几个基本概念统计总体和总体单位总体即统计总体,是指客观存在的、在同一性质基础上结合起来的许多个别事物的整体。例如:要研究全国城镇居民的收支情况,就以全国城镇居民作为一个总体。特点:

同质性是确定总体的前提和基础。它是根据统计的研究目的而定的研究目的不同,则所确定的总体也不同,其同质性的意义也随之变化。例如,研究城镇居民贫困户的生活状况,那么,贫困线下的城镇居民户则构成了统计总体,贫困线下的城镇居民户是同质的,而贫困线上的城镇居民户是非同质的。大量性 统计总体应该由足够数量的同质性单位构成。实现统计研究目的的必要条件差异性 构成总体的各个同质性单位的特征存在着差异。它是统计研究的前提和内容。总体单位(简称单位)是组成总体的各个个体。 根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。总体和单位的概念是相对而言的,随研究目的不同,总体范围不同而变化。同一研究对象,在一种情况下为总体,但在另一情况下又可能变成单位。根据总体所包含的单位数量,总体可以分为有限总体和无限总体两类。有限总体是由有限量的单位构成的总体。当总体单位数难以确定,其数量可能是无限时,便构成无限总体。样本由总体的部分单位组成的集合称为样本(又称子样)。当总体单位数量很多甚至无限时,不必要或不可能对构成总体的所有单位都进行调查。这时,需要采用一定的方式,从由作为研究对象的事物全体构成的总体(又称全及总体、母体)中,抽取一部分单位,作为总体的代表加以研究。样本也由一定数量的单位构成的,符合总体的概念;由样本单位组成的总体称为抽样总体,样本所包含的总体单位数称为样本容量。标志和变量总体各单位普遍具有的属性或特征称为标志。标志分类:品质标志:品质属性方面的特征,只能用文字、符号或数字代码来表现 。数量标志:数量方面的特征,用数值来表现。不变标志:一个总体中各单位某标志的具体表现都相同,称之为不变标志。不变标志是总体同质性的基础。一个总体至少要有一个不变标志,才能够使各单位结合成一个总体。变异标志:亦称可变标志,在一个总体中,当一个标志在各单位的具体表现有可能不标志同时,这个标志便称为可变标志。作为总体,同时必须存在变异标志,这表示所研究的现象在各单位之间存在着差异,才需要进行统计研究。标志标志值泪

}同男汉族佛教无党派泪

}同男汉族佛教无党派43岁182cm75公斤民族宗教信仰政治倾向年龄身高・ 体重

标志和变量 不变标志决定总体的同质性品质标志数量标志

(变量)f不变标志总体单(标志表现无差别)位标志]品质标志数量标志

(变量)(标志展现有差I 变异标志决定总体的差异性统计指标统计指标是反映统计总体数量特征的概念和数值。如2002年我国国内生产总值104790.6亿元。统计指标由两项基本要素构成,即指标的概念(名称)和指标的取指标的概念(名称)是对所研究现象本质的抽象概括,也是对总体数量特征的质的规定性。确定统计指标必须有一定的理论依据,使之与社会经济或科学技术的范畴相吻合。同时,又必须对理论范畴和计算口径加以具体化。指标的数值反映所研究现象在具体时间、地点、条件下的规模和水平。在观察指标数值时,必须了解其具体的时间状态、空间范围、计量单位、计量方法等限定,同时注意由于上述条件的变化而引起数值的可比性问题。特性:数量性、具体性、综合性指标与标志的关系标志反映总体单位的属性和特征,而指标则反映总体的数量特征。标志和指标的关系是个别和整体的关系。需要通过对各单位标志的具体表现进行汇总和计算才能得到相应的指标。总体和单位的概念会随着研究目的不同而变化, 因此指标与标志的概念也是相对而言的。例如,所要研究的是全国工业企业的情况,则各企业的职工人数、固定资产、工业增加值等都是总体单位(即各个企业)的标志,如果研究目的变成研究某一企业的职工状况,则该企业变成一个总体,企业职工人数变成了统计指标,每个职工的文化程度、技术等级、性别等就成为标志。

统计指标的基本分类实物指标(吨、台等)时期指标(一段时期累计总量及据此计算的相对、平均指标)时点指标 /(瞬间的总量及据此计算的相对、平均指标)统计指标相对指标

《强让量窜便》总量指标《单一计量单僮)平均指标(双重计量单位)价值指标(元、美元等)劳动指标统计指标的基本分类实物指标(吨、台等)时期指标(一段时期累计总量及据此计算的相对、平均指标)时点指标 /(瞬间的总量及据此计算的相对、平均指标)统计指标相对指标

《强让量窜便》总量指标《单一计量单僮)平均指标(双重计量单位)价值指标(元、美元等)劳动指标(工、台时等)按表现形式分类按时间特征

分类具有某种内在联系的一系

列统计指标所构成的整体存在确定的数量关系产量X价格=产值统计数据(一)变量与变量值说明现象的某一数量特征的概念也被称为变量, 变量的具体取值是变量值,统计数据就是统计变量的具体表现。例如,固定资产是一个变量,各企业固定资产的具体数值是变量值。为了区别,在本书中,凡是变量均用大写的英文字母表示,而变量值则用小写英文字母表示。连续型变量是指变量的取值在数轴上连续不断, 无法一一列举,即在一个区间内可以取任意实数值。例如,气象上的温度、湿度,零件的尺寸等。离散型变量是指变量的其取值是整数值,可以一一列举。例如,企业数,职工人数等。确定性变量是受确定性因素影响的变量, 即影响变量值变化的因素是明确的, 是可解释和可控制的。随机变量则是受许多微小的不确定因素 (又称随机因素) 影响的变量。 变量的取值无法事先确定。社会经济现象既有确定性变量也有随机变量。统计学所研究的主要是随机变量。(二)数据的计量尺度统计数据是总体单位标志或统计指标的具体数量表现。根据对研究对象计量的不同精确程度, 人们将计量尺度由低到高、 由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。(三)数据的类型横截面数据又称为静态数据, 它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。时间序列数据又称为动态数据, 它是指在不同时间对同一总体的数量表现进行观察而获得的数据。例如,2005年全国各省市自治区的国内生产总值就属于横截面数据。而 “十五”期间我国历年的国内生产总值就属于时间序列数据。(四)数据的表现形式绝对数。 现象的规模、 水平一般以绝对数形式表现。 绝对数的计量单位一般为实物单位或价值单位,有时也采用复合单位。 实物单位可以是自然计量单位,也可以是物理计量单位,如人口数用人计量, 机器数用台计量, 对于一些化工产品和燃料, 常常还折合成标准实物单位计量。复合计量单位是由两种或两种以上计量单位复合而成的, 如以“吨公里”为货物周转量的计量单位,以 “千瓦时”为用电量的计量单位。相对数。 相对数由 2个互相联系的数值对比求得。 常用的相对数包括:结构相对数、 动态相对数、比较相对数、强度相对数、利用程度相对数、计划完成相对数等。平均数。 平均数反映现象总体的一般水平或分布的集中趋势。 关于这部分的内容, 将在第三章作详细介绍。第二章统计数据的收集与整理。本章介绍统计数据的搜集及整理。重点在于统计调查方式和统计数据整理(分组) 。统计调查方式:1、普查:为某一特定目的而专门组织的一次性全面调查如:人口普查、工业普查等•特点:(1)通常是周期性的或一次性的,涉及面广、耗时、费力,一般需间隔较长时间;( 2)一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏;( 3)准确性一般较高,较规范;( 4)适用的对象较窄,只能调查一些最基本、最一般的现象。2、抽样调查:从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果推断总体数量特征。•特点:(1)经济性强:工作量小、可节省人、财、物力(2)时效性高:可迅速、及时地获得所需要的信息(3)适应面广:可获得更广泛的信息,适用于各个领域、各种问题的调查;(4)准确性高:用工量小,从而工作可做得更细,误差往往很小。3、统计报表按国家有关法规规定,自上而下地统一布置,自下而上地逐级提供基本统计数据。•特点:统一的表式、统一的指标、统一的报送时间、统一的报送程序。•类型:(1)按报送调查范围分:全面报表:调查对象中的每一个单位都填报非全面报表:只要求调查对象中的一部分单位填报(2)按报送时间问隔分日报、月报、季报、年报(3)按报送地域(机构)范围分:国家报表、地方报表、部门报表4、重点调查从调查对象的全部单位中选择少数重点单位进行调查(适用于 同类”中的失户”)。5、典型调查从调查对象的全部单位中选择一个或几个有代表性的单位进行调查。 (不一定针对大户”)▼汪忠:重点调查、典型调查与抽样调查的不同处在于:1、抽样调查是随机抽取调查单位,不存在对调查对象选择的主观性,因此可以根据抽样结果推断总体的数量特征;2、重点调查和典型调查不是随机取样,具有一定的主观性,因此调查结果不能推断总体。数据的搜集方法1、访问调查(派员调查):调查者与被调查者通过面对面的交谈获取调查资料;2、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点;3、电话调查:调查者利用电话同受访者进行语言交流以获取信息;4、座谈会(集体访谈):将受访者集中在调查现场, 使其对调查主题发表意见以获取调查资料;5、个别深度访问:一次只有一名受访者参加的特殊的定性研究。统计数据的整理(summarizingdata)是指对所搜集的数据进行加工整理、使之系统化、条理化,以符合分析的需要。统计数据的整理通常包括:数据的预处理分类或分组汇总数据分组与频数分布统计分组是将预处理过的数据按照某种特征或标准分成不同的组别。统计分组标志: 分组时所依据的特征或标准,有 品质标志和数量标志。频数分布表:对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。概念:频数/次数分布;相对频数;百分数频数频数分布或次数分布(Frequencydistribution):全部数据按其分组标志在各组内的分布状况。分布在各组内的数据个数称为 频数或次数。Afrequencydistributionisatabularsummaryofasetofdatashowingthefrequency(ornumber)ofitemsineachofseveralnonoverlappingclasses.◎相对频数(Relativefrequency)/频率/比重:各组频数与全部频数之和的比重。Therelativefrequencyofaclassistheproportionofthetotalnumberofdataitemsbelongingtotheclass.(=Frequencyoftheclass/n)◎百分数频数(Percentagefrequency):istherelativefrequencymultipliedby100.数值数据的分组与频数分布分组计频基本步骤:确定组数 确定组距 (按组)整理成分布频数表第一步,确定组数(Numberofclasses)0组数的确定一般视数据本身的特点及数据的多少而定经验上以5~20之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。实际分组时常按斯特格斯(Sturge§提出的经验公式来确定组数K:K1log1N0/log120第二步,确定组距(Widthofclasses):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定:组距二(最大值-最小值)/组数第三步,确定各组组限(Classlimits)并据此整理频数分布表。1、分组所遵循的主要原则是 不重不漏”(eachdatavaluebelongstooneclassandonlyoneclass)。因止匕,最低组限(Thelowerclasslimit)数据的最小值,最大组限(Theupperclasslimit)数据的最大值;另外,数据在每组中的归属习惯上采用 上组限不在内工2、对离散型数据,可采用相邻两组组限间断的办法解决 不重”的问题(如6~10,11~15,16~20等);3、对连续型数据,往往采用相邻两组组限重叠,根据上限不在内原则”解决不重”问题(如[5,10),[10,15),[15,20)等)。注意:1、在最大值与最小值与其他数据相差悬殊时,为避免空白组出现,第一

组和最后一组可采用XX以下”及XX以上”这样的开口组;2、在组距分组时,如果各组组距相等则称为等距分组,否则为不等距分组。不等距分组各组的频数受组距大小不同的影响, 因此需要计算频数密度(=频数/组距),才能准确反映频数分布的实际;3、有时为了统计需要,需进一步计算累积频数(某数值以上或以下的频之数和) 。统计分组的概念、原则、则和方法统计表(补充讲义 14页word文档)。分配数列/次数分布数列由两个要素构成,一是组别,二是各组次数或频率。根据需要,可以编制简单次数分布表和累计次数分布表。次数分布主要有钟形分布、U形分布和J形分布。统计表和统计图统计表和统计图是显示统计数据的两种重要形式。统计表的结构从形式看可分为总标题、横表目、纵标目和指标数值;从内容上看可分为主词和宾词两部分。统计图主要有条形图、直方图、圆形图等。第三章、数据分布特征的描述。本章主要介绍数据的集中趋势和离散趋势。重点是各种平均指标及离散指标概念、计算方法和适用条件。统计学中刻划数据分布特征的最主要的代表有二 :数据分布的集中趋势与数据分布的离散程度。集中趋势是指一组数据向某一中心值靠拢的倾向 ,测度集中趋势就是寻找数据一般水平的代表值或中心值。均值(Mean)均值就是一组数据的平均值 (averagevalue),用来测度中心位置(centrallocation)。1、算术平均数算术平均数总体标志总量

总体单位总量算术平均数总体标志总量

总体单位总量简单算术平均数加权算术平均加权算术平均往往适用于对分组后的数据求均值,这时Xi为各组变量代表值(往往取组中值),Fi为各组变量值出现的频数。算术均值具有如下性质:(1)各变量值与其均值的离差和为零:(2)各变量值与其均值的离差平方和最小:(3)对被平均的变量实施某种线性变换后,新变量的算术平均数等于对原变量的算术平均数实施同样的线性变换的结果。(4)对于任意两个变量x和y,它们的代数和的算术平均数等于两个变量的算术平均数的代数和。均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的 平均水平”时失去意义,这时往往用 剔除极端值”的方法加以修正。2、几何平均数(1)几何平均数是N个变量值乘积的N次方根(2)加权几何平均数几何平均数的对数是各变量值对数的算术平均。几何平均主要用于计算比率或速度的平均几何平均数的应用及特点:我国国内生产总值2001年、2002年、2003年的环比发展速度分别是107.5%,108.3%,109.3%,则各年的平均发展速度是G31.0751.0831.0931.084108.4%某人有一笔款项存入银行 10年,前2年的年利率为6%,第3至5年的年利率是5%,后5年的年利率3%,如果按复利计算,这笔款项的平均年利率为多少?G101.0621.0531.0351.0421.04210.0424.2%这笔款项的平均年利率为 4.2%。①应用条件a.变量值是相对数据,如比率或发展速度。b.变量值的连乘积等于总比率或总发展速度。②特点a.如果数列中有一个标志值等于零或负值,则无法计算。b.受极端值影响较小,故较稳健。(3)调和平均数,是各数据倒数的(简单)算术平均数的倒数:价格=金额/购买量价格(元/KG)例4,价格(元/KG)A7.615200B8.08000C8.24100鸡蛋种类销售额(元)MXH1MXH1—MX1520080004100好1 1 1 .一15200—8000——41007.6 8.0 8.2由相对数和平均数计算平均数根据相对数和平均数计算平均数时,如何正确选择和应用算术平均数与调和平均数,在缺少被平均标志x的分子资料时,要采用算术平均数,即“缺分子,用算术” 。如上述平均计划完成程度,其分子是实际利润额,分母是计划利润额,当已知各企业的利润计划完成程度和计划利润额时(缺少实际利润额) ,则采用算术平均数。利润计划完成程度x企业数计划利润额(%)(个)(万元)80〜90250090〜10051600100〜1103800合计10一xf85500951600105800x 96.03%f 5001600800在缺少被平均标志的分母资料时,要采用调和平均数,即“缺分母,用调和。 ”如例4.6中,当已知各企业的利润计划完成程度和实际利润额时(缺少计划利润额资料) ,则采用调和平均数。中位数(Median)中位数是一组数据按大小排序后,处于中间位置上的变量值 。1、对于未分组数据:(1)如果数据个数为奇数,则中位数恰为处于中间位置的数:MeXn1(2)如果数据个数为偶数,则为中间位置两个数的平均数

1Me—XnXn2 12 2 2(2)单项数列的中位数计算各组的累计频数(向上累计或向下累计”根据中位数位置确定中位数。nfi中位数的位置= i12对于分组后的数据下限公式:MeL上限公式:f

Sm1MeU -2 dfm式中:m为中位数所在的组,d为该组组距,L、U分别为该组的下限值与上限值,fm为该组的频数,Sm-1为该组以下各组的频数总和,Sm+1为该组以上各组的频数总和,显然Sm1Sm1fm Sm1众数(Mode)众数是一组数据中出现次数最多的变量值在分组数据中,众数可按下式计算:下限公式:fm fm1MoL d(fm fm1)(fmfm1)上限公式:MoU(fmfMoU(fmfm1)(fmfm1式中:fm为某数值出现次数(频数)最多的组(第m组)的频数,fm-1与fm+1分别为第m-1组与m+1组的频数,L、U分别为第m组的下限与上限值,d为该组组距。

1、如果某组统计数据中没有哪个数值出现较多的频率(次数) ,则可认为该组数无众数;如果有多个数据出现的次数(频率)较多,则认为 有多个众数。在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。2、对描述品质数据的分布特征的 位置”测度只能用众数。中位数、众数与算术平均数的关系四、中位数、众数与算术平均数的关系TOC\o"1-5"\h\z1、如果数据具有单一众数,且分布是对称的,则众数 Mo、中位数Me与均值X相等,即MoMeX;2、对于非对称分布, ]当分布左偏时(说明存在极端小的值)XMeMo :当分布右偏时(说明存在极端大的值) …3、在偏斜度适度的情况下,不论是左偏还是右偏,中位数与算术平均数之差约等于众数与算术平均数之差的 1/3,即有如下经验公式:(MO(MO3X)?众数、中位数和均值都是对数据集中趋势的测度,1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。3、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。5、均值只适用于定距或定比尺度的数据;定序尺度数据可用 中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。分布离散程度的测度对数据分布特征的另一个测度指标是 数据分布离散程度。它反映各数据远离其中心值的程度,因此,也称离中趋势。集中趋势反映的是各变量值向其中心值聚集的程度,离中趋势反映各变量值之间的差异状况。注意:集中趋势的测度侑概括地反映了数据的一般水平,它对该绢数据的代.表程度,取决干该绢

数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。极差(Range)极差是最简单的测度离中趋势(分散程度)的指标,也称全距,是一组数据最大值与最小值之差:Range=LargestValue-SmallestValue对于组距分组数据,极差可近似地表示为:R=最高组上限-最低组下限▲一、/»▲注息:1、极差易受极端值的影响;2、由于极差只利用了数据两端的信息, 没有反映中间数据的分散状况, 因而不能准确描述数据的分散程度。方差(Variance)方差是各变量值与其均值离差 (deviationaboutthemean)平方的平均数。总体方差(PopulationVariance)总体方差用 2表示未经分组的数据:2dy未经分组的数据:2dy小 N对F分组数据: i-r其中:Fi为第i组数据的频数Xi为第i个数(未分组)或第i组组中值(分组)样本方差(SampleVariance)样本方差用S2表示刈未经分组的数据,s2刈未经分组的数据,s2= 司「分组数据二2 工=1一七。;一1£二1其中:fi为第i组数据的频数xi为第i个数(未分组)或第i组组中值(分组)标准差:方差的平方根(正)。1、由于方差计算中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为64(学生)2,其具体意义不明确。因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义。2、标准差是对方差的开方运算,因此, 其单位与原始数据的单位一致 ,它与均值及其他用同一单位测度的数据相比较也容易一些。(标准差就是指数据离散程度的测度值”距均值”的距离)。离散系数(CoeficientofVariation)离散系数:一组数据标准差与其均值的比 ,也称为标准差系数,是测度数据离散程度的相对指标:四、离散系数(CoeficientofVariation)离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:VjNK或I;=S/x其中,吃与《分别去小总体离散系数।J样本离散系数,例:五个班级规模的例中,若视为总体,离散系数为:7.15/44=0.16,若视为样本,则离散系数为:8/44=0.182。1、对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同(性质)组别的数据,不好用离差或标准差来比较它们的离散程度;2、由于离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。分布偏态与峰度的测度偏态(Skewness)和峰度(Kurtosis)是对数据分布特征的进一步描述。平均数与标准差相同的数据组,其频数分配 (分布)也可能不同,如果频数分布是对称的,则称为对称分布,否则为偏态分布。偏态及其测度测定偏态的方法主要有两种:(1)算术平均数与众数比较法,(2)动差法。算术平均数与众数比较法完全对称分布:算术平均数、中位数、众数重合非对称分布:三者相互分离,算术平均数<中位数<众数可用算术平均数与众数之间的距离作为测度偏态的一个尺度:偏态=算术平均数-众数这是偏态的绝对数,它以原有数据的单位为单位。

同样地,偏态绝对数不能用来比较不同数据组、不同计量单位数据的偏态程度,为了使不同数据组的偏态数值能相互比较,需计算偏态的相对数:SKpSKpXMo当片》及G当片》及G时,偏态相对数为正(SK,>0),屈于.偏(公偏):当工<2,时•偏出相对数为负40,屈于负偏(左偏)在计算偏态系数时,如果众数不易计算,可用中位数代替〜3(XMe)SKp在上述班级规模例子中,均值为44,众数为46,标准差为7.15,因此,偏态的相对值为SKp4446SKp44467.150.279(二)动差法动差又称矩,可用来说明数据频数分布的特征。一般地,取数据中的a点为中心点,所有数据与a之差的k次方的平均数:(Xa)kN称为数据X关于a的k阶动差(k阶矩)。当a=0时,即数据以原点为中心,上式称为原点k阶动差(矩)当aX时,数据以算术平均数为中心,上式称为 中心k阶动差(矩)。统计学中常以中心3阶动差(矩)来测度分布的偏态。偏态是对分布偏斜方向及程度的测度,通过 偏斜系数进行测度K-3(XiX)Fii13 K ,3Fii1式中,3表示偏态系数,3是标准差的三次方。因此,该指标是相对指标。3=0时,为对称分布;3>0时,为正偏(右偏)分布;3<0时,为负偏(左偏)分布。在上述班级规模的例子中,以中心3阶动差(矩)计算的偏态系数值为:(32-44)3I+(42-44)31+(46-44)32+(54-44/-1 -720■3 r】5*.(]+[+24D ~183178""峰度及其测度峰度是频数分布的另一重要特点。其测度的是: 某种频数分布的曲线与正本分布曲线相比.是尖顶.还是平顶.其尖或平的程度如何。峰度就是频数分布曲线顶端的尖峭程度。峰度的测度,往往以中心4阶动差为基础进行;将4阶动差的数值,除以标准差的4次方,化为相对数,就是峰度的测度值,即峰度系数:4(XiX)FiFi经验上,峰度系数为3时,恰为正态分布,因此,当峰度系数<3时,为平顶分布曲线;当峰度系数>3时,为尖顶分布曲线;当峰度系数接近于1.8时,则频数分布曲线趋向于一条水平线;当峰度系数小于1.8时,为U型曲线第四章抽样估计。本章主要介绍了抽样估计的基本概念及抽样估计。点估计和区间估计。其中区间估计是主要方法。应理解置信区间、置信度、显著性水平的含义,领会区间估计精确度和可靠度之间的关系,重点掌握总体均值和总体比例的区间估计方法、样本容量的确定方法。一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。抽样估计的特点按随机原则抽取样本单位目的是推断总体的数量特征抽样推断的结果具有一定的可靠程度,抽样误差可以事先计算并控制(四)抽样估计的一般步骤推断总体参数T1计算样本统计量收集样本数据抽取样本单位推断总体参数T1计算样本统计量收集样本数据抽取样本单位y设计抽样方案抽样推断中的基本概念全及总体和样本.全及总体:是由被调查对象的全部单位所构成的集合体,简称总体。总体容量:总体中的单位数,用 N表示。.样本:样本是从总体中抽取的进行调查的部分单位的集合体,又称抽样总体。样本容量:样本中的单位数,用 n表示。大样本和小样本:n>30时称大样本,n<30称小样本。**应用:在班级40名学生中随机选取15人进行健康状况调查,说明其中的总体、样本及容量。概率抽样与非概率抽样.概率抽样:又称随机抽样,是按随机原则抽取样本单位。本章所指的均为概率抽样。.非概率抽样:又称非随机抽样,是指从研究的目的和需要出发, 根据调查者的经验或判断,从总体中有意识地抽取部分单位构成样本。**应用举例:重点调查、典型调查应为非概率抽样。重复抽样和不重复抽样.重复抽样:又称有放回的抽样,从总体中抽取样本时,每次被抽中的单位都再被放回总体中参与下一次抽样。.不重复抽样:又称无放回的抽样,总体中随机抽选的单位经观察后不放回到总体中,即不再参加下次抽样。

(三)重复(置)抽样与不重复(置)抽样重复抽样:例如从A、B、C、D、E五个字母中随机抽取两个作n_2N5 25Cnn_2N5 25CnN!N(N-n)!n!PnN!N(N-n)!-考虑顺序时:样本个数(Nn-1)!n-1 (N-1)!n!-不考虑顺序时:样本个数不重复抽样:例如从A、B、C、D、E(Nn-1)!n-1 (N-1)!n!考虑顺序时:样本个数不考虑顺序时:样本个数总体参数和样本统计量.总体参数:是反映总体数量特征的数值。在抽样推断 中,参数是未知的、待估计的确定值。.样本统计量:是根据样本资料计算的反映样本数量特征的变量, 它的值随着样本的不同而变化,因此是一个随机变量。指被估计的总体指标,又被称为全及指标指被估计的总体指标,又被称为全及指标遽演WN不意傕懈橐颈幡南饰画畅剜涉Xi,X2,Xn,,N^\^M Ni个岭,不购镰釉鬻唧踊T NoW(塞,则.总体平均数(又叫总体均值):N m— Xi— XifiXJ 或X N mffii1.总体单位标志值的标准差:1N —2-、一XiX或\Ni1i1m—2.m XiXfifii1i13.总体单位标志值的方差:2 1N—2 2 1m—22 —XiX或2 -- XiX fii1 i1fii1.总体成数:N1八N0P1,Q0 1PNN.总体是非标志的标准差:P,P1P,PQ当PQ0.5时,p有最大值.总体是非标志的方差:2 _ _ PP1PPQ

一指根据样本单位的标志值计算的用以估计和推断相应总体指标的综合指标,又被称为估计M或统计M加栅?n仲睇响尉越麻时瘫遮别挪为X1,X2,Xn,,翼咿则询1M制桌釉翩触怫柳健教B啰觎为】釉n介,,则.样本平均数(又叫样本均值):mXmXifii1

mfii1XixJ-J 或n为自由度.样本单位标志值的标空H二二^s—/IIs—/II;n-1..i1xix2或sm 2Xi Xfi为的无偏估计— ——/.样本单吵£直的方差:为2的无偏估计1m为2的无偏估计1mfi1Xi2Xfi.样本成数:TOC\o"1-5"\h\zni no dp,q 1Pn n.样本单位是非标志的标准差:为P的

无偏估计.样本单位是非标志的方差:为.样本单位是非标志的标准差:为P的

无偏估计.样本单位是非标志的方差:为2的无偏估计2n. nSp p1p pqn1 n1:、抽样推断的理论依据(一)大数定理limp-nXlimp-nXi当样本容量n充分大时,可以用

样本平均数估计总体平均数。limpn当试验次数n充分大时,limpn大数定理的意义:个别现象受偶然因素影响而表现出差异性,但是,对总体的大量观察后进行平均,就能使偶然因素的影响相互抵消,从而使总体平均数稳定下来,反映出事物变化的一般规律,这就是大数定理的意义(二)中心极限定理?中心极限定理的意义:在一定条件下,大量相互独立的随机变量之和的概率分布是以正太分布为极限的。其主要内容是:如果总体分布未知,且存在有限的均值和方差,则当样本容量足够大时,抽样平均数近似服从正态分布。全部可能样于平均数的旬值建壬总体均值,即:E(x)X(xX)从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。从正态总体中抽取的样本平均数不论容TOC\o"1-5"\h\z量大小其分布均为正态分布。 1样本均值的标准差为总体标准差 F=丁/x~N(X, 2/n)全部可能样本比率的均值等于总体比率,即E(p)P(pP)从非正态总体中抽取的样本比率,当n足够大时其分布接近正态分布。从正态总体中抽取的样本比率,不论容量大小其分布均为正态分布。i样本比率的标准差为总体标准差 H°p~N(P,P1 P/n)np5,n(1p) 5抽样误差的概念及其影响程度11第三节抽样平均误差淤二、抽样退差的概念及其影响程度在统计调查中,调查资料与实际情况不一致,两者的偏离称为统计误差。登记误差统计误声 系统性误差‘工代表性误差.如、口"实际误差随机误差抽样平均误差理W大学授济学战抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。

抽样误差.抽样误差抽样误差是指不包括登记性误差和系统性误差在内的随机误差,它衡量了抽样估计的精确度。.与抽样误差有关的三个概念(1)抽样实际误差:指某一次具体抽样中,样本指标值与总体参数真实值之间的偏差。(2)抽样平均误差:是指所有可能的样本指标与总体指标之间的平均差异程度,即样本估计值的标准差。(3)抽样极限/允许误差:又称置信区间,是指一定概率下抽样误差的可能范围,说明样本估计量在总体参数周围变动的范围,记作指每一个可能样本的估计值与总体指标值之间离差的平均数,即样本估计量的标准差为样本平均数的抽样平埼误左,M?§个叶能样㈱勺恸为样本平均数的抽样平埼误左,M?§个叶能样㈱勺恸四、影响抽样误差大小的因素?抽样平均误差受以下几方面的因素影响:?总体各单位的差异程度(即标准差的大小):越大,抽样误差越大;?样本单位数的多少:越大,抽样误差越小;?抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;?抽样组织方式:简单随机抽样的误差最大。简单随机抽样的抽样平均误差简单随机抽样的抽样平均误差?抽样平均数的平均误差重置抽样:不重置抽样:?抽样成数的平均误差重置抽样:不重置抽样:

(一)点估计就是由样本指标直接代替全及指标,不考虑任何抽样误差因素。即用x直接代表又,用p直接代表P。例在全部产品中,抽取100件进行仔细检查,得到平均重量x1002克,合格率p98%,我们直接推断全部产品的平均重量X100沈,合格率P98%只要在样本代表性大,且对全及指标精确性要求不高的情况下,可采用点估计法。如能满足下列三个准则:无偏性一致性有效性就会得到合理的估计

(二)区间估计是根据样本指标和抽样误差去推断全及指标的可能范围,它能说清楚估计的准确程度和把握程度。曳耳大学及轩学旗根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率F(t)的保证下:抽样极限误差,(t为概率度)可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。抽样误差范围的实际意义是要求被估计的全及指标X或畸在抽样指标一定范围内,即落在ix或pp的范围内。当F(t)=68.27%时,抽样极限误差等于抽样平均误差的1倍(t=1);当F(t)=95.45%时,抽样极限误差等于抽样平均误差的2倍(t=2);当F(t)=99.73%时,抽样极限误差等于抽样平均误差的3倍(t=3);指在一定的概率保证程度下,抽样误差不允许超过的某一给定范围,也称作允许误差、误差范围、误差置信——I上限等:——…»由于提高把握程度,会增大允许误差,使估计精度降低,而缩小允许误差,提高估计的精度,又会降低估计的把握程度,所以在实际中应根据具体情况,先确定一个合理的把握程度再求相应的允许误差或先确定一个允许误差范围再求相应的把握程度。(大样本条件下).样本平均数的极限误差:.样本成数的极限误差:Z为概率度,是给定概率保证程度下样本均值偏离总体均值的抽样平均误差的倍数。(大样本条件下)Z与相应的概率保证程度存在一一对应关系,

?总体均值区间估计程序总体均值区间估计总结 1:已知为正态总体X—所服从的分布XX区间上下限总体方差已知N(0,1)重复抽样/vnX3丁/、重复抽样_/NnVn-VN1- jNnXz丁. /2n\N1总体方差t(n-1)大样本时近似服从N(0,1)重复抽样S/VnX号骁/、重复抽样S|Nn几%N1城+ S/NnXJTn总体方差已知,且是大样本总体方差未知,且是大样本X或总体均值区间估计总结 2:不是正态总体或分布未知总体方差已知,且是大样本总体方差未知,且是大样本X或X 近似服从~N(0,1)X近似服从一~N(0,1)X因此,大样本情况下,直接用标准正态分布求置信区间即可。区间估计的步骤区间估计根据给定的条件不同,有两种估计方法:? ⑴给出允许误差(A),求概率保证程度F(t)。?⑵给出概率保证程度F(t),求估计区间。⑴给出A,求F(t)?①抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差)?②根据给定的抽样误差一一允许误差A计算估计区间的上、下限;?③求出概率度t,F(t),对总体参数作区间估计。⑵给出概率保证程度F(t),求估计区间。?①抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差)?②根据给定的F(t),查表求出t;?③求出抽样极限误差A和估计区间的上、下限,对总体参数作区间估计。区间估计注意?首先确定被估计总体指标的种类,是平均数还是成数;?其次取定抽样方法,是重置抽样还是不重置抽样;?然后再根据给定的样本资料和抽样条件(给定概率保证程度还是给定抽样极限误差),确定计算步骤,进行计算。四、样本容量的确定1、1、为什么要研究样本容量确定问题?F(z)当抽样平均误差保持不变时,极限误差 A(体现估计精度)与概率度F(z)当抽样平均误差保持不变时,极限误差 A(体现估计精度)与概率度z(体现可靠性)两者同向变化。因此,抽样估计的精度与可靠性之间存在矛盾。为了调和这一矛盾的,可以适当降低抽样平均误差。而要降低 则必须增加样本容量no样本容量n究竟取多大合适?-必要的样本容量:使抽样误差不超过给定的允许误差范围时至少应该抽取的样本单位数,也称必要的抽样数目。2、确定样本容量在抽样设计时,先确定允许的误差范围和必要的 概率保证程度,然后根据历史资料或试点资料确定总体的标准最后来确定样本容量估计总体均值时样本容量的确定重复

抽样2 2Z22不重复抽样Nz,2n最后来确定样本容量估计总体均值时样本容量的确定重复

抽样2 2Z22不重复抽样Nz,2n 2Nx估计总体成数时样本容量的确定重复

抽样2zp1pZ22P不重复抽样Nz/p1p

N p2 z22P1p3、影响必要抽样数目的因素1)总体内部差异程度。越大则要求的必要必要抽样数目越多;2)抽样极限误差。越小则必要抽样数目越多;3)概率保证程度。越大则必要抽样数目越多;4)抽样方法。不重复抽样比重复抽样所需的样本容量要多;5)抽样组织形式。不同的抽样组织形式所需的样本容量不同。4、确定样本容量应注意的问题?计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代:-是用历史资料已有的方差与成数代替;二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差;三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值0.25代替。?如果进行一次抽样调查,同时估计总体均值与成数,用上面的公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需要。?上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如计算得到:n=56.03,那么,样本容量取57,而不是56。抽样组织方式设计类型概念。第五章假设检验与方差分析。理解原假设、备择假设、两类错误、单侧检验、双侧检验、方差分析等概念。掌握总体方差已知或未知时正态总体的均值假设检验和总体比例的假设检验。重点是三种不同情况下的假设检验方法,总体方差已知时正态总体均值和总体比例的假设检验。难点是总体方差未知时正态总体均值的假设检验和方差分析。假设检验的概念假设(hypothesis),又称统计假设,是对总体参数的具体数值所作的陈述。假设才^佥(hypothesistest)是先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。(一)原假设与备择假设原假设(nullhypothesis),又称零假设,用表示,是指研究者想收集证据予以反对的假设。备择假设(alternativehypothesis),用或表示,是指研究者想收集证据予以支持的假设,它与原假设陈述的内容相反。假设检验的三种形式设。表示在原假设和备择假设中考虑的某一特定数值, 表示总体的实际值。对总体的假设检验一定要采取下面的三种形式之一:H0: 0Hi: p0(1)Ho: 0 Hi-fo⑵Ho: o H1: 0⑶(二)拒绝域与检验统计量拒绝域是指能够作出拒绝原假设这一结论的所有可能的样本取值范围。检验统计量是根据样本数据计算出来的,并据以对原假设和备择假设作出决策的某种样本统计量。(三)单侧检验与双侧检验单侧检验是指检验统计量的取值位于其抽样分布的某一侧范围内时拒绝原假设,也就是说抽样分布的某一侧构成了拒绝域。双侧检验是指检验统计量的取值位于其抽样分布的任何一侧范围内时拒绝原假设,也就是说抽样分布的左右两侧共同构成了拒绝域。二、假设检验中的两类错误**第I类错误/弃真错误(typeIerror)当原假设为真时拒绝原假设。犯第I类错误的概率通常记为。第丑类错误/取伪错误(type丑error)当原假设为假时没有拒绝原假设。犯第n类错误的概率通常记为。在统计实践中,进行假设检验时一般先控制第I类错误发生的概率,并确定犯第I类错误的概率最大值,称为检验的显著性水平。显著性水平一般选择为0.05和0.01。三、几种常见的假设检验(一)假设检验的步骤.确定原假设和备择假设。.选择检验统计量。.确定检验的显著性水平。.用显著性水平来确定拒绝原假设 的检验统计量的临界值、拒绝域。.根据样本数据,计算检验统计量的值。.⑴将统计量的值与临界值进行比较,并作出决策:若统计量的值落在拒绝域内,拒绝原假设,否则不拒绝原假设或⑵根据第5步的检验统计量的值计算值。运用值来确定是否拒绝。(二)总体方差已知时正态总体均值的假设检验当总体方差2已知,用正态分布来检验总体均值的假设值的情况如下:⑴当样本数n30(大样本)时的任意分布总体(根据中心极限定理);⑵当样本数np30(小样本)但是总体是正态分布的。(三)总体方差未知时正态总体均值的假设检验⑴如果样本数n30,根据中心极限定理,可以假定抽样分布近似为正态概率分布;⑵如果样本数np30,但均值的抽样分布是正态分布时。无论哪一种情况,都应当使用T分布计算标准的检验统计量,在计算检验统计量时,我们用样本标准差S来代替总体标准差。检验统计量sX(四)总体比例的假设检验总体比例又称总体成数,是指总体中具有某种相同特征的单位数所占的比例。一般用P来表示总体比例,Po表示总体比例的某一特定假设值。总体中的某种特征可以是数值型的,如一定的重量、一定的长度或一定的规格等;也可以是品质型的,如男女性别、学历等级、城市农村等。总体比例的假设检验步骤⑴建立总体比例检验的原假设和备择假设。⑵用样本比例p和样本标准差p的来计算检验统计量Z2国的值,p因为是大样本,中心极限定理保证了统计量p服从正态分布,那么统计量或近似服从正态分布。⑶将检验统计量的值与临界值相比较,确定是否应该拒绝原假设。例:

(一)双边检验H0:以=以0;H(一)双边检验H0:以=以0;H1:以1以0在假设的双边检验中,如果检验统计量的数值过大或过小,都将否定原假设。否定域位于正态分布曲线两边,在显著性水平 条件下,每个尾部的面积分别为丁,临界值为Z和Z。当检验统计量的数值 Z时,就否定原假设H|Z|Z时,认为差异不显著,就接受原假设,见图:Z(临界值) Z(临界值)2 一 2否定域 TI 接受域 否定域例] j某种产品的直径为6cmm寸,产品为合格,现随机抽取100牛作为样本进行检查,得知样本平均值为6.1cm,现假设标准差为0.2cm,令a=0.05,检验这批产品是否合格。解:H0: 6cm;H1:6cm方法1:选择检验统计量X6.16 50.2n1000.05寸,对应的临界值Z1.96因为|Z|Z,说明样本平均数和总体平均数存在显著差异2因此这批产品不合格。(即有95%的可靠程度否定原假设)■与大学搓济学靛(二)单边检验在单边检验中,如H1: 0,则为左边检验;当0.05时,Z1.645,Z1.645因为正态分布是双边的,当单边检验时,取2 0.1,再查得临界值 Z1.645,Z1.645根据过去学校的记录,学生的统计学考试的平均分数为65分,标准差为16分。现在学校改革了教学方法,经抽取64名学生作调查,得平均分数为69分,问平均分数有无显著提高?解:Hq: 65分;H1: 65分解:Hq:(a=0.05);n0.05寸,6965 216,64Z1.645因为ZZ,检验统计量的数值落在否定域内,否定原假设,说明样本平均数69分与总体平均数65分存在显著差异,即新的教学方法提高了学生的成绩。(右边检验)某工厂生产瓶装1千克的某饮料,标准差为0.02千克,现随机抽取36瓶进行检验,彳#平均重量为0.9962千克,问能否相信该厂生产的饮料每瓶重量为1千克。(a=0.05)解:Hq: 1千克;Hi: 1千克0.99621 1.14n0.05叱0.02.361.645因为Z 1.645,所以认为抽样平均数x0.9962千克与总体平均数无显著差异,可以相信该厂生产的某饮料平均重量为1千克(左边检验)力1Iu-£TAT历TICS/05..J*.I-―,J/j什么是尸值?

(P-value)p=P(|z|>zp=P(|z|>zc)

p=P(z>zc)

p=尸(z<—zc).是一个概率值,被称为观察到的(或实测的)显著性水平.p值是在零假设成立的条件下,检验统计量会象实际观测结果与那么极端或更极端的概率。双侧检验:右侧检验:左侧检验:.如果这个概率很小,我们就倾向于拒绝零假设,否则,就不能拒绝零假设。双侧检验的夕值计算出的样本统计量 计算HI的样本统计量1/2pa1/29值拒绝左侧检验的,值抽样分尸置信水平右侧检验的尸值省信水平j值临界值■计算出的样本统计量- 若p/2值〉a/2,- 若p/2值〉a/2,不拒绝Ho- 若p/2值<ot/2,拒绝Ho通常将两侧面积的总和定义为P值,所以决策规则与单侧检验一致。P值进行检验(决策准则)若MS>a,不拒绝Ho若p值<a,拒绝Ho区间估计与假设检验的关系一、区间估计与假设检验的关系1、区别:区间估计是依据样本资料估计总体的未知参数的可能范围;假设检验是根据样本资料来检验对总体参数的先验假设是否成立。区间估计通常求得的是以样本为中心的双侧置信区间;假设检验不仅有双侧检验也有单侧检验。(区间估计立足于大概率,通常以较大的把握程度1(可信度)1-去估计总体参数的置信区间;〔假设检验立足于小概率,通常是给定很小的显著性水平去检验对总体参数的先验假设是否成立。2、联系都是根据样本信息对总体参数进行推断;都是以抽样分布为理论依据;都是建立在概率基础上的推断,推断结果都有风险;对同一问题的参数进行推断,使用同一样本、同一统计量、同一分布,因而二者可以相互转换。一、方差分析的内容方差分析主要用来对多个总体均值是否相等作出假设检验。例5:某饮料制造商生产一种新型饮料,共有四种颜色:(1)橘黄、(2)粉红、(3)绿色、(4)无色。该制造商想知道颜色是否对销售量有显著影响,随机抽取了5家超市前一期的销售量(表4.1)进行分析。二、方差分析的假设1、相关术语因素:是一个独立的变量,是方差分析的研究对象(例5中的饮料颜色);水平:因素中的内容(例5中饮料的四种颜色:无色、粉色、橘黄色、绿色)单因素方差分析:只针对一个因素进行分析;多因素方差分析:同时针对多个因素进行分析2、进行方差分析必须满足如下假设(1)每个总体的相应变量(因素)服从正态分布(2)所有总体相应变量(因素)的方差相等2(3)不同观察值(水平)相互独立(每个样本点的取值不影响其他样本点的取值)

进一步的理解:观察值之间的差异来自两个方面:水平间方差

(组间方差)水平内方差(组内方差)某因素不同水平的影响(系统性影响)其他随机因素的影响

水平间方差

(组间方差)水平内方差(组内方差)某因素不同水平的影响(系统性影响)其他随机因素的影响

(随机性影响)如果原假设成立:说明某因素不同水平的影响不显著(无系统性影响),只剩下随机性影响,因此组间方差与组内方差差别不大,它们的比接近于1。如果原假设不成立:说明某因素不同水平的影响显著(存在系

统性影响),组间方差与组内方差差别较大,它们的比远超出1组间方差组内方差组间方差组内方差第五节单因素方差分析与多因素方差分析一、单因素方差分析(一)离差平方和的计算方差分析需考察某因素的影响是否具有系统性,因此,需要将样本总体离差分解为两部分:(1)反映系统性影响(因素水平影响)的组间离差;(2)反映随机性影响(其他随机因素影响)的组内离差。设*°=第上个子样本中第i个观测值;nj二第j个子样本的样本容量xj xj/nj=第j个子样本的样本均值rnjx xij/n二全体子样本合并的大样本的样本均值j1i1其中,n=ni+n2+-+nr r为子样本个数于是,大样本的总离差平方和(SumofSquaresforTotal,SST)为:rnjSST(%X)2j1i1设*°=第」个子样本中第i个观测值;nj二第j个子样本的样本容量Xj」Xj/nj=第j个子样本的样本均值rnjX Xij/n=全体子样本合并的大样本的样本均值j1i1其中,n=n1+n2+-+nr r为子样本个数于是,大样本的总离差平方和 (SumofSquaresforTotal,SST)为:rnj 2SST(%x)可以证明:rnj(XjXj)2j1i1rnj(xjj1rnj rnj(XjXj)2 (XjX)2j1i1 j1i1rnj二2 2x) (XijXj)j1i1第一项是各子样本均值与合并的大样本的公共均值的离差平方和,它反映了因素(变量)不同水平对总离差平方和的影响(系统性影响),可当作 组间离差平方和 (SumofSquaresforFactorA,SSA);第二项是各子样本内部离差平方和之和,反映了随机性因素的影响(误差性影响),可当作组内离差平方和(SumofSquaresforError,SSE)。即 SST=SSA+SSE总离差平方和二组间离差平方和+组内离差平方和在例5中,可以验证:115.930=76.846+39.084(二)平均平方(方差)的计算用离差平方和除以自由度即得至U平均平方(MeanSquare)(方差):合并的(扩大的)样本方差: TSS/(n-1)水平间方差(组间方差): MSA=SSA/(r-1)水平内方差(组内方差): MSE=SSE/(n-r)在例5中,TSS/(n-1)=115.930/19=6.1015MSA=SSA/(r-1)=76.846/3=25.6152MSE=SSE/(n-r)=39.084/16=2.4428

(三)均值的F检验对原假设:H0: 1=2=3=4及备择假设:H1:四个总体均值不全相等计算F值:F=MSA/MSE=25.6152/2.4428=10.486给出显著性水平: =0.05,查F(r-1,n-r)分布表临界值:3.24由于计算的F=10.486>3.24,拒绝原假设,从而得出:颜色对该公司饮料销售有显著影响。第六章.时间数列分析。了解时间序列的概念、种类、因素构成和编制原则。掌握水平指标和速度指标的计算方法、应用条件及指标间的相互关系 。、鞠帼微别的概念瑟构雌素、,一把反映现象发展水平的统计指HW碘冽I标数值,按照时间先后顺序排列起来所及成的统计数列两个构成要素^现象所属的时间1反映现象发展水平的指标数值、的吸匆倾修按指标

形式分时间数

列分类按变量

性质分I、的吸匆倾修按指标

形式分时间数

列分类按变量

性质分I总量指标数列1相对指标数列I平均指标数列I确定性数列

< I随机性数列按变化

形态分平稳性数列趋势性数列季节性数列按变化

形态分按数列中所排列指标的表现形式不同分为:, 小时期数歹|| 绝对数数列・・卜二北:(总量指标数列) II时点数列IJI相对数数列I(相对指标数列),I平均数数列 (平均指标数列).时期数列:由时期指标排列形成。特点:(1)时期数列中各指标值可以相加。(2)时期数列中各指标值大小与时间间隔正相关。(3)时期数列通过连续登记获取数据。2.时点数列:由时点指标排列形成。特点:(1)时点数列中各指标值不能相加。

(2)时点数列中各指标值大小与时间间隔无关。(3)时点数列通过间断登记获取数据。相对数时间序列:由相对指标排列形成。特点:.由两个绝对数数列相比形成。.不同时期的相对指标数值不可直接相加。平均数时间序列:由平均指标排列形成。特点:不同时期的平均指标数值不可直接相加。时间序列的编制原则基本原则——可比性原则具体原则.时间长短应当一致。.总体范围保持一致。.指标的经济内容保持一致。.指标的计算方法和计量单位保持一致。指标

分析法构成因素

分析法指标

分析法构成因素

分析法通过时间数列的分析指标来揭示现象的发展变化状况和发展变化程度通过对影响时间数列的构成因素进行分解分析,揭示现象随时间变化而演变的规律时间数列的水平指标I指时间数列中每一项指标数值设时间数列中各期发展水平为:[aHTaT^ ,,n1,ON(N项数据)最初水平1中间水平最末水平或:|ao|,[ai, ,a.1,aJ(n+i项数据)平拗平又叫序时平均数,是把时问数列中各期指标数值加以平均而求得的平均数平拗平,般平均数与序时平均数的区别:计算的依据不同:前者是根据变量数列计算的,后者则是根据时间数列计算的;说明的内容不同:前者表明总体内部各单位横截面的一般水平,后者则表明整个总体在纵截面内的一般水平。序时平均数的计算方法L计算绝对数时间数列的序时平均数⑴由时期数列计算,采用简单算术平均法a1a2 aniaN2序时平均数的计算方法

⑵由时点数列计算.序时平均数的计算方法

⑵由时点数列计算.对于逐日记录

的时点数列视

其为连续 y /aNaiaa1 a2aN i1NN①由连续时点数列计算派间隔相等时,采用简单算术平均法aia2aniaN।「・। <~Nai一a1a2 aNi1a N N

序时平均数的计算方法 「不是逐日记录, 而是每隔一段时间②由词断时点数列计算 登记一次,表现为工期初成期末侑※间隔相等时,采用简单序舟平药法一季度初K]互aia3aia一季度初K]互aia3aia?a?a3a3a4四季 次年一度初 季度初a4a5—一a4 a5_.2aia2a2a3a3aia444a5ai aa5a2 aaNa31a4,一般有:2a2 2——2 224 N151※间隔不相等时,采用加权序时平均法※间隔不相等时,采用加权序时平均法序时平均数的计算方法.计算相对数时间数列的序时平均数•• a; 一.一a基本公式右时间数列Ci 一则:c=TOC\o"1-5"\h\z一—一 bi b⑴a、b均为时期数列时-a a/N a cb ac= ;- -7—b bN b b 1。—ac⑵a、b均为时点数列时a1 a2 aNi ON N1b1 b2 bN1 bN2 2 N1 2⑶a为时期数列、b为时点数列时平均发展水平序时平均方法总量指标时期数列简单算术平均时点数列连续时点序时平均方法总量指标时期数列简单算术平均时点数列连续时点间隔相等简单算术平均间隔不等j加权算术平均间断间隔相等两次简单平均时点间隔不等先简单后加权相对指

标、平均

―指标—视情况选用:先平均再相除、先加总再相除、加权算术平均、加权调和平均等增长量和平均增长量BQ:I指报告期水平与基期水平之差设时间数列中各逐期增长量

累计增长量期发展水平为: a0,al, ,an1,an逐期增长量

累计增长量al a0,a2 al, ,an an1al a0,a2 a0, ,ana0二者的关fl.琛:a0 a2出aa。 aiiaia0an an1ana0aiaiii1,2,,n年距

增长量aiLa年距

增长量aiLaiL4或12;i1,2,,n本期发展水平与去年同期水平之差,目的是消除季节变动的影响阳姗O: 逐期增长量的序时平均数n(aiai1)平均增长早i1 ana0平均增长早n n6.3时间数列的速度指标指报告期水平与基期水平的比值,说明现象的变动程度设时间数列中各期发展水平为:a0,a1,an1,anaa1a2an,,,a0a1an1a1a2an, ,,a0a0a0[[环比发展速度

《(年速度)定基发展速度

(总速度)环比发展速度与定基发展速度的关系:a1axan\1anana0a1an\叭a0ai ai1aia0a0 a0a0 ai1ai (i1,2,n)aii年距发aiL/展速度 /aiL4或12;i1,2,,nIWOS指增长量与基期水平的比值,说明报告期水平较基期水平增长的程度增长报告期水平基期水平发展速度 基期水平 速度100%ai ai1aiai 1 ai 1ai a0 aia0 a0ai L ai ai L\o"CurrentDocument"ai ai100%100%100%发展速度与增长速度性质不同。前者是动态相对数,后者是强度相对数;定基增长速度与环比增长速度之间没有直接的换算关系。琳两%而指现象每增长1%所代表的实际数量定基增长速度增长 风1%的绝对值 100环比增长

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论