数理统计(研究生)全册配套课件3_第1页
数理统计(研究生)全册配套课件3_第2页
数理统计(研究生)全册配套课件3_第3页
数理统计(研究生)全册配套课件3_第4页
数理统计(研究生)全册配套课件3_第5页
已阅读5页,还剩631页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计(研究生)全册配套课件3数理统计数理统计统计学第一章绪论§1-1

什么是数理统计§1-2数理统计几个基本概念§1-3

抽样分布学习目标1.理解数理统计的涵义2.理解了解统计研究对象的特点3.了解统计研究的基本环节4.了解统计学的产生与发展过程5.重点掌握数理统计的基本概念与抽样分布§1-1

什么是数理统计一、统计(Statistics)的涵义我们先从数理统计学开始,数理统计学是研究收集数据、分析数据并据以对所研究的问题作出一定的结论的科学和艺术。数理统计学所考察的数据都带有随机性(偶然性)的误差。这给根据这种数据所作出的结论带来了一种不确定性,其量化要借助于概率论的概念和方法。数理统计学与概率论这两个学科的密切联系,正是基于这一点。Statistics:

thescienceofcollecting,analyzing,presenting,andinterpretingdata.(不列颠百科全书)

统计学起源于收集数据的活动,小至个人的事情,大至治理一个国家,都有必要收集种种有关的数据,如在我国古代典籍中,就有不少关于户口、钱粮、兵役、地震、水灾和旱灾等等的记载。现今各国都设有统计局或相当的机构。当然,单是收集、记录数据这种活动本身并不能等同于统计学这门科学的建立,需要对收集来的数据进行排比、整理,用精炼和醒目的形式表达,在这个基础上对所研究的事物进行定量或定性估计、描述和解释,并预测其在未来可能的发展状况。例如根据人口普查或抽样调查的资料对我国人口状况进行描述,根据适当的抽样调查结果,对受教育年限与收入的关系,对某种生活习惯与嗜好(如吸烟)与健康的关系作定量的评估。根据以往一般时间某项或某些经济指标的变化情况,预测其在未来一般时间的走向等,做这些事情的理论与方法,才能构成一门学问——数理统计学的内容。

这样的统计学始于何时?恐怕难于找到一个明显的、大家公认的起点。一种受到某些著名学者支持的观点认为,英国学者葛朗特在1662年发表的著作《关于死亡公报的自然和政治观察》,标志着这门学科的诞生。中世纪欧洲流行黑死病,死亡的人不少。自1604年起,伦敦教会每周发表一次“死亡公报”,记录该周内死亡的人的姓名、年龄、性别、死因。以后还包括该周的出生情况——依据受洗的人的名单,这基本上可以反映出生的情况。几十年来,积累了很多资料,葛朗特是第一个对这一庞大的资料加以整理和利用的人,他原是一个小店主的儿子,后来子承父业,靠自学成才。他因这一部著作被选入当年成立的英国皇家学会,反映学术界对他这一著作的承认和重视。图1英国约克大学葛朗特图2

帕齐利

这是一本篇幅很小的著作,主要内容为8个表,从今天的观点看,这只是一种例行的数据整理工作,但在当时则是有原创性的科研成果,其中所提出的一些概念,在某种程度上可以说沿用至今,如数据简约(大量的、杂乱无章的数据,须注过整理、约化,才能突出其中所包含的信息)、频率稳定性(一定的事件,如“生男”、“生女”,在较长时期中有一个基本稳定的比率,这是进行统计性推断的基础)、数据纠错、生命表(反映人群中寿命分布的情况,至今仍是保险与精算的基础概念)等。

葛朗特的方法被他同时代的政治经济学家佩蒂引进到社会经济问题的研究中,他提倡在这类问题的研究中不能尚空谈,要让实际数据说话,他的工作总结在他去世后于1690年出版的《政治算术》一书中。

图4:高斯

当然,也应当指出,他们的工作还停留在描述性的阶,不是现代意义下的数理统计学,那时,概率论尚处在萌芽的阶段,不足以给数理统计学的发展提供充分的理论支持,但不能由此否定他们工作的重大意义,作为现代数理统计学发展的几个源头之一,他们以及后续学者在人口、社会、经济等领域的工作,特别是比利时天文学家兼统计学家凯特勒19世纪的工作,对促成现代数理统计学的诞生起了很大的作用。

数理统计学的另一个重要源头来自天文和测地学中的误差分析问题。早期,测量工具的精度不高,人们希望通过多次量测获取更多的数据,以便得到对量测对象的精度更图3拉普拉斯

高的估计值。量测误差有随机性,适合于用概率论即统计的方法处理,远至伽利略就做过这方面的工作,他对测量误差的性态作了一般性的描述,法国大数学家拉普拉斯曾对这个问题进行了长时间的研究,现今概率论中著名的“拉普拉斯分布”,即是他在这研究中的一个产物,这方面最著名且影响深远的研究成果有二:一是法国数学家兼天文家勒让德19世纪初(1805)在研究慧星轨道计算时发明的“最小二乘法”,他在估计过巴黎的子午线长这一工作中,曾使用这个方法。现今著作中把这一方法的发明归功于高斯,但高斯使用这一方法最早见诸文字是1809年,比勒让德晚。一种现在逐步取得公认——这项发明系由二人独立做出,看来使比较妥当的。另外一个重要成果是德国大学者高斯1809年在研究行星绕日运动时提出用正态分布刻画测量误差的分布。正态分布也常称为高斯分布,其曲线是钟形,极象颐和园中玉带桥那样的形状,故有时又称为“钟形曲线”,它反映了这样一种极普通的情况:天下形图4:高斯图5:连续型随机变量

天下形形色色的事物中,“两头小,中间大”的居多,如人的身高,太高太矮的都不多,而居于中间者占多数——当然,这只是一个极粗略的描述,要作出准确的描述,须动用高等数学的知识。正是其数学上的特性成为其广泛应用的根据。

正态分布在数理统计学中占有极重要的地位,现今仍在常用的许多统计方法,就是建立在“所研究的量具有或近似地具有正态分布”这个假定的基础上,而经验和理论(概率论中所谓“中心极限定理”)都表明这个假定的现实性,现实世界许多现象看来是杂乱无章的,如不同的人有不同的身高、体重。大批生产的产品,其质量指标各有差异。看来毫无规则,但它们在总体上服从正态分布。这一点,显示在纷乱中有一种秩序存在,提出正态分布的高斯,一生在多个领域里面有不少重大的贡献,但在德国10马克的有高斯图像的钞票上,单只画出了正态曲线,以此可以看出人们对他这一贡献评价之高。20世纪以前数理统计学发展的一个重要成果,是19世纪后期由英国遗传学家兼统计学家高尔顿发起,并经现代统计学的奠基人之一K·皮尔逊和其他一些英国学者所发展的统计相关与回归理论。所谓统计相关,是指一种非决定性的关系如人的身高X与体重Y,存在一种大致的关系,表现在X大(小)时,Y也倾向于大(小),但非决定性的:由X并不能决定Y。现实生活中和各种科技领域中,这种例子很多,如受教育年限与收入的关系,经济发展水平与人口增长速度的关系等,都是属于这种性质,统计相关的理论把这种关系的程度加以量化,而统计回归则是把有统计相关的变量,如上文的身高X和体重Y的关系的形式作近似的估计,称为回归方程,现实世界中的现象往往涉及众多变量,它们之间有错综复杂的关系,且许多属于非决定性质,相关回归理论的发明,提供了一种通过实际观察去对这种关系进行定量研究的工具,有着重大的认识和实用意义。

到20世纪初年,由于上述几个方面的发展,数理统计学已积累了很丰富的成果——在此因篇幅关系,我们不能详尽无遗地一一列举有关的重要成果,如抽样调查的理论和方法方面的进展,但是直到这时为止,我们还不能说现代意义下的数理统计学已经建立起来,其主要标志之一就是这门学问还缺乏一个统一的理论框架,这个任务在20世纪上半叶得以完成,狭义一点说可界定在1921——1938年,起主要作用的是几位大师级的人物,特别是英国的费歇尔·K·皮尔逊,发展统计假设检验理论的奈曼与E·皮尔逊和提出统计决策函数理论的瓦尔德等。我国已故著名统计学家许宝(1910——1970)在这项工作中也卓有建树。

自二战结束迄今,数理统计学有了迅猛的发展,主要有以下三方面的原因:一是数理统计学理论框架的建立以及概率论和数学工具的进展,为统计理论在面上和向纵深的发展打开了门径和提供了手段,许多在早期比较粗略的理论和方法,在理论上得到了完善与深入,并不断提出新的论和方法,在理论上得到了完善与深入,并不断提出新的研究课题;二是实用上的需要,不断提出了复杂的问题与模型,吸引了学者们的研究兴趣;三是电子计算机的发明与普及应用,一方面提供了必要的计算工具——统计方法的实施往往涉及大量数据的处理与运算,用人力无法在合理的时间内完成,所以在早年,一些统计方法人们虽然知道,但很少付诸实用,就因为是人力所难及。计算机的出现解决了这个问题。而赋予统计方法以现实的生命力。同时,计算机对促进统计理论研究也有助益,统计模拟是其表现之一,在承认上述成就的同时,不少统计学家也指出这一时期发展中出现的一些问题或偏向,其中主要的一点是,数理统计学理论研究中的“数学化”气味愈来愈重,相当一部分研究工作停留在数学的层面,早期那种理论研究与现实问题密切结合的优良传统有所淡化,一些学者还提出了补救的建议,对未来统计学发展的方向进行探讨。同时,现实问题愈来愈涉及到大量的,结构复杂的数据,按现行的数理统计学规范去处理,显得力所不及,需要一些带有根本性创新的思路,使统计学的发展登上一个新的台阶,以适应应用上的需要,考虑这一背景,有的统计学家乐观地认为数理统计学正面临一个新的突破。

在上面讲述数理统计学的发展状况时,我们着重在实际需要所起的促进作用方面,由于概率论的概念和方法是数理统计学的理论基础,概率论的进展也必然对数理统计学的发展起促进作用。

概率,又称几率,或然率,指一种不确定的情况出现可能性的大小,例如,投掷一个硬币,“出现国徽”(国徽一面朝上)是一个不确定的情况。因为投掷前,我们无法确定所指情况(“出现国徽”)发生与否,若硬币是均匀的且投掷有充分的高度,则两面的出现机会均等,我们说“出现国徽”的概率是1/2;同时,投掷一个均匀骰子,“出现4点”的概率是1/6,除了这些以及类似的简单情况外,概率的计算不容易,往往需要一些理论上的假定,在现实生活中则往往用经验的方法确定概率,例如某地区有N人,查得其中患某种疾病者有M人,则称该地区的人患该种疾病的概率为M/N,这事实上是使用统计方法对发病概率的一个估计。

概率的概念起源于中世纪以来的欧洲流行的用骰子赌博,这一点不难理解,某种情况出现可能性的大小要能够体察并引起研究的兴趣,必须满足两个条件:一是该情况可以在多次重复中被观察其发生与否(在多次重复下出现较频繁的情况有更大的概率),一是该情况发生与否与当事人的利益有关或为其兴趣关注之所在,用骰子赌博满足这些条件。

当时有一个“分赌本问题”曾引起热烈的讨论,并经历了长达一百多年才得到正确的解决。在这过程中孕育了概率论一些重要的基本概念,举该问题的一个简单情况:甲、乙二人赌博,各出赌注30元,共60元,每局甲、乙胜的机会均等,都是1/2。约定:谁先胜满3局则他赢得全部赌注60元,现已赌完3局,甲2胜1负,而因故中断赌情,问这60元赌注该如何分给2人,才算公平,初看觉得应按2:1分配,即甲得40元,乙得20元,还有人提出了一些另外的解法,结果都不正确,正确的分法应考虑到如在这基础上继续赌下去,甲、乙最终获胜的机会如何,至多再赌2局即可分出胜负,这2局有4种可能结果:甲甲、甲乙、乙甲、乙乙。前3种情况都是甲最后取胜,只有最后一种情况才是乙取胜,二者之比为3:1,故赌注的公平分配应按3:1的比例,即甲得45元,乙15元。

当时的一些学者,如惠更斯、巴斯噶、费尔马等人,对这类赌情问题进行了许多研究,有的出版了著作,如惠更斯的一本著作曾长期在欧洲作为概率论的教科书,这些研究使原始的概率和有关概念得到发展和深化。不过,在这个概率论的草创阶段,最重要的里程碑是伯努利的著作《推测术》。在他死后的1713年发表,这部著作除了总结前人关于赌情的概率问题的成果并有所提高外,还有一个极重要的内容,即如今以他的名字命名的“大数律”,大数律是关于(算术)平均值的定理,算术平均值,即若干个数X1、X2……Xn之和除以n,是最常用的一种统计方法,人们经常使用并深信不疑。但其理论根据何在,并不易讲清楚,就是伯努利的大数律要回答的问题,在某种程度上可以说,这个大数律是整个概率论最基本的规律之一,也是数理统计学的理论基石。

概率论虽发端于赌博,但很快在现实生活中找到多方面的应用,首先是在人口、保险精算等方面,在其发展过程中出现了若干里程碑的《机遇的原理》,其第三版发表于1756年,法国大数学家拉普拉斯的《分析概率论》,发表于1812年,1933年苏联教学家柯尔莫哥洛夫完成了概率论的公理体系,在几条简洁的公理之下,发展出概率论整座的宏伟建筑,有如在欧几里得公理体系之下发展出整部几何。自那以来,概率论成长为现代数学的一个重要分支,使用了许多深刻和抽象的数学理论,在其影响下,数理统计的理论也日益向深化的方向发展。中国(1)公元前22世纪的夏禹王朝,分中国为九州,人口为1355万人,这是我国最早的土地和人口调查资料。(2)西周建立了统计报告制度,经历春秋战国,到秦统一中国,形成了“上计”报告制度。(3)统计被认为是治理国家的重要手段,例如,管子“举事必成,不知计数不可”,“不明于数而欲大事,犹无舟楫而欲经于水险也。”秦商鞅则指出“强国知十三数”的主张。(4)封建时代,中国的户籍和田亩统计都有很大发展。秦始皇建立编户制,东汉曾进行全国田地测量,唐代计口授田,宋明有田亩鱼鳞册的土地调查地图。明代人口普查的“户帖”和“黄册”。西方(1)埃及在公元前27世纪,为建金字塔和大型农业灌溉系统,进行全国人口和财产调查。(2)公元前15世纪犹太人为了战争对以色列进行男丁调查。(3)《旧约》中记载,公元前10世纪前后,犹太国王大卫和所罗门对全国进行比较完整的人口和财产调查。(4)公元前6世纪,罗马帝国以国势调查作为治理国家的有效手段,规定每五年一次人口、土地、牲畜、家奴的调查。(5)进入封建社会,统计调查往往采取财产目录的形式,例如公元9世纪,法兰克福国王查理大帝为编制“国库财产大纲”而进行包括人口、土地、收入、农产品、畜产品、工业品的调查。

11世纪英国国王威廉为编“最终税册”对全国封建主和自由民的土地占有情况和市民财产状况进行调查。(6)15至18世纪欧洲封建社会进入繁荣时期,统计更作为说明各国国情的工具,出现了许多以报导国情为内容统计著作,如英国的“死亡公报”。以上简单介绍资本主义社会以前的统计活动,多半是结合赋税、征兵作中进行,为国家统治阶级服务的。随着资本主义经济的发展,特别是现代化大生产,对统计提出了新的要求,大大促进统计活动和统计科学的发展。经济统计形成了工业、农业、商业、交通、邮电、海关、银行、保险等等专业分支。例如,1790年美国举办现代意义的人口普查,并按法律规定每十年举办一次;19世纪初西方各国政府设立专业的统计机构。19世纪末成立国际统计学会。统计方法也有很大发展,出现统计学。二、数理统计学的现实意义与作用笼统地说,数理统计学的理论和方法,与人类活动的各个领域在不同程度上都有关联。因为各个领域内的活动,都得在不同的程度上与数据打交道。都有如何收集和分析数据的问题,因此也就有数理统计学用武之地。我们可以举几个例子来说明这一点,如在工业中生产一种产品,首先有设计的问题,包括配方和工艺条件的选定,这要通过从大量可能的条件组合中,通过分析试验结果来选定,可能的条件组合很多,选择哪一部分去做试验是一个很有讲究的问题,在数理统计学中有一个专门分支叫“试验设计”,就是研究怎样在尽可能少的试验次数之下,达到尽可能高效率的分析结果;其次,在生产过程中,由于原材料,设备调整及工艺参数等条件可能的变化,而造成生产条件不正常并导致出现废品,在统计学中有一门“工序控制”的学问,通过在生产过程中随时收集数据并用统计方法进行处理,可以监测出不正常情况的出现以便随时加以纠正,避免出大的问题;然后,大批量的产品生产出来后,还有一个通过抽样检验以检验其质量是否达到要求,是否可以出厂或为买方所接受的问题,处理这个问题也要使用数理统计方法,在我国现行的国家标准中有一些就与这个问题有关。

图1股票分析系统

图2经济统计分析

大的问题;然后,大批量的产品生产出来后,还有一个通过抽样检验以检验其质量是否达到要求,是否可以出厂或为买方所接受的问题,处理这个问题也要使用数理统计方法,在我国现行的国家标准中有一些就与这个问题有关。

在农业上,有关选种,耕作条件,肥料选择等一系列的问题的解决,都与统计方法的应用有关,在历史上,现行的一些重要的统计设计与分析方法,就是近代最伟大的数理统计学家费歇尔于上世纪20年代在英国一个农业试验站工作时,因研究田间试验的问题而发明的。

医学与生物学是统计方法应用最多的领域之一,统计学是在有变异的数据中研究和发现统计规律的科学,就医学而言,人体变异是一个重要的因素,不同的人的情况千差万别,其对一种药物和治疗方法的反应也各不相同,因此,对一种药物和治疗方法的评价,是一种统计性规律的问题,不少国家对一种新药的上市和一种治疗方法的批准,都设定了很严格的试验和统计检验的要求,又如:许多生活习惯(如吸烟、饮酒、高盐饮食之类)对健康的影响,环境污染对健康的影响,都要通过收集大量数据进行统计分析来研究。

对社会现象的研究大量地使用统计方法,因为组成社会的单元——人、家庭、单位、地区等,都有很大的变异性,如果说,在自然现象中还不乏一些(在误差可以允许的限度内)严格的、确定性的规律,在社会现象中这种规律则绝少,因此只能从统计的角度去考察,我们常说,某某措施,某某政策,对大多数人是有利的,这就是一种统计性规律,因为这种“有利”是指对大多数,而非一切人。在20世纪初,就有统计学家研究过在英国几种救助贫困的方式的效果的评估,这都是借助抽样调查并通过复杂的统计分析得出的结果,如今,抽样调查已经成为研究社会现象的一种最有力的工具,因为全面调查往往不可行,而抽样调查,从其方案的制定到数据的分析,都是以数理统计学的理论和方法为基础。三、统计学发展前景展望

这个问题在前面第一个问题中曾涉及一点。现在再简单的补充几句,前面曾提到,20世纪下半叶以来,由于人们对当时数理统计学发展中某些偏向进行反思,统计学界就不时地讨论到“统计学未来发展方向”这个问题,自20世纪70年代以来国际上有过一系列以此为主题或涉及此主题的学术会议,临近上世纪末,更有若干知名的统计学者撰文讨论这个问题,当今的情况是:对某些一般的原则性的问题有普遍的共识,但对未来统计学将向那个方向发展或应当向那个方向发展这个问题,则不能说已有了广泛一致的看法和意见,下面只就几个比较有影响的观点来谈谈。

一个大家都同意的原则是,数理统计学的发展,应当继承和发扬早期那种与实际密切结合的优良传统,这不是否定理论研究的作用,而是提倡,理论研究的成果应当对分析实际数据有用,美国老一辈著名统计学家图基早在1960年代就提出,对于那种于分析数据无用的研究成果,其意义仅限于从纯数学的角度去评价。

另一种得到比较广泛认同的观点,是认同统计学研究应努力与其他实用学科结合而形成交叉或边缘学科,这一点目前已有一定的表现,如生物统计、医药统计、工业统计、金融统计等,都是当前发展很快的热点,有的学者认为研究数理统计学必须与另一门专门学问结合,才有可能做出有重要意义的成果。这一点已在若干成功的学者身上得到印证,有个别走得更远的学者认为,统一的统计学将会因为与其他学科结合发展而分裂成许多并行的学科,好比一个大国分裂成一些小国,并把这称为统计学的巴尔干化——与昔日巴尔干半岛上统一的南斯拉夫如今分裂为一些小国相比。但是,数理统计学与其他学科结合形成交叉学科这个引人注目的发展,是否将导致“统一的”或“一般的”统计学的消亡或衰落,这一点现在看来并不确定,至少多数学者现在还不这么认为。

图基在1962年在一篇长文中提出“数据分析”的思想,几十年来得到国际上一些有影响的学者的支持,要全面讲清楚这种观点需要较多的篇幅,这里只就其一个核心的观点来讨论一下,这涉及到对现行的数理统计规范的地位问题,前面我们曾谈到,由于统计学处理的是带随机误差的数所,由分析这种数数据,得出的结论就有可能出错或不准确,出错的可能性的大小,不准确的程度如何,需要用概率论的概念和方法作定量的刻画,在研究统计问题时,必须把这作为一个目标,朝这个方向努力,这就是现行数理统计学的规范。数理统计学之所以能被承认为一门有严格理论基础的学科,是与遵守这一规范联系在一起的。但是,如果我们真的严格遵守这一规范,则以现在我们的知识水平而言,许多问题将无法下手。于是,学者们只好转向一些人为的、不太复杂的、用现行数学工具可以处理的模型,这种模型往往有“闭门造车”的缺点而缺乏现实性,图基的“数据分析”思想的一个观点是,主张淡化这个规范。

这种说法有一定的事实根据,可以说,在实用统计学的领域中,这个规范并不总是得到严格遵守的,现在我们有一些统计方法,它用起来有较好的效果,但在理论上并没有搞清楚其错误或偏差的可能性或数量有多大;另外,随着科技的发展,不断提出一些更复杂的模型,以我们现有的知识水平,没有可能对之作出完全符合上述规范的处理,而只能退而求其次,寻求一种在实用上可行的解法,当然,应当明确,在研究工作中达不到上述规范,与从根本上取消或淡化这个规范是两回事,一门学科必须有其规范或科学的定位(回答这门学科是什么的问题,判定其成果的可信性与意义等等,而这不能用笼统的说法,必须用确切的科学语言)。如果用数据分析取代现行的数理统计学,就有一个为数据分析定位的问题,而这至今还没有一个满意的解决,以此之故,虽然数据分析的提法获得不少支持且在实际的统计应用中有所反映(例如现在媒体中常提及的“数据挖掘”DataMining)。虽然,数据挖掘并不单纯是一个统计学课题,它至今尚未能动摇现行数理统计学的主流地位。

除了上述几种富于原则性的思想外,也有一部分学者致力于在现行统计学的框架下寻求新的生长点,在这方面也有不少的讨论或争论,如关于费歇尔的统计学思想和研究成果的再认识,关于数理统计学中的“频率学派”与“贝叶斯学派”之间的争论等,因涉及较多的数学概念,不能在此细谈了。

我个人认为,由于统计学是一门有广泛应用的学科,应用问题的多面性,要求不拘一格的处理方法,应用效果的多目标性以及统计问题的“不完全信息”的性质(指数据并未包含与问题有关的完整信息),也决定了统计方法的发展不致受某一种思想所支配,因此,至少在可以预见的将来,统计学的进展将是一种“多元”的局面,不会出现某种趋势占绝对优势的情况。三、统计研究的基本环节统计设计收集数据整理与分析资料积累开发应用统计学理论与相关实质性学科理论统计调查、实验描述统计推断统计

——

对随机现象进行观测、试验,以取得有代表性的观测值

——

对已取得的观测值进行整理、分析,作出推断、决策,从而找出所研究的对象的规律性数理统计的分类描述统计学推断统计学四、数理统计的分类数参估计(第二章)假设检验(第三章)回归分析(第四章)方差分析(第五章)

推断统计学正交分析(第六章)总体——

研究对象全体元素组成的集合所研究的对象的某个(或某些)数量指标的全体,它是一个随机变量(或多维随机变量).记为X

.

X

的分布函数和数字特征称为总体的分布函数和数字特征.总体和样本§1.2数理统计基本概念样本

——

从总体中抽取的部分个体.称为总体X的一个容量为n的样本观测值,或称样本的一个实现.用表示,n为样本容量.样本空间——

样本所有可能取值的集合.

个体

——

组成总体的每一个元素即总体的每个数量指标,可看作随机变量X

的某个取值.用表示.若总体

X的样本满足:一般,对有限总体,放回抽样所得到的样本为简单随机样本,但使用不方便,常用不放回抽样代替.而代替的条件是(1)与X

有相同的分布(2)相互独立则称为简单随机样本.简单随机样本N/n

10.总体中个体总数样本容量设总体X

的分布函数为F(x),则样本若总体X

的密

d.f.为

f(

x),则样本的联合d.f.为的联合分布函数为例如:X1,X2,…,Xn为取自总体N(0,1)的样本,则其联合密度函数

例如设某批产品共有N

个,其中的次品数为M,其次品率为若

p是未知的,则可用抽样方法来估计它.X

服从参数为p的0-1分布,可用如下表示方法:从这批产品中任取一个产品,用随机变量X来描述它是否是次品:设有放回地抽取一个容量为n

的样本的联合分布为其样本值为样本空间为若抽样是无放回的,则前次抽取的结果会影响后面抽取的结果.例如所以,当样本容量n

与总体中个体数目N

相比很小时,可将无放回抽样近似地看作放回抽样.

例1(P147)随机地观测总体X得8个数据:2.5,3,2.5,3.5,3,2.7,2.5,2,试求X的一个经验分布函数。解2<2.5=2.5=2.5<2.7<3=3<3.5经验分布函数

例1

随机地观测总体X得8个数据:2.5,3,2.5,3.5,3,2.7,2.5,2,试求X的一个经验分布函数。解2<2.5=2.5=2.5<2.7<3=3<3.5XP22.52.733.51/83/81/82/81/8一般Fn(x)对应分布列:P(X=xi)=1/n,i=1,2,...,n随机模拟显示格列汶科定理右连续设是取自总体X的一个样本,为一实值连续函数,且不含有未知参数,则称随机变量为统计量.若是一个样本值,称的一个样本值为统计量定义统计量例

是未知参数,若

,

已知,则为统计量是一样本,是统计量,其中则但不是统计量.常用的统计量为样本均值为样本方差为样本标准差设是来自总体

X

的容量为

n

的样本,称统计量为样本的k阶原点矩为样本的k

阶中心矩例如(5)顺序统计量与极差设为样本,为样本值,且当取值为时,定义r.v.则称统计量为顺序统计量.其中,称为极差注样本方差与样本二阶中心矩的不同故推导关系式1)推导

设则2)例1

从一批机器零件毛坯中随机地抽取10件,测得其重量为(单位:公斤):

210,243,185,240,215,228,196,235,200,199求这组样本值的均值、方差、二阶原点矩与二阶中心矩.解令例1则例2

在总体中,随机抽取一个容量为36的样本,求样本均值落在50.8到53.8之间的概率.解故例2例3

设总体X的概率密度函数为为总体的样本,求(1)的数学期望与方差(2)

(3)

解(1)例3(3)由中心极限定理(2)主讲:胡晓山数理统计数理统计统计学华中科技大学数学系

确定统计量的分布是数理统计的基本问题之一

正态总体是最常见的总体,本节介绍的几个抽样分布均对正态总体而言.§6.2抽样分布§6.2(1)

正态分布则特别地,则统计中常用分布若i.i.d.~若~标准正态分布的

分位数分布的上

分位数.定义正态分布的双侧

分位数.若,则称为标准若则称标准正态分布的

分位数图形z

常用数字/2

-z/2=z1-/2/2

z/2•-z/2•(2)分布(n为自由度)定义设相互独立,且都服从标准正态分布N(0,1),则n=1

时,其密度函数为卡分布n=2

时,其密度函数为为参数为1/2的指数分布.一般其中,在x>0时收敛,称为

函数,具有性质的密度函数为自由度为

n的n=2n=3n=5n=10n=15

例如

分布的性质

20.05(10)•n=10性质性质性质性质相互独立,证

1

设则由此可见,卡方分布不仅仅可由正太分布导入,可由指数分布导入,例如,若又若则于是若(3)t

分布

(Student分布)定义则称T服从自由度为n

的T分布.其密度函数为X,Y相互独立,设t

分布t分布的图形(红色的是标准正态分布)n=1n=20t分布的性质1°fn(t)是偶函数,2°T分布的上

分位数t

与双测

分位数t/2

有表可查.性质n=10t

-t

••

t

/2-t

/2••

/2

/2当n>45时,有t

(n)=u

(4)

F分布则称F服从为第一自由度为n

,第二自由度为m的F

分布.

其密度函数为定义X,Y相互独立,设令F分布m=10,n=4m=10,n=10m=10,n=15m=4,n=10m=10,n=10m=15,n=10F分布的性质例如事实上,故求F

(n,m)•

性质例1

证明证例1证例2

证明:设令例2

抽样分布的某些结论(Ⅰ)

一个正态总体与相互独立设总体,样本为(),(1)(2)结论(II)

两个正态总体相互独立的简单随机样本.令设与分别是来自正态总体与的则若则(3)则相互独立的简单随机样本.设与分别是来自正态总体与的与相互独立(4)的概率不小于90%,则样本容量至少取多少?例3设,为使样本均值大于70解设样本容量为

n

,则故令得即所以取例3例4

从正态总体中,抽取了

n=20的样本(1)求(2)求解

(1)即例4故(P.386)(2)故例5

设r.v.X与Y相互独立,X~N(0,16),

Y~N(0,9),X1,X2,…,X9

与Y1,Y2,…,Y16

分别是取自X与Y的简单随机样本,求统计量所服从的分布.解例5从而例6

设总体

的样本,为总体

X

试确定常数c,

使cY服从分布.解故因此例6例7

是来自N(,2)的简单随机样本,

是样本均值,则服从自由度为n-1的t分布的随机变量为例7故应选(B)解作业P.202习题六

910补充作业其样本均值为求统计量1.设为从正态总体

X~N(

,

2)中抽取的简单随机样本的数学期望E(Y).习题(转后页)

是来自正态总体的容量为

n

的两个样本均值,且两样本相互独立,试确定n,使两样本均值之差的绝对值超过的概率大约为0.01.每周一题13

第十三周

问题

某水产养殖场两年前在人工湖中混养了黑、白两种鱼.现在需要对黑白鱼数目的比例进行估计.提示:分别用矩法与极大似然估计法解决此问题.如何估计湖中黑、白鱼的比例第二章

参数估计7-1第七章参数估计问题假设检验问题点估计区间估计统计推断

DE基本问题7-2什么是参数估计?参数是刻画总体某方面概率特性的数量.当此数量未知时,从总体抽出一个样本,用某种方法对这个未知参数进行估计就是参数估计.例如,X~N(,2),点估计区间估计若,2未知,通过构造样本的函数,给出它们的估计值或取值范围就是参数估计的内容.参数估计的类型点估计——估计未知参数的值区间估计——估计未知参数的取值范围,并使此范围包含未知参数真值的概率为给定的值.§2.1点估计方法点估计的思想方法设总体X的分布函数的形式已知,但含有一个或多个未知参数:

1,

2,,

k设

X1,X2,…,Xn为总体的一个样本构造k个统计量:随机变量7-5§7.1当测得样本值(x1,x2,…,xn)时,代入上述方程组,即可得到k个数:数值称数为未知参数的估计值7-6对应统计量为未知参数的估计量并建立k个方程。三种常用的点估计方法频率替换法利用事件A

在n

次试验中发生的频率作为事件A

发生的概率p

的估计量7-7法一例1

设总体X~N(,2

),在对其作28次独立观察中,事件“X<4”出现了21次,试用频率替换法求参数

的估计值.解

由查表得于是

的估计值为7-8例1方法用样本

k

阶矩作为总体

k

阶矩的估计量,建立含有待估参数的方程,从而解出待估参数7-9一般,不论总体服从什么分布,总体期望

与方差

2存在,则它们的矩估计量分别为矩法法二7-10事实上,按矩法原理,令7-11设待估计的参数为设总体的

r

阶矩存在,记为样本X1,X2,…,Xn的r阶矩为令——含未知参数

1,

2,,

k的方程组7-12解方程组,得k

个统计量:未知参数

1,,

k

的矩估计量代入一组样本值得k个数:未知参数

1,,

k

的矩估计值例2设总体X~N(,2),X1,X2,…,Xn为总体的样本,求,2的矩法估计量.解例3设总体X~E(

),X1,X2,…,Xn为总体的样本,求

的矩法估计量.解令7-13故例2~3例4设从某灯泡厂某天生产的灯泡中随机抽取10只灯泡,测得其寿命为(单位:小时)1050,1100,1080,1120,12001250,1040,1130,1300,1200试用矩法估计该厂这天生产的灯泡的平均寿命及寿命分布的方差.解7-14例4例5设总体X~U(a,b),a,b未知,求参数

a,b

的矩法估计量.解由于令7-15例5解得7-16极大似然估计法思想方法:一次试验就出现的事件有较大的概率例如:有两外形相同的箱子,各装100个球一箱99个白球1个红球一箱1个白球99个红球现从两箱中任取一箱,并从箱中任取一球,结果所取得的球是白球.答:第一箱.7-17问:所取的球来自哪一箱?法三例6设总体X服从0-1分布,且P(X=1)=p,

用极大似然法求

p

的估计值.解总体X的概率分布为设x1,x2,…,xn为总体样本X1,X2,…,Xn的样本值,则7-18例6对于不同的p,L(p)不同,见右下图现经过一次试验,发生了,事件则

p

的取值应使这个事件发生的概率最大.7-19在容许范围内选择

p,使L(p)最大注意到,lnL(p)是L的单调增函数,故若某个p

使lnL(p)最大,则这个p必使L(p)最大。7-20所以为所求p的估计值.一般,设X为离散型随机变量,其分布律为则样本X1,X2,…,Xn的概率分布为7-21或称L()为样本的似然函数称这样得到的为参数

的极大似然估计值称统计量为参数

的极大似然估计量7-22

MLE简记

mle简记选择适当的=,使取最大值,即L()极大似然法的思想若X

连续,取f(xi,

)为Xi

的密度函数似然函数为7-23注1注2未知参数可以不止一个,如

1,…,

k

设X

的密度(或分布)为则定义似然函数为若关于

1,…,

k可微,则称为似然方程组若对于某组给定的样本值x1,x2,…,xn,参数使似然函数取得最大值,即则称为

1,…,

k

的极大似然估计值7-24显然,称统计量为

1,

2,…,

k

的极大似然估计量7-25例7设总体X~N(

,

2),x1,x2,…,xn是

X

的样本值,求

,

2的极大似然估计.解7-26例7

,

2的极大似然估计量分别为似然方程组为7-27极大似然估计方法1)写出似然函数L2)求出,使得7-28可得未知参数的极大似然估计值然后,再求得极大似然估计量.7-29L是的可微函数,解似然方程组若

L不是的可微函数,需用其它方法求极大似然估计值.请看下例:若例8设X~U(a,b),x1,x2,…,xn是

X

的一个样本值,求

a,b的极大似然估计值与极大似然估计量.解X的密度函数为似然函数为7-30例8似然函数只有当a<xi<b,i=1,2,…,n时才能获得最大值,且a越大,b越小,L越大.令xmin=min{x1,x2,…,xn}xmax=max{x1,x2,…,xn}取则对满足的一切a<b,7-31都有故是a,b的极大似然估计值.分别是a,b的极大似然估计量.7-32问题1)待估参数的极大似然估计是否一定存在?2)若存在,是否惟一?设X~U(a–½,a+½),x1,x2,…,xn是

X的一个样本,求

a的极大似然估计值.解由上例可知,当时,L

取最大值1,即显然,a

的极大似然估计值可能不存在,也可能不惟一.7-33例9例9不仅如此,任何一个统计量若满足都可以作为

a

的估计量.7-34极大似然估计的不变性设是

的极大似然估计值,u(

)(

)是

的函数,且有单值反函数=(u),uU则是u(

)的极大似然估计值.7-35不变性如在正态总体N(

,

2)中,

2的极大似然估计值为是

2的单值函数,且具有单值反函数,故

的极大似然估计值为lg

的极大似然估计值为7-36§2.2点估计的评价标准

对于同一个未知参数,不同的方法得到的估计量可能不同,于是提出问题应该选用哪一种估计量?用何标准来评价一个估计量的好坏?常用标准(1)无偏性(3)一致性(相合性)(2)有效性§7.2若则称是

的无偏估计量.

无偏性无偏定义我们不可能要求每一次由样本得到的估计值与真值都相等,但可以要求这些估计值的期望与真值相等.定义的合理性是总体X的样本,证明:不论

X服从什么分布(但期望存在),是的无偏估计量.证例1

设总体X的

k

阶矩存在因而由于例1则特别地样本二阶原点矩

是总体是总体期望E(X)的样本均值无偏估计量的无偏二阶原点矩估计量例2

设总体

X

的期望与方差存在,

X的样本为

(n>1).(1)不是D(X)的无偏估量;(2)是D(X)的无偏估计量.证前已证证明例2例3

设是总体X的一个样本

,X~B(n

,p)n>1,求p2

的无偏估计量.

解由于样本矩是总体矩的无偏估计量以及数学期望的线性性质,只要将未知参数表示成总体矩的线性函数,然后用样本矩作为总体矩的估计量,这样得到的未知参数的估计量即为无偏估计量.令例3因此,p2

的无偏估计量为故例4

设是总体X的一个样本

,X~P()n>1,求2

的无偏估计量.

解令例3例4

设总体X

的密度函数为为常数为X

的一个样本证明与都是的无偏估计量证

故是

的无偏估计量.例4令即故nZ是

的无偏估计量.都是总体参数

的无偏估计量,且则称比更有效.定义

设有效性有效所以,比更有效.是

的无偏估计量,问哪个估计量更有效?由例4可知,与都为常数例5

设总体X

的密度函数为解

,例5例6

设总体X,且

E(X)=,

D(X)=

2

为总体X

的一个样本证明是

的无偏估计量(2)证明比更有效证

(1)

例6(1)设常数(2)

结论算术均值比加权均值更有效.例如

X~N(

,

2

),(X1

,X2)是一样本.都是

的无偏估计量由例6(2)

知最有效.罗—克拉美(Rao–Cramer)不等式若是参数

的无偏估计量,则其中f

(x,

)是总体

X的概率分布或密度函数,称为方差的下界.当时,称为达到方差下界的无偏估计量,此时称为最有效的估计量,简称有效估计量.例7

设总体X

的密度函数为为X

的一个样本值.求

的极大似然估计量,并判断它是否达到方差下界的无偏估计量.为常数解由似然函数例7

的极大似然估计量为它是

的无偏估计量.而故是达到方差下界的无偏估计量.例2

设总体X~N(,2),X1,X2,…,Xn为总体的样本,证明分别是

,2的解7-13例2~3定义

设是总体参数

则称是总体参数

的一致(或相合)估计量.的估计量.若对于任意的

,

当n

时,一致性依概率收敛于

,即一致性估计量仅在样本容量

n足够大时,才显示其优越性.一致解:关于一致性的两个常用结论1.样本k阶矩是总体k

阶矩的一致性估计量.

的一致估计量.由大数定律证明用切贝雪夫不等式证明矩法得到的估计量一般为一致估计量在一定条件下,极大似然估计具有一致性2.设是

的无偏估计量,且,则例8为常数则是

的无偏、有效、一致估计量.证

由例7知是

的无偏、有效估计量.所以是

的一致估计量,证毕.例8作业P.231习题七161820习题补充题设总体X~N(,2),为X

的一个样本,常数k

取何值可使为

的无偏估计量

第十四周

问题母亲嗜酒是否影响下一代的健康

美国的Jones医生于1974年观察了母亲在妊娠时曾患慢性酒精中毒的6名七岁儿童(称为甲组).以母亲的年龄,文化程度及婚姻状况与前6名儿童的母亲相同或相近,但不饮酒的46名七岁儿童为对照租(称为乙组).测定两组儿童的智商,结果如下:每周一题14甲组67819乙组469916人数智商平均数样本标准差智商组别

由此结果推断母亲嗜酒是否影响下一代的智力?若有影响,推断其影响程度有多大?提示

前一问题属假设检验问题后一问题属区间估计问题作业P.231习题七161820习题补充题设总体X~N(,2),为X

的一个样本,常数k

取何值可使为

的无偏估计量统计抽样主要研究什么内容,解决什么问题?统计抽样主要有哪几种方法?如何确定样本容量?7.1统计抽样基本概念总体由研究对象的全体所组成。样本是总体中的部分元素所组成的集合。目标总体是我们要推断的总体抽样总体是实际抽取样本的总体 在抽样之前,应将总体划分为抽样单位。抽样单位既可以是一个简单的个体,也可以是一组个体。 对某一个特殊研究,抽样单位的名册称为抽样框。7.1统计抽样基本概念调查方法邮寄调查电话调查个人采访调查7.2抽样调查种类和抽样方法调查误差非抽样误差抽样误差由于没有对总体的所有单位进行调查而产生的误差进行一次抽样调查可能出现的如测量误差、采访者误差及数据处理误差等。

7.3调查误差 从一个容量为N的有限总体中抽取得到一个容量为n的简单随机样本,使每一个容量为n的可能样本,都有相同的概率被抽中。建立抽样框根据随机数表进行抽样抽样总体中所有个体的名册使用随机数表,可以保证抽样总体中的每个个体都有相同的概率被抽中

7.4简单随机抽样总体均值总体比率样本容量的确定7.4简单随机抽样

如果选择大样本(n≥30),则中心极限定理可以保证的抽样分布近似服从正态概率分布,μ的区间估计为

式中,为均值的标准差。1-α称为置信度,为与之对应的临界值。例如,若置信度为95%,则。7.4.1总体均值 当从一个容量为N的有限总体中,抽取一个容量为n的简单随机样本时,均值的标准差的估计值为

此时总体均值的区间估计为 在抽样调查中,当构造置信区间时,通常取μ=2。因此,在使用简单随机样本时,总体均值的近似95%的置信区间的表达式为:7.4.1总体均值[例7.1]《摄影》是一本推介摄影作品、报道摄影发展状况、介绍摄影器材的杂志,它目前拥有8000个订户。根据一个484个订户的简单随机样本,得出订户的年平均收入为30500元,标准差为7040元。因此,所有订户的年平均收入的无偏估计为元。 因此,这本杂志订户的年平均收入的近似95%的置信区间为 即(29880,31120)。7.4.1总体均值 上述过程也可用于对诸如总体总量或总体比率等其他总体参数的区间估计。对点估计的抽样分布近似服从正态概率分布的所有情形,其近似95%的置信区间为 例如,在《摄影》的抽样调查中,点估计量的标准误差的估计值为,允许误差为2×310元=620元。7.4.1总体均值

总体比率p是总体中具有某些感兴趣特征的个体的比重。[例7.2]在市场调查研究中,人们想了解喜欢某一品牌的消费者比重。样本比率是总体比率的无偏点估计。总体比率的标准差的估计值为 因此, 总体比率的近似95%的置信区间的表达式如下:

7.4.2总体比率 例如,在大宇国际咨询公司的抽样调查中,大宇国际咨询公司也想估计在它服务范围内的500所学校中,使用天然气作为取暖燃料的学校比率。如果在抽出的50所学校中,有35所学校使用天然气作为取暖燃料,则总体500所学校中使用天然气比率的点估计值。比率的标准差的估计值为 因此, 总体比率的近似95%置信区间为 即(0.5758,0.8242)。7.4.2总体比率回忆前面提到的允许误差为“点估计的标准差估计值的2倍”,因此:均值的标准差的估计值:7.4.3样本容量的确定两步抽样用试点调查或事先检验的结果估计s2

估计s2的方法根据以往的资料估计s2

由第一步抽取的部分单位,得到的s2的估计值,将此值代入上式,确定出全部样本容量n;然后对第一步确定的全部样本容量,再抽取第二步所需要的其余单位数。

7.4.3样本容量的确定[例7.3]某大学有5000名毕业生,我们想构造宽度在1000元之内的近似95%的置信区间。 对这样规定的置信区间,B=500。在确定n之前,需要估计。 假设根据去年所做的同样研究,得知s=3000元。我们可以用这个值来估计。根据B=500、s=3000及N=5000,则样本容量为7.4.3样本容量的确定

在估计总体比率时,选择样本容量的公式,与估计总体均值的公式类似。我们只需要将估计总体均值的公式中替换为,即

使用上式时,我们必须规定允许误差B和给出的一个估计值。如果没有合适的估计值,我们可以使用代替,这样将保证近似置信区间的允许误差比希望的要小的多。7.4.3样本容量的确定将总体划分H组从第h层中抽取一个容量为nh的简单随机样本由这H个简单随机样本的联合资料,可得出诸如总体均值、总体总量及总体比率等各种总体参数的估计。

分层简单随机抽样的步骤:也称为层7.5分层简单随机抽样

如果各层内的差异比层间的差异小,则分层简单随机样本可得到更大的精度(总体参数的区间估计将更窄)。 各层的划分应依据样本设计者的判断。 根据应用,总体可按部门、地区、年龄、产品类型、销售水平等分层。7.5分层简单随机抽样[例7.4]某大学管理学院想对今年的毕业生进行一次调查,以便了解他们开始工作时的年薪。7.5分层简单随机抽样 在分层抽样中,总体均值的无偏估计是各层样本均值的加权平均数,所用权数为总体在各层的比重。用

表示总体均值的点估计,其定义如下: 式中:H--层数;--第h层的样本均值; Nh--第h层的单位数;N--总体单位数; 对分层简单随机样本,计算平均值的标准差的估计公式为7.5.1总体均值某大学管理学院的180名毕业生的样本调查结果

7.5.1总体均值 各专业(层)的样本均值分别为:

因此,总体均值的点估计为7.5.1总体均值抽样调查中估计均值的标准差所需要的部分计算结果7.5.1总体均值 上表中 因此,总体的近似95%的置信区间为 即(29074,29626)。

7.5.1总体均值 对分层简单随机抽样,总体比率p的无偏估计是各层比率的加权平均数,所用权数为总体在各层的比重。总体比率的点估计定义如下: 式中:H--层数;--第h层的样本比率;Nh―第h层的单位数;N―总体单位数;7.5.2总体比率 的标准差的估计值为 总体比率的近似95%的置信区间的表达式为7.5.2总体比率

[例7.5]在某大学的调查中,大学想了解毕业生开始工作时的年薪不低于36000元的比率。180名毕业生的抽样调查结果显示,有20名毕业生开始工作时的年薪不低于36000元,其中会计专业4名,金融专业2名,信息系统专业7名,市场营销专业1名,经营管理专业6名。

7.5.2总体比率 根据总体比率的近似95%的置信区间的公式,开始工作时的年薪不低于36000元的比率的点估计为:

故毕业生开始时的年薪不低于36000元的比率近似95%置信区间为(0.0575,0.1387)7.5.2总体比率

对分层简单随机抽样,我们可用两阶段过程来选择样本容量。

既然人们想估计各层的均值、总量及比率,这两种组合方法都经常使用。确定总样本容量n决定各层应分配的样本单位数决定每层应选择的样本单位数加总得到总样本容量

或者7.5.3样本容量的确定

确定总样本容量n及其分配,可对所有要研究的总体参数提供必要的精度。

分配工作就是决定总样本被分配到各层的部分,这些部分将确定各层的简单随机样本的容量。

各层的单位数各层内的方差考虑的因素各层选择单位的费用

7.5.3样本容量的确定 一般地,单位数较多的层和方差较大的层应分配较多的样本数目。 相反地,对于给定的费用,为了获得更多的信息,则抽样单位成本较大的层应分配较少的样本数目。7.5.3样本容量的确定整群抽样需要将总体各个个体分为N组(也称作群),使总体中每个个体只属于一群。总体组1组2个体4个体5个体1个体6个体2个体37.6整群抽样例如,我们想调查某省的登记选民。则有两种方法:调查某省的登记选民。有两种方法:第一种方法是建立包含该省所有登记选民的抽样框,然后根据抽样框,选择选民的一个简单随机样本。第二种方法是整群抽样,我们选择用该省各县的清单作抽样框。在这个方法中,每个县(或群)包含一组登记选民,而该省的每个登记选民只属于一群。7.6整群抽样分层抽样和整群抽样都将总体划分为组,因此这两种抽样过程感觉上是相似的。选择整群抽样与分层抽样的原因是不同的。当群内的个体存在差异时,整群抽样可提供较好的结果。理想情形是每一群是整个总体的一个缩影,这时,抽取很少的群就可以提供关于整个总体特征的信息。整群抽样与分层抽样的比较7.6整群抽样[例7.6]某省拥有12000名执业注册会计师的注册会计师协会进行了一项调查。作为调查的一部分,注册会计师协会收集与收入、性别和与注册会计师生活方式有关的因素的信息。因为用个人采访法去搜集所需要的信息,因此注册会计师协会采用整群抽样,以使总的差旅费和采访费用达到最小。抽样框中包含所有在该省登记注册的执业会计师事务所。7.6整群抽样假设有1000群,即在该省登记注册的从事会计活动的会计师事务所有1000个,选择10个会计师事务所为一个简单随机样本。[例7.6](续)7.6整群抽样为了介绍在整群抽样中,构造总体均值、总体总量和总体比率的近似95%置信区间需要的公式,我们使用如下的记号:N—总体的群数;n—样本中选出的群数;Mi—i群的单位数;M—总体单位数;M=M1+M2+…十MN;—每一群的平均单位数。Xi——第i群所有观察值的总量;ai——第i群具有某特征的观察值的数量;7.6整群抽样对注册会计师协会的抽样调查,我们有如下资料:N=1000n=10M=12000

下表7-4为每个中选群的Mi和xi的值,以及中选事务所中女注册会计师的数量(ai)的资料。[例7.6](续)7.6整群抽样7.6整群抽样由整群抽样得到的总体均值的点估计的公式如下:(7-25)7.6.1总体均值该点估计量的标准差的估计为:(7-26)总体均值的近似95%的置信区间为:7.6.1总体均值根据表7-4的资料,我们可以得到执业注册会计师平均年薪的点估计为[例7.6](续)7.6.1总体均值由于表7-4中的年薪资料是以千元计量的,因此,执业注册会计师的平均年薪的估计值为42531元。而:因此:[例7.6](续)7.6.1总体均值因此标准差为1.730。我们得到平均年薪的近似95%置信区间:即(39.071,45.991)。[例7.6](续)7.6.1总体均值整群抽样的总体比率的点估计如下:(7-30)式中ai——第i群

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论