概率论课件第3章_第1页
概率论课件第3章_第2页
概率论课件第3章_第3页
概率论课件第3章_第4页
概率论课件第3章_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课件制作:应用数学系概率统计课程组概率论与数理统计第六章数理统计的基本概念

在终极的分析中,

一切知识都是历史.

在抽象的意义下,

一切科学都是数学.

在理性的世界里,

所有的判断都是统计学.----C.R.劳6.1数理统计学的基本概念6.1.1引例6.1.2统计与数理统计概述6.1.3总体与样本6.1.4统计量引例:某工厂生产大批电子元件.在实际应用中,我们可以提出许多感兴趣的问题1.这批元件的平均寿命如何?2.这批元件的寿命服从什么分布?3.如果你是使用单位.要求平均寿命能达到某个指定的数l,例如5000小时.问这批元件可否被接受?4.如何获得所需要的数据?6.1.1引例6.1.2统计和数理统计学概述统计学:在日常生活中.”统计”相当于”计数”.小至一个家庭,单位,大至国家,都有许多计数即统计的工作.

丹麦统计史学家哈尔德认为,”统计学”和”统计学家”词出于意大利语:统计学即国情学,对象是国务活动家感兴趣的事实,而统计学家则是”处理国务的人”一、统计浅谈

数理统计:它是使用概率论和数学的方法,研究怎样用有效的方法收集(通过试验或观察)带有随机误差的数据,并在设定的模型(统计模型)之下,对这种数据进行分析(统计分析)以对所研究的问题作出推断(统计推断).1.数据必须带有随机性的影响,才能成为数理统计学的研究对象数据随机性的来源:国家:State.统计学StatisticsExample1.全国人口抽样调查Example2.比较两种小麦品种的优良(1)是问题中所涉及的研究对象为数很大,我们不可能全部加以研究,而只能用“一定的方式”挑选其中一部分去考察。(2)数据随机性的另一种来源是试验的随机误差,这是指那种在试验过程中未加控制,无法控制,甚至不了解的因素所引起的误差。2.所谓有效的方法(1)是可以建立一个在数学上可以处理并尽可能简单方便的模型来描述所得的数据;(2)数据中要包含尽可能多的,与研究的问题有关的信息.有效收集数据的问题构成数理统计的两个分支:1.抽样理论;2,试验设计Example1.考察马鞍山市人均消费水平.

——从部分推断整体的性质,是一种在对有关信息缺乏完全掌握的情况下进行推断的方法

——统计规律是关于群体的规律,“统计规律”这个提法的启示是:教人看问题不可绝对化,因而有思想方法上的意义.统计规律未必蕴涵因果关系.数理统计的特点归纳与演绎统计规律与因果关系二、数理统计的特点:Example2:吸烟与肺癌的关系吸烟增加患肺癌,其他癌症以及诸如心脏病等严重疾病的危险.1948-1949,英国学者多尔与希尔从伦敦20家医院中收集了709名肺癌病人以及对照组-另709名患肺癌者的吸烟情况的资料,按吸烟斗还是纸烟,男或女,将烟吞进肺里与否等指标分类.Example1.设想有一枚价值高的钻石,想用一架天平尽可能准确地称出它的重量有多少?统计结论:吸烟与患肺癌呈明显的正相关.如何理解这个统计规律的意义?首先,统计规律是关于群体的规律。对于群体中的个体情况复杂多样,没有一定.拿本例来说:有吸烟很多而终生保持健康者,也有不吸烟而很早罹患肺癌者,不能用这类个别例子来否定二和者有正相关性的结论,因为它讲的是群体中一种趋势。

可能会有疑问:群体是抽象的,每件事都必须落实到具体的个体,患不患肺癌是每个人的事,这样关于群体中的趋势的规律有何意义?统计应用实例:1.孟德尔遗传定律的发现;2.中国患SARS的病人的死亡率是多少;3.太阳黑子的活动有周期性的规律吗?1.这种规律反映了某种客观存在的现实有科学和认识意义。2.对个体有警戒作用。4.股票分析系统

5.经济统计分析

6.科学研究统计分析

例为了解马鞍山市民2008年收入情况,现抽样调查10000人的收入。问题:1.怎样从10000人的收入情况去估计全体马鞍山市民的平均收入?怎样估计所有南京市民的收入与平均收入的偏离程度?2.若市政府提出了全体马鞍山市民平均收入应达到的标准,从抽查得到的10000人收入数据,如何判断全体南京市民的平均收入与收入标准有无差异?差异是否显著?3.抽查得到的10000人的收入有多有少,若这10000人来自不同的行业,那么,收入的差异是由于行业不同引起的,还是仅由随机因素造成的?4.

假设收入与年龄有关,从抽查得到的10000人收入和年龄的对应数据,如何表述全体马鞍山市民的收入与年龄之间的关系?问题1实质:从10000人的收入出发,估计全体马鞍山市民收入分布的某些数字特征(此处是期望和方差)。-----在数理统计中,解决这类问题的方法称为参数估计。问题2实质:根据抽查得到的数据,去检验总体收入的某个数字特征(此处是期望)与给定值的差异。-----在数理统计中,解决这类问题的方法称为假设检验。问题3实质:分析数据误差的原因(此处是行业)。当有多个因素起作用时,还要分析哪些因素起主要作用。-----在数理统计中,解决这类问题的方法称为方差分析。问题4实质:根据观察数据研究变量间(此处是收入与年龄间)的关系。-----在数理统计中,解决这类问题的方法称为回归分析。参数估计(ParametricEstimation)

假设检验(HypothesisTesting)

回归分析(Regression)

方差分析(Analysisofvariance)

推断统计学三、数理统计包含的内容总体选择个体样本观测样本样本观察值(数据)数据处理样本有关结论推断总体性质

统计量为了集中简单随机样本所带来的总体信息,考虑样本的函数,且不含任何未知参数,这样的“不含未知参数的样本的函数”称为统计量。统计量的分布称为抽样分布.四、统计的一般步骤总体

——研究对象全体元素组成的集合

所研究的对象的某个(或某些)数量指标的全体,它是一个随机变量(或多维随机变量),记为X.

X

的分布函数和数字特征称为总体的分布函数和数字特征.6.1.3总体(population)和样本(Sample)样本

——从总体中抽取的部分个体.称为总体X

的一个容量为n的样本观测值,或称样本的一个实现.用表示样本,n为样本容量.样本空间

——样本所有可能取值的集合.

个体

——

组成总体的每一个元素即总体的每个数量指标,可以看作随机变量X

的某个取值.用表示.抽样调查简史抽样调查是相对于普查而言的.1802年,Laplace受法国政府委托,用其“比例法”,通过抽样对法国人口总数进行估计;1861年,英国的法尔博士作过人口普查;19世纪最后20年中,挪威A.N.Kiaer提出“代表性抽样”1906年,英国A.L.Bowley将概率论的思想引入,提出“随机抽样理论”.1919,Fisher提出“分层抽样”理论.中国,许宝禄.若总体X的样本满足:一般,对有限总体,采用放回抽样所得到的样本为简单随机样本,但使用不方便,常用不放回抽样代替.而代替的条件是(1)要有代表性与X

有相同的分布(2)相互独立则称

为简单随机样本.简单随机样本(i.i.d)其中N为总体中个体的数目,n为样本容量.N/n

10.设为总体X的简单随机样本,X

的分布函数为F

(x),若总体X

的概率密度函数为f(

x),则的联合概率密度函数为则的联合分布函数为例如

某批产品共有N

个,其次品数为M,其次品率为若

p未知,则可用抽样的方法来估计它.X

服从参数为p的0-1分布,从这批产品中任取一个产品,记设有放回地抽取了一个容量为n的样本的联合分布为其样本值为样本空间为若抽样是无放回地,则前次抽取的结果会影响后面抽取的结果.例如所以,当样本容量n与总体中个体数目N

相比很小时,可将无放回抽样近似地看作放回抽样.在实际如何获得简单随机样本?Example:一批灯泡有600个,要从中抽6个作寿命试验,如何选这6个灯泡?方案1.准备600个完全相同的球,球上依次写上1-600,放在盒中,并彻底搅乱,然后取6个球方案2利用“随机数表,可以从表中任意位置开始读数(每三个数为一组)如:537,633,358,643,982,026,645,850,585,358,039,624,084,...方案3可利用计算机产生6个1~600间的不同的随机整数.样本来自总体,样本的观察值就含有总体各个方面的信息,但这些信息较为分散,为使这些分散在样本中有关的信息集中起来反映总体的各种特征,需对样本进行加工,一种有效的办法就是构造样本的函数,不同的样本函数反映总体的不同特征,这种函数便是统计量。6.1.4统计量(Statistic)若是一个样本值,称的一个样本值.为统计量设是总体X的一个样本,

参数,则称随机变量为统计量.定义为一实值连续函数,且不含有未知Problem:用什么统计量来刻画所考察的对象?Example:某大学新聘一位教授,给15位研究生上课,期末考试成绩如下:72,81,90,85,76,90,80,83,78,75,63,73,30,82,90成绩上报后教学院长认为:试题太易,因为的90的就有3人系主任认为:考题偏难,因为平均成绩才76.5分教授认为:考题适宜,因为从总体看80分是有代表性的,多于80分和少于80分的人数相等谁的话有道理?常用的统计量:

为样本均值

为样本方差为样本标准差设是来自总体X

的容量为n的样本,称统计量为样本的k阶原点矩为样本的k阶中心矩例如例1

是未知参数,

但不是统计量.若,已知,则为统计量.是一样本,是统计量,其中则(5)

顺序统计量(OrderStatistic)与极差设为样本的一个实现,且当取值为时,定义随机变量则称统计量为顺序统计量.其中称为极差(samplerang)注:样本方差与样本二阶中心矩的不同故推导关系式1)推导

设则2)例2

从一批机器零件毛坯中随机地抽取10件,测得其重量为(单位:公斤):210,243,185,240,215,228,196,235,200,199求这组样本值的均值、方差、二阶原点矩与二阶中心矩.解令则例3

设总体X的概率密度函数为为总体的样本,求(1)的数学期望与方差(2)(3)解(1)(近似),(3)由中心极限定理(2)内容小结:1.统计和数理统计基本概述2.总体和样本3.常用统计量:样本均值;样本方差;样本的k阶中心矩。6.2正态样本统计量的抽样分布6.2.1

正态分布6.2.3t分布(学生分布)6.2.4F分布6.2.2(卡方)分布6.2.5正态总体抽样分布的某些结论6.2.6Excel实现

确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.

由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.6.2.1正态分布(Normaldistribution)则特别地,则若i.i.d.~若i.i.d.~上(双)侧

分位数的概念设X

为连续型随机变量,其概率密度函数为f(x),

为给定常数,0<

<1若则称

x

为X

所服从的分布的上

分位数.如果

X的概率密度函数为偶函数,则对于满足

0<

<1/2

,则称

x/2为X

所服从的分布的双侧

分位数

若标准正态分布的上

分位数

z

z

常用数字/2

-z/2=z1-/2/2

z/2•-z/2•6.2.2分布(Chisquaredr.v.)定义

设相互独立,且都服从标准正态分布N(0,1),则n=1时,其密度函数为n=2

时,其密度函数为为参数为1/2的指数分布.一般地,其中,在x>0时收敛,称为

函数,具有性质的密度函数为自由度为

n的n=2n=3n=5n=10n=15

分布密度函数图例如

分布的性质

20.05(10)•n=10()05.0307.18)10(307.18)10(2205.0=>=ccP相互独立,证1

设则6.2.3t分布(Student分布)定义则T

所服从的分布称为自由度为n

的t分布其密度函数为X,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论