社会统计学-概率与概率分布_第1页
社会统计学-概率与概率分布_第2页
社会统计学-概率与概率分布_第3页
社会统计学-概率与概率分布_第4页
社会统计学-概率与概率分布_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章概率与概率分布

2024/6/281本章是推断统计的基础主要内容基础概率概率的数学性质概率分布、期望值与方差2024/6/282参数估计和假设检验

推断统计研究如何依据样本资料对总体性质作出推断,这是以概率论为基础的。随机原则总体样本总体参数统计量推断估计参数估计检验假设检验抽样分布3.1基础概率概率论起源于17世纪,当时在人口统计、人寿保险等工作中,要整理和研究大量的随机数据资料,这就需要一种专门研究大量随机现象的规律性的数学。关于赌博的可能性:参赌者通常想类似的问题,如果同时掷两颗骰子

,则点数之和为9和点数之和为10,哪种情况出现的可能性较大?例如17世纪中叶,贵族德·梅尔发现:将一枚骰子连掷四次,出现一个6点的机会比较多,而同时将两枚掷24次,出现一次双6的机会却很少。

2024/6/283

概率论的创始人是法国的帕斯卡(1623-1662)和费尔马(1601-1665),他们在以通信的方式讨论赌博的机率问题时,发表了《骰子赌博理论》一书。棣莫弗(1667-1754)发现了正态方程式。同一时期瑞士的伯努利(1654-1705)提出了二项分布理论。1814年,法国的拉普拉斯(1749-1827)发表了《概率分析论》,该书奠定了古典概率理论的基础,并将概率理论应用于自然和社会的研究。此后,法国的泊松(1781-1840)提出了泊松分布,德国的高斯(1777-1855)提出了最小平方法。

2024/6/2842024/6/2853.1.1随机现象和随机事件

随机现象具有一定条件呈现多种可能结果的特性。

人们把随机现象的结果以及这些结果的集合体称作随机事件。

概率是与随机现象相联系的一个概念。所谓随机现象,是指事先不能精确预言其结果的现象,如即将出生的婴儿是男还是女?一枚硬币落地后其正面是朝上还是朝下?等等。所有这些现象都有一个共同的特点,那就是在给定的条件下,观察所得的结果不止一个。随机现象具有非确定性,但内中也有一定的规律性。例如,事先我们虽不能准确预言一个婴儿出生后的性别,但大量观察,我们会发现妇女生男生女的可能性几乎一样大,都是0.5,这就是概率。

诞生的婴儿将是男孩。某人将活到100岁以上。明年报考劳动关系学院的学生将超过2千人。明天将下雨。概率是这些随机事件发生可能性大小的数量表示。2024/6/2861.样本点Ei2.样本空间所有样本点的全体称作样本空间(Samplespace),记作Ω随机试验的每一个可能的结果,称为基本事件(或称样本点)

在统计学中,我们把类似掷一枚硬币的行为(或对某一随机现象进行观察)称之为随机试验。随机试验必须符合以下三个条件:①它可以在相同条件下重复进行;②试验的所有结果事先已知;③每次试验只出现这些可能结果中的一个,但不能预先断定出现哪个结果。

[例]掷一颗骰子,试列出它的基本事件和样本空间。E1=出现“1”点;E2,E3,E4,E5,E6。Ω={1,2,3,4,5,6}2024/6/289简单事件:仅含样本空间中一个样本点的事件。复合事件:含样本空间中一个样本点以上的的事件。随机事件随机事件是基本事件自身或由基本事件组成的集合。它是样本空间

的某个子集。极端的随机事件必然事件:从样本空间来看,该事件事件是由其全部基本事件所组成,记作S。不可能事件:从样本空间来看,不含任何基本事件,记作Φ

。2024/6/2811[例]对掷一颗骰子的试验,我们研究如下事件:①A为“点数是3”;②B为“出现奇数点”;③C为“出现点数不超过6”;④D为“点数是7”。

[解]因为Ω={1,2,3,4,5,6},所以①A={3},为简单事件;②B={1,3,5},为复合事件;③C={1,2,3,4,5,6},为必然事件;④D={7},为不可能事件。3.1.2概率的计算方法在统计学中,有两种常见的确定概率的方法:古典法和频率法。

(一)频率法(经验概率)随机事件具有两重性:一次试验或观察的结果具有偶然性;大量重复实验或观察的结果具有统计规律性。2024/6/2813

设想有一个与某试验相联系的事件E,把这个试验一次又一次地做下去,每次都记录事件E是否发生了。假如做了N次试验,而记录到事件E发生了n次(即成功n次),则频数与试验次数的比值,称作次试验中事件E发生的频率

?≤f(E)≤?显然,频率具有双重性质:随机性和规律性.

当试验或观察次数趋近于无穷时相应频率趋于稳定,这个极限值就是用频率法所定义的概率,即

频率稳定到概率这个事实,给了“机会大小”即概率一个浅显而说得通的解释,这在统计学上具有很重要的意义。坚持这种观点的统计学派也就被称为频率学派。

2024/6/2814比如:法国统计学家蒲丰(Buffon)把铜板抛了4040次,正面的次数是2048,比例是0.5069。1900年,英国统计学家皮尔逊把硬币抛了24000次,正面的次数是12012,比例是0.5005南非数学家柯屈瑞在监狱时,把硬币抛了10000次,正面的次数是5067,比例是0.5067。再如:保险公司会利用概率进行人寿保险经营,比如研究表明20-24岁的男性中明年死亡的概率是0.0015,同龄的女性是0.0005,保险公司对男性的保费就多收一些。频率是试验值,因此具有随机性。概率是理论值,它由事件的本质决定,其数值是唯一的,能精确反映事件出现可能性的大小。在现实中,我们常遇到是哪一个?(二)古典法(先验概率)

由普拉斯1814年提出。以想象总体为对象,利用模型本身所具有的对称性来事先求得概率,故被称为先验概率。

条件:(1)在一样本空间中,各样本点出现的机会均等;(2)该样本空间只有有限(n)个样本点。用古典法求出的概率2024/6/2817

这样对于含有m个样本点的事件A,其出现的概率为

用古典法求算概率,在应用上有两个缺点:①它只适用于有限样本点的情况;②它假设机会均等,但这些条件实际上往往不能得到满足。

[例]掷一枚均匀的硬币,求出现“正面朝上”的概率。[解]此随机试验有两个样本点,n=2。两个样本点出现的可能性是一样的,满足古典概型。[例]掷两枚均匀的硬币,①求“两枚都朝上”的概率;②求“一枚朝上,一枚朝下”的概率。[例]全班有9名同学,其中3名女生,求任抽一名是女生的概率。3.2.1事件之间的关系(1)事件的包含与相等如果事件A的发生,必然导致事件B的发生,则称事件B包含事件A。两事件相等,它们之间必然是等价的。

如果则[例]婚姻调查中,A=“自主婚姻”,B=“自己认识的婚姻”,C=“经人介绍的婚姻”,问A与B之间的关系是什么?3.2概率数学性质2024/6/2820(2)事件和(Orconjunction)——事件A与事件B至少有一个事件发生所构成的事件C称为A与B的事件和,记作

前面的例子:“自主婚姻”

(3)事件积(As-well-asconjunction)——事件A与事件B同时发生所构成的事件C称为A与B的事件积,记作2024/6/2821(4)互斥事件事件A和事件B不能同时发生,则称B和A是互斥事件,或互不相容事件(Mutuallyexclusiveevents),记作(不可能事件)2024/6/2822(5)对立事件(Complementaryevents)——事件A与事件B是互斥事件,且在一次试验中必有其一发生,称A与B为对立事件(逆事件),记作

AB=?A+B=?(6)相互独立事件——事件A的发生与事件B是否发生毫无关系,称A与B为相互独立事件,记作

2024/6/2823两随机事件之

间的关

系图1.非负性3.2.2概率运算特别对必然事件和不可能事件有2024/6/28252.加法规则如果事件A和事件B互斥,那么如果A和B是任何事件(不一定互斥),加法规则更普通地表示为如下形式2024/6/2826[例]从一副普通扑克牌(未包括大小王)中抽一张牌,求抽到一张红桃或者方块的概率。

[例]在一副52张扑克牌中,求单独抽取一次抽到一张红桃或A的概率。2024/6/2827

[例]某年级共有学生100名,其中来自广东的有25名,来自广西的有10名,问任抽一名,来自两广的概率是多少?

[例]根据上海市职业代际流动的统计,向下流动的概率是0.07,静止不动的概率是0.6,求向上流动的概率是多少?

[例]为了研究父代文化程度对子代文化程度的影响,某大学统计出学生中父亲具有大学文化程度的占30%,母亲具有大学文化程度的占20%,而双方都具有大学文化程度的占有10%,问从学生中任抽一名,父代至少有一名具有大学文化程度的概率是多少?2024/6/2828加法规则可推广到对两个以上的事件,若事件A,B,C…K都互斥,那么有

P(A+B+C…+K)=P(A)+P(B)+P(C)…+P(K)

推论1:如果A、B、C三个任何事件,不是互斥(不是互不相容的),则:

P(A+B+C)=P(A)+P(B)+P(C)

-P(AB)-P(AC)-P(BC)+P(ABC)

图示解释。

推论2:对于n个任意事件A1、A2…An,有:

P(A1+A2+…+An)=2024/6/2829【练习】某地对国外旅游者旅游动机进行了调查,发现旅游者出于游览名胜的概率为0.219,出于异族文化的吸引占0.509,而两种动机兼而有之地站0.102。问旅游动机为游览名胜或为异族文化吸引的概率是多少?P(A)=0.219P(B)=0.509P(AB)=0.102P(A+B)=P(A)+P(B)-P(AB)=0.219+0.509-0.102=0.626【练习】今天来上课的人有50,其中对统计感兴趣的人30人,为了上课拿学分40人,为了考研究生来旁听10人,既为拿学分又有兴趣的人25人,既为了考研旁听又有兴趣的人为5人,现在任抽一名学生,问:(1)抽到旁听的人的概率(2)抽到感兴趣的人的概率(3)抽到为了拿学分或者有兴趣的人的概率(4)抽到考研究生旁听或者感兴趣的人的概率3.乘法规则概率的乘法是研究事件积的概率与事件本身概率之间的关系。根据事件是否独立,分为两种。(1)简化式如果事件A与事件B是相互独立的,即A出现的概率与B是否出现是无关的。那么A和B同时出现的概率是A概率和B概率的乘积。

推论:如果A1A2…An相互独立,则P(A1A2…An)=P(A1)P(A2)…P(An)2024/6/2832例:把二枚质地均匀的硬币同时扔掷,问二枚结果都朝上的概率是多少?例:根据统计结果,男婴出生的概率为22/43;女婴出生的概率为21/43。某单位有两孕妇,问两名孕妇都生男孩的概率是多少?都生女孩的概率是多少?其中一名孕妇生男孩、一名孕妇生女孩的概率是多少?例:街上有人拿牌赌博,52张牌洗匀后,抽到A就赢10块钱,先后有两个人来试运气;(a)第一个人抽到A的概率是多少?(b)第二个人抽到A的概率是多少?(c)两个人都抽到A的概率是多少?2024/6/28332024/6/2834(2)一般式

当事件A与事件B不满足相互独立时,则事件A的发生与否将影响事件B的发生,反之亦然。

式中符号和代表条件概率。应理解为,“在B已经发生条件下A发生的概率”。条件概率的意思是,A发生的概率可能与B是否发生有关系。换言之,B已经发生时A发生的概率可能有别于B没有发生时A发生的概率。

理解统计独立的概念,对于灵活运用概率的乘法规则很重要。现在用条件概率来加以表达,统计独立是指

推论1:P(A1A2A3)=P(A1A2)P(A3/A1A2)=P(A1)P(A2/A1)P(A3/A1A2)推论2:P(A1A2…An)=?2024/6/28352024/6/2836[例]某居民楼共20户,其中核心家庭为2户,(1)问访问两户都是核心家庭的概率是多少?(2)问访问第二户才是核心家庭的概率是多少?【练习】还是抽牌赌博,要玩先交5元,洗匀后,连抽两张,如果第一张抽到红心赢5元,第二张抽到红心赢10元,问你在交了5元钱之后,(1)赢回15元的概率是多少?(2)赢回5元的概率是多少?(3)赢回10元的概率是多少?(4)赢不到钱的概率是多少?(5)设局的人输钱的概率是多少?(6)设局的人赢钱的概率是多少?白玩的概率是多少?解:A=“第一张抽到红心”

B=“第二张抽到红心”(1)赢15元就要第一张抽到红心,第二张又抽到红心,因为是不独立抽取,所以第二张的概率是条件概率。P(AB)=P(A)P(B|A)=13/52×12/51=0.25×0.235=0.06(2)赢5元的概率是A发生而B不发生实际上赢10元实际上不赢钱

(3)赢10元的概率是A不发生而B发生实际上赢5元

(4)一分钱也赢不到的概率是A不发生且B不发生实际上输5元2024/6/2839[例]假定有下列3000个社区的数据,如果随机地从这个总体中抽取一个社区,得到一个中等的而且犯罪率低的社区的概率是多少?

属性大中小总和高犯罪率6003001001000低犯罪率6009005002000总和1200120060030002024/6/2840

回置抽样和不回置抽样

在抽样方法中还经常涉及到回置抽样和不回置抽样。所谓回置抽样,就是抽取的单位登记后又被放回总体中去,然后再进行下一次抽取。使用回置抽样法,先后两次抽取是彼此独立的。因为每一次抽取后抽取到的单位都得返还,总体保持不变,前一次的结果不可能影响到后一次。所谓不回置抽样,就是不再把抽取到的单位退还总体。这样先后两次抽取就不再独立了,必须使用条件概率的概念。

[例](1)用回置法从一幅普通扑克牌抽取两次,计算得到两张A的概率。(2)用不回置法从一幅普通扑克牌抽取两次,计算得到两张A的概率。3.2.3运用概率方法进行统计推断的前提2024/6/2841用不回置法从一幅普通扑克牌抽取两次,计算得到两张A的概率。用回置法从一幅普通扑克牌抽取两次,计算得到两张A的概率。[例]某居民楼共20户,其中核心家庭为2户,问访问两户都是核心家庭的概率是多少?

考虑这个例子,问在什么条件下,可以近似地使用概率乘法的简化公式?2024/6/28422024/6/2843运用概率方法进行统计推断的前提随机抽样样本容量相对于总体来说,是较小的总体中个体的组合具有被同等抽中的概率在概括限定区域单位时,注意独立性问题2024/6/2844

简单随机抽样要求每一个个体拥有相同的被选入样本的机会。严格来讲,由于我们实际上总是做不回置抽样,因此独立性的假定,是难以完全满足的。只有在样本非常大,可以忽略。一个随机样本具有以下的性质:不仅要给每一个个体以相等的被抽中的机会,而且要给每一种个体的组合以相等的被抽中的机会。在要概括社区或其他空间上限定区域的单位的情况时,也必须注意到缺乏独立性的问题。2024/6/28453.3概率分布、期望值与方差

随机事件及其概率回答的是随机现象某一局部结果,例如对给定的复合事件求先验概率。而概率分布则要在满足完备性(穷举)和互不相容性(互斥)的前提下,回答随机现象一共会出现多少种结果,以及每种结果所伴随的概率是多少。

应该指出,在统计中,概率分布是就随机现象呈现的宏观结果而言的。所谓宏观结果,是指可以在宏观层次加以识别的而与特定排列次序无关的样本空间的子集。随机变量:因为随机现象的结果是不断变化的,所以我们把随机现象看作是一类变量,叫随机变量。随机变量的取值(变量值)就是随机现象的结果(事件)。这些取值表示的是试验或者观察的结果。这些取值在观察前无法预知,只在观察后才确定。这些取值随着各次观察或试验在变化。

随机变量的所有取值出现的可能性的分布叫做概率分布。(X1,p1)(X2,p2)...例:从100户家庭中访谈3户,有核心家庭,非核心家庭,“三户中核心家庭的户数”就是随机现象,它可能的结果是:

0户核心家庭1户核心家庭2户核心家庭3户核心家庭随机变量X:“核心家庭的户数”取值有四个:X=X1表示“访谈结果为0户核心家庭、3户非核心家庭”X=X2表示“访谈结果为1户核心家庭、2户非核心家庭”X=X3表示“访谈结果为2户核心家庭、1户非核心家庭”X=X4表示“访谈结果为3户核心家庭、0户非核心家庭”(X1,p1)(X2,p2)(X3,p3)(X4,p4)2024/6/2848X23456789101112合计P(X)

例如掷两颗骰子的试验,点数就是随机现象,它一共有11种宏观结果。我们用古典法对每种宏观结果计算P,便得到了如下表所示的概率分布。

频率分布与概率分布的区别

经验分布:频率分布是经资料整理而来;频率分布随样本不同而不同;频率分布有对应的频数分布。

理论分布:概率分布是先验的;概率分布是唯一的;概率分布无频率分布所对应的频数分布。2024/6/28493.3.1

离散型随机变量的概率分布

离散型随机变量的取值是可数的,如果对X的每个可能取值xi计算其实现的概率pi,我们便得到了离散型随机变量的概率分布,即

离散型随机变量的概率分布也可以用表格和图形两种形式来表示。由于离散型随机变量的特点,表示离散型随机变量概率分布多为折线图。例:根据统计结果,男婴出生的概率为22/43;女婴出生的概率为21/43。某单位有两孕妇,求两孕妇生女婴数的概率分布。

(设X=“出生女婴数”。它的取值。)2024/6/2850【例】我们掷一枚骰子,出现的点数形成一个概率分布:(1,1/6)(2,1/6)(3,1/6)(4,1/6)(5,1/6)(6,1/6)概率分布的性质:1pi≥02∑pi=13.3.2连续型随机变量的概率分布只有定距变量才可能是连续的对于连续型变量:将这个比值称为随机变量X的概率密度即频率密度的概念:频率密度等于频率除以组距。以频率密度为纵坐标,可以作出频率分布直方图。类似地,以概率密度为纵坐标,可以作出概率密度曲线。所不同的是,概率密度由于对组距求了Δx→0的极限,其图形乃平滑曲线。2024/6/2854

这样一来,随机变量X取值在区间{x1,x2}上的概率等于概率密度曲线下面x1与x2两点之间面积,即

所以概率密度的性质有:因为概率不可能是负的,且

2024/6/28553.3.3分布函数

为了从数学上能够统一对随机变量的概率进行研究引入分布函数的概念,它被定义为

有了分布函数,就可以很容易得到随机变量X取值在任意区间{x1,x2}上的概率,即

连续型随机变量离散型随机变量

X23456789101112合计P(X)F(X)——2024/6/2856

(离散变量)或(连续变量)的关系,就像向上累计频率和频率的关系一样。不同之处在于,累计的是概率。但使用分布函数的好处是很明显的,它不仅在数学上统一了对离散型随机变量和连续型随机变量概率的研究,而且由于它计算概率的起点都固定为―∞,因而可以把概率值换算成表,以易于求得任何区间的概率,从而达到计算快捷和应用广泛之目的。[例]求两颗骰子点数的分布函数。

3.3.4数学期望(Expectation)(总体均值)数学期望是随机变量最基本的数学特征之一,反映随机变量平均取值的大小,也称作总体均值。也可以界定:数学期望,是反映随机变量X取值的集中趋势的理论均值(算术平均),记作E(X)。离散型随机变量的数学期望是连续型随机变量的数学期望是:【例】甲和乙名次的概率分布甲123p0.20.50.3乙123p0.30.30.4

E(X乙)=1X0.3+2X0.3+3X0.4=2.1E(X甲)解:我们可以说,两人的平均水平一样。2024/6/2859例谁的技术比较好?乙射手甲射手解故甲射手的技术比较好

数学期望也常常记为μ,在推论统计中等同总体均值的记号,而则在推论统计中被作为样本均值的记号。数学期望和总体均值一样,都是唯一的,不过它是一个先验的理论值。由于它是用随机变量各取值分别乘以取值的概率来计算的,因此数学期望又可称为随机变量的加权算术平均数。样本均值依据统计数据计算而来,但它具有随机性。在统计推论中,E(X)和都是为μ服务的,E(X)是“期望”,是“估计”。数学期望的性质常数的数学期望等于该常数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论