版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
概率与抽样分布第1页,共57页,2023年,2月20日,星期五Section3.1
RandomVariables
随机变量第2页,共57页,2023年,2月20日,星期五
事件的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f次,则事件A出现的频率为f/n。
概率:随机事件发生的可能性大小,用大写的P表示;取值[0,1]。一、频率与概率frequencyandprobability第3页,共57页,2023年,2月20日,星期五
1.样本频率总是围绕概率上下波动
2.样本含量n越大,波动幅度越小,频率越接近概率。频率与概率的关系:调查株数(n)52550100200500100015002000受害株数(a)21215
33
72177
351
525
704棉株受害频率(a/n)0.400.480.300.330.360.3540.3510.3500.352表在相同条件下盲蝽象在某棉田危害程度的调查结果一、频率与概率frequencyandprobability第4页,共57页,2023年,2月20日,星期五一、频率与概率frequencyandprobability
小概率原理若事件A发生的概率较小,如小于0.05或0.01,则认为事件A在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。这里的0.05或0.01称为小概率标准,农业试验研究中通常使用这两个小概率标准。第5页,共57页,2023年,2月20日,星期五二、随机变量用以记录随机试验结果(outcome)的变量,称为随机变量(randomvariable),用大写英文字母X,Y等代表。随机变量X的概率分布,表达X的可能取值和取这些值的概率规则。第6页,共57页,2023年,2月20日,星期五离散型和连续型随机变量随机变量的可能取值是离散的数字,如计数型或分类型等,称为离散型随机变量(discreterandomvariable)。{0,1,…,9}。20次实验中成功的次数,二项式分布。随机变量的可能取值是某一实数的区间,如“大于0”或“-2~2之间”等,称为连续型随机变量(continuousrandomvariable)。正态随机变量二、随机变量第7页,共57页,2023年,2月20日,星期五三、离散型随机变量的概率分布X=xix1,x2
,…
,xnP(X=xi)=pip1,p2
,…
,pn列出离散型随机变量X的所有可能取值列出随机变量取这些值的概率通常用下面的表格来表示P(X=xi)=pi称为离散型随机变量的概率函数第8页,共57页,2023年,2月20日,星期五四、连续型随机变量的概率密度若观察资料数量够大,则直方图(组数适当增加)的整体形态可用一近似的平滑曲线显示。直方图中纵轴改为次数比例,则该平滑曲线称为密度曲线(densitycurve)。第9页,共57页,2023年,2月20日,星期五概率密度曲线第10页,共57页,2023年,2月20日,星期五密度曲线的性质曲线都在水平线上(密度函数>=0)。曲线下所涵盖的全部面积正好为1(所有可能性为1)。曲线下任何范围所涵盖的面积,为观察值落在该范围的比例(概率)。密度曲线可视为是观察变量的理论分布图形。
四、连续型随机变量的概率密度第11页,共57页,2023年,2月20日,星期五随机变量X的一切可能取值的完备组中,各可能取值xi与其相对应的概率pi乘积之和描述随机变量取值的集中程度计算公式为五、随机变量的数学期望第12页,共57页,2023年,2月20日,星期五随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X)描述离散型随机变量取值的分散程度计算公式为六、随机变量的方差第13页,共57页,2023年,2月20日,星期五Section3.2
TheBinomialDistributions
二项分布第14页,共57页,2023年,2月20日,星期五一、二项分布设定
TheBinomialSetting固定的观察次数n。n次的观察都独立,每次的观察都不会对其他观察提供任何信息。每次的观察都只有两种可能的结果,多假设为“成功”或“失败”两种。每次的观察“成功”的概率都一样,设定为p。第15页,共57页,2023年,2月20日,星期五二、二项分布
BinomialDistribution满足二项分布设定的试验,以X记录n次观察中“成功”的次数,则称X的分布为参数为n与p的二项分布(binomial),记为B(n,p)。X的所有可能取值为{0,1,…,n}。对应的概率函数为P(X=x)=P(x)。第16页,共57页,2023年,2月20日,星期五
[例1]某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治疗试验,每次抽样10头作为一组治疗。试问如新药无疗效,则在10头中死3头、2头、1头,以及全部愈好的概率为多少?按上述二项分布概率函数式计算
7头愈好,3头死去概率:8头愈好,2头死去概率:9头愈好,1头死去概率:10头全部愈好的概率:三、示例第17页,共57页,2023年,2月20日,星期五若问10头中不超过2头死去的概率为多少?则应该应用累积函数,即三、示例第18页,共57页,2023年,2月20日,星期五四、二项分布的期望值与标准差期望值:E(X)=np方差: Var(X)=np(1-p)标准差:第19页,共57页,2023年,2月20日,星期五Section3.3
NormalDistributions
正态分布第20页,共57页,2023年,2月20日,星期五一、特点正态曲线所有正态曲线都有相同的外型具有对称、单峰及钟形的特性。正态曲线所代表的分布即为正态分布(normaldistribution)每一正态分布都有其平均值μ
与标准差σ
第21页,共57页,2023年,2月20日,星期五ms一、特点第22页,共57页,2023年,2月20日,星期五正态曲线σ较大ms一、特点第23页,共57页,2023年,2月20日,星期五正态曲线的拐点拐点落在一个σ处拐点落在-σ处一、特点第24页,共57页,2023年,2月20日,星期五二、为什么这么重要Gooddescriptionsforsomedistributionsofrealdata身高,体重,考试成绩GoodapproximationstotheresultsofmanykindsofchanceoutcomesTossingacoinmanytimesManystatisticalinferenceproceduresarebasedonnormaldistributions第25页,共57页,2023年,2月20日,星期五三、68-95-99.7规则正态分布有其特定的数据分布规则:平均值为μ,标准差为σ的正态分布68%的观察资料落在m的1σ之内95%的观察资料落在m的2σ之内99.7%的观察资料落在m的3σ之内第26页,共57页,2023年,2月20日,星期五0123-1-2-3mm+sm+2sm+3sm-sm-2sm-3s68%的资料95%的资料99.7%的资料三、68-95-99.7规则第27页,共57页,2023年,2月20日,星期五四、变量标准化(Standardization)令观察值x服从平均值为μ,标准差为σ的分布,则x的标准化值(standardizedvalue)定义为标准化值又称为z-值(z-score)。第28页,共57页,2023年,2月20日,星期五标准化变量可以证明z的平均值为0z的标准差为1
四、变量标准化(Standardization)第29页,共57页,2023年,2月20日,星期五五、标准正态分布变量X服从平均值为μ,标准差为σ的正态分布,简记为X~N(μ,σ2)。X经过标准化后为Z(=(X-μ)/s),则Z也服从正态分布,并且平均值为0,标准差为1,即Z~N(0,1)。我们称Z服从标准正态(standardnormal)。第30页,共57页,2023年,2月20日,星期五六、标准正态表z表列数字是z左边的面积z=-0.44z左边的面积为0.33-0.440.33第31页,共57页,2023年,2月20日,星期五z表列数字是z左边的面积z=0.44z左边的面积为0.67六、标准正态表第32页,共57页,2023年,2月20日,星期五七、双侧临界值在标准正态曲线图下,右方与左方的面积和为a,则称为标准正态分布概率为a的双侧临界值。可查表。m=0面积为a/2面积为a/2第33页,共57页,2023年,2月20日,星期五八、单侧临界值在标准正态曲线图下,右方的面积为a,则称为标准正态分布概率为a的单侧临界值。可查表。m=0面积为a第34页,共57页,2023年,2月20日,星期五
[例2]假定y是一随机变数具有正态分布,平均数
=30,标准差=5,试计算小于26,小于40的概率,介乎26和40区间的概率以及大于40的概率。首先计算:先将x转换为u值
九、计算第35页,共57页,2023年,2月20日,星期五同理可得:
FN(40)=0.9773
所以:P(26<x≤40)=FN(40)-FN(26)=0.9773-0.2119=0.7654
P(x>40)=1-P(x≤40)=1-0.9773=0.0227查附表,当u=-0.8时,FN(26)=0.2119,说明这一分布从-∞到26范围内的变量数占全部变量数的21.19%,或者说,x≤26概率为0.2119.九、计算第36页,共57页,2023年,2月20日,星期五
[例3]在应用正态分布时,经常要讨论随机变数x离其平均数的差数大于或小于若干个值的概率。例如计算离均差绝对值等于小于和等于大于1
的概率为:也可以简写为
九、计算第37页,共57页,2023年,2月20日,星期五相应地,离均差绝对值等于小于2
、等于大于2
、等于小于3
和等于大于3
的概率值为:九、计算第38页,共57页,2023年,2月20日,星期五
[例4]计算正态分布曲线的中间概率为0.99时,其y或u值应等于多少?
因为正态分布是对称的,故在曲线左边从-∞到-
u的概率和在曲线右边从u到∞的概率都应等于1/2(1-0.99)=0.005。查表,u=-2.58时,fN(x)
=0.00494≈0.005。于是知,当±2.58时,在其范围内包括99%的变量,仅有1%变量在此范围之外。上述结果写作:九、计算第39页,共57页,2023年,2月20日,星期五同理可求得:九、计算第40页,共57页,2023年,2月20日,星期五同理,亦可写成:以上
乃正态曲线下左边一尾x从-∞到
上的面积和右边一尾y从到∞上的面积之和,亦可写成:九、计算第41页,共57页,2023年,2月20日,星期五Section3.4
SamplingDistributions
抽样分布第42页,共57页,2023年,2月20日,星期五一、总体与样本
populationandsample总体:根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体样本:从总体中随机抽取的部分研究对象
第43页,共57页,2023年,2月20日,星期五二、总体容量与样本容量populationsizeandsamplesize总体容量(N):总体中所包含的个体数目。根据N大小,总体分有限总体和无限总体样本(n):从总体中随机抽取的部分研究对象
第44页,共57页,2023年,2月20日,星期五三、随机抽样randomsampling为了保证样本的可靠性和代表性,需要采用随机的方法抽取样本(在总体中每个个体具有相同的机会被抽到)。第45页,共57页,2023年,2月20日,星期五四、参数与统计量parameterandstatistic参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数
总体样本抽取部分观察单位
统计量
参数
推断inference统计量:样本的统计指标,如样本均数、标准差,采用英文字母分别记为。参数附近波动的随机变量。第46页,共57页,2023年,2月20日,星期五五、总体均值、方差与标准差总体均值总体方差总体标准差第47页,共57页,2023年,2月20日,星期五六、样本均值、方差与标准差总体均值总体方差总体标准差第48页,共57页,2023年,2月20日,星期五七、样本的概率分布统计量(为样本的函数),亦为随机变量,其概率分布称为抽样分布(samplingdistribution)。一般统计量的抽样分布,则多根据重复抽样(实验)结果来了解其概率分布。的抽样分布大数法则,中心极限定理第49页,共57页,2023年,2月20日,星期五八、大数法则由具有有限(finite)平均数m
的总体随机抽样,随着样本容量的增加,样本平均数越接近总体的均数m。样本平均数的这种行为称为大数法则(lawoflargenumbers)。第50页,共57页,2023年,2月20日,星期五以代表样本容量为n的资料平均数,逐渐增加样本容量,将n及对应的图示如后。八、大数法则第51页,共57页,2023年,2月20日,星期五Numberofobservations,n前n个样本的均数2223242526272829303132331510501005001000500010000八、大数法则第52页,共57页,2023年,2月20日,星期五九、样本平均数的均数与标准差令为样本容量为n的一组S
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度软件开发与居间服务合同
- 砌块砖合同范例
- 煤场煤炭合同范例
- 河道清包工合同范例
- 2024年度建筑项目供应链管理合同2篇
- 新疆支教合同范例
- 同学聚会活动方案样本(4篇)
- 公路清包工劳务合同范例
- 溢价包销合同范例
- 2024年度分包工程技术支持协议3篇
- 2024-2030年中国影视旅游行业发展现状及投资经营模式分析报告
- 隧道专项施工人员培训方案
- 《中国能源法规状况》课件
- 第11课《再塑生命的人》公开课一等奖创新教学设计
- 医院员工价值取向培训
- 中国船舶燃料电池行业市场现状分析及竞争格局与投资发展研究报告(2024-2030版)
- 2024全新煤矿电工培训
- 患者健康教育制度课件
- 交通安全法培训
- 2024年农业农村部大数据发展中心第三批面向社会公开招聘7人易考易错模拟试题(共500题)试卷后附参考答案
- 2024-2030年中国金融大数据行业市场发展分析及前景趋势与投资机会研究报告
评论
0/150
提交评论