版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于数理统计的基本概念第一页,共六十一页,2022年,8月28日前几章我们学习了概率论的基本知识,从本章开始将学习数理统计的基本知识、理论和方法.数理统计是以对随机现象观测所取得的资料(数据)为出发点,以概率论为基础来研究随机现象的一门学科.概率论中,往往是在已知随机变量分布的条件下,去研究它的性质、特点和规律性,比如求随机变量取某些特定值的概率、求随机变量的数字特征、研究多个随机变量之间的关系等.第二页,共六十一页,2022年,8月28日第6章数理统计的基本概念在数理统计中,我们所研究的随机变量的分布往往是未知的,通过对随机变量进行多次独立重复的试验和观测,获取数据,利用实际观测数据研究随机变量的分布,对其分布函数、数字特征等进行估计和推断.本章作为数理统计基础,学习总体、样本、统计量与抽样分布等有关概念,以及有关正态总体的重要的抽样分布定理.第三页,共六十一页,2022年,8月28日
数理统计学是一门应用性很强的学科。它研究怎样以有效的方式收集、整理和分析带有随机性的数据,以便对所考察的问题作出正确的推断和预测,为采取正确的决策和行动提供依据和建议。
数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析。4第四页,共六十一页,2022年,8月28日第6章数理统计基础【质量控制问题】
某食盐厂用包装机包装的食盐,每袋重量500g,通常在包装机正常的情况下,袋装食盐的重量X服从正态分布,均值为500g,标准差为25g.为进行生产质量控制,他们每天从当天的产品中随机抽出30袋进行严格称重,以检验包装机工作是否正常.某日,该厂随机抽取30袋盐的重量分别为:
从这些数据看,包装机的工作正常吗?475500485454504439492501463461464494512451434511513490521514449467499484508478479499529480第五页,共六十一页,2022年,8月28日6.1总体和样本6.1.1总体与个体
总体或母体指我们研究对象的全体构成的集合,个体指总体中包含的每个成员.例如,在研究某高校学生生活消费状况时,该校全体学生就是一个总体,其中每一个学生是一个个体;在人口普查中,总体是某地区的全体人口,个体就是该地区的每一个人.第6章数理统计基础第六页,共六十一页,2022年,8月28日6.1.1总体与个体我们研究总体时,所关心的往往是总体某方面的特性,这些特性又常常可以用一个或多个数量指标来反映.例如,在研究某高校学生生活消费状况时,关心的可能是学生们每月的生活消费额,在研究某厂生产的灯泡的质量时,关心的可能是这些灯泡的寿命和光亮度等.这时总体指一个或多个数量指标,这些数量指标对我们来说是不了解或者说是未知的,我们可以用一个或多个随机变量来表示它们.第七页,共六十一页,2022年,8月28日
因此,总体可以是一维随机变量,也可以是多维随机变量.例如,在研究某高校学生生活消费状况时,可以用X表示月生活消费额,在研究某厂生产的灯泡的质量时,可以分别用X,Y表示灯泡的寿命和光亮度,那么,对上面两个问题的研究就转化为对总体X和总体(X,Y)的研究了.
6.1.1总体与个体第八页,共六十一页,2022年,8月28日6.1.2样本与抽样实际应用中,为了研究总体的特性,总是从总体中抽出部分个体进行观察和试验,根据观察或试验得到的数据推断总体的性质.我们把从总体中抽出的部分个体称为样本,把样本中包含个体的数量称为样本容量,把对样本的观察或试验的过程称为抽样,把观察或试验得到的数据称为样本观测值(观测数据),简称样本值.第九页,共六十一页,2022年,8月28日例如,在质量检验中,随机抽出n件产品,测得的数据x1,x2,...,xn,就称它们是样本观测值.在抽样前,不知道样本观测值究竟取何值,应该把它们看作为随机变量,记作X1,X2,...,Xn,称其为容量为n的样本.
(在不会混淆的情况下,有时我们也将观测数据x1,x2,...,xn称为样本,如“质量控制问题”中的30个数据,也可以说成是一个容量为30的样本).样本与抽样第十页,共六十一页,2022年,8月28日
在应用中,我们从总体中抽出的个体必须具有代表性,样本中个体之间要具有相互独立性,为保证这两点,一般采用简单随机抽样.
定义6.1一种抽样方法若满足下面两点,称其为简单随机抽样:(1)总体中每个个体被抽到的机会是均等的;(2)样本中的个体相互独立.由简单随机抽样得到的样本称为简单随机样本.如果没有特殊说明,以后所说样本均指简单随机样本.样本与抽样第十一页,共六十一页,2022年,8月28日
设X1,X2,...,Xn是从总体X中抽出的简单随机样本,由定义可知,X1,X2,...,Xn有下面两个特性:(1)代表性:X1,X2,...,Xn均与X同分布,即若X
F(x),则对每一个Xi都有Xi
F(xi),i=1,2,…,n(2)独立性:X1,X2,...,Xn相互独立.由这两个特性可知,若X的分布函数为F(x),则X1,X2,...,Xn的联合分布函数为F(x1,x2,…,xn)=F(x1)F(x2)…F(xn)若X具有概率密度为f(x),则X1,X2,...,Xn的联合概率密度为f(x1,x2,…,xn)=f(x1)f(x2)…f(xn)样本与抽样往往是未知或不完全知道的,是需要通过样本来进行研究和推断的.第十二页,共六十一页,2022年,8月28日若X连续型随机变量,其概率密度为f(x),则X1,X2,…,Xn的联合概率密度为则X1,X2,…,Xn的联合分布律为若X离散型随机变量,其分布律为第十三页,共六十一页,2022年,8月28日例设总体X~B(1,p),X1,X2,…,Xn为取自总体X的样本,求样本X1,X2,…,Xn的联合分布(称为样本分布)。解:X的分布律为所以样本X1,X2,…,Xn的联合分布律为第十四页,共六十一页,2022年,8月28日例设总体X~N(μ,б2),X1,X2,…,Xn为取自总体X的样本,求样本X1,X2,…,Xn的联合概率密度。第十五页,共六十一页,2022年,8月28日【习题1】设总体X服从均值为1/2的指数分布,X1,X2,X3,X4为来自X的样本,求X1,X2,X3,X4的联合概率密度和联合分布函数.
解:X的概率密度为其分布函数为则X1,X2,X3,X4的联合概率密度为:样本与抽样第十六页,共六十一页,2022年,8月28日样本与抽样由于X的分布函数为X1,X2,X3,X4的联合分布函数为
第十七页,共六十一页,2022年,8月28日定义1设X1,X2,…,Xn为来自总体X的样本,g(X1,X2,…,Xn)是X1,X2,…,Xn的函数,若g中不含任何未知参数,则称g(X1,X2,…,Xn)为统计量.样本平均值
设x1,x2,…,xn是相应于样本X1,X2,…,Xn的样本值,则称g(x1,x2,…,xn)是g(X1,X2,…,Xn)的观察值.样本方差6.2统计量第十八页,共六十一页,2022年,8月28日样本标准差样本k阶(原点)矩样本k阶中心矩它反映了总体k阶矩的信息它反映了总体k阶中心矩的信息第十九页,共六十一页,2022年,8月28日它们的观察值分别为
第二十页,共六十一页,2022年,8月28日注:样本矩反应了总体相应矩的信息。样本k阶(原点)矩第二十一页,共六十一页,2022年,8月28日
设为来自总体X的样本,为来自总体Y的样本,称说明:1.样本原点矩反映样本的平均特征,样本中心矩反映样本的离散特征,样本协方差反映两个样本的相关程度。2.样本数字特征是随机变量,但对一组样本观察值,得到的样本数字特征观察值是一个具体的数,我们通常把这个数也称为样本均值、样本方差、样本相关系数等。第二十二页,共六十一页,2022年,8月28日顺序统计量说明:1.对两次抽样,尽管观察值由小到大的排列顺序可能改变,但对顺序统计量来说,改变的仅是其取值,其形式不变。2.顺序统计量是样本的函数,因而是随机变量。定义6.6
设()是样本()的一组观察值,将按由小到大的顺序排列成。设,记
k=1,2,…,n.称()为()的顺序统计量。第二十三页,共六十一页,2022年,8月28日结论1.是统计量。第二十四页,共六十一页,2022年,8月28日例*设总体X的期望、方差分别为X1,X2,…,Xn为来自总体X的样本,其样本均值和样本方差分别记为。求第二十五页,共六十一页,2022年,8月28日由于所以第二十六页,共六十一页,2022年,8月28日第二节抽样分布
设X1,X2,…,Xn是来自总体N(0,1)的样本,则称统计量服从自由度为n的分布,记为分布的概率分布密度为1、
分布第二十七页,共六十一页,2022年,8月28日第二十八页,共六十一页,2022年,8月28日
分布具有以下性质:第二十九页,共六十一页,2022年,8月28日标准正态分布的分位点也类似定义,标准正态分布的上分位点记为,它满足其中Z~N(0,1)。
对不同的分布的上分位点的值已制成表格,可以查用。第三十页,共六十一页,2022年,8月28日2、t分布
设X~N(0,1),Y~,且X与Y相互独立,则称随机变量服从自由度为n的t分布,记为t~t(n)。t(n)分布的概率密度函数为第三十一页,共六十一页,2022年,8月28日t(n)分布的概率密度函数关于t=0单峰对称第三十二页,共六十一页,2022年,8月28日当n很大时t(n)分布接近于标准正态分布,利用Γ函数的性质可以证明当n较小时,t(n)分布与N(0,1)分布之间有较大差异。t(n)分布的上分位数记为,即满足t分布的上分位数可由附表查得。当n>45时,有第三十三页,共六十一页,2022年,8月28日
设且U与V相互独立,则称随机变量服从自由度为(n1,n2)的F分布,记为F~F(n1,n2)3、F分布
F(n1,n2)分布的概率密度函数为第三十四页,共六十一页,2022年,8月28日第三十五页,共六十一页,2022年,8月28日若F~F(n1,n2),则第三十六页,共六十一页,2022年,8月28日若F~F(n1,n2),则F分布的上分位点有如下的性质:第三十七页,共六十一页,2022年,8月28日4、正态总体的样本均值与样本方差的分布第三十八页,共六十一页,2022年,8月28日第三十九页,共六十一页,2022年,8月28日第四十页,共六十一页,2022年,8月28日第四十一页,共六十一页,2022年,8月28日第四十二页,共六十一页,2022年,8月28日6.1总体和样本
6.1.3直方图与经验分布函数如前所述,数理统计所研究的实际问题(总体)的分布一般来说是未知的,需要通过样本来推断.但如果对总体一无所知,那么,做出推断的可信度一般也极为有限.在很多情况下,我们往往可以通过具体的应用背景或以往的经验,再通过观察样本观测值的分布情况,对总体的分布形式有个大致了解.观察样本观测值的分布规律,了解总体X的概率密度和分布函数,常用直方图和经验分布函数.第四十三页,共六十一页,2022年,8月28日1.直方图直方图是对一组数据x1,x2,...,xn的分布情况的图形描述.将数据的取值范围分成若干区间(一般是等间隔的),在等间隔的情况,每个区间的长度称为组距.考察这些数据落入每一个小区间的频数和频率,在每一个区间上画一个矩形,它的宽度是组距,高度可以是频数、频率或频率/组距,所得直方图分别称为频数直方图、频率直方图和密度直方图.6.1.3直方图与经验分布函数图6-1密度直方图第四十四页,共六十一页,2022年,8月28日如果数据x1,x2,...,xn是来自连续总体X的样本观测值,其密度直方图中,每一个矩形的面积恰好是观测数据落入对应区间的频率,这种密度直方图可以用来估计总体的概率密度(用密度直方图的顶部折线估计X的概率密度曲线).组距对直方图的形态有很大的影响,组距太小或太大,直方图反映概率密度的形态就不够准确.直方图与经验分布函数第四十五页,共六十一页,2022年,8月28日直方图与经验分布函数
一个合适的分组是希望密度直方图的形态接近总体的概率密度函数的形态.手工计算常取组数等于左右,一些统计软件会根据样本容量和样本的取值范围自动确定一个合适的分组方式,画出各种漂亮的直方图.第四十六页,共六十一页,2022年,8月28日【实验6-1】从某高校一年学生的“高等数学”课程考试成绩中,随机抽取60名学生的成绩如下:试利用Excel的“数据分析”功能作学生成绩的密度直方图,并通过直方图了解学生成绩的分布情况.6.1.3直方图与经验分布函数第四十七页,共六十一页,2022年,8月28日
实验步骤:(1)确定分组个数:因为,取分组个数为8.数据的最小值为51,最大值为95,为分组方便起见,考虑范围从50到100,分为8个组,组距取50/8=6.25,分点分别为:50,56.25,62.5,68.75,75,81.25,87.5,93.75,100。整理学生成绩数据,在“组上限”栏中填入各组的上限值,如图6-2左所示.第四十八页,共六十一页,2022年,8月28日
图6-2数据整理与“直方图”对话框第四十九页,共六十一页,2022年,8月28日
(2)在Excel主菜单中选择“工具”“数据分析”,打开“数据分析”对话框,在“分析工具”列表中选择“直方图”选项,单击“确定”按钮.(3)在打开的“直方图”对话框中,依次输入(或用鼠标拖动选择)“输入区域”、“接收区域”和“输出区域”,如图6-2右所示,单击“确定”按钮.得到频率分布的结果如图6-3左所示.第五十页,共六十一页,2022年,8月28日
图6-3计算各组频率与密度第五十一页,共六十一页,2022年,8月28日
(4)计算密度:在单元格区域J2:J9中依次输入组域名:50-56.25、56.25-62.5、62.5-68.75、68.75-75、75-81.25、81.25-87.5、87.5-93.75、93.75-100,然后在“密度”列的单元格K2中输入公式:=I2/60/6.25,并将公式复制到K3~K9中,如图6-3右所示.第五十二页,共六十一页,2022年,8月28日
(5)画密度直方图:选中单元格区域J1:K9,单击“图表向导”按钮,打开“图表向导”对话框.在“图表类型”选择中,取默认的“柱形图”向导,直接单击“完成”按钮,即可得到密度柱形图,如图6-4所示.图6-4密度柱形图第五十三页,共六十一页,2022年,8月28日
右键单击图中条形,在快捷菜单中选择“数据系列格式”,打开“数据系列格式”对话框,在其中的“选项”选项卡中,修改“分类间距”为0,如图6-5(左)所示,单击“确定”按钮,即可加宽条形,得到密度直方图,进一步修改图形,得到密度直方图,如图6-5(右)所示.第五十四页,共六十一页,2022年,8月28日
图6-5密度直方图从学生成绩的密度直方图可以看到,学生成绩在平均分附近比较密集,较低或较高分数学生比较少,学生成绩的分布呈近似“钟形”对称,即成绩分布近似正态分布.第五十五页,共六十一页,2022年,8月28日类似的方法可以画出学生成绩的频数直
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 31511:2024 EN Requirements for contactless delivery services in cold chain logistics
- 淮阴师范学院《数字电子技术》2021-2022学年期末试卷
- 淮阴师范学院《历史学专业导论》2021-2022学年第一学期期末试卷
- 淮阴师范学院《武术A》2022-2023学年第一学期期末试卷
- 淮阴工学院《设计管理》2023-2024学年第一学期期末试卷
- DB4403T459-2024研发与标准化同步企业评价规范
- 常见客诉处理
- 托儿所服务的知识传授与认知发展考核试卷
- 以倾听为话题的话题作文600字
- 生物识别技术在空间探索中的应用考核试卷
- 沪科版(2024)八年级全一册物理第一学期期中学业质量测试卷 2套(含答案)
- 化工和危险化学品生产经营单位二十条重大隐患判定标准释义(中化协)
- 煤矿建设工程施工技术资料
- 一级直线倒立摆系统模糊控制器设计---实验指导书
- 梁纵筋水平最小锚固长度不足与固接条件的处理的设计优化
- 大坝基础面处理施工方案
- 动画运动规律自然现象
- 腹膜后间隙解剖及CT诊断
- 自动化控制仪表安装工程采用材料及机械价格表(2014版江苏省)
- 八卦象数疗法
- 鲁人版九年级道德与法治上册 2.3一年一度的人民代表大会
评论
0/150
提交评论