试验设计与数据分析课件_第1页
试验设计与数据分析课件_第2页
试验设计与数据分析课件_第3页
试验设计与数据分析课件_第4页
试验设计与数据分析课件_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、试验设计与数据分析shanxi university 2008年2月修订 版本结束HOW WE TEACH IS ALSO WHAT WE TEACH, HOW WE LEARN IS ALSO WHAT WE LEARN.我们教育的方式本身也是我们教育的内容; 我们学习的方式本身也是我们学习的内容。目 录第一章 绪论第二章 常用统计分布第三章 参数估计第四章 假设检验第五章 方差分析第六章 回归分析第七章 试验设计第八章 非参数统计分析第九章 主成分分析和因子分析第十章 科技绘图第十一章 常用统计软件第三章 参数估计3.1 抽样分布3.2 区间估计再讨论这个问题。 统计学一个主要任务是研究总

2、体和样本之间的关系 总体和样本之间的关系可以从两个方向进行研究: 从总体到样本:即研究 从总体中抽出的所有可能样本的统计量的分布及其与 原总体的关系。即抽样分布的情况。 从样本到总体:即研究 从总体中抽出的一个随机样本,并用样本统计量对总 体参数作出推断。即参数估计和假设测验。先讨论这个问题。3.1 抽样分布概念:复置抽样和不复置抽样 抽样又分为复置抽样和不复置抽样。 复置抽样 将抽得的个体放回总体继续参加抽样。不复置抽样 抽得的个体不放回总体参加后续的抽样。 本章中,讨论抽样分布时,只考虑复置抽样的情况。抽样分布 在大多数情况下,无法进行全面调查,难以作出总 体的理论分布。例如,我们无法知道

3、某个玉米品种产 量的 和,因此不能像前面两个例子那样计算概率。 通常的做法是从总体中抽取一个样本,利用样本数据计算出的样本统计量来对总体的有关参数进行估计。抽样分布 但样本统计量不是常数,而是随机变量。例如,样本平均数 。因为在这次抽样中,算出的 可能为34.5g,但在下一次抽样时,可能变成35.2g。随着抽样不同,它发生随机变化。既然样本统计量是随机变量,它们也会有相应的概率分布。 下面讨论从前面介绍的两个理论分布:二项分布和正态分布中进行抽样后,用样本数据计算出的各种统计量的概率分布。抽样分布 从正态总体中抽样 从二项总体中抽样 样本观察值之和的概率分布 样本平均数的概率分布 二项分布的一

4、种极限情况 泊松分布 二项分布的另一种极限情况 正态分布 二项分布的推广 多项分布 样本平均数的概率分布 两个样本平均数之差的概率分布 样本方差的概率分布 两样本方差之比的分布3.1.1 从二项总体中抽样样本观察值之和的概率分布 若某事件A在一次试验中出现的概率为p,其对立事 件出现的概率为q1p。做n次独立试验,该事件可 能出现0, 1, 2, , n次,这些次数可以被视为一个离散 型随机变量X。问其中刚好出现x次(即Xx)的概率 是多少。 请注意:这n次试验的结果可以看作是从二项总体中 抽取的一个容量为n样本。样本观察值只有0、1两种, 因此随机变量X的值刚好是样本中含有的“1”的观察值

5、个数,因此也就是样本观察值之和。为了更加直观易 懂,用具体例子来说明这个问题的解法。样本观察值之和的概率分布 例 在2500粒种子中,有250粒属于A品种。则p250/25000.1,q10.10.9。现连续用复置抽样 方法,抽取n5粒种子,问其中含有x2粒品种A的 概率是多少? 用复置抽样方法抽取n5 粒种子,共有 10种结果中有2粒为品种 A。每种结果中的5次抽样 互相独立,概率可以相乘。所有结果如下表所示。 因为这些结果互不相容,概率可以相加。于是算得“连续用复置抽样方法,抽取n5粒种子,其中含有x2粒品种A”的概率为 例 在2500粒种子中,有250粒属于A品种。则p250/25000

6、.1,q10.10.9。现连续用复置抽样 方法,抽取n5粒种子,问其中含有x2粒品种A的 概率是多少?样本观察值之和的概率分布 于是答案为 X的所有可能值出现的概率如右表样本观察值之和的概率分布 推广到一般情况,若某事件A在一次试验中出现的概 率为p,其对立事件出现的概率为q1p。做n次独 立试验,该事件出现x次的概率为: 只要n和p的值确定了,X的概率分布就可以作出。n=2时P(x=0)=(1) p0q2-0P(x=1)=(2) p1q2-1P(x=2)=(1) p2q2-2n=3时P(x=0)=(1) p0q3-0P(x=1)=(3) p1q3-1P(x=2)=(3) p2q3-2P(x=

7、3)=(1) p3q3-3n=4时P(x=0)=(1) p0q4-0P(x=1)=(4) p1q4-1P(x=2)=(6) p2q4-2P(x=3)=(4) p3q4-3P(x=4)=(1) p4q4-4此类随机变量的概率分布函数为:其系数来自于杨辉三角形。 1 1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 1 6 15 20 15 6 1 样本观察值之和的概率分布二项分布律如果随机变量 x 的概率分布函数为则称随机变量 x 服从具有参数 n, p 的二项分布,记为 。当n1时,二项分布缩减为贝努里分布所有从二项总体中进行重复独立试验所取得的数据都可以认为

8、是服从二项分布资料。均可用此函数计算概率。二项分布律二项分布随机变量 X 的总体平均数和总体方差分别为:二项分布律本例中,n5,p0.1,每回随机抽取5粒,可能有0, 1, 2, 3, 4, 5粒种子为品种A,但抽无数回,平均会有多少粒种子为品种A呢?用下面的公式可以算得,平均会有np50.10.5粒为品种A。这个平均数有没有代表性?可以用总体标准差 0.67来衡量。 参数n, p决定了分布特性。当p = q = 0.5 时,分布是对称的;当pq 时,分布就不对称;p和q差异越大,分布就越偏斜。再举一个具有不同参数n, p的例子,比较一下具有不同参数的数据的分布图的形状。二项分布律例 已知某地

9、区成年男子中抽烟人数占成年男子总数的比率为 p0.65。现在该地区随机调查 n5个成年男子,求其中抽烟人数 X 的概率分布。n=5,p=0.65,q=0.35,记抽烟人数为 x,用二项分布函数可以求得抽烟人数 x的概率分布和累计概率如下:二项分布律 比较这两个例子的概率分布表和概率分布图,会发 现二项分布的形状是由n和p两个参数决定的。当 p = q = 0.5 时,分布是对称的;当 p q 时,分布就 不对称; p和q差异越大,分布就越偏斜。二项分布律p= 0.65, q = 0.35 时:p= 0.10, q = 0.90时: 如果n不同,图形的差异就 更大了。样本平均数的概率分布 在应用

10、中,还常常将在n次试验 中该事件出现 x次的结果改用百 分数 X/n来表示。 通常被 称为二项资料百分率,但因为 它是样本观察值总和 X 与观察 值总数 n 之比,因此实质上也 是样本平均数。从右表可以看到, 与X的概率及其 分布是一样的。 的总体平均数、总体方差和标准差分别为: 在二项分布中,如果该事件发生的概率(p或q)很小, 并且 n 很大时,利用二项分布的概率函数 来计算概率就变得很困难。二项分布的一个极限泊松分布为了解决这个问题,对二项分布函数求极限,得到泊松分布。 x 项这是微积分学中两个重要的极限中的一个。二项分布的一个极限泊松分布 则称随机变量x服从具有参数 m 的泊松分布,记

11、为如果随机变量x的概率分布函数为二项分布的一个极限泊松分布二项分布的一个极限泊松分布泊松分布可应用来处理那些在某一空间(或时间)中, 出现的概率很小的计数资料。 例如一定面积中,某种植物(或昆虫)的数目;显微镜的某一视野中某种细菌 (或病毒)的个数;某一段时间内对某一网站的访问次数;大海中一网捕到的某种稀有鱼类的尾数等等。二项分布的一个极限泊松分布泊松分布的总体平均数和方差相等,都为:当 m 较小时,分布呈偏斜状;当 m 增大后,逐渐变 得较对称。二项分布的一个极限泊松分布 下表列出了Student氏1907年用血球计将一个 1 mm2 的视野分为400个,数得每格中酵母菌的实际观 察数。与使

12、用泊松分布概率函数计算出的理论个数作 比较。可以看到两列数字是非常吻合的。x =0时,P(0)=(4.680e-4.68)/0!=0.009275, 理论数为: 0.009275400=3.71;x =1时,P(1)=(4.681e-4.68)/1!=4.68 0.009275=0.043426, 理论数为: 0.043426 400=47.37;x =2时,P(2)=(4.682e-4.68)/2!=4.682 0.009275/2=0.101616, 理论数为: 0.101616 400=40.65;理论个数的计算方法: 用实际数据算出平均数:1872/400=4.68; 把 m 代入概率

13、函数,得到各个x所对应的概率; 用各个x所对应的概率乘400得到对应的理论个数。 泊松分布解决了当事件发生的概率(p或q)很小,并且 n 很大时计算概率的困难。二项分布的一个极限泊松分布二项分布的另一个极限正态分布 当n很大,p(或q)接近0.5时,样本观察值之和X的二 项分布逼近为总体平均数为np,总体方差为2 npq的正态分布。样本百分数的二项分布逼近为总 体平均数为p,总体方差为2pq/n的正态分布。二项分布的另一个极限正态分布 例 如果一个鸡蛋孵出的小鸡,性别为雌雄的概 率各半,那么随机抽取20个鸡蛋,能孵出15个以上 雌小鸡的可能性有多大? 这是一个从二项总体抽样的问题,我们先用二项

14、分 布函数公式来计算这个概率,再用正态分布进行近 似计算。二项分布的另一个极限正态分布 例 如果一个鸡蛋孵出的小鸡,性别为雌雄的概率各半,那么随机抽取20个鸡蛋,能孵出多于或等于15个雌小鸡的可能性有多大? 先用二项分布函数公式来计算这个概率: 再用正态分布进行近似计算: 因为正态分布是连续性的,二项分布是离散性的,因此,这里用14.5而不是用15进行计算。 这叫连续性矫正。 因为, , 所以孵出小于15只雌小鸡的概率等于: 从附表中可以查得,概率为0.97778。于是可以算出:能孵出多于或等于15只雌小鸡的概率为: P(X15)10.97778=0.022。精确地应该计算这区域内的面积。用正

15、态近似后计算了这区域内的面积。 所以大端减0.5, 小端加0.5。二项分布的另一个极限正态分布二项分布的另一个极限正态分布 例 如果一个鸡蛋孵出的小鸡,性别为雌雄的概 率各半,那么随机抽取20个鸡蛋,能孵出多于或等 于15个雌小鸡的可能性有多大?75%雌小鸡的可能性有多大?,它等于: 再用正态分布进行近似计算: 先用二项分布函数计算这个概率: 将此例换成百分率的形式表达 因为, , 所以孵出小于15只雌小鸡的概率等于: 从附表中可以查得,概率为0.97778。于是可以算出:能孵出多于或等于15只雌小鸡的概率为: P( 0.75)10.97778=0.022。 注意连续性矫正二项分布的推广 多项

16、分布只有两种结果的随机事件可以用前面讨论的随机变量 来表示,这种随机变量服从二项分布。如果某随机事件具有多种结果,可以将二项分布推广 为多项分布。如调查一个人的血型,可能为型、 型、AB型和型等四种结果。又如调查猪的皮色,可 能是白猪、黑猪或花猪等三种结果。二项分布的推广 多项分布如果事件共有 k 种可能的结果,每种结果出现的概率 分别为 p1, p2, , pk,则随机抽取 n 个,每种结果各自 出现 x1, x2, , xk 个的可能性(概率)为:例 有一批郁金香的鳞茎,开红花的占1/2,开黄花的占1/3,开黑花的占1/6。随机买2个鳞茎回家种,开出的花色有多少种情况,每种情况的概率是多大

17、?3.1.2 从正态总体中抽样从这总体中抽取一个大小为 n 的样本,可以算出样本平均数 。 这个 不是常数,而是一个随机变量。因为你下次再从这总体中抽取一个大小为 n 的样本,这个 的值就不同了。样本平均数的概率分布 若有一个X总体,大小为N,平均数为x,方差为x2。如果N是个有限大的数,将一共有m=N n种可能的样本。如果N是个无限大的数,则m是个无限大的整数。这m个 可以构成一个总体。称为样本平均数总体。样本平均数的概率分布 统计学已经证明,样本平均数总体的平均数等于原总 体的平均数,样本平均数总体的方差等于原总体方差 的n分之一。即 , 我们不打算证明它,我们只想用简单的实例来验证它。样

18、本平均数的概率分布 如果原总体大小为N =3,观察值分别为2,4,6。 验证 ,可以算出它的总体平均数x=4,总体方差 。 因此,等于原总体平均数等于原方差的1/n。现在从中抽取一个大小为n=1的样本。共有m=31=3种可能的抽法。样本的构成和样本平均数如下表:样本平均数的概率分布 如果原总体大小为N =3,观察值分别为2,4,6。可以算出它的总体平均数x=4,总体方差 。 验证 ,样本平均数的概率分布现在从中抽取一个大小为n=2的样本。共有m=32=9种可能的抽法。样本的构成和样本平均数如下表:等于原总体平均数等于原方差的1/n。样本平均数的概率分布 如果原总体大小为N =3,观察值分别为2

19、,4,6。可以算出它的总体平均数x=4,总体方差 。 验证 ,样本平均数的概率分布现在从中抽取一个大小为n=4的样本。共有m=34=81种可能的抽法。样本的构成和样本平均数如下表:等于原总体平均数等于原方差的1/n。 如果原总体大小为N =3,观察值分别为2,4,6。可以算出它的总体平均数x=4,总体方差 。 验证 ,样本平均数的概率分布 对于任意的样本大小n,情况都可以同样得到验证。 下图展示了随着n的增大, 分布向正态的逼近。现在从中抽取一个大小为n=8的样本。共有m=38=6561种可能的抽法。可以算得:等于原总体平均数等于原方差的1/n。n=1n=2n=4n=8n=16 记住: 对于样

20、本 平均数总体,有:样本平均数的概率分布 数理统计学已经证明:若已知随机变量X ,并从 X 总体中抽取样本容量为 n 的样本,那么,样本平均数将服从总体平均数为 ,方差为 的正态分布。即 。事实上,不管原来的 X 服从什么分布,样本平均数 的总体平均数 都会等于 ,总体方差 都会等于 。其差别只在于:如果原来的X服从正态分布,它的平均数也将服从正态分布;如果原来的 X 服从 其它分布,它的平均数就可能不服从正态分布。样本平均数的概率分布 利用这种关系,可以计算样本平均数 出现的概率。 中心极限定理证明:不管原来的 X 服从什么分布,只 要样本容量n足够大,样本平均数 都服从正态分布, 并且总体

21、平均数 等于x,总体方差 等于 。正态总体的理论分布(回忆) 例 已知某品种玉米单株产量 x 服从正态分布, xN(, 2),其中 = 35g, = 5g。现从此总体 中随机抽取一株, 问产量有95%的可能落在什么区 间? 将本例题 略作修改 例 已知某品种玉米单株产量 x 服从正态分布, xN(, 2),其中=35g, = 5g。现从此总体 中随机抽取一个容量为 n =25 株的样本,问样本平 均产量 有95%的可能落在什么区间?样本平均数的概率分布 因为 样本平均数的概率分布 若要用99%的把握作判断,要在附表查得当=0.01 时的u值(2.58),用它代入上式,重新计算。得: P ( 2

22、.58 u 2.58 ) = P ( 32.42 37.58)。33.04 35 36.9695% =0.0532.42 35 37.5899% =0.01显然,你要说话更有把握,就要把区间扩得宽些。 如果将样本 大小增加到 n=100呢?样本平均数的概率分布 当n=25时, 例 已知某品种玉米单株产量 x 服从正态分布, xN(, 2),其中=35g, = 5g。现从此总体 中随机抽取一个容量为 n =25 株的样本,问样本平 均产量 有95%的可能落在什么区间?n=100株的样本,样本平均数的概率分布当n=100时,33.04 35 36.9695% n =2534.02 35 35.98

23、95%n=100 显然,大样本比小样本估计出的区间更为 精确些。 再看下例 例 从人口普查结果得知,某乡内各户人口数X 的平均数为 4.5,标准差 3.0。若在该乡随机 调查36户,问这36户人家的平均人口数 有95%的 可能落在什么区间?样本平均数的概率分布 因为 这个不是正 态分布资料,但 样本足够大 在实践中,总体 X 的方差常常是未知的。统计学证明: 样本统计量 将服从dfn1的t分布。 以后才介绍应 用t分布的例子。两个样本平均数之差的概率分布 两个样本平均数之差的概率分布分为两种情况考虑: 两个独立样本平均数之差的总体分布(成组法资料) 成对法资料两个样本观察值差数的平均数的分布

24、前者是:平均数之差; 后者是:差数之平均数。两个样本平均数之差的概率分布 两个独立样本平均数差数的总体分布 如果从一个具有参数1,12的正态总体中抽取大小为 n1的样本,样本平均数为 ;又从另一个具有参数2, 22 的正态总体中抽取大小为n2的样本,样本平均数 为 。则两样本平均数之差数 将服从总 体平均数为 ,总体方差为 的正态分布。 将 转换为正态离差 就可以计算出差数 落在某区间的概率。例 两个品种的肉鸡,品种A八周龄时的体重X1服从平均数为900 g,方差为100 g的正态分布;品种B八周龄时的体重X2服从平均数为850 g,方差为80 g的正态分布。现分别调查n110只A鸡和n215

25、只B鸡,问有95%的把握说,两品种肉鸡样本中的平均体重之差将落在什么区间?两个样本平均数之差的概率分布 两个独立样本平均数差数的总体分布 如果两个独立样本来自同一非正态总体,即具有相同 的参数和 2,则只有当n1n2都足够大时,两样本平 均数之差数 才服从上述的正态分布。 如果两个独立样本来自不同的非正态总体,只有当 12 22 ,且n1n2都足够大时,两样本平均数之差数 才近似服从正态分布。否则分布很难确定。 综上所述: 如果两个独立样本都来自正态总体,则两样本平均数 之差数 将服从总体平均数为 , 总体方差为 的正态分布。两个样本平均数之差的概率分布 成对法资料两个样本观察值差数的平均数的分布 在成对法试验设计中,每一对数据是在相同的环境条件下取得的,不同对数据相应的试验条件可能不同。因此,在成对法中,只可以求同一对观察值之间的差数,不可以将不同对的观察值相减。 这样得到的样本观察值差数 D 也是一个随机变量。每一对观察值差数 d 就是随机变量 D 的一个具体数值。两个样本平均数之差的概率分布利用这种分布,可以计算样本平均数 出现的概率。 如果原来的 D 服从平均数为d ,方差为 的正态分 布,那么,从中抽取大小为 n 的样本,其样本平均数 将服从平均数为 ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论