续概率与理论分布PPT演示文稿

上传人：优*** IP属地：广东上传时间：2021-01-24 格式：PPT 页数：54 大小：738.50KB 积分：20 举报 版权申诉

已阅读5页，还剩49页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、续前（概率与理论分布,第三节抽样分布,统计学中一个很重要的内容是研究总体和样本的关系，这种关系可以从两个方面来进行研究：一个方向：从样本到总体，即从特殊到一般，从局部到全体（归纳），这是统计推断的过程一个方向：从总体到样本，即从一般到特殊，从全体到局部（演绎），这就是抽样分布研究,抽样分布（演绎的过程）总体样本统计推断（归纳的过程）而抽样分布的研究，又是统计推断的基础：抽样分布统计推断研究抽样分布，其实质就是研究统计量的分布，其目的就是为了更好地进行统计推断；因为在统计推断的过程中需要知道统计量的分布规律,一、抽样的概念总体往往是无限的、未知的、抽象的，只能通过样本来进行

2、估计和推断，因此必须研究抽样分布和2是描述总体特征的两个参数，而和s2 是样本的两个统计量；因此研究总体和样本的关系，其实质就是研究与、2 与 s2 的关系对于总体来讲，和2是常量，而总体中的样本不止一个，且每一样本的不会相等，也不会刚好等于，因此也是随机变量,同样，每一样本的 s2 也不会相等，且不等于2，因此，s2 也是随机变量,抽样分布示意图 X1 X2 Xk,原总体,样本1,样本2,样本k,新总体,而与间的差异称为随机抽样误差（简称抽样误差 random sampling error ）从一个总体中按一定的样本容量n 随机地抽出所有可能的样本，得到一系列的，由这些所

3、形成的分布就称为样本平均数的随机抽样分布，简称为平均数的抽样分布（sampling distribution）抽样分复置（放回）抽样和不复置（不放回）抽样两种复置（放回）抽样不复置（不放回）抽样,当样本容量 n 与总体容量N 相比很小（如5%）时，不复置抽样可以认为等同于复置抽样在实际操作中，一般以不复置抽样进行试验和调查，而在概率理论研究中往往以复置抽样较多见从一个容量为N 的总体中抽取容量为 n 的所有样本数为Nn,二、样本平均数的抽样分布从容量为 N 的总体中抽取所有容量为 n 的样本，并计算出每一样本的平均值，由这些所组成的分布就是样本平均数的抽样分布由样本平均数

4、所组成的新总体就称为样本平均数抽样总体，这一新总体的容量为 Nn,原总体的平均值为，由样本平均数所组成的新总体的平均值记为原总体的标准差为，由样本平均数所组成的新总体的标准差记为这一新的标准差称为样本平均数抽样总体的标准误差，简称为标准误（standard error se SE）标准误表示样本平均数抽样误差的大小，即样本平均数与新总体平均值之间的离散程度,因此，表示的是原始总体中原始数据与该总体平均值的关系；而表示的是从原始总体中抽取的样本平均数与由所组成的新总体的平均值的关系因此，讨论总体与样本的关系（即与的关系）就转化成了讨论原总体与样本平均数抽样总体的关

5、系（即与、与的关系,xi xi 可以证明：，（n为样本含量）由于，因此，的含义又演变成了表示样本平均数与其所由抽样的总体的平均数的关系，即表示了样本平均数与总体平均数的离散程度，即样本平均值能在多大程度上代表总体平均值,下面我们用一个实例来进行验证设有一个总体，N3，组成该总体的数据分别为 2 4 6 该总体以容量为 n2 对该总体进行复置抽样，可得 9 个样本，这些样本和相应的样本平均值分别为：（1）2、2：2 （2）2、4：3 （3）2、6：4 （4）4、2：3 （5）4、4：4 （6）4、6：5 （7）6、2：4 （8）6、4：5 （9）6、6：6,由这 9 个样

6、本平均值组成了一个新的总体，显然，这一新总体的平均值为而从这一实例中我们可以看出：样本平均数所组成的新总体即样本平均数的抽样总体与原总体的关系是成立的，且新总体的容量为 932Nn,因此我们在一般的情况下，可以用来代替，即既是原总体的平均值，又是样本平均数抽样总体的平均值我们还可以通过这一实例来验证一下自由度的含义对本例中的 9 个样本我们可以分别以自由度 n -1 和以样本容量 n 计算两个相应的方差(s2、s02)： S2 : 0 2 8 2 0 2 8 2 0 s02: 0 1 4 1 0 1 4 1 0 得：s2 24 s02 12,因此，即用自由度计算得到的 s2 是无

7、偏的，而用样本容量计算得到的方差用来估计总体方差会偏低这就是为什么要用样本自由度来计算方差和标准差而不能用样本容量来计算方差和标准差的理由另外，我们还可以得到这样一个信息，即 9 个样本有 9 个标准差： 0.0 1.414 2.828 1.414 0.0 1.414 2.828 1.414 0.0 得s11.304,即直接用样本标准差 s来估计总体标准差是不对的,由此，我们可以得出如下结论： 1、样本平均数抽样总体的平均数与原总体的平均数相等，即；是的无偏估计量 2、样本平均数抽样总体的方差与原总体的方差其关系为；两标准差的关系为；称为标准误 3、由自由度计算得到的样本方差 s

8、2 为总体方差2的无偏估计量 4、s 不能直接用来估计,5、中心极限定理：随机变量xN（，2）时，样本平均数；随机变量 x不呈正态分布或其分布为未知时，只要样本容量n足够大，的分布将愈来愈趋向于正态分布，且具有平均值，方差2/ n,关于与的几点说明： 1、 2、称为标准差，称为标准误 3、表示总体中各随机变量间的离散程度，而表示样本平均数间的离散程度 4、度量的是总体中随机变量 x 间的变异，而度量的是的抽样误差，它说明了可在多大程度上估计,22,5、与总体中的变量 x 发生关系，而与样本平均值发生关系 6、与总体的标准误相对应，样本亦有标准误：样本标准误的符号为：Se、

9、SE；样本标准误的计算公式为,三、两个样本平均数差数的抽样分布总体1：N1，1，1 总体2：N2，2，2 从以上两个总体中以n1和n2独立地进行抽样，得到和，共有和个样本将这两组样本平均值配成所有的差数 ,共有个差数，这些差数所组成的分布称为样本平均数差数的抽样分布这一分布也有自己的参数：平均值和方差,24,当两原总体为正态分布，或虽非正态，但所抽样本较大，则样本平均数差数的分布也呈正态分布样本平均数差数的分布与两原总体的关系为：称为样本平均数差数的平均值称为样本平均数差数的方差是用来度量的抽样误差的大小的其平方根称为样本平均数差数的标准误,当两总体的方差相等，

10、即时，当两样本的容量相等，即时，容易看出，两样本平均数差数的抽样分布比原总体的分布要分散得多,四、标准误的作用标准误有以下几个作用： 1、衡量样本平均数间的变异程度，即衡量样本平均数估计总体平均数的代表性总体平均数一般总是未知的、或抽象的、无法通过计算得到的，需要用样本平均数来进行估计因此，样本平均数的好坏，即其代表性的强弱就显得十分重要,标准误越大，说明样本平均数间的变异程度大，用样本平均数来估计总体平均数其效果就越差反之，标准误越小，说明样本平均数的变异性小，用样本平均数来估计总体平均数其效果就越好,2、用以推断总体平均值的可能范围为总体标准误，由于一般为未知，所以也很难

11、得到，在通常情况下，可以用样本的来估计总体的，即，得，因此，从实际资料得到后，可用来估计总体的可能存在范围注意：表示原始数据的离散程度，而是表示用来估计总体的可能范围，而估计往往是统计学的重点，比考察数据的离散程度更为重要；因此，以后我们一般都取（同时必须注明样本容量 n,3、用估计总体的置信区间研究抽样的目的之一，就是希望用样本统计量估计总体参数；在很多情况下，我们需要用来估计，但不能用来精确地代替（这称为点估计），因为这没有一定的概率保证因此，我们总是在一定的概率保证（1）下（probability guarantee），用样本来估计的所在范围，即在

12、一定的概率保证下给出一个区间，这就是区间估计（interval estimation,这一区间称为置信区间（confidence interval）区间有上、下两个限，分别称为置信上限（upper limit）和置信下限（lower limit）下限至上限的距离称为置信距（confidence range）样本平均值至上限或至下限的距离称为置信半径（confidence radius）这起保证作用的概率称为置信度或置信系数（confidence coefficient,在（1-）的概率保证下的置信区间其计算公式为：其中：u0.051.96 u0.012.58 即： 1-95： 1-9

13、9：因此，，为置信区间和分别为置信下限L1和置信上限L2 为置信半径 1-为置信度：95和99,大样本资料时，常用来代替： 95： 99：置信区间的统计学意义是：我们有95的把握认为总体平均值在，这一区间内有99的把握认为总体平均值在，这一区间内,4、有时，知道的抽样分布规律及其参数后，还希望知道某一从任何样本中得到的出现的概率值对进行标准化，即，得到 u 值后查标准正态分布表中相应的概率值 u 是一个尺度，它是用来度量已知的与原点间的距离的，显然，这一距离越远，表示出现的可能性就越小,大样本时，我们也可以用这一公式：注意这一标准化过程与以前我们讨

14、论过的标准化过程的相同之处和不同之处：对随机变量的标准化：对某一已知平均值的标准化：（大样本）（大样本,五、t-分布（t-distribution）在总体方差2为已知，或总体方差虽未知，但所使用的样本较大时，我们可以用前面所讨论过的公式进行标准化来知道某一平均值出现的概率值但当总体方差未知，且所使用的样本又较小，对已知的某一平均值进行标准化所得到的值就不再是u，而是另一个统计量了，即用小样本s2来代替2，其不再服从标准正态分布，而成了t 统计量，即t分布,36,从一正态总体中，按一定的样本容量 n 进行抽样（n 较小）所得到的所有可能样本，而获得 t 分布： t 分布也是一

15、个标准化过程，但其分母是使用的小样本的标准误（与公式的比较,t 分布与自由度 n-1 有关，它是一组曲线，不同的自由度得到不同的t曲线，但这一组曲线都以y 轴为对称 t 分布的概率密度函数为：为圆周率，为自由度（gamma）为函数 t 分布的平均值为 0，方差为,显然，t 分布随不同的自由度而变化，不同的自由度都有一条相对应的曲线，因此其概率值的计算也随自由度的不同而不同由于t分布的方差 1，因此当自由度不是很大时，t 分布曲线较之标准正态分布曲线为离散，t 分布曲线的顶峰恒低于标准正态分布曲线，而两尾则恒略高当大时，，t 分布曲线就趋向于标准正态分布曲线当样本容量，，t

16、分布的方差为 1，t 分布曲线即重合于标准正态分布曲线,u-分布与t-分布的区别：当总体方差为已知：当总体方差虽未知，但样本很大时：当总体方差未知，且样本又不大时：这里，要注意两个的区别,六、分布（chi-square distribution）从一个已知平均值为，方差为2的总体中进行独立的抽样，得随机变量 x，其标准离差为连续 n 次独立抽样，可得 n 个相互独立的随机变量 x，即可得 n 个 ui，这 n 个独立的标准正态离差 ui ，求其平方之和，即可得到一个新的统计量,42,用样本来计算时，可由来估计而由于可得，即即由此可知，是 n-1个独立的标准

17、正态离差，具有自由度 n-1,在一个正态总体中按一定的样本量 n 进行抽样，每一样本均有 n 个 xi，即可得 n个 ui，因此每一样本都有一个值，将所有可能的样本（容量为 n）均抽出来，所得到的值就组成了一个分布，这一分布就称为自由度为 n-1 的分布，其概率密度函数为：分布是由标准正态分布产生的，是连续型随机变量的一个分布形式，且具有概率密度函数,分布具有以下特点： 1、分布的取值范围为0，+），无负值 2、分布的平均值为，方差为 3、分布的形状决定于自由度（df），当1时，曲线呈反 J 型，1 时，曲线严重左偏；随着的增大，曲线渐趋对称，当30，分布向正态分布渐近,

18、45,分布还可定义为观察次数与理论次数间的符合程度即因此，分布可以用来进行次数资料的假设性检验，这在遗传学研究和规范化研究中用处很大,七、F分布（Fdistribution）对于一个平均值为，方差为2 的正态总体，独立地抽取自由度分别为1 = n1-1 、2 = n2-1 的两个样本这两个样本的平均值和方差分别为、和、则有、这两个2 变量除以各自的自由度后的比值，被定义为F统计量,48,即F值是方差同质总体中所抽自由度为1和2的两个样本均方和的比值在一个正态总体中独立地抽出所有可能的具有自由度为1和2的样本，并计算F（1,2）值，由这一系列F值所构成的分布称为F分布,F分布的概率密度函数是两个独立的 2 变量的联合密度函数： F分布是随两个自由度1、2 的不同而异的一簇曲线 F值的取值范围为 0，,由于构成 F 值的和都是正态总体中的无偏估计量，因此 F 分布的平均值为方差为 F 分布的每一条曲线都有两个自由度，且这两个自由度其位次不能任意掉换 F 值分子上的自由度为第一自由度df1 F 值分母上的自由度

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

续概率与理论分布PPT演示文稿

文档简介

温馨提示

最新文档

评论

续概率与理论分布PPT演示文稿

文档简介

温馨提示

最新文档

评论

相关文档