应用统计学前言_第1页
应用统计学前言_第2页
应用统计学前言_第3页
应用统计学前言_第4页
应用统计学前言_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关于应用统计学前言第1页,共71页,2022年,5月20日,14点18分,星期三要求先修课程:高等数学、统计学原理、概率论与数理统计教 材:多元统计分析与SPSS应用. 汪冬华编著. 参考书:实用多元统计分析 方开泰编著. 华东师范大学出版社,1989年9月应用多元分析王学民著. 上海财经大学出版社, 1999年实用多元统计分析王学仁,王松桂著. 上海科技出版社,1990年SPSS 11统计分析教程张文彤著. 希望电子出版社,2002年第2页,共71页,2022年,5月20日,14点18分,星期三概率论与数理统计的区别概率论的特点:先从一个数学模型出发,比如已知随机变量的分布,然后去研究它的性

2、质、特点和规律性;数理统计的特点:观测随机现象所得到的数据,利用这些资料选择或检验数学模型,并对所考察的问题作出推断或预测,即靠抽验得到的数据来推断整体的情况,主要任务是统计推断,包括:参数估计和假设检验。第3页,共71页,2022年,5月20日,14点18分,星期三参数估计1、参数估计:根据样本给出参数的估计值,即选定一个统计量,然后用样本值代入,算出该统计量的值。2、参数估计的提法已知总体分布类型,只是其中一个或几个参数未知,这时只要求出这些参数值来,总体分布就可以完全确定;关心的不是分布类型,而是某些数字特征,如期望、方差等等。3、参数估计的方式:点估计和区间估计4、点估计量的求法:矩估

3、计法和极大似然估计法5、估计量的评选标准:无偏性、最小方差性、相合性6、区间估计包括:数学期望和方差的置信区间估计第4页,共71页,2022年,5月20日,14点18分,星期三假设检验1、假设检验:先把一些结论当作某种假设,然后选取适当的统计量,再根据实测资料的具体值对假设进行检验,判断是否可以认为假设是成立的,从而得出有关结论。2、类型可分为:参数检验和非参数检验参数检验:如果总体分布函数的类型已知,检验的目的是为了对总体的参数及有关性质作出判断;非参数检验:如果总体分布的类型不确定(或完全未知),检验的目的是作出一般性论断(如分布属于某种类型;两变量是独立的;两分布是相同的,等等)。第5页

4、,共71页,2022年,5月20日,14点18分,星期三应用统计学的内容应用统计学也称为多元统计分析,简称多元分析,是统计学的一个重要分支,它是处理多维数据不可缺少的重要工具,并日益显示出无比的魅力。本课程介绍常用的各种多元统计分析方法,包括方差分析、正交试验设计、回归分析、聚类分析、判别分析、主成分分析、因子分析等方法。通过对所考虑的包括多个变量的统计问题进行分析,以了解各变量的关系、建立合理的模型等。第6页,共71页,2022年,5月20日,14点18分,星期三应用统计学的作用通过本课程的学习,使学生系统地了解多元统计分析的基本概念和基本原理,掌握一些常用的多元统计思想和统计方法;结合上机

5、实习学会利用统计软件(SPSS或Excel)进行数据处理和统计分析;侧重于多元统计分析方法的应用,掌握应用多元统计学解决实际问题的主要环节和方法,并能灵活应用于科学研究、生产和经营管理中。第7页,共71页,2022年,5月20日,14点18分,星期三概率论与数理统计(复习)第8页,共71页,2022年,5月20日,14点18分,星期三概率、频率对概率的再认识:古典概率、经验 概率、统计概率概率是唯一的、客观存在的频率是随着试验的变化而变化频率稳定性问题第9页,共71页,2022年,5月20日,14点18分,星期三抛硬币试验实验者掷硬币的次数正面出现次数正面出现频率Buffon404020480

6、.5069Pearson1270060190.5016Pearson24000120120.5005第10页,共71页,2022年,5月20日,14点18分,星期三随机事件与随机变量随机变量的引入是对随机事件的抽象对随机事件的研究可以转化为对随机变量的研究,可以借助于高等数学的知识离散随机变量与连续随机变量的数学处理方法实质上是一致的第11页,共71页,2022年,5月20日,14点18分,星期三抛硬币的试验中出现正面的事件可以表示为:出现正面出现反面第12页,共71页,2022年,5月20日,14点18分,星期三离散随机变量的数学期望表达式:连续随机变量的数学期望表达式:第13页,共71页,

7、2022年,5月20日,14点18分,星期三随机变量及其分布随机变量与分布的研究类似于高等数学中变量与函数的研究函数的研究着重讨论六大类基本初等函数,随机分布的研究则讨论其常用分布第14页,共71页,2022年,5月20日,14点18分,星期三理论分布与统计分布理论分布也称为概率分布统计分布也称为频率分布由概率与频率的关系,得知: 理论分布是客观存在的,反映了随机事件发生的概率的一般规律;频率分布是现实的反映,随着试验的变化而变化第15页,共71页,2022年,5月20日,14点18分,星期三常用分布及其数学期望与方差名称及记号概率分布数学期望方差“0-1”分布X=0,1 ( 0p1)pp q

8、二项分布B(n,p)X=0,1,n(0p1)n pn p q超几何分布H(n,M,N)X=0,1,min(n,M)(0MN,0nN)泊松分布P(x)X=0,1,(0)几何分布G(p)X=1,2(0p1)第16页,共71页,2022年,5月20日,14点18分,星期三常用分布及其数学期望与方差名称及记号概率密度数学期望方差均匀分布U(0,1) axb xa或xb正态分布N(,)-x+2指数分布e() x0 x0(0)第17页,共71页,2022年,5月20日,14点18分,星期三数字特征的讨论期望与样本均值方差与样本方差矩与样本矩样本均值与样本方差是统计中的两大类指标第18页,共71页,2022

9、年,5月20日,14点18分,星期三多维随机变量的学习方法边缘概率(分布)条件概率(分布)随机变量的独立性第19页,共71页,2022年,5月20日,14点18分,星期三大数定律与中心极限定理小概率事件实际不可能性原理一般情况下,随机分布的极限分布是正态分布第20页,共71页,2022年,5月20日,14点18分,星期三数理统计的基本知识简单随机抽样样本分布函数的建立统计量的概念统计中的常用分布正态总体统计量的分布第21页,共71页,2022年,5月20日,14点18分,星期三简单随机抽样(独立同分布)满足:等可能性-总体中每个样本被选中的可能性是相同的,独立性-每次抽样的结果既不影响其它各次

10、抽样的结果,也不受其它各次抽样的结果的影响,则这种抽样方法为简单随机抽样。第22页,共71页,2022年,5月20日,14点18分,星期三样本分布函数的建立设(X1,X2,Xn)是从总体X中抽取的一个容量为n的样本,将其样本值x1,x2,xn按递增次序排列,得 x(1)x(2)x(n) 当 x x(1) . x(k) x x(k1) (k=1,n-1) . x x(n) 第23页,共71页,2022年,5月20日,14点18分,星期三统计量的概念设样本(X1,X2,Xn)的函数f(X1,X2,Xn)中不含有任何未知参数,则称这样的函数为统计量。常用统计量: 样本均值 样本方差第24页,共71页

11、,2022年,5月20日,14点18分,星期三统计中的常用分布(1)名称及记号概率密度数学期望方差2分布2(k) x0 x0 k2k正态分布N(,)2t分布t(k)0(n1)n/n-2(n2)第25页,共71页,2022年,5月20日,14点18分,星期三统计中的常用分布(2)名称及记号F分布 F(k1,k2 )概率密度 x0 x0 数学期望 k22方差 k24 第26页,共71页,2022年,5月20日,14点18分,星期三正态总体统计量的分布第27页,共71页,2022年,5月20日,14点18分,星期三参数估计与假设检验理论和方法推断性统计是根据样本的信息,对总体的特征作出推断,是“从现

12、象到本质的认识过程”估计理论和方法、检验理论和方法是推断统计的两个重要组成部分第28页,共71页,2022年,5月20日,14点18分,星期三参数估计估计量点估计区间估计第29页,共71页,2022年,5月20日,14点18分,星期三估计量和估计值对总体参数进行估计的相应的样本统计量称为估计量估计值是估计量的一个具体数值第30页,共71页,2022年,5月20日,14点18分,星期三估计量的优良标准无偏性:如果样本统计量的期望值等于该统计量所估计的总体参数,则这个估计量为无偏估计量一致性:当样本容量n增大时,如果估计量越来越接近总体参数的真值时,就称这个估计量为一致估计有效性:指估计量的离散程

13、度(即最小方差性)第31页,共71页,2022年,5月20日,14点18分,星期三常用估计量第32页,共71页,2022年,5月20日,14点18分,星期三点估计法矩法:样本矩等于总体矩准则极大似然法:使似然函数(即样本的联合分布函数)最大准则最小二乘法:距离平方和最小准则第33页,共71页,2022年,5月20日,14点18分,星期三区间估计区间估计的原理总体均值的区间估计两个总体均值之差的区间估计样本容量的确定正态总体方差与两个正态总体方差之比的区间估计第34页,共71页,2022年,5月20日,14点18分,星期三区间估计的原理第35页,共71页,2022年,5月20日,14点18分,星

14、期三第36页,共71页,2022年,5月20日,14点18分,星期三区间估计的步骤第37页,共71页,2022年,5月20日,14点18分,星期三总体均值的区间估计(1)样本取自正态分布总体,且2已知:第38页,共71页,2022年,5月20日,14点18分,星期三总体均值的区间估计(2)样本取自非正态分布总体,且2已知: (大样本情况)第39页,共71页,2022年,5月20日,14点18分,星期三总体均值的区间估计(3)样本取自非正态分布总体,且2未知:(大样本情况)第40页,共71页,2022年,5月20日,14点18分,星期三总体均值的区间估计(4)样本取自正态分布总体,且2未知:(小

15、样本情况)第41页,共71页,2022年,5月20日,14点18分,星期三两个总体均值之差的区间估计(1)两个正态总体,而且1、2已知:第42页,共71页,2022年,5月20日,14点18分,星期三两个总体均值之差的区间估计(2)两个正态总体,而且1、2未知,但1=2 :第43页,共71页,2022年,5月20日,14点18分,星期三两个总体均值之差的区间估计(3)两个正态总体,而且1、2未知,但12 :第44页,共71页,2022年,5月20日,14点18分,星期三两个总体均值之差的区间估计(4)两个非正态总体,且方差未知(大样本情况):第45页,共71页,2022年,5月20日,14点1

16、8分,星期三正态总体方差的区间估计第46页,共71页,2022年,5月20日,14点18分,星期三两个正态总体方差之比的区间估计第47页,共71页,2022年,5月20日,14点18分,星期三样本容量的确定决定样本大小的因素总体方差 数值大小可靠性程度的高低允许误差的大小第48页,共71页,2022年,5月20日,14点18分,星期三估计总体均值时样本容量的确定在重复抽样的条体下:在不重复抽样的条体下:第49页,共71页,2022年,5月20日,14点18分,星期三估计总体比例时样本容量的确定在重复抽样的条体下:在不重复抽样的条体下:第50页,共71页,2022年,5月20日,14点18分,星

17、期三假设检验假设检验的基本问题总体均值的假设检验两个总体的均值的假设检验总体方差的假设检验第51页,共71页,2022年,5月20日,14点18分,星期三假设检验的基本问题假设检验的基本原理两类错误显著水平双侧检验单侧检验假设检验的一般程序第52页,共71页,2022年,5月20日,14点18分,星期三假设检验的基本思想(小概率原理)先把一些结论当作某种假设,然后选取适当的统计量,再根据实测资料的具体值对假设进行检验,判断是否可以认为假设是成立的,从而得出有关结论。小概率原理:指发生概率很小的事件在一次试验中几乎是不可能发生的,根据这一原理就可以作出是否接受原假设的决定。第53页,共71页,2

18、022年,5月20日,14点18分,星期三 假设检验的基本内容 假设检验的规则就是把随机变量取值区间划分为两个互不相交的部分,即拒绝区域与接受区域。当样本的某个统计量属于拒绝区域时,将拒绝原假设。落入拒绝区域的概率,就是小概率,一般用显著性水平表示。第54页,共71页,2022年,5月20日,14点18分,星期三假设检验的基本原理由大数定理: 是事先给定的一个很小的正数,称 为显著水平寻找 的分布由事件为 ,概率为 ,求出 的值解不等式 在参数 假设已知,而估计量 未知的前提下 其解为 则 为拒绝域 而 为接受域, 称 为临界值5.将估计值 与临界值作比较并由此作出判断第55页,共71页,20

19、22年,5月20日,14点18分,星期三两类错误 对假设H0 自然状态采取的行动 H0为真 H0为伪 接受H0 决断正确 第二类错误(取伪) 拒绝H0 第一类错误(弃真) 决断正确第56页,共71页,2022年,5月20日,14点18分,星期三假设检验的一般程序根据研究问题的需要提出假设,包括原假设H0 和备择假设 H1找出检验的统计量及其分布规定显著水平 确定决策规则:在确定了显著水平 以后,根据统计量的分布就可以规定决策规则,找出接受域和拒绝域的临界值根据样本数据计算的统计值并由此作出决策第57页,共71页,2022年,5月20日,14点18分,星期三均值检验案例 某企业购买金属板供应商声

20、称金属板的厚度渐近服从正态分布,其总体均值为15毫米,总体标准差为0.1毫米。该企业随机抽取了50张金属板作为样本,测得样本均值为14.982毫米。以0.05显著性水平,能否证明供应商提供的总体均值是正确的。第58页,共71页,2022年,5月20日,14点18分,星期三提出假设:原假设: Ho:=15; 备择假设:Ha:15。统计量:由于总体服从正态分布且总体标准差已知,选z作为统计量。又因为如果样本均值显著大于或小于15,都拒绝原假设,故该检验是双侧检验。确定显著性水平:根据题意可知显著性水平为a=0.05 。 第59页,共71页,2022年,5月20日,14点18分,星期三决策规则 根据

21、显著性水平可得下图。从图可以看出,临界值为1.96,所以,统计量绝对值如果大于1.96,则落入拒绝区域,拒绝原假设。同样,如果统计量的P值小于1.96 ,则落入拒绝区域,拒绝原假设。第60页,共71页,2022年,5月20日,14点18分,星期三总体均值的假设检验(1)正态总体且方差己知由于 服从 的正态分布, 即Z= N(0,1),则:1.显著水平的Z的双侧检验(即 )的拒绝域为第61页,共71页,2022年,5月20日,14点18分,星期三2. 显著水平的Z的右侧检验(即 )的拒绝域为:3. 显著水平的Z的左侧检验(即 )的拒绝域为:第62页,共71页,2022年,5月20日,14点18分,星期三两个总体的均值的假设检验(2) 两个正态分布总体, 未知, 但:由于T= t(n1+n2-2), 其中 ,则: 1.显著水平的T的双侧检验 (即 )的拒绝域为第63页,共71页,2022年,5月20日,14点18分,星期三2. 显著水平的T的右侧检验(即 )的拒绝域为:3. 显著水平的T

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论