应用统计学(预备知识).ppt_第1页
应用统计学(预备知识).ppt_第2页
应用统计学(预备知识).ppt_第3页
应用统计学(预备知识).ppt_第4页
应用统计学(预备知识).ppt_第5页
已阅读5页,还剩133页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、成绩评定,总成绩=平时成绩30%+期末考试70% 平时成绩 出勤情况 上机完成实验报告情况,有关上机问题,上机地点 老图书馆底楼机房 上机时间 待定,要求先修课程: 高等数学、概率论与数理统计、统计学原理 教 材:应用多元统计学与SPSS应用 参考书: 实用多元统计分析方开泰编著.华东师范大学出版社,1989 多元统计分析与应用 余锦华,杨维权 著. 中山大学出版社,2005 现代统计分析方法与应用(第二版)何晓群 著. 人民大学出版社,2007 21世纪统计学系列教材-多元统计分析 何晓群 著. 人民大学出版社, 2008 SPSS 11统计分析教程张文彤著. 希望电子出版社,2002 统计

2、分析与SPSS的应用(第二版)薛薇著. 人民大学出版社, 2008 SPSS 16实用教程 宋志刚等著,人民邮电出版社,2008,应用统计学研究的问题,研究不同行业的服务质量是否有一定的差异性,消费者协会在四不同行业分别抽取了不同的企业作为样本,记录他们的投诉次数。通过投诉次数的研究来探讨服务质量的差异性 研究某公司各地区分店的销售额与广告支出、所在地区的人口数、人均收入、及所处的地理位置之间的关系 奥林匹克十项全能:百米跑、跳远、铅球、跳高、400米跑、百米跨栏、铁饼、撑杆跳远、标枪、1500米跑。如果可以获取运动员的比赛成绩,就可以研究问题:十项全能所包括的运动技能可概括为几项?这几项分别

3、涉及到运动员的哪几项基本运动技能?十项全能可压缩为哪几个项目?,应用统计学的内容,应用统计学也称为多元统计分析,简称多元分析,是统计学的一个重要分支,也是近三、四十年迅速发展的一个分支,它是处理多维数据不可缺少的重要工具,并日益显示出无比的魅力。 本课程介绍常用的各种多元统计分析方法,包括方差分析、正交试验设计、回归分析、聚类分析、判别分析、主成分分析、因子分析等方法。 通过对所考虑的包括多个变量的统计问题进行分析,以了解各变量的关系、建立合理的模型等。,应用统计学的目标,通过本课程的学习,系统地了解多元统计分析的基本概念和基本原理,掌握一些常用的多元统计思想和统计方法; 结合上机实习学会利用

4、统计软件(SPSS)进行数据处理和统计分析; 侧重于多元统计分析方法的应用,掌握应用多元统计学解决实际问题的主要环节和方法,并能灵活应用于科学研究、生产和经营管理中。,概率论与数理统计的区别,概率论的特点:先从一个数学模型出发,比如已知随机变量的分布,然后去研究它的性质、特点和规律性; 数理统计的特点:观测随机现象所得到的数据,利用这些资料选择或检验数学模型,并对所考察的问题作出推断或预测,即靠抽验得到的数据来推断整体的情况,主要任务是统计推断,包括:参数估计和假设检验。,数理统计与应用统计的区别,数理统计 理论统计学 指统计学的数学原理,它主要研究统计学的一般理论和统计方法的数学理论。 应用

5、统计 研究如何应用统计方法去解决实际问题,说明,统计学实际上是介于理性思维和艺术思维之间的一个学科,不同于具有严密逻辑思维的数学 “统计不是1+1=2 的问题,而是1+1 2 的问题。” 统计学的目的 ,不单单是给出人们解决问题的一般可操作性方法 ,重要的是能够比较所用方法的好坏。统计推断的结论,不保证其结论是百分之百的自然规律 ,但能证明他们的行为是现有资料下的可以采取的最佳行为 同一个研究问题运用不同的统计方法得到的结论可能并不相同;同一个研究问题采用了同一种统计方法,对于不同的数据得到的结论也可能不相同。所以,统计方法所提供的结论仅是一种参考,最终的结论要结合现象本身的特点来考虑。,统计

6、应用的两个极端,不懂或不太懂统计的人认为统计没什么用,他们因为不懂统计而瞧不起统计,他们不用或几乎不用统计方法分析数据,即使做些统计分析,也往往是表面上的 把简单问题复杂化,特别是在管理领域 把本来可以用简单方法解决的问题故意复杂化 为证明管理的科学性,建立一个别人看不懂的模型,编一大堆程序,输出了一大堆数字和符号 得出用统计语言陈述的结论,提出一些似是而非的建议,统计的误用与滥用,大约在一个世纪以前,政治家Benjamin Disraeli曾有一个著名的论断:“有三类谎言:谎言、糟透的谎言和统计” 。他还说:“图并没有说谎,是说谎者在画图” 历史学家Andrew Lang说,一些人使用统计“

7、就像喝醉酒的人使用街灯柱支撑的功能多于照明” 统计滥用 不好的样本 过小的样本 误导性图表 局部描述 故意曲解,False,统计学的理念,统计模型的严格数学表达很复杂、繁琐,但是其背后的思想往往很简单 做为统计学的使用者,重要的是掌握统计学的思想、解决问题的步骤和结果的解读,至于那些研究方法本身的事情,交给统计学家去做吧 复杂的方法未必是可行的方法,越是简单的方法,越容易得到广泛采用,也往往给使用者带来更多的价值。统计分析方法是工具,哪件合适就用哪件,能用锤子解决的问题不必开冲床。 统计学只是一个工具,各种统计软件更是工具的工具,不要指望它能够“自动”的解决你面临的商业问题 要注意统计学方法的

8、适用条件,滥用统计学会造成“严重”的负效果,如何学好统计学,学会“如何做统计思考” “多一些数据和观念,少一点公式和推导过程” -美国统计协会和美国数学学会的联合课程委员会 领悟统计思想,注意统计学处理问题思维方式的艺术性 掌握统计应用在各种情境下的一般方法 结合统计软件强化统计方法的应用 注意结论的合理解释。一方面要结合统计知识,另一方面要结合研究专业知识。,概率论与数理统计(复习),概率论和概率分布,主要内容,随机现象、随机试验、随机事件、样本空间 事件的概率 条件概率和概率的基本公式 随机变量、离散型随机变量 连续型随机变量 多维随机变量 大数定律和中心极限定理,概率论研究和揭示随机现象

9、的统计 规律性的科学。,概率与频率,频率 事件发生频繁程度的变量 频率是随着试验的变化而变化 概率 事件在试验中出现可能性大小的数值度量,取 值范围为0到1之间。 概率是唯一的、客观存在的 随着试验次数的无限增大,频率越来越接近于 概率,抛硬币试验,概率之间关系,随机事件与随机变量,随机变量的引入是对随机事件的抽象 对随机事件的研究可以转化为对随机变量的研究,可以借助于高等数学的知识 离散随机变量与连续随机变量的数学处理方法实质上是一致的,抛硬币的试验中出现正面的事件可以表示为:,出现正面,出现反面,随机变量及其分布,随机变量与分布的研究类似于高等数学中变量与函数的研究 函数的研究着重讨论六大

10、类基本初等函数,随机分布的研究则讨论其常用分布,理论分布与统计分布,理论分布也称为概率分布 统计分布也称为频率分布 由概率与频率的关系,得知: 理论分布是客观存在的,反映了随机事件发生的概率的一般规律;频率分布是现实的反映,随着试验的变化而变化,随机变量的理论分布,离散随机变量 概率分布、分布函数 连续随机变量 概率密度、分布函数,随机变量的数字特征,数学期望 离散随机变量 连续随机变量 方差 离散随机变量 连续随机变量 矩(原点距、中心距),样本的数字特征,样本均值 样本方差 样本矩 样本均值与样本方差是统计中的两大类指标,常用分布及其数学期望与方差,常用分布及其数学期望与方差,多维随机变量

11、,联合分布(讨论多个随机变量的共同分布) 边缘概率(分布)(讨论单个随机变量的分布) 条件概率(分布)(讨论在已知某个随机变量的前提下其他随机变量的分布) 随机变量的独立性(讨论随机变量之间的联系),多维随机变量的数字特征,数学期望 方差 矩 相关系数,大数定律与中心极限定理,大数定律: 观测值的算术平均值的稳定性 频率的稳定性概率 小概率事件实际不可能性原理 中心极限定理:随机变量和的极限分布是 正态分布,数理统计,统计推断的过程,推断性统计,推断性统计是根据样本的信息,对总体的特征作出推断,是“从现象到本质的认识过程” 估计理论和方法、检验理论和方法是推断统计的两个重要组成部分,数理统计的

12、基本知识,简单随机抽样 样本分布函数的建立 统计量的概念 统计中的常用分布 正态总体统计量的分布,简单随机抽样(独立同分布),满足: 等可能性-总体中每个样本被选中的可能性是相同的 独立性-每次抽样的结果既不影响其它各次抽样的结果,也不受其它各次抽样的结果的影响 则这种抽样方法为简单随机抽样。,样本分布函数的建立,设(X1, X2,, Xn)是从总体X中抽取的一个容量为n的样本,将其样本值x1, x2, xn按递增次序排列,得 x(1)x(2)x(n) 当 x x(1) . x(k) x x(k+1) (k=1,n-1) . x x(n),统计量的概念,设样本(X1,X2,Xn)的函数f(X1

13、,X2,Xn)中不含有任何未知参数,则称这样的函数为统计量。 统计量是估计和检验的基础 常用统计量: 样本均值 样本方差 抽样分布:统计量的分布,统计中的常用分布(1),统计中的常用分布(2),正态总体统计量的分布,设(X1, X2,, Xn)是从总体 中抽取的 一个容量为n的样本,参数估计,1、参数估计:根据样本给出参数的估计值,即选定一个统计量,然后用样本值代入,算出该统计量的值。 2、参数估计的提法 已知总体分布类型,只是其中一个或几个参数未知,这时只要求出这些参数值来,总体分布就可以完全确定; 关心的不是分布类型,而是某些数字特征,如期望、方差等等。 3、参数估计的方式:点估计和区间估

14、计 4、点估计量的求法:矩估计法和极大似然估计法 5、估计量的评选标准:无偏性、有效性、相合性 6、区间估计包括:数学期望和方差的置信区间估计,参数估计,估计量 点估计 区间估计,1. 估计量:用于估计总体参数的样本统计量 是一个随机变量 如样本均值,样本比例、样本方差等 例如: 样本均值就是总体均值的一个估计量 2.参数用 表示,估计量用 表示 3.估计值:估计参数时计算出来的统计量的具体值 如果样本均值 x =80,则80就是总体均值的估计值,估计量与估计值,估计量的优良标准,无偏性 一致性 有效性,无偏性,如果样本统计量的期望值等于该统计量所估计的总体参数,则这个估计量为无偏估计量,有效

15、性,对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效,一致性,随着样本容量的增大,如果估计量的值越来越接近被估计的总体参数,称这个估计量为一致估计,常用估计量,点估计法,2.主要方法 矩法:样本矩等于总体矩准则 极大似然法:使似然函数(即样本的联合分布函数)最大准则 最小二乘法:距离平方和最小准则,没有给出估计值接近总体参数程度的信息,1. 用样本的估计量直接作为总体参数的估计值 - 例如:用样本均值直接作为总体均值的估计,区间估计,区间估计的原理 总体均值的区间估计 两个总体均值之差的区间估计 样本容量的确定 正态总体方差与两个正态总体方差之比的区间估计,区间估计,1. 在点估计

16、的基础上,给出总体参数估计的一个区间范围 2. 根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量 比如,某班级平均分数在7585之间,置信水平是95%,区间估计的原理,置信区间与置信水平,均值的抽样分布,(1 - ) % 区间包含了 % 的区间未包含,1 - a,a/2,1. 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平 2. 表示为 (1 - 为是总体参数未在区间内的比例 3. 常用的置信水平值有 99%, 95%, 90% 相应的 为 0.01,0.05,0.10,置信水平,1. 由样本统计量所构造的总体参数的估计区间称为

17、置信区间 2. 统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间 3. 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值 我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个,置信区间,置信区间的表述 (95%的置信区间),从均值为185的总体中抽出n=10的20个样本构造出的20个置信区间, 我没有抓住参数!,点估计值,区间估计的图示,区间估计的步骤,影响区间宽度的因素,1. 总体数据的离散程度,用 来测度 2. 样本容量, 3. 置信水平 (1 - ),影

18、响 z 的大小,区间估计的常见形式,1. 一个总体参数的区间估计 均值、比例、方差 2. 两个总体参数的区间估计 均值差、比例差、方差比,一个总体参数的区间估计(1),一个总体参数的区间估计(2),结论: 1. 总体均值的置信区间 样本均值分位数值样本均值的标准误差 2. 总体比例的置信区间 样本比例分位数值样本比例的标准误差 3. 总体方差的置信区间,总体均值的区间估计(1),样本取自正态分布总体,且2已知:,总体均值的区间估计(2),样本取自非正态分布总体,且2已知: (大样本情况),总体均值的区间估计(3),样本取自非正态分布总体,且2未知:(大样本情况),总体均值的区间估计(4),样本

19、取自非正态分布总体,且2未知:(小样本情况),总体均值和比例的区间估计(图示),总体方差的区间估计(图示),两个总体参数的区间估计形式,两个总体参数的区间估计,两个总体参数的区间估计(2),结论: 1. 总体均值差的置信区间 (x1-x2 )分位数值 (x1-x2 )的标准误差 2. 总体比例差的置信区间 (p1- p2)分位数值(p1- p2)的标准误差 3. 总体方差的置信区间,两个总体均值之差的区间估计(1),两个正态总体,而且1、2已知:,两个总体均值之差的区间估计(2),两个正态总体,而且1、2未知,但1=2 :,两个总体均值之差的区间估计(3),两个正态总体,而且1、2未知,但12

20、 :,两个总体均值之差的区间估计(4),两个非正态总体,且方差未知(大样本情况):,样本容量的确定,决定样本大小的因素 总体方差 数值大小 可靠性程度的高低 允许误差的大小,估计总体均值时样本容量的确定,在重复抽样的条体下: 在不重复抽样的条体下:,估计总体比例时样本容量的确定,在重复抽样的条体下: 在不重复抽样的条体下:,估计总体均值时样本容量的确定 (例题分析),【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望允许误差为400元,应抽取多大的样本容量?,估计总体均值时样本容量的确定 (例题分析),解: 已知 =2000, , 1-=

21、95%, z/2=1.96 12 /22置信度为 90% 的置信区间为,即应抽取97人作为样本,假设检验,假设检验的基本问题 总体均值的假设检验 两个总体的均值的假设检验 总体方差的假设检验 配对样本的 t 检验,假设检验的基本问题,假设检验的基本原理 两类错误 显著水平 双侧检验与单侧检验 假设检验的一般程序 假设检验中的p-值(相伴概率),假设检验,1、假设检验:先把一些结论当作某种假设,然后选取适当的统计量,再根据实测资料的具体值对假设进行检验,判断是否可以认为假设是成立的,从而得出有关结论。 2、采用逻辑上的反证法,依据统计上的小概率原理 3、类型可分为:参数检验和非参数检验 参数检验

22、:如果总体分布函数的类型已知,检验的目的是为了对总体的参数及有关性质作出判断; 非参数检验:如果总体分布的类型不确定(或完全未知),检验的目的是作出一般性论断(如分布属于某种类型;两变量是独立的;两分布是相同的,等等)。,假设检验的基本思想,. 因此我们拒绝假设 = 50,样本均值,m,= 50,抽样分布,H0,假设检验的过程,假设检验的基本内容,假设检验的规则就是把随机变量取值区间划分为两个互不相交的部分,即拒绝区域与接受区域。当样本的某个统计量属于拒绝区域时,将拒绝原假设。落入拒绝区域的概率,就是小概率,一般用显著性水平表示。,提出假设 确定适当的检验统计量 规定显著性水平 计算检验统计量

23、的值 作出统计决策,假设检验的步骤,提出原假设和备择假设, 什么是原假设? 1. 待检验的假设,又称“0假设” 2. 研究者想收集证据予以反对(不能轻易拒绝)的假设 3.总是有等号 , 或 4.表示为 H0 H0: 某一数值 指定为 = 号,即 或 例如, H0: 3190(克), 什么是备择假设? 1. 与原假设对立的假设,也称“研究假设” 2. 研究者想收集证据予以支持的假设总是有不等号: , 或 3. 表示为 H1 H1: 某一数值,或 某一数值 例如, H1: 3910(克),或 3910(克),提出原假设和备择假设,假设检验中的小概率原理, 什么是小概率? 1.在一次试验中,一个几乎

24、不可能发生的事件发生的概率 2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设 3.小概率由研究者事先确定,假设检验中的两类错误,1.第一类错误(弃真错误) 原假设为真时拒绝原假设 会产生一系列后果 第一类错误的概率为 被称为显著性水平 2.第二类错误(取伪错误) 原假设为假时接受原假设 第二类错误的概率为,H0: 无罪,假设检验中的两类错误 (决策结果),假设检验就好像 一场审判过程,统计检验过程, 错误和 错误的关系,显著性水平,1. 显著性水平是一个概率值 2.原假设为真时,拒绝原假设的概率 被称为抽样分布的拒绝域 3.表示为 常用的 值有0.01, 0.05, 0.10 4.由

25、研究者事先确定,双侧检验与单侧检验-假设的形式,双侧检验-显著性水平与拒绝域,观察到的 样本统计量,单侧检验(原假设与备择假设的确定),1. 将研究者想收集证据予以支持的假设作为备择假设H1 例如,一个研究者总是想证明自己的研究结论是正确的 一个销售商总是想证明供货商的说法是不正确的 备择假设的方向与想要证明其正确性的方向一致 2. 将研究者想收集证据证明其不正确的假设作为原假设H0 3. 先确立备择假设H1,单侧检验 (原假设与备择假设的确定),一项研究表明,采用新技术生产后,将会使产品的使用寿命明显延长到1500小时以上。检验这一结论是否成立,研究者总是想证明自己的研究结论(寿命 延长)是

26、正确的 - 备择假设的方向为“”(寿命延长) - 建立的原假设与备择假设应为 H0: 1500 H1: 1500,单侧检验 (原假设与备择假设的确定),一项研究表明,改进生产工艺后,会使产品的废品率降低到2%以下。检验这一结论是否成立,- 研究者总是想证明自己的研究结论(废品 率降低)是正确的 - 备择假设的方向为“”(废品率降低) - 建立的原假设与备择假设应为 H0: 2% H1: 2%,单侧检验 (原假设与备择假设的确定),某灯泡制造商声称,该企业所生产的灯泡的平均使用寿命在1000小时以上。如果你准备进一批货,怎样进行检验?,- 检验权在进货方 - 作为进货方,你总是想收集证据证明生产

27、商的说 法(寿命在1000小时以上)是不正确的 - 备择假设的方向为“”(寿命不足1000小时) - 建立的原假设与备择假设应为 H0: 1000 H1: 1000,左侧检验-显著性水平与拒绝域,右侧检验-显著性水平与拒绝域,拒绝域,观察到的 样本统计量,假设检验中的 P 值,什么是 P 值?,是概率值,统计软件中常见的一个输出结果 如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率 左侧检验时,P-值为曲线上小于等于检验统计量部分的面积 右侧检验时,P-值为曲线上大于等于检验统计量部分的面积 被称为观察到的(或实测的)显著性水平 H0 能被拒绝的的最小值,双侧检验的 P 值,若p-

28、值 /2, 不拒绝 H0 若p-值 /2, 拒绝 H0,左侧检验的 P 值,若p-值 , 不拒绝 H0 若p-值 , 拒绝 H0,右侧检验的 P 值,若p-值 , 不拒绝 H0 若p-值 , 拒绝 H0,假设检验的一般程序,根据研究问题的需要提出假设,包括原假设H0 和备择假设 H1 找出检验的统计量及其分布 规定显著水平 确定决策规则 根据样本数据计算的统计值并由此作出决策,小结:假设检验中的统计决策,区间估计(对双侧检验比较方便) 给出区间估计,考察该区间是否包含样本统计量的值,若不包含,拒绝原假设 临界值法 在给定显著性水平的条件下,找出临界值 通过比较样本统计量的值与该临界值的大小关系

29、,做出判断 p-值法 计算样本统计量的值,然后据此计算出p-值 将p-值与给定的显著性水平进行比较,做出判断,均值检验案例,某邮递家具公司收到了许多客户关于不按期送货的投诉。 该公司怀疑责任在于他们雇用的货物运输公司。 货物运输公司的运输时间服从正态分布,且标准差为1.5天。该公司声称它们的平均运输时间不超过24天 家具公司随机抽选50次运输记录,得知样本均值为24.9天 试以0.01的显著性水平对货运公司的保证作出判断。,提出假设:原假设:Ho:24; 备择假设:Ha:24 统计量:由于总体标准差已知,所以可以选 z 作为统计量。又因为如果样本均值大于24,便拒绝原假设,则该检验是单侧检验。

30、 确定显著性水平:根据题意可知显著性水平为 a =0.01。,决策规则:根据显著性水平可得下图。从图中可以看出,临界值为2.33,所以,统计量绝对值如果大于2.33,则落入拒绝区域,需拒绝原假设。同样,如果统计量的P 值小于a ,则落入拒绝区域,需拒绝原假设。,结果解释,样本统计量的值,单侧 p-值=,结论:拒绝原假设,表明:运输公司的保证是不可信的,平均运输时间可能超过24天。假如总体均值为24,从随机抽取的50个样本中,得到的均值为24或更大,如此之高的样本均值是不可能用偶然因素来解释的。,2.33, 0.01,若取显著性水平a=0.05,则临界值为1.645, 样本统计量的值4.241.

31、645 单侧 p-值=1.10510-50.05,不同显著性水平对检验结果的影响,显著性水平较小,拒绝原假设,p-值越小,越有充分的理由拒绝原假设,总体均值的假设检验(1),正态总体且方差己知 由于 服从 的正态分布, 即Z= N(0,1), 则:1.显著水平的Z的双侧检验 (即 )的拒绝域为,2. 显著水平的Z的右侧检验 (即 )的拒绝域为: 3. 显著水平的Z的左侧检验 (即 )的拒绝域为:,两个总体的均值的假设检验(2),两个正态分布总体, 未知, 但: 由于T= t(n1+n2-2), 其中 , 则: 1.显著水平的T的双侧检验 (即 )的拒绝域为,2. 显著水平的T的右侧检验 (即 )的拒绝域为: 3. 显著水平的T的左侧检验 (即 )的拒绝域为:,两个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论