版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计计算及统计软件 基础篇:R与概率统计 (第一章)统计的魅力在于透过数字看本质构建模型作预测科学研究好帮手交叉融合新方向应用拓展全行业基础篇:R与概率统计 (第一章)2个关于统计的 “评价”统计学被评为20世纪给人类生活带来重大影响的 20 项新技能之一。2011年经济学诺奖得主Thomas J. Sargent在2018年世界科技创新论坛上表示,人工智能其实就是统计学,只不过用了一个很华丽的辞藻。基础篇:R与概率统计 (第一章)统计的热度流行:数据科学,大数据,机器学习,人工智能,深度学习学科:经济统计、数理统计、医学统计、生物统计、农业统计教育统计、空间统计、度娘:关键词“统计”找到相关
2、结果约100,000,000个注:一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别 /a/127286023_465975 基础篇:R与概率统计 (第一章)从数据分析看统计统计思想统计原动力问题驱动下的理论方法体系统计建模统计计算力统计方法与统计软件的融合统计报告统计解释力透过现象看“本质”供决策基础篇:R与概率统计 (第一章)学习统计计算的3个基础概率、数理统计+通识基础计算、程序设计基础精神面貌基础:静、苦、钻、思、动、探基础篇:R与概率统计 (第一章)规则1. 作业及时保质保量完成态度+质量10%2. 课下投入足够时间完成各种课外实验课外讨论 10%3. 不缺课,课上带着
3、问题来 课堂表现 10%4. 自行完成一篇研究型报告研究能力 10%5.开卷理论+上机考试,不容易综合水平 60%基础篇:R与概率统计 (第一章)第一章 统计软件与概率计算1.1 R统计软件1.2 R在概率论中的应用1.3 小结1.4 作业基础篇:R与概率统计 (第一章)工欲善其事必先利其器1.1 R统计软件(1)一套有情怀的统计软件(Robert & RossR):* 开源、自由、免费:集体智慧、无私分享* 集统计计算、数学运算、数据分析、绘图控制* 多平台、分布式、并行化、可编程* 众多扩展应用支撑大数据、数据挖掘、机器学习 官方网址:基础篇:R与概率统计 (第一章)1.1 R统计软件(2
4、) 推荐两种使用R的方式 * 下载 * 提供 提供命令行式的界面环境 的Rstudio图形界面模式基础篇:R与概率统计 (第一章)1.1 R统计软件(3) 基本使用直接演示* 获取帮助 “帮助菜单”* 基本布局 “垂直铺”* 输入数据变量,向量,矩阵,剪贴板,* 使用数据* 使用脚本* 软件包基础篇:R与概率统计 (第一章)1.1 R统计软件输入常见数据(适用与任何简单数据类型的生成)x=10 x1=1:4; x2=c(1,2,3,4); x3=seq(1,4,by=1)m1=matrix(x1,nrow=2,byrow=TRUE); fix(m1)m2=matrix(1:100, nrow=
5、10,ncol=10); fix(m2) x1; m2基础篇:R与概率统计 (第一章) 输入 显示1.1 R统计软件例1: 从Excel中的2列数据(x,y)通过剪贴板存入R中的变量dat中 , 以脚本实现散点图的绘制(plot函数),并搜索setwd的使用帮助. 尝试安装 pracma软件包, 为后面积分作准备。dat=read.table(clipboard,header=TRUE)head(dat)plot(dat,type= l)help(plot)install.packages(pracma)基础篇:R与概率统计 (第一章)1.2 R在概率论中的应用(1) 古典概率与集合运算 组合
6、运算其中permn 位于 combinat包中。基础篇:R与概率统计 (第一章)1.2 R在概率论中的应用(2) 概率分布与随机数 随机变量及其分布是概率论中的重要内容,因此R对概率分布的支持非常丰富,并特别为每种分布提供4个函数并以前缀 p/q/d/r 分别表示概率/下分位数/密度/随机数比如常见的正态分布,其名称为 norm,则 pnorm 表示 概率函数(分布函数); dnorm表示密度函数 qnorm 表示下分位数函数;rnorm表示随机数函数基础篇:R与概率统计 (第一章) 基础篇:R与概率统计 (第一章)help(Distributions) 例2:绘制二维标准正态分布的密度图x=
7、y=seq(-3,3,length=100)density.2norm=function(x,y) exp(-(x2+y2)/2)/(2*pi)z=outer(x,y,density.2norm)persp(x,y,z,theta=0,phi=15,expand=1,col=blue)基础篇:R与概率统计 (第一章)1.2 R在概率论中的应用概率分布及随机数是概率统计中实施虚拟仿真和随机模拟的主要工具,将在本书中大量使用,非常重要。* 近似计算* Monte Carlo 模拟* Bootstrap估计* 模型检验* 仿真设计* 基础篇:R与概率统计 (第一章)1.2 R在概率论中的应用(3)
8、积分与概率 例2:设显然根据二维连续随机变量的特性,通过理论推导,可以得出精确结果的表达式(本题特殊在于独立性): 如何高精度计算 也曾经是个难题!基础篇:R与概率统计 (第一章)1.2 R在概率论中的应用(3) 积分与概率 定积分中的概率思维 概率与面积的关系 投点估计概率n=10000; xlen=2; ylen=9+exp(-9); s=xlen*ylenx=runif(n,1,3); y=runif(n,0,ylen)sum(x2+exp(-x2)=y)/n*s 基础篇:R与概率统计 (第一章)某次估计:8.7013比较精确:8.806051.2 R在概率论中的应用(4) 数字特征对数
9、据集中1.1.1,计算数据列y的平均值,标准差,极差等各种特征:mean, sd, range, min, max, median, 对于多维数据,关注相关系数矩阵,协方差矩阵,均值向量等数字特征:cor, cov, colMeans, rowMeans, 基础篇:R与概率统计 (第一章)1.2 R在概率论中的应用(5) 极限理论大数定律: 伯努利大数定律,切比雪夫大数定律,辛钦大数定律 B(n,p) 不相关/方差上界 独立同分布/期望 中心极限定理: 独立同分布中心极限定理,二项分布中心极限定理 问题:如何通过实验直观验证大数定律和中心极限定理?基础篇:R与概率统计 (第一章)1.3 小结
10、本次课主要对课程、教材、R统计软件作了基本介绍本课程注重逻辑思维、理论方法,更强调实践与应用。 重点:R统计软件和随机模拟基础 概率论的基本概念、方法和理论基础篇:R与概率统计 (第一章)1.4 作业1. 完成配套实验指导书中的实验1.1,1.22. 回顾并熟悉概率论与数理统计的以下内容:(1)随机变量及其函数分布;(2)数字特征(3)极限理论思想及其应用;(4)抽样及抽样定理(5) 参数估计与假设检验 基础篇:R与概率统计 (第一章)第二章 数理统计初步与模拟计算2.1 数理统计的基本概念2.2 经验分布、直方图和核密度2.3 常用概率分布及分位点2.4 常用的抽样分布2.5 Monte-C
11、arlo方法2.6 Bootstrap 方法基础篇:数理统计初步与模拟计算 (第二章)统计之都/第二章 数理统计初步与模拟计算2.1 数理统计的基本概念(1)总体与样本 所研究对象(通常具有多种属性)的全体称为自然总体,而其中某种属性对应数值的全体称为测量总体,构成总体的每个对象称为个体。 数理统计一般研究的是测量总体,通常将其对应到随机变量 因此总体X和随机变量X就统一起来。 总体通常体量大,研究整个总体的代价也比较高昂。 基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.1 数理统计的基本概念(1)总体与样本 从总体中随机抽取一定数量的个体称为样本,通常记为 ,其
12、中n为样本容量。抽取一个个体就是对总体作一次随机试验。而对样本对应的试验结果就称为样本观测值,一般记为 。 显然讨论样本时通常将其当作随机变量,而实际数据分析时通常使用其样本观测值,因此样本具有变量-数值二重性。基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.1 数理统计的基本概念(1)总体与样本 本书讨论的是具有以下两种性质的样本: * 样本与总体同分布 * 样本之间相互独立 简单讲,总体 总体可以是一维,也可以是多维,甚至超高维。基础篇:数理统计初步与模拟计算 (第二章)矩阵(二维表)观点: 一维:nx1矩阵 二维:nx2矩阵 多维:nxp矩阵 如果np会怎样?
13、第二章 数理统计初步与模拟计算2.1 数理统计的基本概念(2)自助样本 由于各种情况限制,导致样本获取的代价高昂,或者样本量本身就小,但是又无法继续增补有效样本。此时是否可以通过既得样本来产生更多的子样本,进而实施可重复的样本分析。 Bradley Efron 于1979年提出了自助样本及其相应的统计方法。从而大大促进了小样本的统计分析。 基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.1 数理统计的基本概念(2)自助样本 以样本 为母本,通过有放回重抽样从母本中随机抽取等量的样本,作为一个子样本,该子样本称为自助样本。如:基础篇:数理统计初步与模拟计算 (第二章)
14、问题: 自助样本能做什么?第二章 数理统计初步与模拟计算2.1 数理统计的基本概念(3) 常用统计量 为了充分挖掘样本所包含的总体信息,就需要对样本进行加工,即构造含样本但不含任何未知参数的实值函数并称其为统计量, 统计量值。统计量作为样本函数,显然是随机变量,因此它也有自身的概率分布,通常称为抽样分布。基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.1 数理统计的基本概念(3) 常用统计量 样本均值: 总体均值 样本方差: 总体方差 样本原点/中心矩: 总体矩 基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.1 数理统计的基本概念(3)
15、 常用统计量 偏度: 峰度: 变异系数: 样本标准误:基础篇:数理统计初步与模拟计算 (第二章)问题: 如果X是标准正态,则偏度和峰度等于?第二章 数理统计初步与模拟计算2.1 数理统计的基本概念(3) 常用统计量 基于样本值的序也可以构建统计量,主要用于非参数分析。 次序统计量: 满足最小、最大统计量和极差:中位数和p分位数:中程数和半极差:基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.1 数理统计的基本概念(3) 常用统计量众数:出现频率最高的样本点.问题:众数有什么特点?基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.1 数理统计
16、的基本概念(3) 常用统计量二维情况下的协方差,相关系数可扩展成多维情况下的协方差阵,相关系数阵作用:用来表达两个或多个变量之间的相关关系!基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.2 经验分布、直方图和核密度样本数据分析的一个重要工作是推断总体所服从的分布 (包括:分布函数和密度函数)。问题:如何估计分布函数?提示:定义大数定律格列汶科定理实验验证实际应用 基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.2 经验分布、直方图和核密度大数定律:用频率估计概率的可行性格列汶科定理:基础篇:数理统计初步与模拟计算 (第二章)第二章 数理
17、统计初步与模拟计算2.2 经验分布、直方图和核密度大数定律:用频率估计概率的可行性基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.2 经验分布、直方图和核密度实验:绘制不同样本容量下的经验分布与分布函数的比较图par(mfrow=c(2,2)n=c(20,40,80,160)for(i in n) x=rnorm(i); z=ecdf(x) #绘制经验分布函数图 plot(z,verticals=TRUE,do.p=FALSE,main=paste(n=,i) xx=seq(-3,3,by=0.01) lines(xx,pnorm(xx),lty=3) #添加标准正
18、态分布函数曲线基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.2 经验分布、直方图和核密度密度是计算分布概率的基础, 估计总体的密度函数更能从形态上揭示总体的分布特征,进而估算总体的分布概率.基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.2 经验分布、直方图和核密度直方图是估计密度的一种直观方法,其思路在于频率-概率的关系基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.2 经验分布、直方图和核密度实验: 从正态中抽取100个随机数,绘制直方图,叠加正态密度曲线rx=rnorm(100)hist(rx,freq
19、=FALSE)x=seq(-3,3,by=0.01)lines(x,dnorm(x)基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.2 经验分布、直方图和核密度核密度估计是一种精细地估计密度函数的方法,其思想:基于核函数构造核权函数进行加权平均。基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.2 经验分布、直方图和核密度核函数:通常采用偶函数型的密度函数,比如基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.2 经验分布、直方图和核密度实验:对来自正态总体的50个随机数,估计总体的密度。unifk=functio
20、n(x) ifelse(abs(x)=1,1/2,0); epank=function(x) ifelse(abs(x)=1,0.75*(1-x2),0); denfun=function(x,fun,xsample,h,n) sum(fun(x-xsample)/h)/(n*h) #核函数统一调用kernels=c(unifk,dnorm,epank) ; kernelstr=c(uniform,guass,epanechnikov) #函数数n=50; hn=0.4; x=rnorm(n); xdiv=seq(min(x),max(x),length=512) #样本及剖分点lpar=pa
21、r(mfrow=c(2,2)for(i in 1:length(kernels) ydiv=sapply(xdiv,denfun,fun=kernelsi,x,hn,n); plot(xdiv,ydiv,type=l,xlab=kernelstri,ylab=density)plot(density(x) #标准的核估计函数par(lpar)基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.2 经验分布、直方图和核密度关于核估计的一些问题:(a)核函数的影响:理论上没有本质影响,实际上呢?(b)窗宽的影响:过大超平滑或过小超抖动(c) 最优窗宽的选取:理论上和实践上都
22、可以研究(d) R中的部分函数: density, 针对高斯核的bw.nrd0(x); (e) 样本数据两端的估计:不理想,如何改进?基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.3 常用概率分布及分位点(1) 三大基础抽样分布根据需要构造样本函数,从理论和实践角度对其分布进行研究常见的抽样分布:卡方分布(德国大地测量学家,赫尔默特,1875)学生t-分布(英国统计学家,威廉.戈塞 1908发表,小样本理论的先驱)F分布(英国统计遗传学家,费雪Fisher,1924)基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.3 常用概率分布及分位
23、点基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.3 常用概率分布及分位点卡方分布性质:可加性:相加是卡方分布;数字特征:期望=自由度,方差=2*自由度渐近正态性:如何直观验证?基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.3 常用概率分布及分位点t分布性质:数字特征(文献):渐近正态性:t(n)N(0,1)平方服从F(1,n)分布 F分布性质:倒数还是F分布; 数字特征:渐近正态性基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.3 常用概率分布及分位点关于分布的分位点上侧分位点:双侧分位点:注意记号:基础篇
24、:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.4 常用的抽样分布定理(1)单正态总体的抽样定理基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.4 常用的抽样分布定理(2)双正态总体的抽样定理基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.4 常用的抽样分布定理(3)非正态总体的抽样定理 利用分布间的关系,中心极限定理基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.4 常用的抽样分布定理系列实验:(1)t,x2,F分布的分位点可用正态分位点近似n(或m,n)取多大的时候,这个近似是可以接受
25、的?(2)构造虚拟仿真实验验证定理2.4.1(3)构造虚拟仿真实验验证定理2.4.2(4)构造虚拟仿真实验验证非正态抽样定理基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.5 Monte-Carlo方法 蒙特卡罗(Monte Carlo)方法,或称计算机随机模拟方法,是一种基于随机数的计算方法。这一方法源于美国在第二次世界大战中研制原子弹的曼哈顿计划。该计划的主持人之一、数学家冯诺伊曼用驰名世界的赌城-摩纳哥的Monte Carlo-来命名这种方法,为它蒙上了一层神秘色彩。 基本思想是将各种随机事件的概率特征(概率分布、数学期望)与随机事件的模拟联系起来,用试验的方
26、法确定事件的相应概率或数学期望。特点:问题的解是试验得到,而不是推导得到。基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.5 Monte-Carlo方法应用Monte Carlo方法的基本过程如下:(1) 构造问题的概率模型 分析问题,将其转化成随机性概率问题,建立概率模型(2) 从已知概率分布抽样 产生已知分布的随机数序列,从而实现对随机事件的模拟。 (3) 建立所需的统计量 对求解的问题将其转化成统计量,用试验的结果给出估值。基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.5 Monte-Carlo方法的基础是随机数基础篇:数理统计初
27、步与模拟计算 (第二章)第二章 数理统计初步与模拟计算试验:提取E(2)的随机数1000个,代入E(2)分布函数得到Y的抽样值,绘制Y的分布函数或者密度函数图。 x=rexp(1000,2) y=1-exp(-2*x) par(mfrow=c(1,2) plot(density(y) plot(ecdf(y)基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算例子:如何求圆周率?历史上著名的蒲丰投针试验,设平面上画有间距等于a的一簇平行线,取n枚长为l ( la)的针随意扔到平面上。基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算2.5 Monte-
28、Carlo方法pi.buffon=function(n,a=1,L=0.8) theta=runif(n,0,pi); x=runif(n,0,a/2); test =sum(x=15 A4页; 要有翔实的案例分析(最好结合R及数据分析); 选题不能雷同; 基础篇:数理统计初步与模拟计算 (第二章)第二章 数理统计初步与模拟计算R练习1:看右图构思求圆周率PI的模拟方法并设计R程序加以实现。R练习2:用随机模拟的方法验证 (1)卡方/正态/泊松/二项分布的独立可加性。 (2) 中心极限定理R练习3:设计程序求n多大时无法区分t分布与标准正态分布?基础篇:数理统计初步与模拟计算 (第二章)第三章
29、 参数估计3.1 点估计3.2 评价标准3.3 区间估计概述3.4 正态总体区间估计3.5 非正态总体区间估计3.6 Bootstrap区间估计方法篇:参数估计(第三章)第三章 参数估计方法篇:参数估计(第三章)在上述背景下,所作的估计,就是所谓的参数估计。第三章 参数估计3.1 点估计矩估计K.Pearson,1894统计思想涵盖以下3点:(1)总体矩 通常是未知参数的函数(2)大数定律可知,样本矩 依概率收敛于总体矩(3)联立可构造近似方程组,并可求解例1:方法篇:参数估计(第三章)第三章 参数估计3.1 点估计矩估计单参数通用模式:双参数通用模式:多参数通用模式:方法篇:参数估计(第三章
30、)第三章 参数估计3.1 点估计矩估计例2: 设总体XU(0,A),A0未知, 求A的矩估计量若样本观测值分别为1,2,9,8和1,2,13,8,则A的矩估计值分别是多少?思考几个问题1:(1)矩估计的边界矛盾(2)矩估计的唯一性(3)矩估计的存在性(4)矩估计的评价方法篇:参数估计(第三章)1 王宗尧,姜红燕,朱洪波.矩估计法的若干问题讨论J,菏泽学院学报,2013,35(2):10-12第三章 参数估计3.1 点估计矩估计例2的实验模拟。#关于矩估计边界问题的模拟,A是其上界,但是估计经常超出AA=10; times=100; n=30moments=numeric(times)for(i
31、 in 1:times) x=runif(n,0,A); momentsi=2*mean(x) plot(1:times,moments,type=o,col=red); abline(h=A)方法篇:参数估计(第三章)1 王宗尧,姜红燕,朱洪波.矩估计法的若干问题讨论J,菏泽学院学报,2013,35(2):10-12第三章 参数估计3.1 点估计极大似然估计R.A.Fisher 1912一种理论性和实践性都非常强的估计方法,历经百年而不衰!基本思想在于:(1) 若事件发生的概率越大则在现实中越有可能发生(2) 不同取值的未知参数对应事件发生的概率也不尽相同(3)通过最优化或边界分析能得到使得
32、事件发生概率达到最大的参数值方法篇:参数估计(第三章)第三章 参数估计3.1 点估计极大似然估计R.A.Fisher 1912首先有搞清楚研究的事件是什么?其次这个事件的概率 如何表达?方法篇:参数估计(第三章)第三章 参数估计3.1 点估计极大似然估计R.A.Fisher 1912明确优化的由来:样本值一旦观测就固定,且邻域dx也是固定的,只有未知参数是可变的,所以有:最后:如何计算得到满足上式的未知参数值?对数化:变连乘为累加极值偏导方程组联立求解若无解,则到边界分析取得最优值.方法篇:参数估计(第三章)第三章 参数估计3.1 点估计极大似然估计R.A.Fisher 1912例3:方法篇:
33、参数估计(第三章)第三章 参数估计3.1 点估计极大似然估计R.A.Fisher 1912 例4(对例2) 设总体XU(0,A),A0未知,求A的极大似然估计量若样本观测值分别为1,2,9,8和1,2,13,8,则A的估计值分别是多少?解: 此时,需分析边界: ,使L(A)最大,则只有取方法篇:参数估计(第三章)第三章 参数估计3.1 点估计极大似然估计R.A.Fisher 1912例5:方法篇:参数估计(第三章)第三章 参数估计3.1 点估计极大似然估计R.A.Fisher 1912 R求数值解:x=rcauchy(200,1) # 产生随机样本做测试,其中参数为 1likely=funct
34、ion(mu,x) sum(log(1+(x-mu)2) #转化成极小值函数optimize(likely,c(0,4),x=x)-$minimum 1 1.036259 #参数的估计$objective 1 259.6061 #目标函数值方法篇:参数估计(第三章)第三章 参数估计3.1 点估计小结(1)方法多样性: 矩估计,极大似然估计;(2)各有优缺点,矩:简单、不唯一、低阶无效则取高阶、越界等;极:需密度函数,必有唯一解,更符合实际;(3) 谁更好?方法篇:参数估计(第三章)第三章 参数估计3.2 评价标准评价一个估计量的好坏必须建立在以大量观测为基础的统计分析上。估计量 是随机变量,参
35、数 是未知的常数。定义偏差: 显然偏差也是一个随机变量,从统计意义上分析,实际上就是计算与偏差有关的数字特征,从特征角度来评价估计量的优劣。 方法篇:参数估计(第三章)第三章 参数估计3.2 评价标准 (1)无偏性(2)无偏前提下的有效性方法篇:参数估计(第三章)第三章 参数估计3.2 评价标准 (3) 均方误差 无偏有偏均可 显然若是无偏,则均方误差评价就退化为有效性评价。方法篇:参数估计(第三章)第三章 参数估计3.2 评价标准 (4) 一致(相合)性一致性给出了样本容量n对估计的影响表述,即随着样本容量n的增大,估计量应该呈现出稳定于待估参数的趋势特性。方法篇:参数估计(第三章)第三章
36、参数估计3.2 评价标准 理论/实验论证:实验:以正态分布N(70,16)为总体,估计量构造如下设计:某个总体,抽样作100次,每次容量由100增到10000,上述4个统计量各自计算了100次,绘制成图作直观对比。方法篇:参数估计(第三章)第三章 参数估计3.2 评价标准times=100; n=seq(10,2000,length=times)mat=matrix(0,nrow=times,ncol=4)for(i in 1:times) x=rnorm(ni,70,4) mati,1=mean(x); mati,2=(x1+xni)/2; mati,3=(min(x)+max(x)/2;
37、mati,4=median(x)matplot(mat,type=l,col=1:4)legend(70,66, c(mean,mid,half,median),lty=1:4,col=1:4)方法篇:参数估计(第三章)第三章 参数估计3.3 区间估计概述点估计给出参数值的估计,但无法给出取该值的可信度,这在实际应用中是有缺陷的.为此,提出区间估计这种方法,它既给出参数的值的估计又能给出精度、可信度的表达。形式上,对于给定的可信度(置信度) ,寻找参数的一对估计区间 ,使得该区间包含 的概率为 方法篇:参数估计(第三章)第三章 参数估计3.3 区间估计概述 这是一个随机区间,因此需要基于统计意
38、义对其加以说明。(1)希望 越短越好,因为它表示了估计的精度;(2)希望 越大越好,因为它表示了估计的可信度。但是,这两个需求是矛盾的,可信度越大必然导致区间长度变大。因此只能先确定一个要求,去优化另一个要求。方法篇:参数估计(第三章)第三章 参数估计3.3 区间估计概述通常先确定置信度,进而寻求最短的区间长度。这个理论和方法最早是由J.Neyman,1934年引入的。此时称 为参数 关于置信度 的双侧置信区间, 称为置信下限, 称为置信上限。 实际问题中,有时候更关心参数的上限或下限,若满足 则称 或 为单侧置信区间 。方法篇:参数估计(第三章)第三章 参数估计3.3 区间估计概述通用的求解
39、过程:(1) 在参数的点估计的基础上构造含参数但不含其他任何未知信息的样本函数T,使其服从完全已知的分布。最具创意部分(2) 将 正因为T的分布已知,所以a,b可以确定,通常由双侧分位点取代。若是单侧区间估计则由单侧的分位点取代。考验推导能力方法篇:参数估计(第三章)第三章 参数估计3.4 正态总体区间估计单正态总体 只有两个参数,因此关于它们的区间估计可归结为:(1)方差已知,期望的区间估计 (2)方差未知,期望的区间估计(3)期望已知,方差的区间估计 (4)期望未知,方差的区间估计双正态总体有四个参数,因此关于它们的区间估计可归结为:(5)方差均已知期望差的区间估计 (6)方差均未知(相等
40、)期望差的区间估计(7)方差均未知(不等)期望差的区间估计(8)方差均未知(样本量较大)期望差的区间估计(9)均值均已知方差比的区间估计 (10)均值均未知方差比的区间估计方法篇:参数估计(第三章)第三章 参数估计3.4 正态总体区间估计(2)方差未知,期望的区间估计方法篇:参数估计(第三章)第三章 参数估计3.4 正态总体区间估计 (10)均值均未知方差比的区间估计方法篇:参数估计(第三章)第三章 参数估计3.5 非正态总体区间估计思路是一样的,关键在于构造含参函数使之服从已知分布!(1)指数分布参数的区间估计方法篇:参数估计(第三章)第三章 参数估计3.5 非正态总体区间估计有时候可以利用
41、中心极限定理来近似解决区间估计!(2)0-1分布参数的区间估计方法篇:参数估计(第三章)第三章 参数估计 参数型区间估计通常都需要推导一个“枢轴统计量”来完成,要么精确要么近似服从某一已知分布。请完成以下问题: 有一样本观测值如下:50.20090, 51.21600, 51.77013, 50.75797, 50.96502, 49.74111, 50.75257, 49.30683, 49.86755, 49.52322. 样本容量=10, 问:均值的置信度为95%的区间估计?方法篇:参数估计(第三章)第三章 参数估计3.6 Bootstrap区间估计基本思想:通过重复的子样本,计算待估参
42、数或特征的值,再对值进行排序,然后根据区间估计的取法,得到分界点作为估计。假设估计参数或特征的统计量为(1)由样本 生成子样本(2)计算统计量值(3)对(4)依据方法篇:参数估计(第三章)第三章 参数估计实验探讨:(1)均方误差的bootstrap方法实现(2)正态总体参数的估计法与bootstrap法的比较(3)非正态总体参数的估计法与bootstrap法的比较(4)未知总体分布的特征的估计方法比较方法篇:参数估计(第三章)第三章 参数估计3.6 Bootstrap区间估计(1)均方误差的bootstrap方法实现均方误差: 需要知道参数 的值才能准确估计,但参数 的真值通常是未知的。以什么
43、来代替参数 的值是个问题,如何计算出均方误差的估计也是个问题。通常的做法:假设参数的估计量为 ,代入样本观测值得到的函数值 作为参数 的真值替代。以众多自助样本得到的 估计与 的偏差平方的平均来估计均方误差。方法篇:参数估计(第三章)第三章 参数估计(1)均方误差的bootstrap方法实现以N(70,16)的期望为参数,求均方误差的bootstrap估计,并与真实结果比较。getmse=function(n,mu,xigma,times=1000) x=rnorm(n,mu,xigma); mu0=mean(x) mus=numeric(times) for(i in 1:times) mu
44、si=mean(sample(x,n,replace=TRUE) boot.mse=mean(mus-mu0)2); real.mse=xigma2/n c(boot.mse=boot.mse,real.mse=real.mse)sapply(c(20,50,100),getmse,mu=70,xigma=4)方法篇:参数估计(第三章) ,1 ,2 ,3boot.mse 0.7846068 0.2876633 0.1536183real.mse 0.8000000 0.3200000 0.1600000第三章 参数估计(2)正态总体参数的估计法与bootstrap法的比较-方差区间估计 erv
45、al=function(x,conf.level=0.95,times=10000) s2=var(x); n=length(x) ch1=qchisq(1-conf.level)/2,n-1); ch2=qchisq(1+conf.level)/2,n-1) =c(lower=(n-1)*s2/ch2,upper=(n-1)*s2/ch1) s2s=numeric(times) for(i in 1:times) s2si=var(sample(x,n,replace=TRUE) sort(s2s) n1=trunc(times*(1-conf.level)/2); n2=times-n1;
46、 =c(lower=s2sn1,upper=s2sn2) list(=,=)erval(rnorm(50,70,4)方法篇:参数估计(第三章)$ lower upper 14.18354 31.56410 $ lower upper 14.89610 17.33268 第三章 参数估计(4)未知总体分布的特征的估计方法比较随便一个样本:均值的区间估计显然常规方法不可行,但借助bootstrap方法却是简单的。statis.fun=function(data,inds) mean(datainds)x=rnorm(100,70,4)boot.out=boot(data=x,statistic=s
47、tatis.fun,R=1000)boot.ci(boot.out)方法篇:参数估计(第三章)第四章 假设检验4.1 基本概念4.2 参数型假设检验4.3 非参数型假设检验方法篇:假设检验(第四章)第四章 假设检验 这是一种应用极其宽泛的统计方法,是很多实际问题的处理方式之一。 一个问题一对假设一个样本一套方法一个结论 参数型 背景 方法很多(依然层出不穷) 非参数型方法篇:假设检验(第四章)4.1 基本概念例1:国家对定量包装商品净含量的规定很严格,据国家相关法律法规规定,500g装的物品净含量偏差不超过15克(3 ),某月某厂抽检15件得到如下数据 497,502,501,501,498,
48、500,501,503,500,502,500,499,503,498,504 问该厂包装的产品在0.05显著性水平上是否符合净含量规定?分析:通常意义下,工厂的生产应该符合国家规定,所以此时问题可以转化成假设: 这样的假设如何计算?一种处理方式是将“符合规定”转化成:方法篇:假设检验(第四章)此处称H0,H1为原(或零)假设和备择假设!这是一对互为对立的假设。4.1 基本概念(1) 假设与总体、样本的关系净重500g是生产标准,因此若生产合规,则产品与标准的偏差应较小,显然抽检的15件产品的平均净重与标准的偏差应该很小。反之,若偏差较大(该事件发生的概率很小),则认为生产不合规。于是引入一个
49、条件:if then 支持 要在概率意义下求得上述临界值,这涉及到总体的具体分布。遗憾的是本题样本所在的总体的分布是未知。方法篇:假设检验(第四章)4.1 基本概念(2) 总体假设在 成立时, 事件的概率很小,不妨称该概率为显著性水平 ,于是构建一个方程:若假设总体服从正态分布N(500,25),则问题归入参数假设检验若不对总体分布作出具体假设,则问题归入非参数假设检验参数假设的好处在于可推导出如下精确分布: 进而解出方程中的临界值,完成假设决策。方法篇:假设检验(第四章)4.1 基本概念(3) 假设检验的基本原理和反证法使用假定原假设成立,则构造的事件是个小概率事件,即将总体的样本数据代入计
50、算,若上述事件发生,则表明小概率事件在一次抽样中就“轻易”发生了,这明显与假设不符,故有理由推翻原假设。“概率很小的事件在一次试验中几乎不会发生”被称为小概率事件原理。应用小概率事件原理进行决策的过程其实就是利用了“反证法”。称 为拒绝域(小概率事件发生的区域),反之则称为接受域。方法篇:假设检验(第四章)4.1 基本概念(4) 假设检验的错误描述 使用概率解决问题,就必须承受随机性(通过一个样本作出决策)带来的风险,在假设检验中就是要分析决策可能带来的错误情况。第一类错误:拒绝Ho|Ho为真 ,弃真错误,概率为 第二类错误:接受Ho|Ho不真 ,取伪错误,概率为这两个概率值此消彼长,如右图所
51、示:注:这是一个右侧检验的示意图。 而同时减小犯错误概率的条件是: 增大样本容量 n方法篇:假设检验(第四章)4.1 基本概念(关于两类错误)一个正态总体若一容量为n的样本,其均值为2.6,假设拒绝域为( ),求两类错误的概率分别为多少?方法篇:假设检验(第四章)4.1 基本概念(5) 临界值到检验p值的转化由给定的显著性水平,根据总体分布假定,解方程 得到临界值,再构造拒绝域,最后作出决策。这个流程呈现两个特点: A. 需预设水平,必须预先给出水平才能确定拒绝域 B. 过程被动,每指定一个显著水平都要从头计算出拒绝域才能作决策根据总体分布假定,计算检验统计量的检验p值,通过p值大小灵活决策。
52、检验p值:Ho成立且发生了不利于Ho又比取现值的更极端事件 的概率。方法篇:假设检验(第四章)4.1 基本概念(6) 基本流程1、确定假设检验问题和检验类型,如参数型,Ho,H12、构建假设检验统计量并确定其概率分布,如3、在假定原假设成立时,构造小概率事件,得到临界值,确定拒绝域4、代入样本观测值,确定是否落在拒绝域中 或者略过3,直接计算检验p值5、给出决策:拒绝或接受原假设。方法篇:假设检验(第四章)4.2 参数型假设检验在例1中,假定总体服从N(500,25),问生产是否符合规定?理论推导:因此,接受原假设,认为生产符合规定!方法篇:假设检验(第四章)4.2 参数型假设检验在例1中,假
53、定总体服从N(500, ),问生产是否符合规定?理论推导:因此,接受原假设,认为生产符合规定。方法篇:假设检验(第四章)4.2 参数型假设检验关于正态总体的参数型假设检验,内容丰富,理论完备,注意的是:前提只有一个,即总体服从正态分布。在R统计软件中,help.search(.test)可罗列出检验函数:比如:1、t.test解决单/双总体均值的假设检验2、var.test解决双总体方差比的假设检验3、binom.test二项分布检验课后探索:如何仿照R的var.test完成单总体方差的假设检验?方法篇:假设检验(第四章)4.2 参数型假设检验var.one.test=function(x,a
54、lternative = c(two.sided, less, greater),var0,conf.level=0.95) n=length(x); s2=var(x)*(n-1); STATISTIC=s2/var0; names(STATISTIC)=chisq parameter=c(var0,n); names(parameter)=c(var0,n); pvalue=pchisq(STATISTIC,n-1) alternative=match.arg(alternative) PVAL=switch(alternative,two.sided=2*min(pvalue,1-pva
55、lue),less=pvalue,greater=1-pvalue)#P-值 MUINT=switch(alternative, two.sided=c(s2/qchisq(1+conf.level)/2,n-1),s2/qchisq(1-conf.level)/2,n-1), less=c(0,s2/qchisq(1-conf.level,n-1), greater=c(s2/qchisq(conf.level,n-1),Inf) #区间 attr(MUINT,conf.level)=conf.level ESTIMATE=s2/(n-1) #估计 names(ESTIMATE)=var #
56、点估计的描述 DNAME=deparse(substitute(x) #数据的名称 METHOD=One-Sample var.test with mean unknown #方法的名称 nm_alternative=switch(alternative,two.sided=paste(true var is not equal to ,var0,sep=), less=paste(true var is less than ,var0,sep=), greater=paste(true var is greater than ,var0,sep=) #对备择假设进行说明 RVAL=list(
57、statistic=STATISTIC,p.value=PVAL,alternative=nm_alternative,method=METHOD, =DNAME,=MUINT,parameter=parameter,estimate=ESTIMATE) class(RVAL)=htest #生成返回值到列表,再把列表转化成htest类,也可用structure return(RVAL) var.one.test(x,alternative=two.sided,var0=5)方法篇:假设检验(第四章)4.2 参数型假设检验非正态总体(1)泊松分布参数的假设检验(2)0-1 分布参数的假设检验(
58、3)均匀分布参数的假设检验(4)指数分布参数的假设检验方法篇:假设检验(第四章)4.2 参数型假设检验非正态总体(1)泊松分布参数的假设检验(分析)方法篇:假设检验(第四章)4.2 参数型假设检验非正态总体lambda=5; x=rpois(10,lambda) #实际区间概率conf.levellsl.pois.test=function(x,lambda0,conf.level=0.95) n=length(x); locallambda=n*lambda0; lower=qpois(1-conf.level)/2,locallambda) upper=qpois(1+conf.level
59、)/2,locallambda) p.value=2*min(ppois(sum(x),locallambda), 1-ppois(sum(x)-1,locallambda) list(interval=c(lower,upper),p.value=p.value)lsl.pois.test(x,lambda0=4.5) #是否有更精确的区间估计?方法篇:假设检验(第四章)4.3 非参数型假设检验(1)分布的拟合优度检验(2)正态性检验(3)列联表检验(4)一致性kappa检验(5)秩检验方法篇:假设检验(第四章)4.3 非参数型假设检验(1)分布的拟合优度检验用来解决由样本推断的总体分布与理
60、论分布是否一致的检验问题,通常需要刻画两分布之间的拟合程度(偏差程度)的统计量及其概率分布。比如常用的分布性检验、正态性检验等都属于拟合优度检验。具体的方法有:Pearson 卡方检验,Kolmogorov-Smirnov检验 小样本不适用 通常针对连续随机变量方法篇:假设检验(第四章)4.3 非参数型假设检验(1)分布的拟合优度检验Pearson卡方检验(Karl Pearson 1900年提出)主要思想和步骤:合理的区间划分区间频率近似理论分布的区间概率两者之间差距构造检验统计量服从卡方分布得出检验结论具体做法(样本量=50):(1) 合理分区间m个(5-16),确保每个区间的个数不低于5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国水产养殖与捕捞行业发展现状及前景规划研究报告
- 2025-2030年中国次氯酸钠行业市场十三五规划与投资风险评估报告
- 2025-2030年中国服装展示道具行业现状调研及发展前景研究报告
- 2025-2030年中国易拉罐装啤酒行业市场规模分析及投资盈利预测报告
- 2025-2030年中国扬声器振动膜市场前景趋势展望及投资潜力分析报告
- 2025-2030年中国岩土工程行业运营状况与发展潜力分析报告
- 2025-2030年中国婴儿保育设备行业十三五规划及发展策略分析报告
- 2025-2030年中国大气污染治理行业发展状况及投资前景规划研究报告
- 2025-2030年中国发动机管理系统(ems)行业发展现状及前景规划研究报告
- 2025-2030年中国刷卡机行业市场发展潜力与投资战略规划研究报告
- 民宿建筑设计方案
- 干部基本信息审核认定表
- 2023年11月外交学院(中国外交培训学院)2024年度公开招聘24名工作人员笔试历年高频考点-难、易错点荟萃附答案带详解
- 春节行车安全常识普及
- 电机维护保养专题培训课件
- 汽车租赁行业利润分析
- 春节拜年的由来习俗来历故事
- 2021火灾高危单位消防安全评估导则
- 佛山市服务业发展五年规划(2021-2025年)
- 房屋拆除工程监理规划
- 医院保安服务方案(技术方案)
评论
0/150
提交评论