数据模型公式教学备用_第1页
数据模型公式教学备用_第2页
数据模型公式教学备用_第3页
数据模型公式教学备用_第4页
数据模型公式教学备用_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章:总体方差:;样本方差:样本协方差sxy = 总体协方差皮尔逊积矩相关系数:rxy= 第五章:离散型概率分布数学期望,方差f(x)为概率二项概率函数:f(x)= 5.5 泊松概率分布f(x)=,在一个时间区间内事件发生x次的概率,为数学期望(与方差相差)第六章:连续型概率分布6.1均匀概率密度函数 axb f(x)=0 其他e(x)=, var(x)=连续型概率分布63二项概率的正态近似均值=np,标准差,当取概率p<p(x)时,x+0.5;当取概率p>p(x)时,x-0.5。6.4 指数概率分布f(x)=,表示两起事件之间的时间间隔累积概率:不超过x0分钟p(xx0) =1

2、第八章:总体均值区间估计8.1总体标准差已知,求总体均值的置信区间估计95%置信水平(confidence level),0.95置信系数(confidence coefficient),置信区间(confidence interval)=,边际误差=,=1-0.95=0.05,/2=0.025(上侧面积)总体均值的区间估计=+8.2 总体标准差未知,求总体均值的置信区间估计(t分布)用样本标准差s代替总体标准差,t代替z=+,自由度df=n-18.3 样本容量的确定n=,e为所希望的总体均值的边际误差8.4 总体比率:只有z,没有t=,边际误差=e总体均值的区间估计=+n= ()2 p*(1

3、p*)/e2第九章:假设检验(一个)总体均值假设检验 h0:=0; ha:0 ,0为假定值p-value,即z(上侧)或z(下侧),则拒绝p(z1.96)=0.0259.3总体标准差已知,求zz=, 为样本均值置信区间法:+,看0是否落在该区间内9.4总体标准差未知,求t,df=n-19.5 总体比率假设检验,求zh0:p=p0; ha:pp0 ,p0为假定值z=9.7计算第二类错误的概率(1)在显著性水平下,根据临界值法确定临界值并建立拒绝法则(如,如果z,则拒绝);(2)根据,解出样本均值 取值范围(根据z=或);(3)建立接受域,如>a;(4)根据接受域(不变)与满足备择假设的新,

4、计算概率(z=)。第二类错误概率,做出拒绝h0的正确结论的概率称为功效,值为1-越接近原假设均值,发生第二类错误的风险越大。9.8 确定总体均值假设检验的样本容量n=为第一类错误概率,为第二类错误概率,0为原假设总体均值,a为第二类错误所用总体均值。双侧检验中,以z/2代替z第十章:两总体均值和比例的推断(两个)10.1两总体均值之差(1-2)的推断,总体方差1和2已知标准差= ,margin of error=1-2的区间估计:1-2的假设检验:h0:1-2=d0; ha:1-2d0,双侧,求z:10.2两总体均值之差(1-2)的推断,总体方差1和2未知1-2的置信区间估计:,df=,自由度

5、取小的整数1-2的假设检验,求t: t= 10.3匹配样本h0:d=0, ha:d0,双侧t= ,df=n-1,为两组数值之差的平均值,d为总体数值之差的平均值(一般为0),sd为两组样本数值之差的标准差置信区间=10.4 两总体比例之差的推断h0:p1-p2=0; ha:p1-p2d0, 两总体比例之差的置信区间=第十一章:关于总体方差2的统计推断111一个总体方差的区间估计:假设检验:,双侧检验,df=n-1,做备择假设使取上侧112两个总体方差的统计推断:,双侧检验f=,s1是较大的样本方差 numerator degrees of freedom= n-1,denominator de

6、grees of freedom=n-1取值都取右侧,如值越小,越大第十二章:拟合优度检验和独立性检验12.1拟合优度检验:多项总体(总体是否服从k类中每类都有指定的概率)h0: pa= .30, pb = .50, and pc= .20,单侧检验ha:the population proportions are not pa= .30, pb= .50, and pc= .2012.2 独立性检验(两个因素是否相关),单侧检验h0: beer preference is independent of the gender of the beer drinkerha:beer prefere

7、nce is not independent of the gender of the beer drinker第十三章:实验设计与方差分析13.2方差分析和完全随机化实验设计(单因素)一个对应一个处理j列,多个比较是否相等,1=2=3)处理间估计处理平方和 ,处理均方mstr=处理内估计误差平方和,误差均方k为处理数,n为每个处理中样本的个数,nt为总个数,上侧检验;sst=sstr+ssemse=s2,s=+13.3 多重比较方法fisher 的lsd方法(两个进行比较)h0:i=j ; ha:ij ,df=nt-k,双侧第二种方法:h0:i=j ; ha:ij 如果lsd,则拒绝h01-

8、2的置信区间估计=13.4 随机化区组设计13.4.2 anova方法a:处理;b:区组;e:误差sst=sstr+ssbl+sse, sse= sst- sstr-ssbl, , 行是i,列是j,j对应处理,i对应区组,上侧检验,判断“处理”均值是否相等(多个,一个对应一个处理)k= the number of treatments,b= the number of blocksn,nt= the total sample size (nt = kb)13.5 析因实验sse=sst-ssa-ssb-ssabf检验体现的是每个因子的显著性行是i,列是j,a对应i,b对应j十四章:简单线性回归

9、简单线性回归方程:;=,总的平方和回归平方和 误差平方和sst=ssr+sse,自由度: n1=1 +(n2)判定系数 ,相当于,所以r2越接近1,就越接近y,拟合度就越好。the least squares line accounted for 74.6% of the total sum of squares.rxy=(b1的符号),为正,表示正相关;负则负相关。均方误差,估计的标准误差t检验: h0:=0, ha:0b1估计的标准差 t= ,自由度为n-2,双侧检验的置信区间:f检验:h0:=0, ha:0 上侧检验msr 均方回归; mse 均方误差msr=ssr/自变量个数= ,分子

10、和分母自由度分别为自变量个数和n-2,上侧检验y的平均值的置信区间:confidence interval,自由度为n-2的估计的标准差 y的一个个别值的预测区间:prediction interval,,自由度为n-2回归分析: yi 与 xi 回归方程为yi = 0.20 + 2.60 xi自变量 系数 系数标准误 t p常量 (b0)0.200 (sb0)2.132 0.09 0.931xi (b1)2.6000 (sb1)0.6429 (t)4.04 0.027s = 2.03306 r-sq = 84.5% r-sq(调整) = 79.3%方差分析来源 自由度 ss ms f p回归

11、 r 1 67.600 67.600 16.35 0.027残差误差e 3 12.400 4.133合计 4 80.000新观测值的预测值新观 拟合值测值 拟合值 标准误 95% 置信区间 95% 预测区间 1 10.600 1.114 (7.056, 14.144) (3.223, 17.977)新观测值的自变量值新观测值 xi 1 4.00标准化残差:=s杠杆率大约有95%标准化残差介于-2和+2之间。简单线性回归,for the case of simple linear regression, minitab identifies observations as having high

12、 leverage if hi > 6/n or 0 .99, whichever is smaller.第十五章:多元回归r2=ssr/sst显著性检验:f检验用于确定在应变量和所有自变量之间是否存在一个显著性的关系,上侧检验;t检验用于确定每一个单个的自变量是不是显著的自变量,双侧检验。t检验:双侧15.8残差分析标准化残差:=s杠杆率跟自变量x有关学生化删除残差df=(n1)p1,异常值在±t/2以外(>t/2或<- t/2)有影响的观测值:多元回归杠杆率,hi>3(p+1)/n库克距离,di>1第十六章:建立模型确定什么时候增加或删除变量上侧检验

13、,检验增加的自变量是否是显著的df1=增加的自变量个数;df2=n-p-1第十八章:时间序列分析及预测平均绝对误差 mae=预测误差绝对值的平均数均方误差 mse=预测误差平方和的平均数平均绝对百分数误差mape=百分数预测误差的绝对值的平均数指数平滑预测法:ft+1=yt+(1) ft ,yt 实际值,ft预测值 ,f2 = y1 , 从 f3 开始预测线性回归: ,季节估计的回归方程:时间序列分解法:n个季度移动平均中心化移动平均(trendt)yt/ trendt = seasonal-irregular value按照季度将seasonal-irregular value平均后得到季节

14、指数(有必要则调整季节指数)将yt/季节指数=消除季节影响的值求线性回归将预测值×季节指数=有季节影响的数值第十九章:非参数方法19.1 总体中位数假设检验、匹配样本:h0: p = 0.50,ha: p0.50h0: p 0.50,ha: p0.50h0: p 0.50,ha: p0.50n20,利用一元二项式分布的概率binomdist计算累积概率,如果是双侧要乘以2若n20,利用二项概率正态分布近似,均值=np,标准差首先判断x与的关系,若x(表示p<p(x),则+0.5;若x,则0.5z=(x)/对于单侧检验,先判断x位于上侧还是下侧,再确定假设条件,确保与ha方向一致

15、。19.2秩相关,威尔科克森符号秩检验:匹配样本,适用于两组数据个数相同,双侧检验h0: median for 1st round - median for 2st round = 0; ha:median for 1st round- median for 2st round0,(当n20,近似正态分布)p(t+12.5)= p(z),只能取t正而不能取t负19.3 mww检验:适用于两组数据个数不同,双侧检验h0: the two populations are identical;ha:the two populations are not identical,(当n17且n27时,近似正态分布)p(w116)= p(z),取哪一个秩和都是一样的19.4克鲁斯卡尔-沃利斯检验(三个以上总体检验)h0: all populations are identicalha: not all populations are i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论