数据模型公式.._第1页
数据模型公式.._第2页
数据模型公式.._第3页
数据模型公式.._第4页
数据模型公式.._第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第总体方差:22(xi)2; N样本方差:22(xi x)2sn1zixi x样本协方差 Sxy =n(Xi X)(Yi Y) i1n1(xix)(yiy)总体协方差 xy皮尔逊积矩相关系数: rxy= SSxxSyy第五章:离散型概率分布 数学期望 E(x)xf(x),方差Var (x)(x )2 f (x)f(x) 为概率 二项概率函数:f(x)=x (n x)px (1p)(n x)5.5 泊松概率分布xef(x)=x!在一个时间区间内事件发生x 次的概率,为数学期望(与方差相差)axb其他第六章:连续型概率分布6.1 均匀概率密度函数1baf(x)=0E(x)=ab2Var(x)=(b

2、 a) 212连续型概率分布63 二项概率的正态近似均值=np,标准差np(1 p) ,当取概率 p<p(x)时, x+0.5;当取概率 p>p(x)时, x-0.5。6.4 指数概率分布1 x/f(x)= e ,表示两起事件之间的时间间隔累积概率:不超过 X0 分钟x0/P(xx0) =1 e 0x z第八章:总体均值区间估计8.1 总体标准差 已知,求总体均值 的置信区间估计95%置信水平 (confidence level),0.95 置信系数( confidence coefficient),置信区间 (confidence interval)=,xn边际误差 =z /2

3、x=z /2n,=1-0.95=0.05,/2=0.025(上侧面积)总体均值的区间估计 =x+ z /28.2 总体标准差 未知,求总体均值 的置信区间估计 (t 分布) 用样本标准差 s代替总体标准差 ,t代替 z=x+t /2自由度 df=n-1x0 s/ n8.3 样本容量的确定n=(z /2 )2 2E2E为所希望的总体均值的边际误差8.4 总体比率:只有 z,没有 t边际误差 =z /2 p=z /2 p(1n p) =E总体均值的区间估计 = p+ z /2p(1 p)nn= (z /2)2 p*(1p*)/E2第九章:假设检验 (一个 )总体均值 假设检验 H0: =0; Ha

4、:0 ,0为假定值p-value ,即z z (上侧 )或z z (下侧),则拒绝 p(z1.96)=0.0259.3总体标准差 已知,求 zx0z=/nx 为样本均值置信区间法:x+z /2,看0 是否落在该区间内n9.4总体标准差 未知,求 t x0t0 , df=n-19.5H0:s/ n总体比率假设检验,求 z p=p0; Ha: pp0 ,p0为假定值p p0p0(1 p0)/ n9.7 计算第二类错误的概率 (1)在显著性水平 下,根据临界值法确定临界值 z / 2并建立拒绝法则 (如,如果 z z / 2 ,则拒绝 );x(2)根据 z /2 ,解出样本均值 x 取值范围 (根据

5、 z=0 或 z /2);/n(3)建立接受域,如 x>a;x(4)根据接受域 (不变 )与满足备择假设的新 ,计算概率 (z=)/n 第二类错误概率 ,做出拒绝 H0 的正确结论的概率称为功效,值为 1- 越接近原假设均值 ,发生第二类错误的风险越大9.8 确定总体均值 假设检验的样本容量(z z )2 2 n=( 0a )2为第一类错误概率, 为第二类错误概率, 0 为原假设总体均值, a 为第二类错误所用总体均值。双侧检验中,以 Z/2 代替 Z第十章:两总体均值和比例的推断 (两个 )10.1两总体均值之差 (1-2)的推断,总体方差 1 和2已知标准差x1 x2221 2 ,

6、Margin of error= z /2n1 n22212n1 n21- 2 的区间估计: x1 x2 z /22212n1 n21- 2 的假设检验:H0: 1-2=D0; Ha: 1-2D0,双侧,求 z:z (x1 x2) D02212n1 n210.2两总体均值之差 (1-2)的推断,总体方差 1 和2未知1-2 的置信区间估计: x1 x2 t /222s12s22n1n22/222(sn1 sn2 )2n1 n2df=n1 n2,自由度取小的整数22n1 1(sn1 )2 n 1 1(sn2 )2n1 1 n1n2 1 n21- 2 的假设检验,求t: t= (x1 x2) D0

7、s12 s22n1 n210.3匹配样本H0:d=0, Ha:d 0,双侧t= d d ,df=n-1, sd / nd 为两组数值之差的平均值, d 为总体数值之差的平均值 (一般为 0),Sd为两组样本数值之差的标准差置信区间 =d t0.025 dn10.4 两总体比例之差的推断 H0:p1-p2=0; Ha:p1-p2 D0p n1p1 n2 p2zn1 n2p1 p211 p(1 p)( 1 1 )n1 n2两总体比例之差的置信区间 = p1 p2 z /2 p1(1 p1) p2 (1 p2 )n1n2第十一章:关于总体方差 2 的统计推断 111 一个总体方差的区间估计: (n

8、1)s22 (n 1)s2(1 /2)假设检验: H 0 : * 202;Ha : 202 ,双侧检验2 (n 1)s220df=n-1,做备择假设使取上侧22;Ha : 12 2 2 ,双侧检验112 两个总体方差的统计推断: H0 : 1 k ( fi ei )i 1 ei2s1F= 21 ,s1 是较大的样本方差s2numerator degrees of freedom= n-1,denominator degrees of freedom= n-12 取值都取右侧,如12.2 独立性检验 (两个因素是否相关 ),单侧检验H0: Beer preference is independe

9、nt of the gender of the beer drinker Ha:Beer preference is not independent of the gender of the beer drinker 2(fij eij )i jeij第十三章:实验设计与方差分析13.2 方差分析和完全随机化实验设计(单因素) 一个对应一个处理 j列,多个比较是否相等, 1=2=3) 处理间估计k处理平方和 SSTRnj(X j X)2 ,处理均方 MSTR= SSTRj 1 j K 1处理内估计k SSE误差平方和 SSE(nj 1)sj2 ,误差均方 MSE SSEj 1 j jnT kk

10、 为处理数, n 为每个处理中样本的个数, nT 为总个数F MSTR ,上侧检验;MSESST=SSTR+SSEMSE=s2,s= MSE=x+t /2sni113.3 多重比较方法Fisher 的 LSD 方法(两个进行比较 )H0:i= j ; Ha:ijxixjMSE(n1in1j),df=nT-k,双侧第二种方法:H0:i= j ; Ha:ij 如果 Xi X j >LSD,则拒绝 H0LSD t /2 MSE( n1 n1 ) ni nj1-2 的置信区间估计 =xi x j LSD13.4 随机化区组设计13.4.2 ANOVA 方法A:处理; B:区组; E:误差SST=

11、SSTR+SSBL+SSE, SSE= SST- SSTR-SSBLb k k bSST(xij x)2, SSTR b (x. j x)2, SSBL k (xi. x)2i1 j1 j 1 i1 行是i ,列是 j,j对应处理, i 对应区组F MSTR ,上侧检验,判断“处理”均值是否相等 (多个,一个 对应一个处理 ) MSESSTi1 j 1k= the number of treatments, b= the number of blocksn, nT= the total sample size n(T = kb)13.5 析因实验abr(xijk x)2 k1aSSA br (

12、xi. x)2bSSB ar (x.j x)2j1 ab2 SSAB r(xij xi. x. j x)2i 1 j 1SSE=SST-SSA-SSB-SSABF 检验体现的是每个因子的显著性 行是 i ,列是 j,A 对应 i,B 对应 j十四章:简单线性回归简单线性回归方程:b1Lx1 yLx1 x11 2 1 2Lx1yx1i yi( x1i )( yi) Lx1x1x12i( xi)21 n ; 1 1 nL2x ySSE(x1) SST SSR( x1 )SSR(x1) LLx1 yx1 x1y?=b0 b1x(xi x)(yi b121(xi x)2总的平方和y) ,b0 y b1

13、xSST(yi y)2回归平方和 SSR(y?i y)2误差平方和 SSE(yi y?i )2SST=SSR+SSE, 自由度: n1=1 +(n2) 判定系数 r2 SSR ,相当于 y? y,所以 r2越接近 1, y?就越接近 y,拟合度就越好SST y yThe least squares line accounted for 74.6% of the total sum of squares. rxy=(b1 的符号) r 2 ,为正,表示正相关;负则负相关。 均方误差 s2 MSE SSE ,估计的标准误差 s MSEn2 t 检验: H0: 1=0, Ha: 1 0b1 估计的标

14、准差 sb1(xi x)2t= b1 ,自由度为 n-2,双侧检验1的置信区间: b1 t /2sb1F 检验: H0: 1=0, Ha: 1 0 上侧检验MSR 均方回归; MSE 均方误差MSR=SSR/自变量个数MSR SSR/自变量个数F = ,分子和分母自由度分别为自变量个数和 n-2 ,上侧检验 MSE SSE/(n 2)y 的平均值的置信区间: confidence intervaly?p t /2 sy?p , t /2 自由度为 n-2y?p 的估计的标准差1 (xp x)22n(xi x)2y的一个个别值的预测区间:prediction interval ,y?p t /2

15、 sind , t /2 自由度为 n-2sinds(xp x)2(xi x)2回归分析 : yi与 xi回归方程为yi = 0.20 + 2.60 xi 自变量 系数系数标准误常量 (b0)0.200 (sb0)2.132 0.090.931xi (b1)2.6000 (sb1)0.6429 (t)4.04 0.027调整) = 79.3%S = 2.03306R-Sq = 84.5% R-Sq方差分析来源 回归 R自由度 SS MS F P1 67.600 67.600 16.35 0.027残差误差3 12.400 4.1334 80.000合计 新观测值的预测值新观拟合值测值 拟合值

16、标准误 95% 置信区间 95% 预测区间1 10.6001.114 (7.056, 14.144) (3.223, 17.977)新观测值的自变量值新观 测值 xi1 4.00SSEn2标准化残差:yi y?isyi y?isyi y?i =s 1 hi杠杆率 hi 1(xi x)2i2n(xi x)2大约有 95%标准化残差介于 -2 和+2 之间。简单线性回归,For the case of simple linear regression, Minitab identifies observations as having high leverage if hi > 6/n or

17、 0 .99, whichever is smaller.第十五章:多元回归2R2=SSR/SST显著性检验:F检验用于确定在应变量和所有自变量之间是否存在一个显著性的关系,上侧检验;t检验用于确定每一个单个的自变量是不是显著的自变量,双侧检验t检验:双侧15.8残差分析 标准化残差: yi y?isyi y?isyi y?i =s 1 hi1 (xi x) 杠杆率跟自变量2n(xi x)x 有关学生化删除残差df=(n1)p1,异常值在± t/2以外(>t/2或<- t/2) 有影响的观测值:多元回归杠杆率, hi>3(p+1)/n库克距离, Di>1第十六

18、章:建立模型确定什么时候增加或删除变量 上侧检验,检验增加的自变量是否是显著的df1=增加的自变量个数; df2=n-p-1第十八章:时间序列分析及预测 平均绝对误差MAE= 预测误差绝对值的平均数均方误差MSE=预测误差平方和的平均数平均绝对百分数误差 MAPE= 百分数预测误差的绝对值的平均数 指数平滑预测法: Ft+1=Yt+(1) Ft ,Yt 实际值, Ft预测值 ,F2 =Y1 ,从 F3 开始预测 线性回归: b1(t t)(Yt 2 Y) , b0 Y b1t1 (t t)2 0 1季节估计的回归方程: Y? b0 b1Qtr 1 b2Qtr 2 b3Qtr 3时间序列分解法:

19、n 个季度移动平均中心化移动平均(Trendt) Yt/ Trendt = Seasonal-Irregular Value按照季度将Seasonal-Irregular Value平均后得到季节指数 (有必要则调整季节指数) 将 Yt/季节指数 =消除季节影 响的值求线性回归将预测值×季节指数 =有季节影响的数值第十九章:非参数方法19.1 总体中位数假设检验、匹配样本:H0: p = 0.50,Ha: p 0.50H0: p 0.50, Ha: p<0.50H0: p 0.50, Ha: p>0.50n 20,利用一元二项式分布的概率 BINOMDIST 计算累积概率

20、,如果是双侧要乘以 2 若n> 20,利用二项概率正态分布近似,均值 =np,标准差np(1 p)首先判断 x与的关系,若 x<(表示 p<p(x) ,则+0.5;若 x>,则0.5 z=(x )/对于单侧检验,先判断 x 位于上侧还是下侧,再确定假设条件,确保与 Ha方向一致。19.2 秩相关,威尔科克森符号秩检验:匹配样本,适用于两组数据个数相同,双侧检验H0: Median for 1st Round - Median for 2st Round = 0; H a:Median for 1st Round- Median for 2st Round 0n(n 1)13 27.5P(T+12.5)= P(z 13 27.5 ),只能取 T 正而不能取 T 负n1(n1 n2 1)9.810719.3 MWW 检验:适用于两组数据个数不同,双侧检验H0: The two

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论