




已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计分析读书笔记阅读书籍:R语言与统计分析、统计学1. 概述统计分析分为统计描述和统计推断两部分。2. 描述性分析 标准差(Standard Deviation)是样本数据方差的平方根,它衡量的是样本数据的离散程度;标准误是样本均值的标准差,衡量的是样本均值的离散程度。标准误(英文:Standard Error),也称标准误差,即样本均数的标准差(英文:Standard Deviation),是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度。2.1 描述统计量统计量计算公式含义均值中位数百分位数方差数据取值分散性的一个度量样本方差样本标准差标准误sn样本均值的标准差,描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度极差偏度系数(Skewness)刻画数据的对称性指标。关于均值对称时为0,右侧更分散时为正;左侧更分散时为负峰度系数(kurtosis)数据的总体分布为正态分布时,接近0;系数为正时,两侧极端数据较多;系数为负时,极端数据较少。2.2 离散随机变量随机变量Y是一个定义在样本空间上的数值函数,样本空间中的每个事件都被指派一个Y值。离散随机变量Y是一个仅能取可数个值的变量。离散随机变量Y的概率分布是给出Y的每个可能取值Y=y以及相应概率p(y)的表、图或公式。伯努利(Bernoulli)概率分布/二项概率分布: Y = n次试验中S的次数(每次试验的两个可能结果:S和F)泊松分布Y = 单位时间、面积或体积内稀有事件S发生的次数。py=ye-y! (y=0,1,2)随机变量P(y)2*m(t)离散(一般)P(y)EY=yp(y)EY2-2伯努利Bernoullipy=pyq1-y 其中q=1-p,y=0,1ppq二项binomialpy=nypyqn-y其中q=1-p,y=0,1,nnpnpq超几何py=ryN-rn-yNnnrNrN-rn(N-n)N2(N-1)泊松py=ye-y! y=1,2,=给定的单位时间、面积或体积内事件的平均数几何py=p(1-p)y-1 y=1,2,1p1-pP2负二项py=y-1r-1pr1-py-r y=r,r+1,rpr(1-p)P2多项py1,y2.yk=n!y1!y2!yk!(p1)y1(p2)y2(pk)yknpinpi(1-pi)负二项分布:表示直至观测到第r次成功时试验(时间单位)的次数。如直到一个设备失效的时间长度;一个顾客排队等候直到得到服务的时间长度。几何:对于r=1的特殊情况2.3 连续随机变量连续随机变量Y1 在区间(-,+)上的随机变量Y取不可数无穷多个值。2 累积分布函数F(y)是连续的3 Y等于任意特定值的概率为0.密度函数fy=dF(y)dy?f(y)与p(y)的关系正态概率分布。密度函数为:fy=12e-(y-)2(22)型概率分布:是关于寿命长度(如计算机的使用寿命)或等待时间的连续随机变量模型;两种特殊类型,卡方随机变量和指数随机变量正态性检验:l QQ图l Shaprio-Wilk检验:shaprio.test()卡方(Chi-Square)概率分布威布尔概率分布是表示失效时间的连续随机变量模型型概率分布是落在区间(0,1)上连续随机变量模型。 贝塔(Beta,)分布,be(,), 均匀分布2.4 二元概率分布及抽样分布统计量的抽样分布:统计量的概率分布中心极限定理:如果n个观察值Y1,Y2,Yn的随机样本来自有限均值和方差2的总体,那么当n充分大时,样本均值Y的抽样分布可由正态密度函数近似。设Y1,Y2,Yn来自于有限均值和有限标准差的总体n个观测值的随机样本。那么Y的抽样分布的均值和标准差,记为y和y,分别是:y=,y=n卡方密度函数:如果n个观察值Y1,Y2,Yn的随机样本来自有限均值和方差2的正态分布,那么2=(n-1)S22 (S2:样本方差)的抽样分布式自由度为=(n-1)的卡方密度函数学生氏T分布设Z是标准正态随机变量,2是自由度为的卡方随机变量,如果Z与2独立,那么称T=Z2是自由度为的学生氏T分布。F分布如果12和22是自由度为1和2的卡方随机变量,若12和22是独立的,则称F=121222为分子自由度为1,分母自由度为2的F分布。2.5 相关分析统计建模与R语言(上册)3.4Pearson相关性检验(原假设:不相关)当(X,Y)T是二元正态总体,且X,Y=0, 则统计量t=rxyn-21-rxy2t(n-2)cov() 协方差矩阵cor() 相关矩阵Kendall秩相关系数:非参数相关分析偏相关分析:3. 参数估计参数估计:在很多实际问题中,总体的分布类型已知但它包含一个或多个参数,总体的分布完全由所含的参数决定,这样就需要对参数作出估计。推断总体参数有两种方法:估计未知参数值或对参数的假设值进行决策。参数估计有两类:点估计;区间估计。无偏:E=最小方差无偏估计:3.1 估计方法矩估计法:用样本矩去估计总体矩矩估计 1,2 等可以通过前m阶样本矩等于m阶总体矩来求等EY=1nyiEY2=1nyi2极大似然法: 随机选取离散随机变量Y的n个观察值y1,y2,yn,如果概率分布p(y)是单个参数的函数,那么观测到Y的这n个独立值的概率是p(y1,y2,yn)=p(y1)p(y2)p(yn),称样本值的联合概率为样本的似然函数L,并建议使L达到最大的值为的估计值。3.2 单正态总体参数(均值、方差)的估计一个置信区间的置信系数等于在抽样前随机区间包含被估参数的概率如:1总体均值u的大样本(1-)100%置信区间:yz2y=yz2n如何推导?P191,定义6.15;抽样总体的标准差,s为标准样本差yz2sn为抽样总体的标准差,n是样本大小,s是样本标准差。N大于30假设:没有,中心极限定理保证无论抽样总体服从什么分布,y均近似正态。总体均值u的小样本(1-)100%置信区间:yt2snT为自由度为n1的学生氏T分布。假设抽样总体近似服从正态分布 R函数:t.test()总体方差的估计:设y1,y2,yn是来自均值为u、方差为2的正态分布随机样本,2(n-1)s22是具有自由度为(n-1)的卡方分布。置信区间为:(n-1)s222,(n-1)s21-22)3.3 两正态总体参数(均值、方差)的估计两均值差如何推导?:T检验设方差未知且相等: 检验统计量:T= x-y- (1-2)(1n1+1n2)s2 t(n1+n2-2)其中:s2= n1-1s12+(n2-1)s22n1-1+(n2-1)方差比:F检验(方差齐性检验) 原假设:方差相等,或大于等于一方,或小于等于一方12(n1-1)s1212 , 22(n2-1)s2222S1与S2相互独立,Fs1212s2222 F(n1-1, n2-1)假定:被抽样样本的两个总体有近似正态的相对频率分布;随机样本是独立地从两个总体中抽取的。3.4 单总体比率p的区间估计二项分布中成功比率p(即总体中具有某种特征的元素比率)的估计方法样本比率p=yn,当n较大时,p近似正态分布Ep=p, Vp=p(1-p)n总体比率p的大样本(1)100置信区间pZ2ppZ2p(1-p)n假定:样本容量n必须充分大。R语言: prop.test()3.5 两总体比率差p1-p2的区间估计R语言: prop.test()3.6 样本容量的确定精度要求:置信度1,允许均值的最大绝对误差d4. 参数的假设检验先对总体的某个未知参数或总体的分布形式作某种假设,然后由抽取的样本提供的信息, 构造合适的统计量,对所提供的假设进行检验,以做出统计判断是接受假设还是拒绝假设,这类统计推断问题称为假设检验问题,前者称为参数假设检验,后者称为非参数假设检验。归纳得到假设检验的主要步骤:1) 提出原假设H0与备择假设H1;2) 选择检验统计量W并确定其分布;3) 在给定的显著性水平下, 确定H0关于统计量W的拒绝域;4) 算出样本点对应的检验统计量的值;5) 判断: 若统计量的值落在拒绝域内, 则拒绝H0, 否则接受H0.在一个假设检验问题中, 拒绝原假设H0的最小显著性水平称为检验的p值.观测到检验统计量一个值至少如从样本数据计算的统计量值那样与原假设矛盾,且支持备择假设的概率。4.1 单正态总体参数(均值、方差)的检验均值的假设检验:Z检验,t检验方差的假设检验:2检验2(n-1)s224.2 两正态总体参数(均值、方差)的检验均值的比较:t检验l 大样本检验统计量:Z检验假定:样本容量足够大,两个样本都是从目标总体中独立、随机地选取的。l 小样本检验统计量:t检验设方差相等,在u1,u2相等的原假设下检验统计量:T= x-y- (1-2)(1n1+1n2)s2 t(n1+n2-2)假定:抽取样本的两个总体有近似正态的相对频率分布;两个总体的方差相等;随机样本是独立地取自两个总体。R语言:t.test(x, y, var.equal=TRUE); 当方差齐性不满足时,var.equal=FALSE例子:可燃气体和电力能源,哪种能以较低的成本产生出更多的有用能量。(基于两种方法的投入产出比数据)原假设:u1=u2方差的比较:F检验R语言:var.test()4.3 成对数据的t检验对一般情况下的两样本均值检验还没有完全解决. 所谓成对数据,是指两个样本的样本容量相等,且两个样本之间除均值之外没有另的差异。大样本:Z检验小样本:t检验 T= d-D0dn d-D0sdnT分布的自由度为(n-1), d和sd表示差的样本均值和标准差。假定:差的总体相对频率分布是近似正态的;配对差是从差的总体中随机选取的。当正态性假定严重违反时,t检验可能导致错误的推断。这种情况下,采用非参数Wilcoxon检验。R语言:t.test(x, y, paired=TRUE)4.4 检验总体比率总体比率假设的大样本检验: 检验统计量:Z= p-p0p01-p0n假定:样本容量n足够大以保证近似正态性。np,n(1p) 4R语言:prop.test( )例:某产品的优质品率一直保持在40%, 近期技监部门抽查了12件产品, 其中优质品为5件, 问在=0.05水平上能否认为其优质品率仍保持在40%?binom.test(c(7, 5), p=0.4)4.5 检验两个总体比率的差(p1-p2)假设的大样本检验:独立样本 / Z检验l P1-p2 0l P1-p2 = 0 假定:样本容量足够大以保证p1, p2近似正态性检验统计量:p1,p2相等的情况下:Z= p1-p2n1+n2p(1-p)n1n2 N(0,1)其中p= n1p1+n2p2n1+n2R语言:prop.test( )有电脑没有电脑男女1) 男、女生家中拥有电脑的比例是否一致?2) 有没有电脑跟性别是否有关系?5. 非参数的假设检验 许多非参数技术适用于分析不服从正态分布的数据;尽量从数据本身来获取所需要的信息。非参数检验着重于总体概率分布的位置,而不是总体参数,如均值。 不假定总体分布的具体形式,尽量从数据(或样本)本身来获得所需信息的统计方法称为非参数方法。5.1 检验单个总体的位置符号检验(位置检验),专门用于检验任一连续总体中位数的假设;与均值一样,中位数是分布中心或位置的度量。注:从一个肯定是非正态总体抽取一个小样本时,T检验是无效的。中位数的符号检验:对于充分大的n,均值为u=np,=np(1-p)的正态分布可以用来近似二项分布(n次中,每次概率为p,最后结果为k的概率,k=1,2,n)。检验统计量:Z= S-E(S)V(S)= S-0.5n0.5n R语言:借助于binom.testWilcoxon符号秩检验:大样本(n=25)检验统计量:Z=T - n(n+1)4n(n+1)(2n+1)24R语言:wilcox.test()5.2 分布的一致性检验: 2检验检验样本是否属于某种分布的假设 拟合性检验将a,b分成m份区间,假定分布为F0(x), 每个小区间Ai对应的概率pi0= F0ai- F0(ai-1)设ni为落入Ai的频数,总共为n。若假设成立,则实际频数ni与理论频数npi0比较接近,因此拟合优度检验转化为分类数据的实际频数与理论频数的一致性检验。检验统计量:1)分布完全已知(不带有未知参数)2=i=1m(ni-npi0)2npi0 2(m-1) 2)分布含有r个未知参数:2=i=1m(ni-npi0)2npi0 2(m-r-1)R语言:chisq.test(); 没有直接算带参数的拟合检验函数 Kolmogorov-Smirnov Tests: ks.test()5.3 两总体的比较与检验分类数据分析2独立性检验与5.2还是一致的若随机变量X, Y 的分布函数分别为F1(x)和F2(y), 且联合分布为F(x; y),则X与Y 的独立性归结为假设检验问题:H0 : F(x; y) = F1(x)F2(y) H1 : F(x; y) F1(x)F2(y)单向表:P3191) Pi的大样本置信区间2) Pi-pj的置信区间3) 假设检验,p相同(卡方检验)在r x s联列表下,问题等价为:pij= pi.p.j 其中pi.=PX=Xi,p.j=P(Y=Yj)pi.= ni.n; p.j=n.jn检验统计量:2=i=1rk=1snij-ni.n.jn2ni.n.jn在H0成立时,近似服从于 2(r-1s-1)R语言中函数chisq.test( )可完成独立性检验。drink - data.frame(tors=c(s,s,t,t),dr=c(drink,nodrink,drink,nodrink), num=c(90,10,20,80)drink.x - xtabs(num tors + dr, data=drink)chisq.test(drink.x)当22时,与“检验两个总体比率的差”的区别:某种特质的x1/n1,x2/n2两者的差独立性检验:比较两个因素之间是否有关系(独立)吸烟不吸烟肺癌患病者5030对照组100800Fisher精确检验在格子的期望频数小于5,选择Fisher精确检验独立性R语言中的fisher.test( )Wilcoxon秩和检验法在正态总体的假定下, 两样本的均值检验通常用t检验。但在不知总体分布时,t检验有风险。Wilcoxon秩和检验法是比较整个概率分布将两组样本排序,分别计算他们的秩,通过秩进行两总体的比较,而不仅仅是中位数。大样本(n110, n210)Wilcoxon秩和检验:(P617-618)检验统计量:Z=T1-n1n2+n1(n1+1)2n1n2(n1+n2+1)12wilcox.testMood检验位置参数:描述了总体的位置尺度参数:描述总体概率分布离散程度的参数两总体的方差检验在总体为正态时,可采用F检验;Mood检验是用来检验两样本尺度参数之间关系的一种非参数方法。样本X1;X2; ;Xm F(x-11)F分布?Y1; Y2; ; Yn F(y-22)构造秩统计量 符合正态分布R语言中函数mood.test( )可完成原假设的检验例子:两村农民的月收入的内部差异是否相同?5.4 多总体的比较与检验位置参数的Kruskal-Wallis秩和检验R中函数kruskal.test( )可完成原假设的检验例子:游泳、打篮球、骑自行车三种不同的运动在30分钟内消耗的热量是否相同?尺度参数的Ansari-Bradley检验R语言中函数ansari.test( )可完成原假设的检验例子:已知两个工人加工的零件尺寸,推断两人的加工精度是否一样?尺度参数的Fligner-Killeen检验6. 方差分析方差分析的主要工作就是将观测数据的总变异(波动)按照变异的原因的不同分解为因子效应与试验误差,并对其作出数量分析,比较各种原因在总变异中所占的重要程度,以此作为进一步统计推断的依据.在总体方差相同的假定下,对两总体均值差异的显著性进行了检验。在许多情况下有必要对3个或更多样本均值差异的显著性进行检验,或者等同于去检验零假设,样本均值全相等。(全美经典统计学)Understanding Group differences对只有一个因素两个水平的方差分析,与两总体均值检验的区别?6.1 单因子方差分析因素A有r个水平A1;A2; : : : ;Ar. 现在水平Ai下进行ni次独立观测, 得到观测数据为Xij ; j 1; 2; ; ni; i=1; 2; ; r; 则单因素方差模型可表示为 Xij= + i+ ij ij N(0,2) i=1rnii=0原假设:H0: 1=2=r注:则 Xij N(+i, 2) ; 上式也就是多正态总体均值是否相等的检验(vs. 4.2)条件:独立性、正态性、方差齐性SST 总离差平方和(总变差):所有数据与总平均之差的平方和SST=i=1rj=1ni(Xij-X)2, X=1ni=1rj=1niXijSSE 误差平方和(组内平方和):对于固定的i,观测值之间的差异大小的度量SSE=i=1rj=1ni(Xij-Xi.)2, Xi.=1nj=1niXijSSA 效应平方(组间平方和):各水平下平均值与总平均值之差的平方和SSA=i=1rj=1ni(Xi.-X)2当H0成立时SSE2 2n-r, SSA2 2r-1且SSe,SSa独立,于是F= SSA(r-1)SSE(n-r) F(r-1, n-r)R语言:aov()均值的多重比较:找出在进行方差分析时,哪些均值是不相等的原假设:H0: i= j , ijR软件中p值调整使用函数p.adjust( )R软件中函数pairwise.t.test( )可以得到多重比较的p值TukeyHSD(fit)同时置信区间:基于学生化极差分布的Tukey方法当原假设被拒绝,则因子A的r个水平色效应不全相等,希望对效应之差均值的多重比较只是找出哪些不一样i- j (ij)做出置信区间R语言:函数qtukey( )用于计算q分位数, 函数TukeyHSD( )用于计算同时置信区间方差齐性检测多正态总体方差的检验:检验数据在不同水平下方差是否相同R软件中, 函数Barlett.test( )提供Bartlett检验R的程序包car中提供了Levene检验的函数levene.test( )6.2 双因子方差分析无交互作用的方差分析每一个水平组合Ai,Bj下进行一次独立试验得到观察值Xij Xij= + i+ j + ij, i=1,2.,r;j=1,2,.,s ij N0,2,且各ij相互独立 i=1ri=0 ;j=1sj=0原假设:H01: 1=2=r=0; H02: 1=2=s=0 有交互作用的方差分析 为了考察因素间的交互作用, 要求在两个因素的每一水平组合下进行重复试验. 设在每种水平组合(Ai;Bj)下重复试验t次. 记第k次的观测值为Xijk. Xijk= + i+ j + ij + ijk, i=1,2.,r;j=1,2,.,s;k=1,2,t ijk N0,2,且各ijk相互独立 i=1ri=0 ;j=1sj=0; i=1rij=j=1sij=0原假设:H01: 1=2=r=0;A对指标X没有影响H02: 1=2=s=0;B对指标X没有影响H03: 11=12=rs=0;A和B对指标X没有联合影响6.3 协方差分析协方差分析(Analysis of Covariance, 简称ancova)是将线性回归分析与方差分析结合起来的一种统计分析方法. 协变量:将那些很难控制的因素作为协变量。协变量必须是连续数值型变量,多个协变量间相互独立,且与因素变量之间也没有交互影响。其基本思想就是: 将一些对响应变量Y 有影响的变量(指未知或难以控制的因素)看作协变量(covariate), 建立响应变量Y 随协变量X变化的线性回归关系, 并利用这种回归关系把X值化为相等后再对各处理组Y 的修正均值(adjusted means)间差别进行假设检验, 其实质就是从Y 的总的平方和中扣除X对Y 的回归平方和, 对残差平方和作进一步分解后再进行方差分析, 以更好地评价这种处理的效应. Yij= + i+Xij-X.+ ij, i=1,2,r;j=1,2,ni ij N(0,2) ,且各ij相互独立 i=1rnii=0, 0 其中为总平均, i为第i个水平的效应, 是Y 对X的线性回归函数, ij为随机误差,其中 X.是Xij的总平均原假设:H0: 1=2=rR中HH程序包中的函数ancova( )提供了协方差分析的计算7. 回归分析7.1 相关性及其度量cor.test()8. 主成分分析library(psych)data(USJudgeRatings)fa.parallel(USJudgeRatings,-1, fa=PC, n.iter=100, show.legend=FALSE, main=Scree plot with parallel analysis)pc - principal(USJudgeRatings,-1, nfactors=1)data(Harman23.cor)fa.parallel(Harman23.cor$cov, n.obs=302, fa=both, n.iter=100, show.legend=FALSE, main=Scree plot with parallel analysis)PC - principal(Harman23.cor$cov, nfactors=2, rotate=none)rc - principal(Harman23.cor$cov, nfactors=2, rotate=varimax)library(GPArotation)pc - principal(USJudgeRatings,-1, nfactors=1, score=TRUE)head(pc$scores)rc - principal(Harman23.cor$cov, nfactors=2, rotate=varimax)round(unclass(rc$weights), 2)rc$loadingsunclass(pc$weights)pc$loadingspc$scores与princomp不同,依据标准化的输入产生标准化的weights和scores9. 因子分析因子分析概念和理解因子分析是主成分分析的推广和扩展。主成分分析是将主成分表示为观察变量的线性组合;而因子分析是将变量表示为因子的线性组合。因子分析用以分析隐藏在表面现象(观察)背后的因子作用。例子:通过体育项目测试结果,发现决定体育成绩的因子(耐力、速度等),并计算各个学生因子的得分;通过面试结果,发现决定面试成绩的因子(外露能力、经验、专业、外貌等),并计算各个面试者各因子的得分,从而决定录取名单。 因子分析是研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。l R型因子分析:研究变量之间的相关关系(相关阵)l Q型因子分析:研究样本之间的相关关系(相似阵)主成分分析和因子分析都是数据降维的方法,但是因子分析在以下两个方面区别于主成分分析:1) 二者使用的模型不同。主成分分析并非一种模型,得到的主成分只是原始变量的线性组合;因子分析则假定存在因子模型,认为原始变量的变异可以用少数几个公共因子以及一个特殊因子来解释;2) 因子数目不同。主成分分析生成的主成分的数目与原始变量个数相同,事后由研究者根据需要保留一定数目的主成分;而在因子分析中,公因子数目是在公因子模型中事先规定的。因子分析过程模型:X=+AF+其中 X是随机向量(一个观察样本结果),A为因子载荷(loading)矩阵,F为公共因子(common factor)矩阵,为特殊因子(specific factor)向量1)参数估计:估计因子载荷矩阵和特殊方差矩阵l 主成分法l 主因子法l 极大似然法2)方差最大的正交旋转 (因子载荷不唯一,通过因子旋转,使得新因子有更好的实际意义)3)计算因子得分:加权最小二乘法(或Bartlett因子得分)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 盐的传统制作与民俗文化考核试卷
- 河道整治工程生态工程技术考核试卷
- 低温仓储的温湿度控制考核试卷
- 空调系统防霉除湿技术考核试卷
- 搪瓷制品成型工艺研究考核试卷
- 木箱包装培训
- 社区反诈工作总结(3篇)
- 司法工作计划(9篇)
- 销售业务员述职报告(22篇)
- 学校后勤计划项目科工作职责
- GB/Z 43281-2023即时检验(POCT)设备监督员和操作员指南
- 主动披露报告表
- 煤矿一通三防知识培训课件
- 2022年版小学《义务教育音乐课程标准》考试复习题库
- 筑业海南省建筑工程资料表格填写范例与指南
- 国家开放大学《广告学概论》形考任务1-4参考答案
- 毕业论文建筑消防系统论文
- 自制移动吊车(炮车)方案
- 《咕咚来了》PPT图文带mpa
- (三四级)农业经理人复习阿备考题库及答案(含理论和实操)
- 知识工程-庞晨
评论
0/150
提交评论