版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学知识点合集试验和事件:对某事物或现象所进行的观察或实验叫试验,把结果叫事件.基本事件(elementaryevent):如果一个事件不能分解成两个或更多个事件,就称为基本事件。一次观察只能有一个基本事件。样本空间:一个试验中所有的基本事件的全体称为样本空间.古典概型:如果某一随机试验的结果有限,而且各个结果出现的可能性相等,则某一事件A发生的概率为该事件所包含的基本事件个数m与样本空间中所包含的基本事件个数n的比值。统计概型:在相同条件下随机试验n次,某事件A出现m次(m≤n),则m/n称为事件A发生的频率。随着n增大,该频率围绕某一常数p上下波动,且波动幅度逐渐减小,趋于稳定,这个频率的稳定值就是该事件的概率。概率加法:(1)两个互斥事件:P(A+B)=P(A)+P(B);任意两随机事件:P(A+B)=P(A)+P(B)-P(AB)。事件独立(independent):一个事件发生与否不会影响另一个事件发生的概率,公式为:P(AB)=P(A)P(B)。互斥(相依赖)一定不独立,不独立不一定互斥(相依赖)。全概率公式:根据某一事件发生的各种原因的概率,计算该事件的概率。计算公式为:。贝叶斯公式:在条件概率的基础上寻找事件发生的原因.计算公式为:
,分母就是全概率公式.也称为逆概率公式。该公式是在观察到事件B已发生的条件下,寻找导致A发生的每个原因Ai的概率。P(Ai)称为验前概率,P(Ai|B)是验后概率。0—1分布:。0—1分布也称为两点分布,即非A即B。关于是否的概率统统是0-1分布。性别。二项分布:现实生活中,许多事件只是具有两种互斥结果的离散变量。如男性和女性、某种化验结果的阴性阳性,这就是二项分布..参数为n,p,记为X~B(n,p)。E(X)=np,D(X)=npq。当成功的概率很小,而试验次数很大时,二项分布接近泊松分布,此时=np。即P≤0.25,n>20,np≤5.二项定理近似服从正态分布。二项分布是0—1分布的n重实验,表示含量为n的样本中,有X个所需结果的概率。二项分布的正态近似:
,其中a=,b=,q=1-p。超几何分布:.即二项分布中,无放回的情况。泊松分布(poissondistribution):用来描述在一指定时间范围内或在指定的面积之内某事件出现的次数的分布。如某企业中每月发生的事故次数、单位时间内到达某一服务柜台需要服务的顾客人数、人寿保险公司每天收到的死亡声明个数、某种仪器每月出现故障的次数等。公式为:,E(X)=,D(X)=。是给定时间间隔内事件的平均数。期望:各可能值xi与其对应概率pi的乘积之和为该随机变量X的期望,即。概率密度满足的条件:(1)f(x)≥0;(2)。连续型随机变量的概率密度是其分布函数的倒数。。;
.正态分布(normaldistribution):正态分布的概率密度为:,x∈R.记作X~().正态分布图形特点:(1)f(x)≥0,即整个概率密度曲线都在x轴上方;(2)f(x)相对于x=对称,并在x=处取到最大值,最大值为;(3)曲线的陡缓由σ决定,σ越大,越平缓,σ越小,曲线越陡峭;(4)当x趋于无穷时,曲线以x轴为渐近线。正态分布的例子:某地区同年龄组儿童的发育特征、某公司的销售量、同一条件下产品的质量以平均质量为中心上下摆动、特别差和特别好的都是少数,多数在中间状态,如人群中的高个子和矮个子都是少数,中等身材居多等.标准正态分布,即在正态分布中,=0,σ=1,有,即X~N(0,1).用表示分布函数,表示概率密度。(—x)=1—(x)。方差:即每个随机变量取值与期望值的离差平方的期望值.随机变量的方差计算公式为:。标准差:随机变量的方差的平方根为标准差,记。标准差与随机变量X有相同的度量单位。期望、标准差、离散系数的使用:如果期望相同,那么比较标准差;如果期望不同,那么比较离散系数.3σ准则:由标准正态分布得:当X~N(0,1)时,P(|X|≤1)=2(1)—1=0.6826;P(|X|≤2)=2(2)-1=0.9545;P(|X|≤3)=2(3)-1=0.9973.这说明X的取值几乎全部集中在[-3,3]之间,超出这个范围的不到0.3%。将结论推广到一般正态,即X~N(,σ)时,有P(|X-|≤σ)=0。6826;P(|X-|≤2σ)=0。9545;P(|X—|≤3σ)=0。9973.可以认为X的值一定落在(—3σ,+3σ)内.矩:(1)为样本k阶矩,其反映出总体k阶矩的信息,当k=1时,即均值;(2)为样本k阶中心矩,它反映出总体k阶中心矩的信息,当k=2时,即方差;(3)为样本偏度,它反映总体偏度的信息,偏度反映了随机变量密度函数曲线在众数两边的对称偏斜性;
(4)为样本峰度,它反映出总体峰度的信息,峰度反映密度函数曲线在众数附近的峰的尖峭程度。充分统计量:统计量加工过程中一点信息都不损失的统计量称为充分统计量。因子分解定理:充分统计量判定方法.当X=(X1,X2,…,Xn)是来自正态分布N(,σ2)的一个样本时,若已知,则是σ2的充分统计量,若σ2已知,则是的充分统计量。精确抽样分布和渐近分布:在总体X的分布类型已知时,若对任一自然数n,都能导出统计量T=(X1,X2,…,Xn)的分布数学表达式,这种分布就是精确抽样分布,包括卡方、F,t分布;当n较大时,用极限分布作为抽样分布的一种近似,这种极限分布称为渐近分布,如中心极限定理.卡方分布:设随机变量X1,X2,…,Xn相互独立,且Xi服从标准正态分布N(0,1),则它们的平方和服从自由度为n的分布。E()=n;D()=2n;具有可加性;当自由度增加到足够大时,分布的概率密度曲线趋于对称,当n趋于无穷时,的极限分布是正态分布。t分布:也称为学生氏分布。设随机变量X~N(0,1),Y~(n),且X与Y独立,则,其分布称为t分布,记为t(n),n是自由度。t分布的密度函数是偶函数。当n≥2时,E(t)=0,;当n≥3时,D(t)=n/(n-2)。t(n)的方差比N(0,1)大一些.自由度为1的分布称为柯西分布,随着n增加,t分布的密度函数越来越接近标准正态分布的密度函数。实际应用中,当n≥30时,t分布于标准正态分布很接近。另有一个关于t分布的抽样分布:,称为服从自由度为(n-1)的t分布。F分布:设随机变量Y与Z独立,且Y和Z分别服从自由度为m和n的分布,随机变量X如下:。则成X服从第一自由度为m,第二自由度为n的F分布,记为X~F(m,n)。E(X)=n/(n—2),n>2;D(X)=,n>4。t分布与F分布的关系:如果随机变量X服从t(n)分布,则X2服从F(1,n)的F分布。这在回归系数显著性检验中有用。的抽样分布(samplingdistribution):当总体分布为正态分布时,的抽样分布仍然是正态分布,此时E()=,D()=σ2/n,则。其说明当用样本均值去估计总体均值时,平均来说没有偏差(无偏性);当n越来越大时,的散布程度越来越小,即用估计越来越准确.中心极限定理(centrallimittheorem):不管总体的分布是什么,只要总体的方差σ2有限且要求n≥30,此时样本均值的分布总是近似正态分布,即~N(,σ2/n).样本比例的抽样分布:如果在样本大小为n的样本中具有某一特征的个体数为X,则样本比例为:.π是总体比例,即p^=X/n=π.两个样本均值之差的分布:若为两个总体,则:
;
;若是两个样本,则:
;
。样本方差的分布:设X1,X2,…,Xn为来自正态分布的样本,则设总体分布为N(,σ2),则样本方差S2的分布为:。两个样本方差比的分布:设X1,X2,…,Xn是来自正态分布的样本,y1,y2,…,yn也是来自正态分布的样本,且Xi与yi独立,则
。参数估计(parameterestimation):用样本统计量去估计总体的参数.点估计(pointestimate):用样本统计量的某个取值直接作为总体参数的估计值.区间估计(intervalestimate):是在点估计的基础上,给出总体参数估计的而一个区间范围,该区间通常由样本统计量加减估计误差得到.置信区间(confidenceinterval):在区间估计中,由样本统计量所造成的总体参数的估计区间称为置信区间。置信水平(confidencelevel):如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例为置信水平,也称为置信度或置信系数。其含义为:如果做了100次抽样,大概有95次找到的区间包含真值,而不是95%的可能落在区间,因为统计量不涉及概率问题。无偏性(inbiasedenss):指估计量抽样分布的期望等于被估计的总体参数。设总体参数为θ,估计量为θ^,如果E(θ^)=θ,则称θ^为θ的无偏估计量。有效性(efficiency):指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效.一致性(consistency):指随着样本量的增大,点估计量的值越来越接近被估总体的参数,换个说法,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参数。样本量与置信水平、总体方差和估计误差的关系:样本量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需的样本量也就越大;样本量与总体方差成正比,总体的差异越大,所要求的样本量也越大;样本量与估计误差的平方成反比,即可接受的估计误差的平方越大,所需的样本量就越小。圆整法则:将样本量取成较大的整数,也就是将小数点后面的数值一律进位成整数.两类错误:一类是原假设H0为真却拒绝,这类错误用α表示,称为弃真;另一类是原假设为伪而我们却接受,这种错误用β表示,也称存伪.两类错误的控制原则:如果减小α错误,就会增大犯β错误的机会;若减小β错误,也会增大犯α错误的机会.规则是:首先控制α错误,这是因为原假设是什么常常是明确的,而备择假设是什么则常常是模糊的.P值:P值是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。P值越小,拒绝原假设的理由就越充分。P值的长处是它反映了观察到的实际数据与原假设之间不一致的概率值.双侧检验与单侧检验:双侧检验主要是检验是否相等,如90年的婴儿体重与89年婴儿体重是否相等;另一种是单侧检验,即关心的假设问题带有方向性,如灯泡的使用寿命,汽车行驶距离等;另一种是数值越小越好,如废品率、生产成本等。统计量的选择:在一个总体参数的检验中,主要统计量有三个,z、t和.z和t用于均值和比例检验,用于方差检验。统计量选择步骤如下:(1)是否是大样本,如果是,那么如果总体呈正态分布,样本统计量也呈正态分布;如果总体不呈正态分布,样本统计量渐进服从正态分布;此时可以使用z统计量(2)如果是小样本,那么观察σ,如果σ已知,样本统计量将服从正态分布,此时可以用z统计量(3)如果未知σ,则只能使用样本标准差,样本统计量服从t分布,应采用t统计量。t统计量的精度不如z统计量,这是总体信息σ未知所需要付出的代价.总体比例检验公式:。P为样本比例,π0是总体比例π的假设值.总体(population):包含所研究的全部个体的集合,组成总体的每一个元素称为个体。当总体的范围难以确定时,可根据研究的目的来定义总体.样本(sample):样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量.参数(parameter):参数是用来描述总体特征的概括性数字度量。统计量(statistic):统计量是用来描述样本特征的概括性数字度量.抽样的目的就是根据样本统计量估计总体参数。统计量中不能包含未知参数。变量(variable):说明现象某种特征的概念,特点是从一次观察到下一次观察结果会呈现出差别或变化。变量分为分类变量、顺序变量、数值型变量,数值型变量又分为离散型变量和连续型变量。概率抽样(probabilitysampling):也称随机抽样,指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。概率抽样分为简单随机抽样、分层抽样、整群抽样、系统抽样和多阶段抽样。简单随机抽样(simplerandomsampling):从包括总体N个单位的抽样框中随机的一个一个的抽取n个单位作为样本,每个单位的入样概率是相等的。非概率抽样(non-simplerandomsampling):指抽取样本时不依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。包括方便抽样、判断抽样、自愿样本、滚雪球抽样和配额抽样。抽样误差(samplingerror):指由于抽样的随机性引起的样本结果与总体真值之间的误差。频数(frequency):是落在某一特定类别或组中的数据个数。把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布。列联表(contingencytable)和交叉表(crosstable):由两个或两个以上变量交叉分类的频数分布表称为列联表.二维的列联表又称为交叉表。帕累托图(paretochart):按各类别数据出现的频数多少排序后绘制的条形图。通过对条形图排序,容易看出哪类数据出现得多,哪类数据出现的少.饼图(piechart):是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本中各组成部分的数据站全部数据的比例,对于研究结构性问题十分有用.环形图(doughnutchart):把饼图叠在一起,挖去中间部分就是环形图。环形图可显示多个样本部分所占的相应比例,从而有利于构成的比较研究。累积频数(cumulativefrequencies):将各种有序类别或组的频数逐级累加起来得到的频数,通过累积频数可以很容易看出某一类别以下或某一类别以上的频数之和。组中值(classmidpoint):是每一组中下限值与上限值中间的值,组中值可以作为该组数据的一个代表值,但是用组中值有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布,否则会产生误差.直方图(histogram):适用于展示分组数据分布的图形,用于大批量数据的分析。茎叶图(stem-and—leafdisplay):反映原始数据分布的图形,由茎叶两部分组成,其图形是由数字组成的。可以看出数据的分布形状及数据的离散情况且能保留原始信息,适用于小数据。箱线图(box-plot):由最大值、最小值、中位数、两个四分位数组成,主要用于反应原始数据分布的特征,还可以进行多组数据分布特征的比较。线图(lineplot):主要用于反应现象随时间变化的特征.散点图(scatterdiagram):用二维坐标展示两个变量之间关系的图形。气泡图(bubblechart):可用于展示三个变量之间的关系。一个变量是横轴、一个变量是纵轴、一个变量用气泡大小表示。雷达图(radarchart):也称蜘蛛图。设有n组样本S1,S2…Sn,每个样本测得P个变量X1,X2…XP,要绘制这P个变量的雷达图,具体做法是,先画一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,再将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,再将同一样本的值在P个坐标上的点连线.这样,n个样本构成的n个多边形就是雷达图。雷达图在显示或对比各变量的数值总和时十分有用,假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比.此外,利用雷达图可以研究多个样本之间的相似度。众数(mode):一组数据中出现次数最多的变量值,用表示.主要用于测度分类数据、顺序数据、数值数据的集中趋势,不受极端值影响,一组数据分布的最高峰点所对应的数值即为众数.只有在数据量较大时,众数才有意义。中位数(median):中位数时一组数据排序后处于中间位置上的变量值,用表示。中位数主要用于测度顺序数据和数值型数据的集中趋势,但不适用于分类数据。中位数位置为:(n+1)/2;中位数的值为.中位数是一个位置代表值,其特点是不受极端值影响,在研究收入分配时很有用。平均数也称为均值(mean),是集中趋势的最主要测度值,主要适用于数值型数据,不适用于分类数据和顺序数据.平均数分为简单平均数和加权平均数,简单平均数(simplemean)的计算公式为:.根据分组数据计算的平均数称为加权平均数(weightedmean).设原始数据被分为k组,各组的组中值分别用表示,各组变量值出现的品数分别用表示,则样本加权平均数的计算公式为:,其中n=。平均数是一组数据的重心所在,是数据误差相互抵消后作用的结果.几何平均数(geometricmean):是n个变量值乘积的n次方根,用G表示,计算公式为:。几何平均数主要用于计算平均率,当所掌握的变量值本身是比率的形式时,采用几何平均法更合理。在实际中,几何平均数主要用于计算现象的平均增长率。异众比率(variationratio):指非众数组的频数占总频数的比例,用表示,计算公式为:.fm是众数组的频数,fi是变量值的总频数.异众比率主要用于衡量众数对一组数据的代表程度.异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,非众数组的频数占总频数的比重越小,众数的代表性越好。异众比率可用于分类数据、顺序数据和数值型数据.四分位差(quartiledeviation):也称为内距或四分间距(inter—quartilerange):是上四分位数与下四分位数之差,用表示,计算公式为:.四分位差反映了中间50%数据的离散程度,其数值越小,中间的数越集中;数值越大,中间的数越分散.四分位数不受极值影响。可用于顺序数据和数值数据,但不能用于分类数据。极差(range):也称为全距,用R表示,指一组数据的最大值和最小值之差.计算公式为:.极差容易受极端值影响。平均差(meandeviation):也称为平均绝对离差(meanabsolutedeviation):是各变量值与其平均数离差绝对值的平均数。用表示.平均差以平均数为中心,反应了每个数据与平均数的平均差异程度,能全面反应一组数据的平均差异程度,但由于为避免出现0而取绝对值,所以实际中应用较少。
根据未分组数据计算平均差的公式为:;
根据分组数据计算平均差的公式为:。方差(variance)与标准差(standardvariance):方差是各变量值与其平均数离差平方的平均数.方差的平方根是标准差.设样本方差为,根据分组和未分组数据计算样本方差的公式为:,其中n-1是自由度.标准差更具有实际意义.自由度(degreeoffreedom):自由度指附加各独立的观测值的约束或限制的个数。当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数是1个,因此只有n-1个数据可以自由取值。例如,假定样本有3个数,2,4,9,则=5,那么如果前两个值取5和8,则第三个数必须取2才能使=5,所以有一个数是不能自由取值的,所以自由度是n-1.标准分数(standardscore):是变量值与其平均数的离差除以标准差后的值,也称为标准化值或z分数,计算公式为:.标准分数给出了一组数据中各数值的相对位置.比如,如果某个数值的标准分数为-1.5,就知道该数值低于平均数1.5倍的标准差.标准分数具有均值为0,标准差为1的特性,实际上z分数只是对数据进行了线性转换。用于数据标准化和检测离散数据。经验法估计数据的相对位置:当一组数据对称分布时,约有68%的数据在平均数±1个标准差内;约有95%的数据在平均数±2个标准差内;约有99%的数据在平均数±3个标准差内。三个标准差之外的数据称为离群点。切比雪夫不等式(Chebyshev’sinequality):经验法只适合对称分布数据,而切比雪夫不等式适用于任何分布的数据,但只给了下界,即所占比例至少是多少。切比雪夫不等式公式为:.根据该公式可知,至少有(1-1/²)个数据落在k个标准差之内,对于k=2,该不等式的含义是,至少有75%的数据落在±2个标准差之内。离散系数:也称为变异系数(coefficientofvariation),是一组数据的标准差与其相应的平均数之比,计算公式为:。离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度大。离散系数是比较平均水平不同或计量单位不同的不同组别的变量值的离散程度.离散测度总结:分类数据主要用异众比率来测度离散程度;顺序数据主要用四分位数来测度离散程度;数值数据主要用方差和标准差测度离散程度;而对于不同的样本数据,用离散系数比较离散程度。偏态(skewness):偏态是对数据分布对称性的测度。测度偏态的统计量是偏态系数(coefficientofskewness),记作SK。根据未分组和分组的原始数据计算偏态系数的公式为:。如果一组数据的分布是对称的,则偏态系数等于0,表明分布是对称的,若偏态系数大于1或小于—1,则称为高度偏态分布;若偏态系数在0。5~1或-1~-0.5,则是中等偏态分布。根据分组的SK公式中,很明显是将离差的三次方的平均数除以,是将偏态系数转化为相对数。相对数:是两个有联系的指标的比值,它可以从数量上反映两个相互联系的现象之间的对比关系.峰态(kurtosis):是对数据分布平峰或尖峰程度的测度。测度峰态的统计量是峰态系数(coefficientofkurtosis),记作K。峰态通常与标准正态分布比较而言的。如果数据服从标准正态分布,则峰度为0,否则为平峰分布或尖峰分布。根据未分组和分组数据计算峰态系数的公式为:,
。当K〉0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。分组公式中也可以不减3,此时比较的标准是3。分布:主要用于对两个定类变量之间的关系的分析.对定类变量进行分析,一般是把检验问题进行转化,通过考察频数与其期望频数之间的吻合程度,达到检验目的。列联表的分布:有两个方面,一个是观察值的分布,一个是期望值的分布。列联表检验:,自由度为:(行数—1)×(列数-1),fe表示期望值频数,f0表示观察值频数.计算出以后,再根据附录表和显著性水平计算。如果<,那么不能拒绝原假设,调查数据的差异性是由于抽样的随机性造成的。越小,行列之间关系越密切。列联表检验两种方法:一种是拟合优度检验,一种是独立性检验.两种方法最大的区别在于期望值的求法。拟合优度检验期望值的计算方法是:(行合计项/总数)*列总计项;独立性检验期望值的计算方法是:(行合计项/总数)*(列合计项/总数)*合计。独立性检验要求样本足够大,如果只有两个单元,每个单元的期望频数必须是5以上;倘若有两个以上的单元,如果20%的单元期望频数小于5,则不能用检验独立性。相关系数(correlationcoefficient):描述2×2列联表数据相关程度最常用的一种相关系数。公式为:。当ad=bc时(即对角线数值相乘相等时),=0;若对角线数据有一对为0,=±1,表示两个变量完全相关。取值主要在0~1,且绝对值越大,相关程度越高.C系数(coefficientofcontingency):也称列相关系数或列联系数,主要用于大于2×2列联表的情况。计算公式为:。当列联表中两个变量相互独立时,c=0,但不可能大于1,一定低于值。C系数可能的最大值依赖于列联表的行数和列数,且随着行和列的增大而增大。因此,根据不同的行和列计算的列联系数无法比较,除非两个列联表中的行数和列数一致。C系数中,对于2×2列表,c=0。7071;3×3列表,c=0。8165;4×4列表,c=0.87,这些都是每种列表的最大c值。V系数:V系数也不限列联表的大小,计算公式为:。min是指行和列中较小的一个。当两个变量相互独立时,V=0;当完全相关时,V在0~1之间。如果列联表中有一维是2,那么V=。单样本t检验:目的是利用来自某总体的样本数据,推断该总体的均值是否与制定的检验值之间存在差异,它是对总体均值的假设检验.其零假设为:总体均值与指定检验值之间不存在显著差异。公式为.两配对样本t检验:目的是利用来自两个总体的配对样本,推断两个总体的均值是否存在显著差异.它和独立样本t检验的差别就是要求两个样本是配对的.由于配对样本在抽样时不是相互独立的,而是相互关联的,因此在进行统计分析时必须考虑到这种相关性,否则会浪费大量统计信息。要求:两组样本容量相同;两组样本观察值顺序不能调换;保持一一对应的关系。方差分析(analysisofvariance,ANOVA):通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著性影响。数值型数据是因变量,分类型数据是自变量。方差元素():在方差分析中,所要检验的对象称为因素或因子。因素的不同表现称为水平或处理.每个因子水平下得到的样本数据称为观测值.比如检验行业中的四个行业的显著性差异,那么这就是个单因素(一个大的行业总体)四水平(四个行业)的试验。组内误差():来自水平内部的数据误差称为组内误差,也就是由抽样的随机性所造成的随机误差。组内误差只含有随机误差。组间误差():来自不同水平之间的数据误差称为组间误差。这种差异可能是由抽样本身形成的随机误差,也可能是由行业本身的系统性因素造成的系统误差.单因素方差总平方和(SST):反映全部数据误差大小的平方和,其反映全部观测值的离散情况.计算公式为:,即每一个水平均值与总均值的差的平方的和.SST=SSE+SSA.自由度为n-1.单因素方差组内平方和(SSE):反映组内数据误差大小的平方和,也称误差平方和或残差平方和。计算公式为:.自由度为k—1。单因素方差组间平方和(SSA):反映组间数据误差大小的平方和,也称因素平方和,反映样本均值之间的差异程度.计算公式为:。自由度为n—k。三种误差之间的关系:SSA是对随机误差和系统误差大小的度量,它反映了自变量对因变量的影响,也称为自变量效应或因子效应;SSE是对随机误差大小的度量,它反映了除自变量对因变量的影响之外,其他因素对因变量的影响,SSE也称为残差效应。方差分析的三个基本假定:每个总体都服从正态分布;各个总体的方差相同;观测值相互独立。均方(meansquarem,MS):由于各误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影响,需要将其平均,也就是用各平方和除以他们所对应的自由度,这一结果称为均方,也称为方差。F分布():组内均方记为MSE,组间均方称为MSA。将MSA与MSE对比,即得到方差统计量F,也就是F分布..单因素方差相关系数():为组间平方和(SSA)占总平方和(SST)的比例大小,记为,公式为:。得到的值即自变量对因变量的影响效应的比值,该比值即为残差效应的比值.把开平方即可测量关系的强度,若得0.59,说明两者之间有中等以上的关系。方差的多重比较(multiplecomparisonprocedures):通过对总体均值之间的配对比较来进一步检验哪些均值之间存在差异。方差的多重比较——最小显著差异法(LSD):(1)提出假设H0:μi=μj,H1:μi≠μj;(2)计算检验统计量:;(3)计算。t的自由度为n—k,k是因素中水平的个数;(4)若,则拒绝H0.双因素方差分析(two—wayanalysisofvariance):在对实际问题的研究中,有时需要考虑几个因素对试验结果的影响。如分析影响彩电销售的因素时,需要考虑品牌、销售地区、价格等多个因素的影响。当方差分析中涉及两个分类型自变量时,称为双因素方差分析.双因素方差分析的交互性:若两个因素对观测量的影响是相互独立的,那么称为无交互作用的双因素方差分析,或无重复双因素分析;如果除了两个因素对销售量的单独影响,两个因素的搭配还会对销售量产生一种新的影响,那么称为有交互的双因素方差分析,或可重复双因素分析.双因素方差总平方和:
,
即总误差平方和=行因素误差平方和+列因素误差平方和+除行列因素之外的剩余因素影响产生的误差平方和,SST=SSR+SSC+SSE。双因素方差分析的F分布:,检验行因素对因变量的影响是否显著;,检验列因素对因变量的影响是否显著.双因素方差相关系数():为行变量平方和(SSR)与列变量平方和(SSC)的和占总平方和(SST)的比例大小,记为,公式为:。得到的值即自变量对因变量的影响效应的比值,该比值即为残差效应的比值。把开平方即可测量关系的强度,若得0.59,说明两者之间有中等以上的关系。方差分析中自变量因变量的确定:若要分析A对B是否有影响,那么A是自变量,即影响因变量的因素,B是因变量.方差分析各组均值的精细比较:如果有4个总体均值,单因素分析可以对4个均值单独总体比较,但有时候需要把4个总体均值分两组分别比较,此时就可以引入精细比较法。该方法将问题转化为研究这两组总的均值是否存在显著差异。这种事先制定均值的线性组合,再对该线性组合进行检验的分析方法就是各组均值的精细比较。协方差分析的要求:协变量是连续型数值变量,多个协变量之间相互独立,且与因素变量之间也没有交互影响.协方差分析:将观察变量总的离差平方和分解为由因变量、因变量交互、协变量、随机因素引起的,即在扣除了协变量对观察变量的影响后,分析因变量对观察变量的影响。协方差分析也采用F检验法,处理计算思路和多因素方差分析相似。判断是否有协变量的方法:绘制图形,观察协变量和因变量之间有无关联性。若从图形可以判断两者有显著关系,则可引入协方差分析。回归与相关:是数值型自变量与数值型因变量之间关系的分析方法。如果研究的是两个变量之间的关系,则是简单相关或回归,如果是两个以上变量之间的关系,就是多元回归或相关.回归和相关还分为线性和非线性。变量之间的关系:变量之间的关系为函数关系或相关关系.函数关系是一一对应的确定关系,而相关关系不存在完全确定的关系。由于影响一个变量的因素有很多,才造成了变量之间关系的不确定性。变量之间存在的不确定的数量关系称为相关关系。相关的种类:线性相关、非线性相关、完全相关和不相关。如果变量之间的关系近似的表现为一条直线,那么是线性相关;如果变量之间的关系近似的表现为一条曲线,那么是非线性相关或曲线相关;如果一个变量完全依赖于另一个变量,各观测点落在一条直线上,称为完全相关;如果两个变量的观测点很分散,无任何规律,那么是不相关。相关系数(correlationcoefficient):是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;若是根据样本数计算的,则称为样本相关系数,记为r。计算公式为:
该公式也称为线性相关系数,或皮尔逊相关系数.皮尔逊相关系数适用于连续变量之间的相关程度.R=0只代表无线性关系,但不能代表没有关系。当r〉0。8,说明盖度相关;0。5-0。8说明中度相关,0。3—0。5说明低度相关,r<0.3,说明不相关。r的显著性检验方法:(1)提出假设:H0:ρ=0;H1:ρ≠0;(2)计算检验的统计量:;(3)决策:根据给定的α和df=n-2,查t分布表,得出tα/2(n—2)的临界值.若|t|>tα/2,则拒绝零假设,表明总体的两个变量之间存在显著性管系。斯皮尔曼相关系数(Spearman):该系数用来度量顺序水准变量间的线性相关关系.它是利用两变量的秩次大小作线性分析。适用条件有二:第一,两个变量的变量值是以等级次序表示的资料;(2)一个变量的变量值是等级数据,另一个变量的变量值是等距或比率数据,且两总体不要求是正态分布,样本容量不一定大于30.缺点是计算精度不高。斯皮尔曼系数用rR表示,公式为:,其中D是两个变量每对数据等级之差;n是两列变量值的对数.肯德尔系数(kendall):肯德尔等级相关系数用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情况.这种指标采用非参数检验方法测度变量间的相关关系,利用变量的秩计算一致对数目和非一致对数目.如果两变量具有较强的正相关,则一致对数目U较大,否则一致对数目和非一致对数目应该相近。肯德尔系数计算公式如下:。偏相关分析:其是在扣除其他因素的作用大小以后,重新来测度这两个因素间的关联程度。这种方法的目的在于消除其他变量关联性的传递效应。偏相关系数计算公式为:。距离分析:距离分析是对观测量之间或变量之间相似或不相似的程度的一种测度,根据变量的不同类型,可以有许多距离、相似程度测量指标供用户选择。但由于距离分析只是一个预分析过程,所以距离分析不会给出P值,而只能给出各变量/记录间距离的大小,以供用户自行判断相似性。调用距离分析过程可对变量内部各观察单位间的数值进行距离相关分析,以考察相互间的接近程度,也可用于考察变量的相似程度.在距离分析中,主要利用变量间的相似性测度和不相似性测度度量研究对象之间的关系。回归分析:侧重于测度变量之间的关系强度,并通过一定数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。回归分析解决的问题:(1)确定变量之间的表达式;(2)对关系式的可信程度进行检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,那些是不显著的;(3)预测.自变量和因变量:被预测或被解释的变量称为因变量;用来预测或用来解释因变量的变量称为自变量.如预测一定的贷款余额条件下的不良贷款是多少,被预测的不良贷款,是因变量,用来预测的是贷款余额,是自变量。一元线性回归:当回归中只涉及一个自变量时称为一元回归,若因变量y与自变量x之间的为线性关系时,是一元线性回归。回归模型(regressionmodel):描述因变量y如何依赖于自变量x和误差ε的方程称为回归模型。只涉及一个自变量的一元线性回归模型可表示为y=β0+β1x+ε。误差项ε:是一个服从正态分布的随机变量,且独立,即ε~N(0,σ2)。独立性意味着对于一个特定的x值,它所对应的ε与其他x所对应的ε不相关。因此,对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关.这表明,在x取某个确定值的情况下,y的观察值非常靠近直线;当σ2较大时,y的观察值将偏离直线。对于任何一个给定的x值,y都服从期望值为β0+β1x,方差为σ2的正态分布,且对于不同的x都具有相同的方差.回归方程(regressionequation):描述因变量y的期望值如何依赖于自变量x的方程。一元线性回归方程为:E(y)=β0+β1x。估计的回归方程(estimatedregressionequation):用样本统计量和代替回归方程中未知参数和,即估计的回归方程。表示回归直线在纵轴上的截距;是回归系数。最小二乘估计:用最小化图中垂直方向的离差平方和来估计参数β0和β1,根据这一方法确定模型参数β0和β1的方法称为最小二乘法,也称最小平方法。它是通过使用因变量的观察值yi与估计值之间的离差平方和达到最小来估计β0和β1的方法。公式为。在回归分析中对截距β0不赋予任何意义。拟合优度(goodnessoffit):回归直线与各观测点的接近程度称为回归直线对数据的拟合优度.为说明直线的拟合优度,需要计算判定系数。判定系数:判定系数是对估计的回归方程拟合优度的度量。变差:因变量y的取值是不同的,y取值的这种波动称为变差。变差产生的原因有两个:第一,由自变量x的取值不同造成的;第二,除x以外的其他因素(非线性影响或测量误差等)的影响。对一个具体的观测值来说,变差的大小可以用实际观测值y与其均值之差(y-)来表示。而n次观察值的总变差可由这些离差的平方和表示,称为总平方和,记为SST,即。在该公式中,等号右边后半部分反映y的总变差中由于x和y之间的线性关系引起的y的变化部分,它是可以由回归直线来解释的yi变差部分,称为回归平方和,记为SSR;另一部分是各实际观测点与回归值的残差的平方和,它是除x对y的线性影响之外的其他因素对y的变差作用,是不能由回归直线来解释的yi变差部分,称为残差平和和或误差平方和,记为SSE。回归直线拟合的好坏取决于(SSR/SST),各点越靠近直线,比例越大,直线拟合越好.该比例称为判定系数,记为。判定系数的判定:若所有观测点都落在直线上,残差平方和SSE=0,=1,拟合是完全的;如果y的变化与x无关,x完全无助于解释y的变差,此时,=0。越接近于1,回归平方和占总平方和的比率越大。估计标准误差(standarderrorofestimate):度量各实际观测点在直线周围的散布状况的一个统计量,它是均方残差的平方根,用SE表示,其计算公式为:
。估计标准误差是对误差项ε的标准差σ的估计,它可以看作在排除了x对y的线性影响后,y随机波动大小的一个估计量.从估计标准误差的实际意义看,它反映了用估计的回归方程预测因变量y时预测误差的大小,若各观测点越靠近直线SE越小,回归直线对各观测点的代表性就越好,根据估计的回归方程进行预测也就越准确;若各观测点全部落在直线上,则SE=0。回归分析的检验有两个内容:一是线性关系检验,二是回归系数检验。前者检验x和y之间的线性关系是否显著,后者是检验x对y的影响是否显著。线性关系检验的步骤:(1)提出假设:H0:β1=0,即两个变量之间的线性关系不显著;(2)计算检验统计量F:;(3)决策:确定显著性水平α,并根据分子的df=1和分母的df=n—2查F分布表,找到响应的临界值Fα。若F>Fα,拒绝H0,表明两个变量之间的线性关系显著;否则,不拒绝H0,表明没有证据表明两个变量之间线性关系是显著的。回归系数检验步骤:(1)提出假设:H0:β1=0,即回归系数β1=0;(2)计算检验统计量:,其中,Se是ε的估计值;(3)决策:确定显著性水平α,并根据分子的df=n—2查t分布表,找到响应的临界值tα/2。若|t|>tα/2,拒绝H0,否则接受H0,表明没有证据表明两个变量之间线性关系是显著的。在一元线性回归中,线性的检验和回归的检验是等价的。点估计:对于x的一个特定值x0,求出y的一个估计值就是点估计。点估计可以分为两种:一是平均值的点估计,二是个别值的点估计。前者是对总体参数的估计,后者是对因变量的某个具体取值估计。平均值点估计和个别值点估计:平均值点估计是利用估计的回归方程,对于x的一个特定值x0,求出y的平均值的一个估计值E(y0);个别值点估计是利用估计的回归方程,对于x的一个特定值x0,求出y的一个个别值.在点估计条件下,对于同一个x0,平均值的点估计和个别值的点估计的结果是一样的,但在区间估计中不同。区间估计:利用估计的回归方程,对于x的一个特定值x0,求出y的一个估计值的区间就是区间估计。区间估计有两种:一是置信区间估计,它是对x的一个特定值x0,求出y的平均值的估计区间,这一区间称为置信区间;二是预测区间估计,它是对x的一个给定值x0,求出y的一个个别值的估计区间,这一区间称为预测区间。置信区间估计(confidenceintervalestimate)计算步骤:(1)计算点估计值;(2)计算tα/2(n-2);(3)根据残差计算如下公式:,即得区间。当时,估计最精确,否则,y的平均值的置信区间就越宽,越不精确。预测区间估计(predictionintervalestimate):方法与置信区间估计相似,但公式变成了,多了一个1,因此预测区间要比置信区间宽。四种估计举例:(1)平均值点估计:估计贷款余额为100亿元,所有分行不良贷款的平均值;(2)个别值点估计:估计贷款余额为72。8亿元的那个分行的不良贷款;(3)置信区间估计:估计贷款余额为100亿元,建立不良贷款的95%的置信区间;(4)预测区间估计:估计贷款余额为72.8亿元的那个分行的不良贷款的95%的置信区间。一元线性回归的注意:不能用样本数据之外的x值去预测相应的y值.残差分析(residual):确定有关ε的假定是否成立的方法之一是残差分析。标准化残差(standardizedresidual):对ε正态性假定的检验,也可通过对标准化残差的分析来完成。标准化残差是残差除以它的标准差后得到的数值,也称为皮尔逊残差或半学生化残差(semi-studentizedresiduals),用ze表示。第i个观察值的标准化残差表示为:,se是残差的标准差估计.如果误差项ε服从正态分布这一假设成立,那么标准化残差的分布也应服从正态分布。因此,在标准化残差图中,大约有95%的标准化残差落在±2之间。多元回归模型(multipleregressionmodel):设因变量为y,k个自变量分别为x1,x2…xk和误差ε的方程为多元回归模型。公式为。多元回归方程(multipleregressionequation):即,它描述了因变量y的期望值与自变量xi之间的关系.多重判定系数(multiplecoefficientifdetermination):是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量y的变差中被估计的回归方程所解释的比例。调整的多重判定系数(adjustedmultiplecoefficientofdetermination):调整的多重判定系数记为,计算公式为:。与R方类似,不同的是同时考虑了样本量n和模型中自变量的个数k的影响,这就使得的值永远小于R方,,而的值却不会由于模型中自变量个数的增加而越来越接近.因此,多元回归用调整的多重判定系数。复相关系数:R方的平方根称为复相关系数,或者多重相关系数,它度量了因变量同k个自变量的相关程度。多元线性回归的估计标准误差:.多元回归线性关系检验步骤:(1)作出假设:H0:β1=β2=…βk=0;(2)计算F统计量;(3)作出决策:给定α,根据分子自由度l,分母自由度n-k-1,查F分布表,若F>Fα,则接受原假设.多元回归系数检验步骤:(1)提出假设:H0:βi=0,即回归系数βi=0;(2)计算检验统计量:,其中,Se是ε的估计值;(3)决策:确定显著性水平α,并根据分子的df=n-k-1查t分布表,找到响应的临界值tα/2。若|t|〉tα/2,拒绝H0,否则接受H0,表明没有证据表明两个变量之间线性关系是显著的。在一元线性回归中,线性的检验和回归的检验是等价的。多元回归系数的置信区间:。多重共线性(multicollinearity):当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。多重共线性会带来如下问题:(1)可能会使回归的结果造成混乱,甚至会把分析引入歧途;(2)多重共线性可能对参数估计的正负号产生影响。多重共线性的判别:(1)模型中各对自变量之间显著相关;(2)当模型线性关系检验(F)显著时,几乎所有回归系数βi的t检验却不显著;(3)回归系数的正负号与预期相反。回归搜寻过程:如果在进行回归时,每次只增加一个变量,并将新变量与已经存在模型中的变量进行比较,若新变量引入模型后以前的某个变量的t统计量不显著,这个变量就会被从模型中剔除,在这种情况下,回归分析就很难存在多重共线性的影响,这就是回归中的搜寻过程.回归分析自变量选择原理及方法:将一个或多个自变量引入回归模型时,是否使残差平方和SSE有显著减少.如果是,则说明应该引入这个变量.标准就是F统计量。变量选择的方法有向前选择(forwardselection)、向后剔除(backwardelimination)、逐步回归(stepwiseregression)、最优子集(bestsubset)。向前选择:首先对k个自变量分别拟合对因变量y的一元线性回归模型,共有k个,然后找出F统计量的值最高的模型及其自变量xi,并引入模型;然后在已经引入模型的xi的基础上,再分别拟合引入模型外的k-1个自变量,挑选出F统计量的值最大的含有两个自变量的模型,并将F统计量的值最大的那个自变量xj引入模型。向后剔除:对因变量拟合包括所有k个自变量的线性回归模型。然后考察p个去掉一个自变量的模型,使模型的SSE值减少最少的自变量被挑选出来并从模型中剔除。逐步回归:是以上两种方法的结合。前两步与前向回归相同,但在增加了一个自变量后,对模型中所有的变量进行考察,看看有无可能剔除某变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除。非线性回归模型:.f是期望函数。非参数检验:是不依赖总体分布的统计推断方法。它是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。适用于计量信息较弱的资料,几乎什么类型的数据都可以做。非参数检验:用于检验观测数据是否与某种概率分布的理论数值相符合,进而推断观测数据是否是来自于该分布的样本的问题。零假设:样本X来自的总体分布服从期望分布的某一理论分布。值越大,观察频数和理论频数距离越远;值越小,观察频数和理论频数越接近。二项分布检验:就是对只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。H0:样本来自的总体与某个指定的二项分布无显著性差异;H1:样本来自的总体与某个指定的二项分布有显著差异。二项分布检验要求变量必须是数值型变量,假如是字符型的,需要对数据进行转化。如果变量不是二元变量,需要设置断点,将数据分开。游程检验:游程可以用来检验任何序列的随机性,而不管这个序列是怎样产生的.此外,游程检验还可以用来判断两个总体的分布是否相同,从而检验出它们的位置中心有无显著差异。一个游程就是某序列中同类元素的一个持续的最大主集。游程数太大或太小都表示变量值可能不存在随机性现象。单样本K-S检验:K-S检验的是利用数据推断总体是否服从某一理论分布,一般来说它比卡方检验更精确的非参数检验法。其零假设是:样本来自的总体与指定的理论分布无显著差异。如何判断两独立样本是否独立?
看在一个总体中抽取样本对在另一个总体中抽取样本有无影响,如果没有影响,则认为两个总体是独立的.数据的秩:简单说就是数据的名次。将数据按升序排序,这时每个具体数据都会有一个在整个数据中的位置或名次,这就是该数据的秩。两独立样本非参数检验方法:曼—惠特尼U检验、K-S检验、极端反应检验、游程检验.曼-惠特尼U检验:最常用的两样本秩和检验,零假设是样本所在的两独立总体的均值无显著差异。其主要是通过对平均秩判断的。首先将两组样本数据混合并按升序排序,求出每个数据各自的秩;然后分别对两组数据的秩求平均,得到平均秩.如果两个平均秩相差甚远,则可以说明一组样本数据偏小,一组样本数据偏大.K-S检验:零假设是两组独立样本所在的两总体分布无显著差异。与单样本K—S检验的区别是:这里是以变量的秩作为分析对象的,而非变量值本身。思路是:首先将两组样本数据混合并按升序排序,然后分别计算两组样本秩的累计频率的差,得到差值序列,并得到D统计量,计算D的P值,判断零假设是否成立.这种方法检验的是总体分布情况是否相同,如果只是要检验中心位置是否相同,最好不要选择这种方法。极端反应检验:给出结果是单侧检验。如果施加的处理使得某些个体出现正向效应,而另一些个体出现负向效应,应采取该方法.例如,研究居民对电信资费调整下调的反应,多数人会高兴,而电信行业会感到沮丧。基本思想是:将一组样本作为控制样本,另一组作为试验样本。以控制样本作为对照,检验试验样本相对于控制样本是否出现了极端反应。如果没有出现,则认为两个总体分布无显著差异。游程检验:检验总体分布情况是否相同,只要两样本各自所在总体有任何一点分布上的差别,无论是集中、离散以及其他,它都可以检验出其中的差异。如果只是要检验中心位置是否相同,最好不要选择这种方法。多独立样本非参数检验方法:Kruskal—WallisH检验、中位数检验、Joneckheere-Terpstra检验.Kruskal—WallisH检验:是曼-惠特尼U检验的推广,重点分析平均秩。Joneckheere—Terpstra检验:该检验对连续性资料或有序分类资料都适用,并当分组变量为有序分类资料时,此法的检验效能高于Kruskal-WallisH检验,适用分类资料。中位数检验:检验各个样本是否来自具有相同中位数的总体,三种方法其效能最低。重点分析中间位置.两配对样本非参数检验:是在对两组配对样本的总体分布不甚了解的情况下,推断样本来自的两个总体的分布是否存在显著性差异的方法.这种检验对两个总体服从的分布不作要求,但必须是成对出现,且顺序不能随意调换。方法有:符号检验、Wilcoxon符号秩检验、McNemar检验和MarginalHomogeneity检验.符号检验:样本数据相减所得到的差值应当大致有一半为正,一般为负,数量基本平衡。检验效能较低,精度较差。该方法更适用于对无法用数字计量的情况进行比较,比如资料本身就是两分类,对于连续资料最好不要使用。Wilcoxon符号秩检验:是符号检验的改进.它既考虑了样本差数的符号,也考虑了差数的顺序。首先,按照符号检验的方法,分别将第二组样本的各个观察值减去第一组样本的各个观察值.如果差值为正,则记为正号,差值为负,则记为负号。然后将差值数据按升序排序,并求出相应的秩.最后,分别计算正号秩总和,负号秩总和以及正号平均值和负号平均秩。如果正号平均秩和负号平均秩大致相等,则可认为量配对样本数据正负变化程度基本相当,两配对总体的分布无显著差异。McNemar检验:是配对卡方检验,只适用于二分类资料,考察重点是两组间分类的差异。MarginalHomogeneity检验:是McNemar方法向多分类情况下的扩展,适用于资料为有序分类的情况。多配对样本非参数检验方法:Friedman检验、Kendall协和系数检验、Cochran检验。Friedman检验:利用秩来检验多个总体分布是否存在显著差异。首先,将不同样本同一顺序的样本排序成若干行,将各个样本数据按行升序排序并求得各数据在各自行中的秩;然后分别计算各样本的秩总和和平均秩。如果多个配对样本的分布存在显著差异,那么不同行的秩之间的差异必然较大。因此如果各样本的平均秩大体相当,那么可以认为各总体的分布无显著差异。Kendall协和系数检验:用于分析评判者的评判标准是否一致公平。它将每个评判对象的分数都看作是来自多个配对总体的样本,通过计算Kendall协和系数W以检验多个相关样本是否来自同一分布的总体。它不仅可以检验k个相关样本是否来自同一分布的总体,还能检验变量间的相关性。W表示k个指标间的相互关联程度。Cochran检验:适用于定性数据或二元数据,它是McNemar方法的推广。因子分析:对变量作因子分析,称为R型因子分析;对样品作因子分析,称为Q型因子分析。因子分析的思想是:通过对变量的相关系数矩阵内部结构分析,从中找出少数几个能控制原始变量的随机变量。建立模型X=AF+ε,以F代替X.因子分析的步骤:(1)确认待分析的原变量是否适合做因子分析:采用计算相关系数矩阵、巴特利特球度检验和KMO方法检验;(2)构造因子变量;(3)利用旋转方法使因子变量更具有可解释性:也就是使一个变量在尽可能少的因子上有较高的载荷;(4)计算因子变量得分。聚类分析的分类:(1)样品聚类,又称为Q聚类,或对事件(观测量)进行聚类,根据反映被观测对象的特征的各变量值进行分类;(2)变量聚类,又称为R聚类,即在多个反映事物的特征中找出某一方面进行研究。研究样品之间的关系方法:(1)相似系数,如夹角余弦、相关系数;(2)距离,如明氏距离、马氏距离、兰氏距离。明氏距离:,当q=1,是绝对距离;当q=2,是欧氏距离;当q=3,是切比雪夫距离.当各变量的测量值相差悬殊时,不能用明氏距离,常需要先对数据进行标准化,然后才能用。马氏距离:.马氏距离排除了各指标之间相关性的干扰。兰氏距离:,只适合xij〉0的情况.夹角余弦:。当=1,说明两个样品完全相同;接近1,说明相似密切;=0,说明完全不一样;接近0,说明差别大。相关系数:.K—均值算法又称为快速聚类算法,可用于大量数据,是一种非分层的聚类方法。步骤是:(1)指定聚类数目k;(2)确定k个初始类的中心;(3)根据距离最近原则进行分类;(4)按照新的中心位置,重新计算每一记录距离新的类别中心点的距离,并重新分类。系统聚类算法:也称层次聚类法,有两种类型:(1)对研究对象本身进行分类,也称Q聚类;另一种是对研究对象的观察指标进行分类,称为R聚类。同时根据聚类过程,又分为分解法和凝聚法.分解法是指开始把所有个体都视为同一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止;凝聚法指开始把参与聚类的每个个体视为一类,根据两类之间的距离或相似性进行逐步合并,直到合并为一个大类。系统聚类的变量可以为连续或分类,当样本量太大或太多时,运算缓慢。SPSS是凝聚法。判别分析:判别分析是判别样品所属类型的一种统计方法。其与聚类不同.判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些规则建立判别式,然后对未知类型的样品进行判别分类。判别分析和聚类分析的结合:判别分析要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。时间序列(timeseries):是同一现象在不同时间上的相继观察值排列而成的序列.经济数据中大多数以时间序列的形式给出。用t表示所观察的时间,Y表示观察值,则Yi表示为时间ti上的观察值。平稳序列(stationaryseries):时间序列的一种,基本上不存在。这类序列中的各观察值基本上在某个固定的水平上波动,但不存在规律性,波动可以看成是随机的。非平稳序列(non-stationaryseries):是包含趋势、季节性或周期性的序列,它可能只含有其中的一种成分,也可能是几种成分的组合。趋势(trend):时间序列四部分之一。是时间序列在长时间内呈现出来的某种持续向上或向下的变动,也称为长期趋势。季节性(seasonality):时间序列四部分之二。也称为季节变动,它是时间序列在一年内重复出现的周期性波动,如“销售旺季”和“销售淡季”等.周期性(cyclicity):时间序列四部分之三。也称为循环波动,它是时间序列中呈现出来的围绕长期趋势的一种波浪形或震荡式的变动。周期性通常是由商业和经济活动引起的,它不同于趋势变动,不是朝着单方向持续运动,而是涨落交替运动;也不是季节运动,季节运动有比较固定的规律,且变动周期多为1年,而循环波动则无固定规律,变动周期多为1年以上,且周期长短不一。周期性由经济环境变化引起的。不规则波动(irregularvariations):时间序列四部分之四。时间序列中除去趋势、周期性和季节性之后的偶然性波动,称为不规则波动,也称为随机性波动。增长率(growthrate):也称为增长速度,它是时间序列中报告期观察值与基期观察值之比减一的结果,用%表示。增长率分为环比增长率和定基增长率。环比增长率:是报告期观察值与前一时期观察值之比减一,说明现象逐期增长变化的程度;公式为:。定基增长率:是报告期观察值与某一固定时期观察值之比减一,说明现象在整个观察期内总的增长变化程度;公式为:。平均增长率(averagerateofincrease):也称为平均增长速度,它是时间序列中逐期环比值(也称环比发展速度)的几何平均数减一后的结果,计算公式为:
。增长率计算的问题:(1)当时间序列中的观察值出现0或负数时,不宜计算增长率;(2)在有些情况下,不能单纯就增长率论增长率,要注意增长率与绝对水平的结合.绝对水平计算公式为:。时间序列预测步骤:(1)确定时间序列所包含的成分,也就是确定时间序列的类型;(2)找出适合此类时间序列的预测方法;(3)对可能的预测方法进行评估,以确定最佳预测方案;(4)利用最佳预测方案进行预测。确定时间序列的成分方法:(1)确定趋势成分:绘制时间序列图或使用线性回归判断线性关系;(2)确定季节成分:至少需要两年的数据,而且数据按季度、月份、周天等来记录,确定集结成分可以从绘制时间序列的线图入手,该图为年度折叠时间序列图.如果时间序列只存在季节成分,年度折叠时间序列图中的折线将会有交叉;如果时间序列既含有季节成分又含有趋势,那么年度折叠时间序列图中的折线将不会有交叉,而却如果趋势是上升的,后面年度的折线将会高于前面年度的折线。一般来说,任何时间序列中都会有不规则成分存在,而商务与管理数据中通常不考虑周期性,所以只剩下趋势成分和季节成分.选择预测方法:假定过去的变化趋势会延续到未来,方法选择如下:
有趋势成分无趋势成分有季节性成分季节性预测法:
(1)季节多元回归模型;
(2)季节自回归模型;
(3)时间序列分解。季节性预测法:
(1)季节多元回归模型;
(2)季节自回归模型;
(3)时间序列分解。无季节性成分趋势预测法:
(1)线性趋势预测;
(2)非线性趋势预测;
(3)自回归预测模型.平滑法预测:
(1)简单平均法;
(2)移动平均法;
(3)指数平滑法.预测方法的评估:通过对预测误差的评估来判断预测方法的好坏。主要有以下几种方法:平均误差、平均绝对误差、均方误差以及平均百分比误差。平均误差(meanerror):设时间序列的第i个观察值为Yi,预测值为Fi,则所有预测误差(Yi-Fi)的平均数就是平均误差,用ME表示,计算公式为:。由于预测误差的数值可能有正有负,求和的结果就会相互抵消,在这种情况下,平均误差可能会低估误差。平均绝对误差(meanabsolutedeviation):是将预测误差取绝对值后计算的平均误差,用MAD表示。计算公式为:.平均绝对误差可以避免相互抵消的问题,因而可以准确反映实际预测误差的大小。均方误差(meansquareerror):通过平方消去误差的正负号后计算的平均误差,用MSE表示,计算公式为:。三者的应用:ME,MAD和MSE的大小受时间序列数据的水平好计量单位的影响,有时并不能真正反映预测模型的好坏,它们只有在比较不同模型对同一数据的预测时才有意义。平均百分比误差和平均绝对百分比误差:它们消除了时间序列数据的水平和计量单位的影响,是反映误差大小的相对值。分别有MPE和MAPE表示.两者的计算公式分别为:.简单平均法:根据过去已有的t期观察值通过简单平均来预测下一期的数值。设时间序列已有的t期观察值为Y1,Y2,…,Yt,则t+1期的一侧值Ft+1为:。简单平均法适合较为平稳的时间序列进行预测,即当时间序列没有趋势时,用该方法好.但如果时间序列有趋势或季节成分,该方法的预测不够准确.此外,简单平均法将远期的数值和近期的数值看做对未来同等重要,但从预测角度看,近期的数值要比远期的数值对未来有更大的作用.移动平均法:是通过对时间序列逐期递移求得平均数作为预测值的一种预测方法.简单移动平均是将最近的k期数据加以平均,作为下一期的预测值。设移动间隔为k,则t期的移动平均值为:。该方法也主要适合对较为平稳的时间序列进行预测。确定步长时,选择一个使均方误差达到最小的移动步长。指数平滑法(exponentialsmoothing):是通过对过去的观察值加权平均进行预测的一种方法,该方法使t+1期的预测值等于t期的实际观察值与t期的预测值的加权平均值。观察值时间越远,其权数也跟
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度绿城公司环保技术研发合同2篇
- 2024年产小轿车长期租赁合同一
- 2024年医院护工雇佣合同3篇
- 2024年度网站建设合同:甲方委托乙方建设网站2篇
- 2024版特许经营合同协议格式范本3篇
- 二零二四年度工地食堂设计与建设合同2篇
- 2024年廉洁供货及采购协议2篇
- 2024年PPP模式合作经营专项合同一
- 城市夜景照明工程灯光设计合同
- 城市副中心餐饮门面租赁合同
- HG∕T 5215-2017 工业硫酸铜 标准
- 新质生产力赋能职业教育高质量发展
- 生成式人工智能(AIGC的逻辑与应用)
- SL-T+712-2021河湖生态环境需水计算规范
- 商业银行消费者权益保护审查要点
- 物业管理项目流程图:产业园区指南
- 普陀区2024届高三下学期二模考试语文试题(原卷版+解析版)
- 心血管内科常见疾病诊疗常规
- 列宁人物课件
- 手术质量控制指标
- 2024届北京市朝阳区高三上学期期末数学试题(解析版)
评论
0/150
提交评论