《商业分析概论》常用统计分析方法_第1页
《商业分析概论》常用统计分析方法_第2页
《商业分析概论》常用统计分析方法_第3页
《商业分析概论》常用统计分析方法_第4页
《商业分析概论》常用统计分析方法_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商业分析概论常用统计分析方法目录描述性统计分析回归分析Logistic回归时间序列分析因子分析7.1描述性统计分析即席查询报表(Adhoc):即席查询是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表,是一种把已有信息和业务需求联系在一起的交付物。手动更新报表。手工更新的报表通常与短期项目有关,另外,出现手动报表的原因还包括可能存在着某些用户不具备访问公司报表系统的权限,或他们根本不懂如何使用报表系统等。手动报表通常只是临时工作。按需自动化报表。这种类型的报表通常依托数据仓库来做发布,能按照既定条件有规律地更新数据,而且有严格的用户访问权限控制管理。事件触发型自动报表。这种类型的报表和按需自动报表的作用一样,但不同的是事件触发型自动报表会在用户阅读的时候提醒用户。回归分析是处理变量之间关系的一种统计方法和技术,其基本思想、方法以及“回归(Regression)”名称的由来都要归功于英国统计学家F·Galton(1822~1911)。回归分析模型是否线性线性回归模型非线性回归模型自变量个数一元回归多元回归7.2回归分析回归分析主要解决以下几方面的问题:⑴通过分析大量的样本数据,确定变量之间的数学关系式。⑵对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。⑶利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。7.2回归分析一元线性回归分析一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。7.2回归分析一元线性回归模型的确定散点图以便进行简单的观测建立线性方程y=β0+β1x+ε散点图以便进行简单的观测建立其他方程模式并比较R2R2越大,方程的拟合优度越高利用t检验和F检验分别检验回归系数和一元线性回归方程是否显著。如两者均显著,说明该数据可以用一元线性回归模型来拟合,否则要考虑其他模型呈线性关系不呈线性分布7.2回归分析回归模型的显著性检验问题通过样本数据建立一个回归方程后,不能立即用于对某个实际问题的预测。因为,将应用最小二乘法求得的样本回归直线作为对总体回归直线的近似,这种近似是否合理必须通过各种统计检验。一般经常使用以下的统计检验。7.2回归分析回归系数的显著性检验(t检验)所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验,也就是检验斜率。回归系数显著性检验的基本步骤提出假设计算回归系数的t统计量值根据给定的显著水平α确定临界值,或者计算t值所对应的p值作出判断7.2回归分析一元线性回归回归模型:y=β0+β1x+ε(x为自变量,y为因变量,β0为截距,β1为斜率(回归系数),ε为误差变量。)指定H0:β1=0;备择假设为H1:β1≠0检验统计量为:其中,Sb1是b1的标准偏差(标准误差),(为标准误差)7.2回归分析如果误差变量服从正态分布,那么检验统计量服从自由度为n-2的t分布。拒绝域为

当原假设为真,就说明两个变量间没有线性关系;当备选假设为真,则两个变量存在某种线性关系。SPSS的实际操作中,我们只要关注t检验的显著性(Significance)值(sig值)。我们一般将这个sig值与0.05比较,当sig值小于0.05,我们认为差别显著;当sig值大于0.05,我们认为差别不显著;sig值越小,说明差别越显著,回归系数越显著。7.2回归分析拟合优度检验回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的拟合程度。回归方程的拟合优度检验一般用判定系数(CoefficientofDetermination)实现,用R2表示。该指标建立在对总离差平方和进行分解的基础之上。测定多元线性回归的拟合程度,与一元线性回归中的判定系数类似,使用调整后的判定系数。7.2回归分析拟合优度检验yi和的离差可以进一步分解为两部分如果对等式两边各项求平方,并把所有样本点加起来,进行一些代数运算可得方程的左边衡量了因变量y的差异。方程右边的第一项用SSE表示,第二项用SSR表示,为回归平方和(SumofSquaresforRegression,SSR)Y的差异=SSE+SSR7.2回归分析因此将差异分解为两个部分:SSE度量y中不可解释的差异部分;SSR度量y中可以被自变量x的差异解释的差异部分。把这个分析过程整合到R2的定义中去:因此,R2衡量了y的差异中能够被x的差异解释的部分在总差异中所占的比例。一般来说,R2的值越大,模型拟合数据的效果就越好。7.2回归分析回归方程的显著性检验(F检验)回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。检验统计量为:拒绝域为:7.2回归分析因变量的总差异可以分解为可解释的差异和不可解释的差异两个部分:而F=MSR/MSE,因此,若F值较大,表明因变量的总差异中可被回归方程解释的部分所占的比例较大,回归模型有效在SPSS软件的实际操作中,我们也主要观察它的sig值,只要sig小于0.05,我们就认为回归模型是显著的7.2回归分析多元线性回归分析一元线性回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。在线性相关条件下,研究两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。多元线性回归模型的确定时常用逐步回归方法(Stepwise)。7.2回归分析逐步回归法是对全部的自变量(X1,X2,···,Xp)对Y贡献的大小进行比较,并通过F检验法选择偏回归平方和显著的变量进入回归方程,每一步只引入一个变量,同时建立一个偏回归方程。当一个变量被引入后,对原已引入回归方程的变量,逐个检验他们的偏回归平方和如果由于引入一个新变量而使得已进入方程的变量变为不显著时,则及时从偏回归方程中剔除从未选入方程的自变量中,挑选对Y有显著影响的新的变量进入方程在引入了两个自变量以后,便开始考虑是否有需要剔除的变量当回归方程中的所有自变量对Y都有显著影响而不需要剔除时不论引入还是剔除一个变量都被称为一步。不断重复这一过程,直至无法剔除已引入的变量,也无法再引入新的自变量,逐步回归过程结束7.2回归分析多元线性回归中还需要注意多元共线性问题。多重共线性指自变量间存在线性相关关系,即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。多元共线性会有两个不利影响:1.估计回归系数时会产生较大的抽样误差2.会影响系数的t检验,使依据t检验做出的是否线性相关的推断发生错误。7.2回归分析为了避免或者修正多元共线性,我们采用两种方法:1.在建立模型时要尽可能确保自变量之间的相互独立性2.另一个是逐步回归只有当某个自变量能够改变模型的拟合效果时,才把它放在模型中。如果两个自变量强烈相关,那么要对自变量进行合并或将重复的自变量删除,才可以最小化多元共线性的影响。7.2回归分析实际运用中多重共线性主要有以下几种类型表现:1.整个模型的方差分析检验结果为P<α(α为显著性水平),但各自变量的偏回归系数的统计学检验结果却是P>α;2.专业上认为应该有统计学意义的自变量检验结果,却无统计学意义;3.自变量的偏回归系数取值大小甚至符号明显与实际情况相违背,难以解释;4.增加或删除一个自变量或一条记录,自变量偏回归系数发生较大变化。7.2回归分析对于多重共线性的识别,可以通过SPSS中Statistics(统计量)子对话框中的CollinearityDiagnostics(共线性诊断)复选框予以实现。复选框CollinearityDiagnostics提供以下统计量:1.容忍度(Tolerance)2.方差膨胀因子(VarianceInflationFactor,VIF)3.特征根(Eigenvalue)4.条件指数(ConditionIndex)7.2回归分析含虚拟自变量的回归分析数量变量、定量变量或数量因素:可以直接用数字计量的因变量和自变量,即可以获得实际观测值(如收入、支出、产量、国内生产总值等)非数量型的变量:性别、民族、职业、文化程度、地区、正常年份与干旱年份、改革前与改革后等定性变量定性变量作数量化处理:引进只取“0”和“1”两个值的虚拟自变量。当某一属性出现时,虚拟变量取值为“1”,否则取值为“0”。对于包含一个具有k种特征或状态的质因素的回归模型,如果回归模型没有常数项,则需引入k个0−1型虚拟变量D;如果有常数项,则只需引入k−1个0−1型虚拟变量D。当k=2时,只需要引入一个0−1型虚拟变量D。7.2回归分析含调节变量的回归分析如果变量Y与变量X有关系,并且这个关系受到第三个变量M的影响,那么变量M就是调节变量。调节变量影响自变量和因变量之间的关系,既可以是定性的(比如性别、受教育程度等),也可以是定量的(比如年龄、工资收入),它影响自变量和因变量之间关系的方向(正负)和程度(强弱)。简要模型:

Y=aX+bM+cXM+eY与X的关系由回归系数a+bM来刻画,它是M的线性函数,c衡量了调节效应(ModeratingEffect)的大小。如果c显著,说明M的调节效应显著。7.2回归分析讨论调节变量的调节效应,可分为以下情况:1.当自变量是类别变量,调节变量也是类别变量时,用两因素交互效应的方差分析,交互效应即调节效应;2.当调节变量是连续变量时,自变量使用伪变量,将自变量和调节变量中心化,使用上述公式做层次回归分析:①做Y对X和M的回归,得测定系数R21;②做Y对X、M和XM的回归得R22,若R22显著高于R21,则调节效应显著。或者,作XM的回归系数检验,若显著,则调节效应显著;3.当自变量是连续变量,调节变量是类别变量时,分组回归应按M的取值分组,做Y对X的回归。若回归系数的差异显著,则调节效应显著,调节变量是连续变量时,同上述公式的层次回归分析。7.2回归分析多元线性回归分析在的商业应用案例商业数据的采集变量的确定回归方程模型构建和假设形成7.2回归分析自变量:评论深度(字数)、评论极性(正面或负面)、产品类型因变量:评论有用性H1:商品类型会为评论极性对评论有用性的影响起到显著的调节作用。对于体验型商品,中立评价的作用比极端评价更显著。H2a:负面评论的在线评论有用性大于正面评论。H2b:较体验型商品,正面评论对搜索型商品的有用性更高。H2c:较体验型商品,负面评论对搜索型商品的有用性更高。H2d:较搜索型商品,体验型商品的正面评论与负面评论的有用性差异更大。H3:评论深度对评论有用性具有显著的正向影响作用。H4:商品类型会为评论深度对评论有用性的影响起到显著的调节作用,与体验型商品相比,评论深度对有用性的正向影响在搜索型商品中更为明显。7.2回归分析数据来源:卓越亚马逊()研究样本:体验型和搜索型两种商品类型中的6个大类下的12种商品。搜索型商品选择U盘、手机和路由器,体验型商品选择了音乐CD、书籍和化妆品。对商品的基本信息和在线评论进行抓取,主要通过火车头采集器进行每条评论包括以下数据:①评论星级;②评论总投票数;③评论有用票数;④评论者;⑤评论时间;⑥评论文本内容根据研究需求对采集到的在线评论进行筛选共得到2157条较高质量的在线评论商业数据的采集变量的确定回归方程模型构建和假设形成7.2回归分析自变量:①评论星级Start_Rating;②评论深度Review_Depth调节变量:①商品类型Product_Type;②评论极性Review_Extremity因变量:评论有用性Helpfulness%控制变量:投票总数Total_Votes商业数据的采集变量的确定回归方程模型构建和假设形成7.2回归分析①检验H1、H3、H4采用的回归方程:Helpfulness%=β0+β1Star_Rating+β2Review_Depth+β3Product_Type+β4Total_Votes+β5Star_Rating×Product_Type+β6Review_Depth×Product_Type+ε②检验H2a、H2b、H2c、H2d采用的回归方程:Helpfulness%=β0+β1Product_Type+β2Review_Extremity+β3Review_Extremity×Product_Type+ε商业数据的采集变量的确定回归方程模型构建和假设形成7.2回归分析商业数据的采集变量的确定回归方程模型构建和假设形成调整后的R2=0.384,达到同类研究水平,方程拟合度较高,p值=0.000表明各指标对评论有用性存在显著的影响7.2回归分析商业数据的采集变量的确定回归方程模型构建和假设形成为进一步探究搜索型商品与体验型商品的具体调节作用,分别对其进行多元线性回归分析对于体验型商品,评论星级Star_Rating(p=0.000)和Star_Rating2(p=0.018)对评论有用性有显著影响。对于搜索型商品,评论星级Star_Rating(p=0.069)对评论有用性没有显著影响,而Star_Rating2(p=0.035)对评论有用性有显著影响。假设H1成立,即商品类型会使评论极性对评论有用性的影响起到调节作用,且对于体验型商品,中立评价的作用比极端评价更显著。7.2回归分析商业数据的采集变量的确定回归方程模型构建和假设形成07.2回归分析商业数据的采集变量的确定回归方程模型构建和假设形成07.2回归分析商业数据的采集变量的确定回归方程模型构建和假设形成体验型商品和搜索型商品,p值<0.05,且系数均为正,表明评论长度越长,有用性越高,即评论深度会对评论有用性产生显著的正向影响,假设H3成立。模型输出结果中Review_Depth×Product_Type(p=0.009)可知商品类型使评论深度对评论有用性的影响起到显著调节作用,而其系数为正,则评论深度对评论有用性的正向影响作用在搜索型商品中更为明显,假设H4成立。商品类型与评论极性的交互影响会影响到在线评论的有用性,我们发现在体验型商品中,中立评价比极端评价(无论是正面评论还是负面评论)更有用。与体验型商品相比较,获取搜索型商品的客观信息对于消费者更加便利有用,消费者在浏览在线评论时会更多地关注字数较多的评论,从中达到了解商品优劣的目的。7.2回归分析Logistic回归简介线性回归中的因变量是定量变量,但是当因变量的取值为两个或两个以上的定性变量时,之前介绍的回归模型就无法解决了。而事实上,无论是在社会科学还是经济生活中,我们常常会遇到这种情况(男性还是女性?买还是不买?用户购买某商品是受何种因素影响:年龄?性别?收入水平?)。因为这些定性变量的误差项不呈现正态分布,不能够满足线性回归要求的正态分布假设,而且普通线性回归模型的预测值可能不在0—1之间,无法解释某件事件发生的概率。7.3Logistic回归简介能否建立类似于线性回归的模型,对这种数据加以分析?以最简单的二分类因变量为例来加以探讨,为了讨论方便,常定义出现阳性结果时因变量取值为1,反之则取值为0。例如当领导层出有女性职员、下雨、痊愈、是潜在消费者时反应变量y=1,而没有女性职员、未下雨、未痊愈时y=0。记出现阳性结果的频率为p(y=1)。很显然,0≤P≤1。7.3Logistic回归简介Logistic回归是对定性变量的回归分析。可用于处理定性因变量的统计分析方法有:判别分析(DiscriminantAnalysis)、Probit分析、Logistic回归分析和对数线性模型等。Logistic回归分析根据因变量取值类别不同,又可以分为二元回归(BinaryLogistic)分析和多元回归(MultinominalLogistic)分析。BinaryLogistic回归模型中因变量只能取两个值1和0(虚拟因变量),而MultinomialLogistic回归模型中因变量可以取多个值。7.3Logistic回归简介Logistic回归的用途可归纳为三个方面:寻找影响因素:根据不同的研究目的,分析寻找影响研究结果的因素,即寻找定性因变量。预测:建立logistic回归模型,根据模型,预测在不同的因变量情况下,发生某些情况的概率有多大。如银行可以根据用户的年龄、性别、购房、贷款信息等预测客户还款情况。判别:实际上跟预测有些类似,也是根据logistic模型,判断人们可能的行为,还以银行还款为例,即根据模型判别该用户还款的几率有多大。7.3Logistic回归简介1、二元Logistic回归模型假设某一事件Y可能有两种结果,发生(Y=1)和不发生(Y=0),该事件成功的概率P=Pr(Y=1)可以用Logistic模型表示为:上式可推出:

为截距;

=1,2,…..,k,是第j个自变量和该自变量的待估系数。回归系数的大小和符号可以揭示不同自变量与发生概率直接关系。7.3Logistic回归简介2、多元Logistic回归模型当Y=1,2,3…..n时,使用如下模型:

代表截距大小,

为回归系数,

代表独立变量。7.3Logistic回归简介7.3Logistic回归简介估计回归系数02定义业务目标01解释结果04显著性检验031.定义业务目标定义业务目标是根据研究目的确定因变量和自变量。与客户购买保险产品行为有关的因变量包括年龄、性别、文化程度、收入、健康状况、对风险的认识等,可以赋予这些因变量的值有1或0。自变量也叫协变量,是指那些对因变量有影响的变量。自变量的确定要根据经验和实际研究情况来确定,以客户购买保险产品行为为例,自变量可能是客户所处的行业、地区、宗教信仰等。7.3Logistic回归简介2.估计回归系数Logistic回归系数一般由极大似然法(Maximumlikelihoodmethod)估算,以便估计的P当Y=0时接近0,Y=1时接近1。自变量的取舍通常根据极大似然比(MLR)或者协方差近似估计(ACE)以逐步回归的方式进行。通常从数据中选取60%--70%的样本作为估计回归系数的建模样本,其余的作为检验模型拟合情况的验证样本。7.3Logistic回归简介3.显著性检验当回归系数不是很大时,可以用沃氏检验(Waldtest)检验其显著水平。该统计量是建立在极大似然法估计的近似正态分布基础上,可用下式估算:W=(/s.e.())

是某个预测变量的Logistic回归系数估计值,s.e.()是该系数的标准误差。Wald统计量呈卡方分布,如果预测变量时定量变量,其自由度为1,如果预测变量是分类变量,其自由度为类别数减1。实际上,也可以用参数估计值除以其标准误差计算t值,然后用t检验对参数为0的假设进行检验,其自由度为样本数减估计的参数个数。大样本时可以用z检验。7.3Logistic回归简介4.解释结果截距决定假设所有变量值为0时事件发生的概率。回归系数表示事件发生概率与Xj之间的关系。>0,表示Xj与事件发生概率正相关,<0,表示负相关,=0表示Xj与事件发生概率无关。7.3Logistic回归简介⑴确定业务目标Logistic回归模型可用于解决银行对用户提前还贷款情况的预测。我们首先从企业业务视角定义业务目标:

①预测房贷客户提前还款的可能性;

②分析客户提前还款的特征;

③减少客户提前还款率。Logistic回归案例7.3Logistic回归简介⑵定义目标变量解决该问题的原理为,通过房贷的基本属性和客户历史行为预测客户未来提前还款的可能性。表现期:标识客户未来是否提前还款的时间段(3个月)。模型目标:预测客户未来三个月大幅提前还款。7.3Logistic回归简介⑶建模算法Logistic回归模型的一般形式为:其中是P是流失概率,

代表截距大小,

为回归系数,

代表独立变量。因为该案例数据来源于银行数据仓库,Logistic回归分析结果如下表所示:6.2.5Logistic回归案例7.3Logistic回归简介AnalysisofMaximumLikelihoodEstimatesParameterDFEstimateStandardWaldPr>ChiSqErrorChi-SquareIntercept1-1.65410.0572834.9838<.0001年龄1-0.009740.000835135.9102<.0001拥有账户数1-0.09540.00342778.0362<.0001当月交叉销售率1-0.05660.013717.0375<.0001资产类产品当月借方交易金额相对于最近六个月借方交易金额平均值比率10.04620.0073539.5741<.0001非活存类资产最近一次贷方交易距今时长10.03190.00199258.3282<.0001沃德客户签约标识1-0.54150.0225580.3795<.0001保有期限(月)1-0.003160.000232186.33<.0001基金最近一年借方交易次数占交易次数占比10.69030.055157.757<.0001三存最近一年借方交易金额占交易金额占比1-1.48150.0601607.4079<.0001最近一个月活存取款金额大于次数10.14910.0051855.159<.0001国债持有标识1-0.98250.0892121.2301<.0001最近三个月产品销户数10.49320.0288292.7311<.0001贵金属持有标识1-1.35720.0913221.1287<.0001最近三个月转帐,取现金额占90天日均资产比率10.11930.017347.6116<.0001投资理财产品持有标识1-0.44770.0296229.5235<.0001月日均资产大于90天日均资产2倍标识10.63630.0383276.4884<.0001月日均资产大于过去12个月月均资产2倍标识11.04650.02322035.7145<.0001表中所有的变量均显著,即认为这些因素都会影响客户的还款。7.3Logistic回归简介变量名分析维度业务解释年龄基本信息年轻人流失概率较高拥有账户数银行相关信息账户数,产品数越多,开户时间长的客户流失概率小当月交叉销售率保有期限(月)沃德客户签约标识客户签约信息沃德签约客户流失概率较低国债持有标识持有标识投资理财客户,国债、贵金属持有客户流失概率较低贵金属持有标识投资理财产品持有标识月日均资产大于90天日均资产2倍标识资产上升最近一个月资产大幅上升的客户流失概率大月日均资产大于过去12个月月均资产2倍标识资产类产品当月借方交易金额相对于最近六个月借方交易金额平均值比率借方交易金额上升借方交易额上升的客户流失概率大基金最近一年借方交易次数占交易次数占比三存最近一年借方交易金额占交易金额占比非活存类资产最近一次贷方交易距今时长最近一次贷方交易距今时长贷方交易时间距今越长,越容易流失最近一个月活存取款金额大于次数

跨行转帐,取现,大额取款跨行转帐,大额取款的客户流失概率较大最近三个月转帐,取现金额占90天日均资产比率最近三个月产品销户数销户数近期有销户行为的客户流失概率较大从而可得到可能提前还款的用户特征为:产品数和账户数较少开户时间较短,年龄偏小贷方交易不活跃借方交易次数较多大额资金转出或取现销户数增加可根据这些特征对用户采取挽留的措施。7.3Logistic回归简介时间序列的构成简介时间序列,也叫时间数列,它是把不同时间状态下的统一指标按照时间的先后顺序排列得到的数列。时间序列中取值的时间间隔可以是年份、季度、月份、天或小时等其他时间形式。所取数值可以是瞬间值,我们称之为时点值,也可以是某一阶段的累加值,即时期值,如,某一天12:00时的网页点击量是时点值,超市的年营业额是时期值。7.4时间序列分析时间序列长期趋势循环变动不规则/随机变动季节变动时间序列数值随着时间的统计特性呈现出多样化的规律和特征。为了把握时间序列数值的规律,传统统计学在研究大量实例后发现,按其特点和综合影响结果将时间序列分为四种不同的成分。一个时间序列往往是这四种要素的叠加或耦合。⑴长期趋势(LongTermTrend,T)。⑵季节变动(Seasonalcomponent,S)。⑶循环变动(Cyclicalcomponent,C)。⑷不规则变动/随机变动(IrregularComponent,I)。时间序列由以上四种成分根据成分之间的关系进行组合而成。组合的方式主要有两种:一种是加法模型:Y=T+S+C+I一种是乘法模型:Y=T*S*C*I7.4时间序列分析时间序列分析的步骤⑴收集、整理历史资料,编成时间序列,并根据时间序列绘成统计图;⑵分析时间序列,确定时间序列的构成要素和组合模式;⑶选择合适的预测方法和预测模型,进行曲线拟合;⑷利用选定的模型进行预测;⑸测算预测误差。7.4时间序列分析因子分析的目的是用几个不可观测的隐变量来解释原始变量间的协方差关系。因子分析的基本思路:在影响某个目标的许多变量中,用某种方法构造出几个综合指标值,这几个综合指标完全能代表原有的变量对目标的影响,这几个指标值称为公共因子,然后由这几个公共因子与原目标的关系,构造出它们之间的线性函数关系,这样可由多个影响因素简化为几个影响因素(这些因素能够反映原变量提供的绝大部分信息,称为公共因子)。由此可算出每个样品得分再进行排序。7.5因子分析因子分析要求样本的个数要足够多一般要求样本的个数至少是变量的5倍以上。同时,样本总数据量理论要求应该在100以上因子个数远远少于原有变量的个数;因子能够反应原有变量的绝大部分信息;用于因子分析的变量必须是相关的如果原始变量都是独立的,意味着每个变量的作用都是不可替代的,则无法降维检验方法:计算各变量之间的相关矩阵,观察各相关系数。若相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析使用Kaiser-Meyer-Olkin检验(简称KMO检验)和Bartlett球度检验(Bartlett’stestofsphericity)来判断(SPSS将两种检验统称为“KMOandBartlett’stestofsphericity”)因子具有命名解释性7.5因子分析因子分析的步骤数据标准化变量相关性分析(KMO,Bartlett检验)因子提取(主成分分析)因子旋转因子命名累计方差贡献率大于80%,特征根大于1计算因子得分因子排序和综合排序因子分析终止7.5因子分析Bartlett球度检验以变量的相关系数矩阵为基础,假设相关系数矩阵是单位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论