




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、关联性分析方法分类关联性分析方法分类回归分析与回归分析与Pearson其人其人l皮尔逊推广了高尔登皮尔逊推广了高尔登(Golton)(Golton)的相的相关结论和方法,推导出人们称之为关结论和方法,推导出人们称之为“皮尔逊积差皮尔逊积差”的公式,给出了简的公式,给出了简单的计算:说明对三个变量的一般单的计算:说明对三个变量的一般相关理论,并且赋予多重回归方程相关理论,并且赋予多重回归方程系数以零阶相关系数的名称。系数以零阶相关系数的名称。l他意识到只有通过回归才能回答韦尔顿提出的关于出现他意识到只有通过回归才能回答韦尔顿提出的关于出现相关器官的选择问题,意识到要测定复回归系数值,须相关器官的
2、选择问题,意识到要测定复回归系数值,须广泛搜集所有变量的均数、标准差和相关的数据。广泛搜集所有变量的均数、标准差和相关的数据。l他提出了净相关、复相关、总相关、相关比等概念,发他提出了净相关、复相关、总相关、相关比等概念,发明了计算复相关和净相关的方法及相关系数的公式。明了计算复相关和净相关的方法及相关系数的公式。 实例实例l例例15-1:试建立血糖与其他几项指标的多重线性回归方程试建立血糖与其他几项指标的多重线性回归方程主要内容主要内容l多重回归方程:定量刻划出一个因变量多重回归方程:定量刻划出一个因变量Y与多个自与多个自变量变量X1,X2之间的线性依存关系。其中之间的线性依存关系。其中:变
3、量可以是随机变动的,也可以人为选定变量可以是随机变动的,也可以人为选定因变量是服从状态分布的随机变量因变量是服从状态分布的随机变量l若所有变量都是随机的,还可做多重相关来描述因若所有变量都是随机的,还可做多重相关来描述因变量与一组自变量之间的线性关系;变量与一组自变量之间的线性关系;l用偏相关用偏相关(partial correlation)描述因变量和一个自变描述因变量和一个自变量在扣除其他自变量影响之后的线性相关。量在扣除其他自变量影响之后的线性相关。多重回归与多重相关的定义多重回归与多重相关的定义u简单线性回归推广为简单线性回归推广为0相当于简单回归中的相当于简单回归中的 i为偏回归系数
4、,反映了当其他自变量对因变量的影响固为偏回归系数,反映了当其他自变量对因变量的影响固定时,第定时,第i个自变量个自变量xi每改变一个单位后因变量的平均变化每改变一个单位后因变量的平均变化u样本多重回归方程样本多重回归方程:mmxbxbxbby22110mmYXXX.22110第一节第一节 多重回归方程多重回归方程一个因变量一个因变量y多个自变量多个自变量x1,x2,xmn个个体组成的随机样本个个体组成的随机样本一、线性回归模型的前提条件一、线性回归模型的前提条件L-I-N-El线线 性性(Line):自变量和因变量之间的关系有线性趋势自变量和因变量之间的关系有线性趋势l独立性独立性(Indep
5、endence):总体中的个体之间相互独立总体中的个体之间相互独立l正态性正态性(Normal)给定一组给定一组x值后,相应的值后,相应的y值服从正态分布值服从正态分布l等方差等方差(Equal variance)各各x值变动时,相应的值变动时,相应的y有相同的变异度有相同的变异度二、多重回归方程的求解二、多重回归方程的求解l用最小二乘法寻找适宜的系数用最小二乘法寻找适宜的系数b0,b1,b2bm,使得误差,使得误差(残差残差)平方和最平方和最小。小。l计算复杂,一般需借助计算机完成计算复杂,一般需借助计算机完成niiiyy12)(估计结果估计结果单变量散点图单变量散点图C Co or rr
6、re el la at ti io on ns s1.632-.355.415.559.6321-.039.219.459-.355-.0391-.330-.510.415.219-.3301.610.559.459-.510.6101总胆固醇甘油三脂胰岛素糖化血红蛋白血糖总胆固醇甘油三脂胰岛素糖化血红蛋白血糖C Co oe ef ff fi ic ci ie en nt ts sa a5.9432.8292.101.047.142.366.078.390.701.351.204.3091.721.099-.271.121-.339-2.229.036.638.243.3982.623.016
7、(Constant)总胆固醇甘油三脂胰岛素糖化血红蛋白Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血糖a. SPSS分析结果分析结果转t检验偏回归偏回归系数系数标准标准误误标准回标准回归系数归系数三、假设检验三、假设检验l总体回归方程的整体检验总体回归方程的整体检验方差分析方差分析l总体偏回归系数的假设检验总体偏回归系数的假设检验t检验检验 l拟合优度检验拟合优度检验决定系数、调整决定系数与方差分析决定系数、调整决定系数与方差分析l模型筛选过程中的
8、检验模型筛选过程中的检验偏回归平方和偏回归平方和三、多重回归的方差分析三、多重回归的方差分析l用于回答总的来说回归用于回答总的来说回归方程是否成立方程是否成立 H0:1=2=m=0 H1:1,2,m不全为不全为0222YYYYYY残差回归残差残差回归回归MSMSSSSSF/ 总总= 回回+ 误差误差 总总=n-1 回回=m 误差误差=n-(m+1)S SS SS S总回残A AN NO OV VA Ab b133.711433.4288.278.000a88.841224.038222.55226RegressionResidualTotalModel1Sum ofSquaresdfMean
9、SquareFSig.Predictors: (Constant), 糖化血红蛋白, 甘油三脂, 胰岛素, 总胆固醇a. Dependent Variable: 血糖b. 方差分析结果方差分析结果方差分析表方差分析表lSPSS分析结果分析结果四、偏回归平方和四、偏回归平方和SSSSSS总回残SS偏回归偏回归(X1)SS偏回归偏回归(X2)SS偏回归偏回归(X3)SS偏回归偏回归(X4)F=MS偏回归偏回归(X1)MS偏回归偏回归(X2)MS偏回归偏回归(X3)MS偏回归偏回归(X4)MS残差残差MS残差残差MS残差残差MS残差残差五、偏回归系数的假设检验五、偏回归系数的假设检验l回归方程有统计
10、学意义并不说明每一个偏回归回归方程有统计学意义并不说明每一个偏回归系数都有意义系数都有意义 H0: i0 H1: i 0 i=1,2,m 1,0ibiisbtSPSS结果标准化偏回归系数标准化偏回归系数?P值大小能反映自变量对应变量影响的大小吗值大小能反映自变量对应变量影响的大小吗?偏回归系数大小能反映自变量影响的大小吗偏回归系数大小能反映自变量影响的大小吗lP值越小只是越有理由认为某值越小只是越有理由认为某自变量对应变量有影响,并不自变量对应变量有影响,并不表明影响越大。表明影响越大。l偏回归系数大小受自变量单位偏回归系数大小受自变量单位与量刚影响,不能由偏回归系与量刚影响,不能由偏回归系数
11、的大小直接说明某自变量对数的大小直接说明某自变量对应变量的影响大小。应变量的影响大小。这种影响大小这种影响大小及方向通过标及方向通过标准化偏回归系准化偏回归系数来反映数来反映l偏回归系数计算:数据中心化偏回归系数计算:数据中心化估计系数估计系数l各个自变量标准化后所求得的标准化回归方程各个自变量标准化后所求得的标准化回归方程b0=0,各标准化回归系数间可以直接比较绝对,各标准化回归系数间可以直接比较绝对值的大小,反映自变量对应变量的线性影响大小值的大小,反映自变量对应变量的线性影响大小l上例标准化偏回归系数结果上例标准化偏回归系数结果misxxxiiijij,.,2 , 1,六、评价拟合效果的
12、重要统计量六、评价拟合效果的重要统计量l决定系数决定系数R2:越接近于:越接近于1,回归效果越好,回归效果越好, 本例本例R2=SS回回/SS总总=133.711/222.552=60.08%l剩余标准差:即残差均方的平方根。回归估计剩余标准差:即残差均方的平方根。回归估计精度的指标,其值越小,估计精度越高。精度的指标,其值越小,估计精度越高。A AN NO OV VA Ab b133.711433.4288.278.000a88.841224.038222.55226RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Pre
13、dictors: (Constant), 糖化血红蛋白, 甘油三脂, 胰岛素, 总胆固醇a. l常用于评价所拟合的回归方程的好坏程度,但常用于评价所拟合的回归方程的好坏程度,但是不能单靠增加自变量的数目来提高决定系数。是不能单靠增加自变量的数目来提高决定系数。全面地衡量,应当是既要确定系数大,又要自全面地衡量,应当是既要确定系数大,又要自变量数目少,为此可采用校正确定系数变量数目少,为此可采用校正确定系数) 1/) 1/112nSSmnSSMSMSadjR(总残总残调整的决定系数调整的决定系数Adj R2 =0.5282六、多重相关六、多重相关 (multiple correlation)l当
14、自变量和因变量均为多元正态分布的随机变量当自变量和因变量均为多元正态分布的随机变量时,才考虑进行相关性分析。时,才考虑进行相关性分析。1.1.简单相关系数:简单相关系数:l对于一组随机变量对于一组随机变量x1 ,x2, xm和和y的样本,可计的样本,可计算其中任何两个变量间的相关系数。可列成相关算其中任何两个变量间的相关系数。可列成相关系数矩阵。系数矩阵。l推断各总体简单相关系数是否为推断各总体简单相关系数是否为0的假设检验可的假设检验可用用t检验或查检验或查r界值表界值表l一个变量与一组变量的的相关的密切程度可由复一个变量与一组变量的的相关的密切程度可由复相关系数反映相关系数反映,即即Y和和
15、 的简单相关系数的简单相关系数 l前例前例R2=0.6008,R=0.6008=0.77510.6008=0.7751l复相关系数的平方就是决定系数。其是否为复相关系数的平方就是决定系数。其是否为0的的假设检验等价于多重回归的方差分析。假设检验等价于多重回归的方差分析。总回SSSSyyyyYYcorrRii22)()(),(Y2.复相关系数:复相关系数:l设总体中扣除设总体中扣除q个变量影响后的偏相关系数为个变量影响后的偏相关系数为(-q),样本中相应的偏相关系数为,样本中相应的偏相关系数为 r(-q), l H0: (-q)=0,l H1: (-q) 02,122)()(qnrqnrtqql
16、在其他变量不变的情况下,某两个变量间的相在其他变量不变的情况下,某两个变量间的相关系数。关系数。3.偏相关系数:偏相关系数:第二节第二节 回归分析中自变量的选择回归分析中自变量的选择l回归方程中的自变量并非多多多多益善回归方程中的自变量并非多多多多益善l回归方程中的自变量并非都有统计学意义回归方程中的自变量并非都有统计学意义l回归方程中的自变量并非都符合专业解释回归方程中的自变量并非都符合专业解释 最优模型筛选最优模型筛选l目标:如何选择最好的、符合专业解释的回归模型目标:如何选择最好的、符合专业解释的回归模型 用较少的自变量建立回归方程用较少的自变量建立回归方程l要求:选择自变量首先要靠背景
17、知识来指导,所选方要求:选择自变量首先要靠背景知识来指导,所选方 程符合专业知识,最后还要靠其来验收程符合专业知识,最后还要靠其来验收l方法:全局择优、局部择优方法:全局择优、局部择优选择自变量的标准选择自变量的标准l全局择优法:全局择优法:对自变量的所有组合考察对自变量的所有组合考察l评价准则评价准则1、决定系数与、决定系数与调整决定系数调整决定系数最大:最大: 要求自变量个数不得过小或过大。要求自变量个数不得过小或过大。2、Cp统计量lCp统计量最小统计量最小 :1973年,由年,由Mallows提出提出(n-p-1)(MS误差误差,p/MS误差误差,全全-1)+(p+1)lCp统计量越接
18、近统计量越接近p1的回归方程为最佳方程的回归方程为最佳方程3、Up最大:)2)(1(12pnpnRUpp1973年由日本学者赤池提出年由日本学者赤池提出p计算公式计算公式pAIC越小越好越小越好准则 (Akaike information criterion)pnSSnAIC2ln残差R Rc c2 2CPCPAICAICR Rc c2 2CPCPAICAICX1X10.284430.284432 250.85750.857X2 X4X2 X40.43950.43953 345.1645.16X2X20.178640.178642 254.57954.579X3 X4X3 X40.435420
19、.435423 345.35645.356X3X30.230630.230632 252.81452.814X1 X2 X3X1 X2 X30.407560.407564 447.50747.507X4X40.346530.346532 248.40548.405X1 X2 X4X1 X2 X40.446830.446834 445.65545.655X1 X2X1 X20.274780.274783 352.11652.116X1 X3 X4X1 X3 X40.487970.487974 443.56843.568X1 X3X1 X30.375220.375223 348.09148.091
20、X1 X4X1 X40.441370.441373 345.0745.07X1 X2 X3 X4X1 X2 X3 X40.528230.528235 542.15742.157X2 X3X2 X30.407480.407483 346.6646.66二、逐步选择变量的方法二、逐步选择变量的方法1.向前引入法向前引入法 (forward selection):前进法前进法 将与将与y简单相关系数最大且简单相关系数最大且F检验又有意义的选为检验又有意义的选为第一个变量,第一个变量,直到不再拒绝直到不再拒绝H0 。 注:一次只能引入一个自变量,若两个变量在一起效果好,注:一次只能引入一个自变量,若两
21、个变量在一起效果好,单独一个却不好时,则该变量无机会选中。单独一个却不好时,则该变量无机会选中。2.向后引入法向后引入法(backward selection):后退法后退法 首先对全部候选自变量建立回归方程,然后一个首先对全部候选自变量建立回归方程,然后一个个剔除无统计学意义的变量,直到再不能剔除。个剔除无统计学意义的变量,直到再不能剔除。l在向前引入的每一步之后都考虑从已引入方程在向前引入的每一步之后都考虑从已引入方程的变量中剔除相形见绌者。先规定两个值的变量中剔除相形见绌者。先规定两个值F引入引入和和F剔除剔除, F引入引入F剔除剔除,引入和剔除交替进行,直到,引入和剔除交替进行,直到无
22、可引入和剔除为止。调整两个无可引入和剔除为止。调整两个F值可影响筛选值可影响筛选结果。结果。l小样本检验水准小样本检验水准a定为定为0.10或或0.15,大样本定为,大样本定为0.05。值越小表示选取自变量的标准越严。值越小表示选取自变量的标准越严。l 注意,引入变量的检验水准要小于或等于剔除注意,引入变量的检验水准要小于或等于剔除变量的检验水准。变量的检验水准。3.逐步引入逐步引入-剔除法剔除法(stepwise selection) l前进法:容易忽略有意义的变量前进法:容易忽略有意义的变量局限性:即后续变量的引入可能会使先进局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。入
23、方程的自变量变得不重要。l后退法:容易引进更多的变量后退法:容易引进更多的变量局限性:自变量高度相关时,可能得不出局限性:自变量高度相关时,可能得不出正确的结果正确的结果 。l逐步法:所选变量比较精悍,但计算繁琐逐步法:所选变量比较精悍,但计算繁琐三种方法比较三种方法比较C Co oe ef ff fi ic ci ie en nt ts sa a3.0062.3641.272.215-1.8627.874.978.254.6103.845.001.4541.5021.3102.308.568.576-3.4536.073.732.259.4562.833.009.1991.266.678.2
24、96.3692.290.031.0671.2884.3092.7761.552.134-1.43310.051.635.253.3962.507.020.1111.160.545.293.2971.861.076-.0611.151-.219.122-.274-1.785.088-.472.0355.9432.8292.101.047.07711.809.638.243.3982.623.016.1341.143.142.366.078.390.701-.616.901-.271.121-.339-2.229.036-.522-.019.351.204.3091.721.099-.072.77
25、56.5002.3962.713.0121.54311.456.663.230.4132.880.008.1871.140-.287.112-.360-2.570.017-.518-.056.402.154.3542.612.016.084.721(Constant)糖化血红蛋白(Constant)糖化血红蛋白总胆固醇(Constant)糖化血红蛋白总胆固醇胰岛素(Constant)糖化血红蛋白总胆固醇胰岛素甘油三脂(Constant)糖化血红蛋白胰岛素甘油三脂Model12345BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoef
26、ficientstSig.Lower Bound Upper Bound95% Confidence Interval for Ba. 逐步筛选结果逐步筛选结果第三节第三节 多重回归分析应用及一些问题多重回归分析应用及一些问题一、多重线性回归的应用一、多重线性回归的应用l预测预报:预测预报:利用实测值建立的预报方程,可以进行预测利用实测值建立的预报方程,可以进行预测预报。预报。 1.因素分析:发现影响因素因素分析:发现影响因素 二、应用多重线性回归的几点注意二、应用多重线性回归的几点注意 l应用条件:线性、独立、正态、等方差(应用条件:线性、独立、正态、等方差(LINE)l样本含量:在进行多重
27、线性回归分析时,一般要求观察样本含量:在进行多重线性回归分析时,一般要求观察例数不少于变量个数的例数不少于变量个数的5-10倍。倍。l数据类型:回归方程中的各变量一般应是数值变量,但数据类型:回归方程中的各变量一般应是数值变量,但如果自变量为分类变量或有序变量时,须转换。如果自变量为分类变量或有序变量时,须转换。l预测范围预测范围 回归方程进行预报,各自变量的取值范围应在回归方程进行预报,各自变量的取值范围应在观察范围之内。观察范围之内。l“最优最优”方程的意义方程的意义l方法学上:全局择优与局部择优方法学上:全局择优与局部择优相对最优相对最优l实际应用:符合专业意义实际应用:符合专业意义例如
28、例如 若回归方程能较好地反映若回归方程能较好地反映y和和xi 的线性关系,残的线性关系,残差应该是服从差应该是服从 =0的正态分布。的正态分布。 也可用每一例的残差也可用每一例的残差 做图,理想做图,理想的残差图上的点应围绕的残差图上的点应围绕x轴轴( )随机分布。随机分布。iiiiyyye与iyl绘制残差的直方图判断分布的正态性以及发现异绘制残差的直方图判断分布的正态性以及发现异常值;绘制残差与自变量常值;绘制残差与自变量(或因变量预测值或因变量预测值)的散的散点图考察模型形式以及方差齐性。点图考察模型形式以及方差齐性。三、残差分析:三、残差分析:l(a)可以认为基本满足线性和等方差的假定条
29、件可以认为基本满足线性和等方差的假定条件l(b)(c)的散点呈现曲线趋势,提示资料不满足线性的假定。的散点呈现曲线趋势,提示资料不满足线性的假定。l(d)(e)(f)显示残差变化,提示资料不满足方差齐的前提条件显示残差变化,提示资料不满足方差齐的前提条件l(g)(h)显示方差不齐,而且散点呈现曲线趋势,提示资料不满显示方差不齐,而且散点呈现曲线趋势,提示资料不满足线性和方差齐性的前提条件。足线性和方差齐性的前提条件。常见残差图常见残差图例例15-1的进一步剖析的进一步剖析剔除剔除No25号数据(标准化残差号数据(标准化残差2.46)逐步筛选的结果逐步筛选的结果E Ex xc cl lu ud
30、de ed d V Va ar ri ia ab bl le es s-.006-.033.974-.007.801.074.457.652.095.974-.282-1.789.087-.349.908-.044-.253.803-.054.789.146.930.362.195.920总胆固醇甘油三脂胰岛素总胆固醇甘油三脂Model12Beta IntSig.PartialCorrelationToleranceCollinearityStatisticsC Co oe ef ff fi ic ci ie en nt ts sa a3.7831.9671.923.066-.2777.842
31、.864.213.6384.060.000.4251.3036.0712.2762.667.0141.36210.779.748.214.5523.499.002.3061.190-.195.109-.282-1.789.087-.420.031(Constant)糖化血红蛋白(Constant)糖化血红蛋白胰岛素Model12BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig. Lower Bound Upper Bound95% Confidence Interval for BDependent Variable: 血糖a. l二分类:二分类:xi取取0或或1, 多分类:设置分类数减多分类:设置分类数减1个哑变量个哑变量 血型X1X2X3A100B010O001AB000l如果变量有等级之分如果变量有等级之分 近似等间距的:近似等间距的: xi取取1,2,3. 不等间距或无法度量间距的:用适当的数量化方法不等间距或无法度量间距的:用适当的数量化方法四、名义变量的分析四、名义变量的分析n部分或全部自变量间存在高度相关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学三年级阅读理解能力培养计划
- 法治意识培养五年级教学计划
- 小学一年级语文教学计划的差异化教学模式
- 幼儿园2024-2025年健康饮食计划
- 2025年度教育信息化建设计划
- 在线教育平台教师安全操作培训计划
- 2025年特白商标布项目可行性研究报告
- 2025年熔炼型中锰中硅中氟焊剂项目可行性研究报告
- 2025年滑盖式烟盒项目可行性研究报告
- 教育管理者个人成长计划
- 中考语文试题双向细目表
- 新概念动能武器-电磁炮
- 小学三年级数学应用题大全(500题)
- 电梯安全检测招标文件
- GB/T 44131-2024燃料电池电动汽车碰撞后安全要求
- NB-T35016-2013土石筑坝材料碾压试验规程
- 2024年华勤技术股份有限公司校园招聘考试试题及参考答案
- 医疗用品线上线下融合模式探索
- 福建省住宅建筑生活供水工程技术规程
- 中班语言《玩具火车轰隆轰隆》课件
- JT-T 1495-2024 公路水运危险性较大工程专项施工方案编制审查规程
评论
0/150
提交评论