用SAS作回归分析.ppt_第1页
用SAS作回归分析.ppt_第2页
用SAS作回归分析.ppt_第3页
用SAS作回归分析.ppt_第4页
用SAS作回归分析.ppt_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 用SAS作回归分析 SASInstitute Shanghai Co Ltd RegressionAnalysis Insight Air或Iris看散点图阵 2 变量的相关关系 散点图是直观地观察连续变化变量间相依关系的重要工具 Insight AnalyzeScatterplot YX 或Multivariate Y s 编程 procgplot Analyst GraphsScatterplot 3 变量的相关关系 用直线描述 用曲线描述 可能有周期变化 无明显关系 InsightIris看散点图与相关 4 相关系数 CorrelationCoef 线性联系是描述变量联系中最简单和最常用的一种 Y a1x1 a2x2 b 相关系数是描述两个变量间线性联系程度的统计指标相关系数的计算公式 5 相关系数 CorrelationCoef 正相关 一个变量数值增加时另一个变量也增加 负相关 一个变量数值增加时另一个变量减少 Insight 置信椭圆 6 相关系数 CorrelationCoef 若变量有高度线性相关时相关系数接近 1 若变量有正相关时相关系数 0 若变量有负相关时相关系数 0 7 相关系数 CorrelationCoef 强相关并不表示存在因果关系 弱相关并不表示变量间不存在关系 个别极端数据可能影响相关系数 8 相关系数的计算SAS INSIGHT Analyze Multivariate Y s Output Corr 在多变量分析窗中 由下拉菜单Tables Corr 在散点图上加置信椭圆认识相关大小Curves ConfidenceEllipse Prediction 9 相关系数的计算Analyst Statistics Descriptive Correlations 10 散点图与相关计算Insight 散点图 bclassY W X H sex 颜色age 符号 放大散点图阵 carsmidprice citympg egnsize rpm fueltnk perform旋转图 cars iris perform egnsize idprice 相关系数 carsmidprice citympg hwympg egnsize rpm perform p value 置信椭圆 11 Analyst 相关计算 fitnessOxygen rstpulse runpulse runtime options p value plots散点图 置信椭圆 编程 carsp2395变量相关p241nosimplenoprobwith 散点图与相关计算Analyst与编程 Cor001Class Cor002Fitnesswith Cor003Cars1n不等 12 相关系数的计算 PROCCORRDATA 数据集名 RUN PROCCORRDATA 数据集名 var变量名列 with变量名列 partial变量名列 by变量名列 RUN 13 相关与回归 相关分析量化连续变化变量间线性相关的强度回归分析确定一个连续变量与另一些连续变量间的关系 14 回归 Regression 描述一个变量与另一些变量间统计联系的关系式 Y f x1 x2 xm 用于解释和预测 确定回归 确定变量 Y与那些x1 x2 xm有关选择形式 Y与x1 x2 xm以什麽形式相联系 即f的表示式确定系数 确定Y a1x1 a2x1x2 a3x12 中的ai 15 回归的简单线性模型 Yi b0 b1xi eii 1 2 nYi 因变量的第i次观测值xi 自变量的第i次观测值b0 b1 待估计的未知参数ei 余差 residual相互独立 正态分布 零均值 同方差 一般的 Yi b0 b1x1i b2x2i bpxpi ei 16 回归的简单线性模型 17 回归的简单线性模型 18 线性回归的拟合 19 最小二乘法估计 LSE 20 SAS INSIGHT拟合线性回归 散点图 拟合 Analyze Fit X Y Noint 强制截距为零 下拉菜单 Tables 方程 参数 Anova预测值计算 在数据表独立变量栏键入数据Curve 置信曲线 ind mean 21 简单线性回归Insight Analyst Insight Cars Y midprice X perform解释输出结果生成预测加回归和预测置信带shipment Y costnoint Analyst Fitness Y oxygen X runtime plot散点图 置信带shipment nointY cost X delay 22 回归的方差分解 总变异 回归阐明部分 回归未阐明部分 23 回归的方差分解 24 回归的方差分解 25 回归的假设检验 原假设 简单线性模型拟合数据不比基线模型好b1 0 r 0 b1 小 SS Model 小备选假设 简单线性模型拟合数据比基线模型好b1 0 r 0 b1 不为零 SS Model 大 26 27 回归的方差分解 SS Total SS error SS Ind var SS Const 28 预测值与置信限 29 回归分析计算Analyst Analyst StatisticsRegression Simple 30 回归分析计算 PROCREGDATA 数据集名 MODEL应变量 自变量 RUN P p 加预测值和余差 31 回归分析计算 PROCREGDATA 数据集名 MODEL应变量 自变量 RUN PROCREGDATA 数据集名 MODEL应变量 自变量名列 pcliclmnoprintnoint id 变量名 output 数据集名关键统计量名 输出名 RUN 32 回归分析计算编程 P256fitnessoxy runtimep257shipmentnointp258fitness pidp259计算预测值p260 cli作图p261regoxy runtimep262 conf95pred95p264 1gplotI rlp264 2I rlclm95p265 overlay P266I rl0clmp267bclassw h sex变换为线性Diamond 33 回归分析计算 p180最简p182id pp182 1加入新自变量预测p183 clmclip183 1加入新自变量预测p184 noprint plotp184 1graphics Noint Reg033散点 Reg034拟合Reg039 1拟合图 Reg039 2合一Reg039 3拟合 置信变换为线性Diamond 34 回归线作图 PROCREGDATA 数据集名graphicsnoprint MODEL应变量 自变量 pcliclmr PLOTy变量 x变量 选项 symbolnc 颜色v 值 RUN 利用procreg中的graphics选项和plot语句可以绘制与拟合数据有关散点图 回归线和置信曲线 预测区间曲线 graphics高分辨图 noprint打印拟合数据 p185 1 4散点 余差 CL散点 置信曲线 35 回归线作图 PROCREGDATA 数据集名graphicsnoprint MODEL应变量 自变量 pcliclmr PLOTy变量 x变量 选项 symbolnc 颜色v 值 RUN y变量和x变量可以是应变量 自变量和其它与回归分析有关的变量 p predicted 预测值r residual 余差U95 L95 预测值置信限U95M L95M 预测均值置信限 选项 conf95作预测均值置信曲线pred95作预测值置信曲线overlay将语句中规定的图迭置在一幅图上AICCPMSESSE在图上显示相应的统计量 P 36 回归线作图 PROCGPLOTDATA 数据集 PLOT纵轴变量 横轴变量 RUN PROCGPLOTDATA 数据集 PLOT纵轴变量 横轴变量纵轴变量 横轴变量 overlay symbol1i rlcli rlclm置信百分数其它图形选项 symbol2i rlcli rlclm置信百分数其它图形选项 RUN 图形选项 c value cv height font Line width interpol rci 37 回归线作图 用ProcReg作图P185 1散点 拟合P185 2r runtimeP185 3p U95 P185 4拟合及置信曲线 用gplot p186I v cv hp187I ci w lp188置信 clmcli cp189overlayReg039 1 3noint拟合与置信p190class男女两条线 38 多变量线性模型 观测方程Yi b0 b1xi1 bpxip ei i 1 n ei 相互独立 正态分布 同方差 零均值 最小二乘估计 归为b0 b1 bp的一个线性方程组 p276Cars2剔除hwympg fueltnk看citympg rpm 39 多变量线性模型 多变量线性模型可同时研究Y与多个独立变量x1 x2 xp间的关系对多变量模型进行解释和选择最优要比单变量的模型复杂在试验结果的解释 分析 预测等方面 多变量线性模型是一个有力的工具 一些变量间的非线性关系也可归为多变量线性模型 例多项式关系 40 多变量线性模型 41 平方和分解 42 Options P CLM CLI 43 多变量线性模型的检验 在多变量回归分析输出的回归参数的t 检验里 都是假定其它相依变量进入回归的前提下检验该变量进入的显著性 若模型中有两个变量有相关 在这一检验中两者的显著性都可被隐蔽起来 所以 这一检验结果必须小心分析 删除变量时 必须逐个删除 并在删除每个变量后 注意观测其它变量的p 值的变化 44 变量 模型 选择 在回归方程中 若遗漏了应加入的变量 将使所有的回归系数估计量产生偏差 若加入了不该加入的变量 将加大所有的回归系数估计量的方差 回归分析中变量的选择是要在独立变量中找出合适的子集 用以描述模型和进行预报 常用的有 全部可能回归方法 更多的侯选模型 和逐步回归法 节省计算资源 45 变量选择准则 逐步回归 逐步回归方式挑选有关的选项 NONE 全部进入 不加选择FORWARD 逐个加入BACKWARD 全部加入后逐个剔除STEPWISE 边进边出MAXR 逐个加入和对换 使R2增加最大MINR 逐个加入和对换 使R2增加最小 46 变量选择准则 逐步回归 MAXR 开始加入使R2增加最大的变量以后每一步选择模型内外变量进行对换 选择R2增加最大的对换选择加入一个使R2增加最大的新变量MAXR 开始加入使R2增加最小的变量以后每一步选择模型内外变量进行对换 选择R2增加最小的对换选择加入一个使R2增加最小的新变量 47 变量选择准则 全部回归 48 回归分析计算 Analyst Statistics Regression Linear 变量选择 Model 49 多变量回归分析 Insight FitnessY midprice X 其它7个数值变量 copy deletehwympgdst paper多项式回归Y strengthamount 4 Itypetests Analyst FitnessY Oxygen X age maxp rstp runp runtimeweight Model methodf P 50 回归分析计算 变量选择 PROCREGDATA 数据集名 MODEL应变量 自变量名列 pcliclmrnoprintselection backward forward stepwisersquare adjrsq cpslentry 0 50slstay 0 10best 个数aicsbcrmseinclude n id 变量名 output 数据集名关键统计量名 输出名 RUN 51 多变量回归分析 变量选择 Dst Fitnessp282oxy ageweightrstpmaxprunpruntp284deleterstpp285 selection stepwisep288 sel rsquarebp289 1 sel rsq bbest 2p289 2 sel cpadjrsq 多项回归 paperp290streng amount 3p291glm看检验4次 p191全进 p192deletep193backwardforward slstay slentry 0 1 p195stepwizep198rsquareadjrsqcpp199best 2 Insightdst paper Reg084 1 2拟合及图看SS1 52 拟合多项式模型 多项式函数是非线性函数中较为简单的一类 它也可通过多元线性回归来拟合Y b0 b1x b2x2 b3x3 引入新变量xi xiY b0 b1x1 b2x2 b3x3 INSIGHT提供简便的方法拟合多项式并显示图形procreg和procglm都可用于拟合多项式 53 I型平方和 I型 Sequential 平方和记录回归变量逐个进入回归时 模型平方和的增加量 54 I型平方和 I型平方和可转化为F统计量 用以对回归模型Y b0 b1x1 b2x2 b3x3 e作如下的检验 55 两种平方和 SS1 SS2 56 两种平方和 SS1 SS2 因此 若进入回归的变量有一定的优先次序 如对多项式 线性项先二次项 二次项先于三次项等 应该用I型平方和及相应的F统计量 若平等地考虑各个变量是否进入回归 则可用II型平方和及其相应的F统计量 57 两种平方和 SS1 SS2Insight Insight Tables TypeI III Tests 多项式 Reg084 3拟合SS1SS2 58 两种平方和 SS1 SS2 Analyst Statistics Regression Linear Statistics Statistics SS1SS2 59 两种平方和 SS1 SS2 PROCREGDATA 数据集名 MODEL因变量名列 自变量名列 OUTPUTOUT 数据集名 RUN 60 PROCGLM PROCGLM用最小二乘法拟合一般的线性模型 包括回归分析 方差分析等它与procreg一样提供方差分析 参数估计检验和两类平方和它提供关于两类平方和的检验拟合多项式回归时不必预先生成变量的高次项它不提供回归诊断的信息 多项式 Reg094 084 4拟合 图reg097 reg098 综合 fish例 61 PROCGLM PROCGLMDATA 数据集名 CLASS变量名列 MODEL因变量名列 自变量名列 OUTPUTOUT 数据集名 RUN 变量 变量 变量 变量 62 FIT X Y 63 回归诊断 例外值 outliers 或异常作用点的检查从已拟合回归的数据中分析线性模型的假定是否被破坏 应变量的均值是否是独立变量的线性函数 是否需要对变量进行变换或拟合曲线回归余差 residuals 是否同方差 不相关 正态分布独立变量间是否存在线性关系 仅多元有 考察余差散点图是进行回归诊断的必要步骤 64 回归诊断 65 回归诊断Ascombe s例 Ascombe s例Insight dst ascombereg228编程作4图合一reg228 1 4分别作图reg222 1 3编程分析A x1 y1 I x1 y2 O x1 y3 H x2 y4 66 回归诊断 回归分析的余差值是回归诊断的重要工具 利用余差可以考察余差和预测值的散点图也可以检验余差分布的正态性 67 回归诊断 模型合适 应改曲线模型 不等方差 观测值不独立 68 回归诊断生成余差 在INSIGHT中拟合回归后在数据表中回自动生成预测值 余差值和余差 预测散点图 69 回归诊断生成余差 Analyst Statistics Regression Linear Predictions预测值 余差值 70 回归诊断 Insight CarsVar Stdres 找绝对值超过2者var Cook sD超过4 92 0 04348var Dffits超过2sqrt k 1 n 0 58977参数估计表中看vifoutput collinearity 看条件指数与方差比例 Analyst Cars p r studenttodst plot std p cookd 0 0435 dffits 58977 statisitcs testsCollinearity vif 71 回归诊断生成余差 在PROCREG的model语句加上选项p 就会输出预测值和相应的余差 PROCREGDATA 数据集名graphics MODEL应变量 自变量 p PLOTy变量 x变量 选项 symbolnc 颜色v 值 RUN 利用plot语句plotr p 就可得到余差 预测散点图 72 回归诊断识别异常观测值 73 回归诊断识别异常观测值 在PROCREG的model语句加上选项r 就会输出与预测值和余差有关的一些统计量 他们可用于识别异常数据 outlier 及其影响 PROCREGDATA 数据集名 MODEL应变量 自变量 r RUN PredictValue预测值StdErrPredict预测值标准差Residual余差StdErrPredict余差标准差StudentResidualstudent化的余差 2 1012余差显著性图Cook sDCook sD统计量 74 与余差有关的统计量 75 回归诊断余差分布正态性 有了余差的数据 就可对其运用图形方法或正式的分布正态性的检验在INSIGHT中可直接对数据表中的预测余差变量进行分析在PROCREG可利用下列语句用图形分析余差分布正态性 PROCREGDATA 数据集名graphics MODEL应变量 自变量 PLOTnqq student nqq r RUN 76 回归诊断识别有影响的观测 77 回归诊断识别有影响的观测 CookD统计量度量一个观测从分析中剔除时参数估计值的变化对一个观测值其CookD统计量的值超过4 n时 n为样本容量 这个观测存在反常效应 SAS INSIGHT在下拉菜单选Var Cook sD 78 回归诊断识别有影响的观测 Dffitsi度量第i个观测对预测值的影响 第i个观测的预测值 用排除第i个观测的回归对第i个观测的预测值 第i个观测的预测值的标准差 p为模型中参数的个数 n为样本容量 SAS INSIGHT在下拉菜单选Var Dffits 79 回归诊断识别有影响的观测 Analyst Statistics Regression Linear SaveData 80 回归诊断识别有影响的观测 ProcREG的Model语句加选项r可获得CookD统计量 ProcREG的Model语句加选项influence可获得Dffits等反映观测值影响的统计量 PROCREGDATA 数据集名 MODEL应变量 自变量 rinfluence RUN 81 回归诊断编程 Dst carsp311 rp312output p r student p313plotstudent p P314 1 influencep314 2outputcookddffitsp315 collinvif R022Influence 82 选项influence生成的统计量 83 回归诊断识别有影响的观测 偏杠杆图是使有影响观测可视化的方法偏杠杆图是两个回归的散点图例如对变量xr的偏杠杆图 纵轴是Y关于除xr以外所有x的回归的余差横轴是xr关于所有x的回归的余差有影响观测通常分离与其它数据点或在某一轴上有极端数值偏杠杆图还可识别要加入哪些变量的高次项 84 回归诊断识别有影响的观测 SAS INSIGHT在下拉菜单选GraphsPartialLeverage ProcREG的Model语句加选项partial可获得杠杆图 低分辨 PROCREGDATA 数据集名 MODEL应变量 自变量 partial RUN 85 l倍讯易倍讯易 pxyi让您获取管理资讯更容易 提供海量的公文 范文 制度 规定 倍讯易 pxyi 86 回归诊断识别有影响的观测 如何处理有影响的观测复验数据 确认并无数据输入错误发生若数据是有效的 模型可能不合适 拟合此数据可能需要使用高阶模型也可能数据是反常的一般 不剔除数据 某些有影响的观测提供重要的信息 要剔除数据 应给出必要的描述和说明 87 回归诊断共线性诊断 共线性 collinearity multicollinearity 问题是指独立变量间存在线性关系变量间的线性关系会隐蔽变量的显著性也会增加参数估计的方差产生不稳定的模型只有拟合多元

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论