第三讲统计分析

上传人：6*** IP属地：湖北上传时间：2022-05-10 格式：PPTX 页数：35 大小：623.30KB 积分：30 举报 版权申诉

已阅读5页，还剩30页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第三讲：统计分析第三讲：统计分析主要教学内容：v 描述统计描述统计&相关系数相关系数v 均值均值&中位数检验中位数检验v OLS回归回归v 逻辑回归逻辑回归v logit&probit回归回归v tobit回归回归v cluster(聚类聚类)v 因子分析因子分析v spline回归回归v GLS回归回归v 2SLS回归回归v 中位数回归中位数回归描述统计 /*使用表m12*/data m12;set test.m12;run;proc means data=m12 n mean std max q3 median q1 min;var tc csp size lev

2、 roa purchs loan state;run; 以HTML格式数据结果：工具=选项=参数选择=结果=创建HtmL（使用work文件夹）分组描述统计procproc meansmeans n n datadata=m12;=m12;varvar stock; stock;classclass year state; year state;runrun; ;/ /* *classclass可用可用byby替换，但要先按替换，但要先按byby变量排序变量排序* */ /procproc sortsort datadata=m12;=m12;byby state;state;runrun; ;

3、procproc meansmeans meanmean datadata=m12;=m12;varvar cspcsp tctc; ;byby state; state;runrun; ;3相关系数 procproc corrcorr datadata=m12 =m12 pearsonpearson spearmanspearman; ; varvar tctc cspcsp size size levlev roaroa purchspurchs loan loan indpdtindpdt msharemshare state; state; runrun; ; procproc cor

4、rcorr datadata=m12 =m12 pearsonpearson; ; varvar tc csp size lev; tc csp size lev; wherewhere state= state=1 1; ; runrun; ; / /* *用用wherewhere子句选择需要的样本子句选择需要的样本* */ /4独立样本的均值检验又叫又叫T T检验检验procproc ttestttest datadata=m12;=m12; varvar tctc cspcsp; ; classclass state; state;runrun; ;独立样本的中位数检验又叫非参数检验又叫

5、非参数检验procproc npar1waynpar1way datadata=m12 =m12 wilcoxonwilcoxon; ; classclass state; state; varvar tctc cspcsp; ;runrun; ;OLS(最小二乘)回归因变量为因变量为连续变量连续变量 procproc regreg datadata=m12;=m12; modelmodel tctc= =cspcsp size size levlev roaroa purchspurchs loan loan indpdtindpdt msharemshare state year1-ye

6、ar3 ind1-ind11; state year1-year3 ind1-ind11; runrun; ; / /* *经过行业、年度调整的回归经过行业、年度调整的回归* */ /结果导出 /*在word中生成表格*/odsods rtfrtf filefile= =e:dataresult.rtfe:dataresult.rtf; ; proc proc regreg datadata=m12;=m12; model model tctc= =cspcsp size size levlev roaroa purchspurchs loan loan indpdtindpdt mshare

7、mshare state;state;runrun; ; odsods rtfrtf closeclose; ;ods rtf file=e:dataresult.rtf; proc corr data=m12 pearson spearman; var tc csp size lev; run; ods rtf close; /*保存为网页格式保存为网页格式*/ ods html file=“e:dataresult.htm; proc reg data=m12; model tc=csp size lev roa purchs loan indpdt mshare state;run; o

8、ds html close; /*保存为保存为PDF格式格式*/ ods printer file=d:dataresult.pdf pdf; proc reg data=m12; model tc=csp size lev roa purchs loan indpdt mshare state;run; ods printer close;报告模型估计结果(output)在数据集在数据集p中生成模型的各估计量：中生成模型的各估计量： proc reg data=test.m12; model tc=csp size lev roa purchs loan indpdt mshare stat

9、e; output out=p r=residual p=yhat stdi=stdi stdp=stdp stdr=stdr ; run;r: residualp: predicted y （yhat）stdi: 个体的预测标准误stdp:平均的预测标准误stdr: 残差标准误分组回归例：分年度回归并报告每组的回归系数 proc sort data=test.m12; by year; run; /*先按by变量排序*/ proc reg data=test.m12 outest=est; model tc=csp size lev roa purchs loan indpdt mshar

10、e state; by year; run; outest选项表示在数据集中报告回归系数。选项表示在数据集中报告回归系数。logistic回归逻辑回归：逻辑回归：是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法。即y 取某值（如y=1）的概率（p）与某影响因素（x）的关系，其中p（概率）的取值范围介于01之间。因变量为分类变量，取值范围在0，1.使用数据集使用数据集resdat.audit： data audit; set resdat.audit; run;logistic回归 proc logistic data=audit descending; model bi

11、g4=sqrcratio cratio size lev roa growth rec int rf / rsquare; where state=1 and ind3=1; run;以上程序与下面这段程序等价以上程序与下面这段程序等价: (descending和和event的作用的作用) proc logistic data=audit; model big4(event=1)=sqrcratio cratio size lev roa growth rec int rf/rsquare; where state=1 and ind3=1; run;逐步回归(stepwise) proc l

12、ogistic data=audit descending; model big4=sqrcratio cratio size lev roa growth rec int rf / selection=stepwise; where state=1 and ind3=1;run; selection=stepwise：逐步回归，将Wald统计量的P值小于0.05的自变量自动剔除logit回归 proc logistic data=audit descending; model big4=sqrcratio cratio size lev roa growth rec int rf / lin

13、k=logit; output out=out p=prob xbeta=yhat; where state=1 and ind3=1; run;logit (P) = ln (P / (1-P) = a + b*x =yhatP = exp (a + b*x) / (1 + exp (a + b*x) ) =prob非常重要：在非常重要：在logit和和probit回归中，回归中，p表示事件发生的概率值，表示事件发生的概率值，xbeta表示因变量表示因变量y的估计值。但在的估计值。但在OLS回归中，回归中，p表示表示y的估计的估计值，而值，而xbeta表达式不起作用。表达式不起作用。prob

14、it回归 proc logistic data=audit descending; model big4=sqrcratio cratio size lev roa growth rec int rf / link=probit; output out=out p=prob xbeta=yhat; where state=1 and ind3=1; run;probit(P) = a + b*x = yhatP= prob =pnorm( yhat )（pnorm是标准正态分布的分布函数）probit模型服从正态分布。非常重要：在非常重要：在logit和和probit回归中，回归中，p表示事件

15、发生的概率值，表示事件发生的概率值，xbeta表表示因变量示因变量y的估计值。但在的估计值。但在OLS回归中，回归中，p表示表示y的估计值，而的估计值，而xbeta表表达式不起作用。达式不起作用。spline回归分段线性回归：Knots(change points) ：Spline回归(样条回归)：在结点处(knots)光滑的分段回归Spline回归的模型：其中k kj j 表示结点，q为结点个数。spline回归举例现在，我们将cratio的下四分位数(q1)和上四分位数(q3)作为spline的两个结点，则有：cratio1cratioq1q1cratio20cratio-q1q3-q

16、1cratio300cratio-q3cratio的值q1q3将cratio1-cratio3加入模型中回归，代替原来模型中的sqrcratio和cratio。spline回归举例首先，生成首先，生成cratio的结点：的结点：q1、q3： proc univariate data=audit; var cratio; output out=audit1 p ctlpts=25 75 pctlpre=a pctlname=q1 q3; quit; data audit1; set audit1; idd=1; run; data audit; set audit; idd=1; run; d

17、ata audit2; merge audit audit1; by idd; run;spline回归举例proc sql;create table audit3 as select *,case when cratioaq1 then cratio else aq1 end as cratio1,case when cratioaq1 then 0 when aq1=cratioaq3 then cratio-aq1 else aq3-aq1 end as cratio2,/*接左栏接左栏*/case when cratio=aq3 then 0 else cratio-aq3 end a

18、s cratio3from audit2;quit;其次，生成其次，生成cratio1-cratio3。spline回归举例最后，最后，spline回归：用回归：用cratio1-cratio3代替原来模型中的代替原来模型中的cratio 和和sqrcratio 。 proc logistic data=audit3 descending; model big4=cratio1 cratio2 cratio3 size lev roa growth rec int rf / rsquare; where state=1 and ind3=1; run;spline回归结果与普通逻辑回归结果的对

19、比回归结果与普通逻辑回归结果的对比GLS(广义最小二乘)回归OLS回归必须在满足高斯-马尔可夫假定时才有效，当MLR.5(同方差假定)不满足时，就会产生异方差问题，此时使用GLS回归比OLS更有效。例：假设如下回归模型存在异方差问题，则使用GLS回归程序：proc genmod data=audit descending;model big4=sqrcratio cratio size lev roa growth rec int rf /link=logit dist=binomial;run; link选项：选择连接函数的类型选项：选择连接函数的类型 dist选项：因变量的分布类型选项：因

20、变量的分布类型(该例中的该例中的binomial表示二项分布表示二项分布)，如，如normal、tobit、poisson等。等。tobit回归tobit模型适用于这样一类受限因变量：在严格为正值时基本连续，但总体中有一个不可忽略的部分取值为0。例：企业收到的政府补贴(受限因变量)受哪些因素的影响：data tobit; set resdat.tobit; run;proc qlim data=tobit;model subsidy=lnasset lev roa growth deficit;endogenous subsidy censored(lb=0 );run;endogenous:

21、内生变量，此处指受限因变量。censored(lb=0): 表示因变量的lower boundary是0。2SLS(两阶段工具变量法)回归当MLR.4(零条件均值假定)不满足时，就会产生内生性问题，使用两阶段工具变量法(2SLS)可以解决。例：假设在GDP的影响因素中，政府购买(gvmtpur)是内生变量，用广义货币供应M2作为gvmtpur的工具。data gdp; set resdat.gdp; run;proc syslin data=gdp 2sls first; /*first: 报告第一阶段回归结果*/endogenous gvmtpur; /*指定内生变量*/instrumen

22、ts consume invest m2 ; /*指定工具变量*/model gdp = gvmtpur consume invest ; /*第二阶段模型*/run;Heckman 两阶段回归Heckman模型用于解决自选择问题。举例举例：假设, 我们预计big4会显著提高企业的Tobin-Q (二者正相关), 但是也有可能是由于big4主动选择了Tobin-Q高的企业作为审计客户。解决方法解决方法： stage1: 引入工具变量估计一个审计师选择模型(因变量=big4), 根据估计值(big4=xbeta)的分布函数计算逆米尔斯比率invmr； stage2: 将invmr代入原模型回归，

23、以控制自选择偏差。 Heckman 两阶段回归/*第一阶段回归第一阶段回归*/proc logistic data=audit; model big4(event=1)=size lev growth rf add fee/link=probit; output out=heck1 xbeta=xbeta; quit;data heck2; set heck1; invmr=pdf(NORMAL,xbeta)/cdf(NORMAL,xbeta); run; /*第二阶段回归第二阶段回归*/proc reg data=heck2; model tobinq=big4 size lev growt

24、h rf invmr; quit;新增加的工具变量add为企业所在省份, fee是审计费用。它们影响big4但不影响tobin Q。2SLS与Heckman的区别二者都用来解决内生性问题。最主要的区别在于： 2SLS回归用于内生变量是连续型变量(如gvmtpur)的时候； Heckman 两阶段模型用于内生变量是分类变量(如big4)的时候。panel data(面板)回归面板数据是时间序列和截面数据的混合，指对一组个体连续追踪观察多期的资料。常用固定效应(FE)和随机效应(RE)模型来回归。例：datadata mvaluemvalue; ; setset resdat.mvaluere

25、sdat.mvalue; ; runrun; ;/*先计算每个公司有几个观测值no*/procproc sqlsql; ;create table mvalue1 asselect *,n(stock) as nofrom mvaluegroup by stock;quitquit; ;panel data(面板)回归 /*删除样本期间内只有一年观测值的公司*/ datadata mvalue2; mvalue2;setset mvalue1; mvalue1; if no m21.220.5440panel data（面板）回归 proc sort data=mvalue2; by stoc

26、k year; run; /*先排序先排序*/ proc tscsreg data=mvalue2; model mv=invest capital/ fixone ranone; id stock year; run;cluster(聚类)分析 proc surveyreg data=test.m12; cluster stock; /*按stock来聚类*/ model tc=csp size lev roa purchs loan indpdt mshare state; quit;因子分析：主成分分析将相关比较密切的几个变量归在同一类中，每一类就成为一个因子，以较少的几个因子反映原资料的大部分信息。例：利用多个盈利指标生成一个因子，衡量企业

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三讲统计分析

文档简介

温馨提示

最新文档

评论

第三讲统计分析

文档简介

温馨提示

最新文档

评论

相关文档