实证研究中的数据分析课件

上传人：x*** IP属地：贵州上传时间：2023-07-31 格式：PPT 页数：145 大小：3.03MB 积分：25 举报 版权申诉

已阅读5页，还剩140页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2023/7/31陈小林发表经验论文（empiricalpaper）应做到三条研究问题有趣，能引起共鸣论文必须对文献做出贡献其他研究者未曾考虑过此问题其他研究者未能回答此问题其他研究者提供的回答是错误的对研究的经验分析必须非常可靠2023/7/27陈小林发表经验论文（empiricalp为什么需要计量分析2023/7/31陈小林

在《数学与头脑相遇的地方》，你的脑筋可以豁然开朗，你可以轻而易举地化解掉数学现象中的匪夷所思。数学是最奇妙的，它不关心主题，知道2X+2X=4X就行，能把真理浓缩为什么需要计量分析2023/7/27陈小林统计分析是正确理解数据的工具首先：要避免犯统计错误明确：统计没有错误，犯错的是人。1.理论和方法的错误2.理解和解释的错误2023/7/31陈小林统计分析是正确理解数据的工具首先：要避免犯统计错误2023/2023/7/31陈小林2023/7/27陈小林理念统计模型的严格数学表达很复杂、繁琐，但是其背后的思想往往很简单做为统计学的使用者，重要的是掌握统计学的思想、解决问题的步骤和结果的解读，至于那些研究方法本身的事情，交给统计学家去做吧复杂的方法未必是可行的方法，越是简单的方法，越容易得到广泛采用，也往往给使用者带来更多的价值

要注意统计学方法的适用条件，滥用统计学会造成“严重”的负效果2023/7/31陈小林理念统计模型的严格数学表达很复杂、繁琐，但是其背后的思想往往2023/7/31陈小林2023/7/27陈小林2023/7/31陈小林2023/7/27陈小林2023/7/31陈小林经验数据分析三步骤数据收集与整理描述性统计多元回归分析（与稳健性检验）注：一篇经验研究论文的数据

3-4描述性统计和单变量分析表一些多元回归分析表2023/7/27陈小林经验数据分析三步骤数据收集与整理2023/7/31陈小林一、数据的收集与整理（selectdata&managedata）数据的收集数据库：CSMAR;CCER;WIND手工收集：年报；年鉴；网络资源数据整理数据结构变换数据合并（sas/stata：merge；append）计算新变量……2023/7/27陈小林一、数据的收集与整理（select2023/7/31陈小林数据结构变换2023/7/27陈小林数据结构变换2023/7/31陈小林合并简单合并（simplemerge）一个文件记录100个公司资产、负债，另一个文件记录该100个公司利润，合并成一个文件附加合并（append）一个文件记录50个公司的资产、负债和利润，另一个文件记录另外50个公司的资产、负债和利润，合并成一个文件匹配合并（matchmerge）一个文件记录100个公司资产、负债，另个文件记录100个公司利润，但两个文件的变量有缺失，合并成一个，需要按关键字合并(如股票代码等)————研究中主要是此类合并比如：前一文件中第30个公司没有数据，后一文件中第75个公司没有数据2023/7/27陈小林合并简单合并（simplemerg2023/7/31陈小林匹配合并示例2023/7/27陈小林匹配合并示例2023/7/31陈小林计算新变量研究中的测试变量往往需要重新计算独立董事比例国有股比例净资产收益率……

2023/7/27陈小林计算新变量研究中的测试变量往往需要重2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）什么是描述性统计（DescriptiveStatistics）描述性统计就是组织、描述和总结所收集到的一组数据的特征。需要注意的是，它所描述的是这组数据本身的分布特征。2023/7/27陈小林二、描述性统计分析（Descript2023/7/31陈小林2023/7/27陈小林2023/7/31陈小林

二、描述性统计分析（DescriptiveAnalysis）什么是推论统计

（InferentialStatistics推论统计就是从一个较小的群体中了解的信息并得出相关结论，推广到更大的一个群体。我们把较小的这个群体，也就是我们收集了数据的群体称之为样本（sample），把更大的那个群体，也就是我们所感兴趣的、要研究的对象群体称之为总体（population）。2023/7/27陈小林二、描述性统计分析（Desc2023/7/31陈小林描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计（利用样本信息和概率论对总体的数量特征进行估计和检验等）概率论（包括分布理论、大数定律和中心极限定理等）描述统计（统计数据的搜集、整理、显示和分析等）总体数据样本数据统计学探索现象数量规律性的过程

二、描述性统计分析（DescriptiveAnalysis）2023/7/27陈小林描述统计与推断统计的关系反映客观现象2023/7/31陈小林

二、描述性统计分析（DescriptiveAnalysis）描述统计的目的检查数据（如：变量值要有意义）对此变量的分布特征做初步判断依据此数据推论总体是否合适，要如何做调整依据此变量分布特征，选择合适的统计模型进行回归分析之前，进行描述性统计分析是非常重要的2023/7/27陈小林二、描述性统计分析（Descr2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）总体和样本样本是总体的一部分，是对总体随机抽样后得到的集合。对观察者而言，无法了解总体，只能了解样本的具体情况。通过对具体样本研究，来推断总体特征。随机变量连续型离散型2023/7/27陈小林二、描述性统计分析（Descript2023/7/31陈小林变量的测量尺度2023/7/27陈小林变量的测量尺度2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）名称级：用于测量“定类变量（nominalscale）”的值，是最低级别的测量等级。大多数定性测量都使用定类变量。其严格区分又可分为标记和类别标记：作为一个识别的记号，并不表示数量的多少，不能做数学运算，如运动员的号码类别：可以作为对变量的不同状态的度量。如性别、宗教。类别能够识别出某些特征，但也不能运算顺序级：用于测量“定序变量（ordinalscale）”的值，是可以按某种特性将观测对象排序的，如等级、高低，先后的次序等，人的经济地位、文化程度的测量

2023/7/27陈小林二、描述性统计分析（Descript2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）间隔级：用于测量“定距变量（intervalscale）”的值，这种值之间不但可以比较大小顺序，还可以说明相差多少，即两上个值之间是有实际意义的。例如，摄氏温度这一定距变量说明，摄氏40度比30度高10度，摄氏30度比20度又高10度，它们之间高出的距离相等，而摄氏零度并不是没有温度。又比如调查数个地区的工人占全部劳动人口的比率时，发现甲、乙，丙、丁、戊五个地区的比率分别是2％、10％、35％、20％、10％。甲区与丙区相差33％，丙区与丁区相差15％。这也是一个变距变量。定距变量各类别之间的距离，只能用加减而不能用乘除或倍数的形式来说明它们之间的关系。定距变量的每一等级之间的间距是相等的，可以用来相加或相减，但不能相乘和相除2023/7/27陈小林二、描述性统计分析（Descript2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）比例级：用于测量“定比率变量（ratioscale）”，这是最高的测量级别。数字具有实际意义，能够进行加减乘除运算，运算的结果也具有实际意义。一般情况下，测量级别高的变量可以当作级别低的变量来分析，但反过来一般不可以定类变量是属于定性型的；定距和定比率变量属于定量型；而定序变量则根据具体情况而定。2023/7/27陈小林二、描述性统计分析（Descript2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）数据特征的描述分布特征集中趋势离散程度众数中位数均值全距、分位数方差和标准差峰度最小值最大值偏度2023/7/27陈小林二、描述性统计分析（Descript2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）（1）数据集中趋势描述统计量均值（mean）衡量数据的中心位置的重要指标。包括算术平均值（常用，总和除以个数）、加权算术平均值、调和平均值和几何平均值中位数（median）另外一种反映数据的中心位置的指标，其确定方法是将所有数据以由小到大的顺序排列，位于中央的数据值就是中位数，当n为奇数，按大小排列后，第(n+1)/2个观察值，就是中位数。当n为偶数与，则取第n/2与(n+2)/2个观察值的平均数为中位数。众数（mode）是指在数据中发生频率最高的数据值。可能不止一个众数，也可能没有众数（即不重复出现）2023/7/27陈小林二、描述性统计分析（Descript2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）如果X的分布是单峰的对称分布，这时众数、中位数和平均数是一致的对于一个偏斜的分布，相对于众数，中位数朝长尾巴方向偏离了一些，而均值刚偏离的更远均值对异常值是较敏感的，而中位数不那么敏感如果各个数据之间的差异程度较小，用平均值就有较好的代表性；而如果数据之间的差异程度较大，特别是有个别的极端值的情况，用中位数有较好的代表性。众数虽然稳定性差，但有时会有用，比如评选最受欢迎的XXX

2023/7/27陈小林二、描述性统计分析（Descript2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）（2）数据的离散程度描述统计量离散程度分析主要是用来反映数据之间的差异程度

标准差（stdDeviation）主要是用來衡量观察值与平均值的离散程度，其值越小，表示总体的齐质性越高总体标准差样本标准差2023/7/27陈小林二、描述性统计分析（Descript2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）方差（Variance）最大值（maximum）最小值（minimum）全距（range）（=max-min）分位数(排序后处于25%和75%位置上的值)Q1QMQ325%25%25%25%2023/7/27陈小林二、描述性统计分析（Descript2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）（3）数据的分布偏度（skewness）偏度衡量的是样本分布的偏斜方向和程度，以平均值为中心的不对称程度=0

分布为对称分布>0

此分布为右偏或正偏分布，分配集中在低数值方面，不对称的尾端向较大值方向（右）延伸<0

此分布为左偏或负偏分布，分配集中在高数值方面，不对称的尾端向较小值方向（左）延伸2023/7/27陈小林二、描述性统计分析（Descript2023/7/31陈小林频数分布的类型对称分布右偏分布左偏分布正J型分布反J型分布U型分布2023/7/27陈小林频数分布的类型对称分布右偏分布左偏分2023/7/31陈小林左偏分布右偏分布2023/7/27陈小林左偏分布右偏分布2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）峰度（kurtosis）峰度衡量的是样本分布曲线的尖峰程度=3 此分布为正态峰>3 此分布为高狭峰，分布较为尖峰集中<3 此分布为低阔峰，分布较为平坦2023/7/27陈小林二、描述性统计分析（Descript2023/7/31陈小林峰度分布的形状扁平分布尖峰分布峰度2023/7/27陈小林峰度分布的形状扁平分布尖峰分布峰度2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）一般情况下，如果样本的偏度接近于0，而峰度接近于3，就可以判断总体的分布接近于正态分布。2023/7/27陈小林二、描述性统计分析（Descript2023/7/31陈小林二、描述性统计分析（DescriptiveAnalysis）示例：auditfees

检查数据（inspectauditfees）单个变量数据分布连续变量离散变量两个变量数据联合分布（含单变量分析）两个都是连续变量两个都是离散变量一个连续变量，一个离散变量单变量分析两个连续变量（相关系数t检验）两个离散变量（卡方检验）一个连续变量和一个离散变量（分组均值t、中位数检验wilxocon）2023/7/27陈小林二、描述性统计分析（Descript实证研究中的数据分析课件实证研究中的数据分析课件实证研究中的数据分析课件2023/7/31陈小林三、多元分析：线性回归模型（OLS）基本模型系数解释模型和系数检验模型诊断2023/7/27陈小林三、多元分析：线性回归模型（OLS）2023/7/31陈小林（一）基本模型模型中的变量因变量（dependentvariable)待解释变量自变量（independentvariable）解释变量（需要研究的变量）控制变量（根据现有文献需进行控制的变量）2023/7/27陈小林（一）基本模型模型中的变量2023/7/31陈小林（一）基本模型一元线性回归直线回归方程的模型：yi=a+bxi+ei其中：a是截距b是回归系数(regressioncoefficient)（回归直线的斜率）ei是残差回归系数的统计学意义是：自变量每变化一个单位，因变量平均变化的单位数直线回归方程的一般形式是：2023/7/27陈小林（一）基本模型一元线性回归2023/7/31陈小林（一）基本模型回归直线的性质残差和=0平均数相等拟合值与残差不相关自变量与残差不相关注意：这里的残差与随机扰动项不是一个概念。随机扰动项是总体的残差。2023/7/27陈小林（一）基本模型回归直线的性质残差和=2023/7/31陈小林（一）基本模型残差要求：（1）不相关（2）同方差（3）正态性2023/7/27陈小林（一）基本模型残差要求：2023/7/31陈小林（一）基本模型多元线性回归多元线性回归方程模型为：

yi=b0+b1x1i+b2x2i+…+bnxni+eib0是常数项，是各自变量都等于0时，因变量的估计值。b1，b2，…，bn是偏回归系数(pertialregressioncoefficient)，其统计学意义是在其它所有自变量不变的情况下，某一自变量每变化一个单位，因变量平均变化的单位数OLS目的是使残差最小2023/7/27陈小林（一）基本模型多元线性回归（一）基本模型如果有遗漏变量，而且与解释变量相关，将导致系数估计有偏，有偏的程度，取决于遗漏变量与解释变量的相关程度。如果遗漏变量或未控制变量与解释变量不相关，那么得当的估计系数就能是无偏的。确定是否存在遗漏变量：理论指导以前的经验研究结果样本数据的收集过程2023/7/31陈小林（一）基本模型如果有遗漏变量，而且与解释变量相关，将导致系数2023/7/31陈小林（一）基本模型如果所有参加分析的变量都是标准化的变量，这时b0就等于0，b1，b2，…，bn

就变成了标准化偏回归系数，用符号b1‘，b2’，…，bn‘表示bi’=bi*sxi/sy由于bi’没有量纲，因此可以相互比较大小，反映自变量的相对作用大小ei是残差2023/7/27陈小林（一）基本模型如果所有参加分析的变量2023/7/31陈小林（一）基本模型举例：yx2023/7/27陈小林（一）基本模型举例：yx2023/7/31陈小林（二）系数解释研究变量为连续变量的解释如果得到的回归模型为SALARY=963+18.5×ROE请解释其含义？（salary为经理的报酬）2023/7/27陈小林（二）系数解释研究变量为连续变量的解2023/7/31陈小林（二）系数解释（1）ROE为0，则CEO的报酬为963（2）ROE增加1个百分点，即△ROE=1，那么薪水的预期变化是18.5如果得到回归模型为：Wage=-0.90+0.54×educLog（wage）=0.584+0.083educLog（salary）=4.822+0.257log（sales）含义？2023/7/27陈小林（二）系数解释（1）ROE为0，则C2023/7/31陈小林（二）系数解释对于第一个：关键是注意截距为负，不是没有意义，而是数据中的educ不会为0。增加一年教育，工资增加0.54.第二个，因变量取了自然对数，如果将educ的系数乘以100，就成为百分数的概念，也就是增加一年的教育回报是多少。模型说明，增加1年的教育，工资会有8.3%的增长。此时，截距没有很大意义。第三个，因变量和自变量都取了自然对数，表示薪水对销售额的弹性，公司销售额增加1%，CEO的薪水增加0.257%。2023/7/27陈小林（二）系数解释对于第一个：关键是注意2023/7/31陈小林2023/7/27陈小林2023/7/31陈小林（二）系数解释假定通过对526个观测数据估计得到的方程为：Log（wage）=0.284+0.092educ+0.0041exper+0.022tenureexper——工作经历；tenure——现职务任期如果一个人在一个企业多待1年，对工资的影响有多大？2023/7/27陈小林（二）系数解释假定通过对526个观测2023/7/31陈小林（二）系数解释在同一企业多待1年，意味着工作经历和现任职务都增加1年，对工资的估计影响是：即工资增加2.61%2023/7/27陈小林（二）系数解释在同一企业多待1年，意2023/7/31陈小林（二）系数解释（2）研究变量为虚拟变量的解释模型：wage=7.1-2.51female其中female是虚拟变量模型中的系数含义？模型：log(price)=5.56+0.168log(lotsize)+0.707log(sqrft)+0.027bdrms+0.054colonial其中：colonial是虚拟变量，殖民地风格建筑物为1，其他为0.如何解释colonial的系数？2023/7/27陈小林（二）系数解释（2）研究变量为虚拟变2023/7/31陈小林（二）系数解释（3）交互项系数的解释模型：Log（wage）=0.321-0.110female+0.213married-0.301female*married+……如何理解交互项系数？2023/7/27陈小林（二）系数解释（3）交互项系数的解释2023/7/31陈小林（二）系数解释模型Black表示黑人运动员，hispan表示西班牙裔运动员Percblck表示城市中黑人比例，perchisp表示城市中西班牙裔的比例如何理解上述系数？2023/7/27陈小林（二）系数解释模型2023/7/31陈小林（二）系数解释Black的系数-0.198意味着，如果一名黑人在一个没有黑人的城市里（percblck=0），那么这个黑人比一个条件相当的白人少挣约19.8%。随着percblck的增加，黑人的薪水相对白人的薪水逐渐增加。在一个拥有10%黑人的城市，黑人的log（wage）=-0.198+0.00125（10%）=-0.073，即少7.3%，如果在一个20%的黑人城市，黑人要多5.2%。类似地推断西班牙人的工资2023/7/27陈小林（二）系数解释Black的系数-0.58注意交互系数的解释58注意交互系数的解释595960Classquestions:Theoretically,howshouldauditingaffecttheinterestratethatthecompanyhastopay?Empirically,howdowemeasuretheimpactofauditingontheinterestrateusingeq.(1)?60Classquestions:616162Classquestion:Atwhatvaluesoftotalassets($000)istheeffectoftheAuditDummyontheinterestrate:negative,zero,positive?62Classquestion:Atwhatvalu636364Classquestions:Whatisthemeanvalueoftotalassetswithintheirsample?Howdoesauditingaffecttheinterestratefortheaveragecompanyintheirsample?64Classquestions:656566Verifythattheaboveclaimis“true”.SupposeBlackwelletal.hadreportedtheimpactforafirmwith$11minassetsandanotherfirmwith$15minassets.Howwouldthishavechangedtheconclusionsdrawn?Doyouthinkthepaperwouldhavebeenpublishediftheauthorshadmadethiscomparison?66Verifythattheaboveclaim67672023/7/31陈小林（二）系数解释（4）统计显著性与经济显著性的解释除了注意统计显著性外，对系数还要观察其经济显著性，即对实践的影响是否大例如：Prate=80.29+0.00013worker+……其中Prate为养老保险参与率，worker为工人数量系数表明，尽管显著，但工人数量对养老保险的实际影响不大，即使增加10000个工人，参与率才提高1.3%2023/7/27陈小林（二）系数解释（4）统计显著性与经济2023/7/31陈小林（二）系数解释通过原点的回归有时候，经济理论或社会常识会告诉我们，截距应该为0，即回归直线是通过原点的。通过原点的回归有一个重要缺陷，如果总体模型中的截距中的截距不为0，那么斜率参数的OLS估计将是有偏的。在某些情况下，这种偏误可能会很严重。当截距确实为0，而估计带截距项的方程造成的后果就是OLS斜率估计量的方差会更大。2023/7/27陈小林（二）系数解释通过原点的回归2023/7/31陈小林（三）模型和系数检验检验模型（拟合度）正交分解2023/7/27陈小林（三）模型和系数检验检验模型（拟合度2023/7/31陈小林（三）模型和系数检验R-sq是0-1，越大表明拟合度越好，模型解释力越强。值得注意的是，回归中增加一个自变量后，R-sq不会减小，而且通常会增大，这样自变量越多，R-sq越大，导致R-sq越大的回归模型并不是最优模型2023/7/27陈小林（三）模型和系数检验R-sq是0-12023/7/31陈小林（三）模型和系数检验R2K变量个数2023/7/27陈小林（三）模型和系数检验R2K变量个数2023/7/31陈小林（三）模型和系数检验调整系数adj-R-sq2023/7/27陈小林（三）模型和系数检验调整系数adj-2023/7/31陈小林（三）模型和系数检验调整后的拟合度系数的图象2023/7/27陈小林（三）模型和系数检验调整后的拟合度系2023/7/31陈小林（三）模型和系数检验（2）检验假设（即系数检验，采用t检验）2023/7/27陈小林（三）模型和系数检验（2）检验假设（2023/7/31陈小林（三）模型和系数检验采用t检验2023/7/27陈小林（三）模型和系数检验采用t检验2023/7/31陈小林（三）模型和系数检验2023/7/27陈小林（三）模型和系数检验2023/7/31陈小林（四）模型诊断多重共线性两个或多个变量之间高度相关称为多重共线性（multicollinearity）多重共线性的原因(1)经济变量间的内在关系。由于经济变量之间的内在相关性而导致，在这个意义上，它是一个不可避免的问题(2)经济变量在时间上有同方向变动的趋势，受同一决定因素的影响。如经济增长时期，收入、消费、投资、价格、就业都上升2023/7/27陈小林（四）模型诊断多重共线性2023/7/31陈小林（四）模型诊断(3)分布滞后模型的广泛运用。一个经济变量前后期之值可能高度线性相关(4)所使用的数据收集及计算方法(5)模型设定偏误。如自变量的多项式易导致这一问题(6)过分确定模型。如解释变量个数多于观测数2023/7/27陈小林（四）模型诊断(3)分布滞后模型的2023/7/31陈小林（四）模型诊断多重共线性的后果(1)具有较大的方差与协方差，难以得到精确的估计(2)参数估计不稳健，对异常值敏感(3)参数估计值标准误增大，从而使t检验得出误导性结果。t统计量可能变得很小，从而参数检验不显著(4)产生有偏的预测置信区间多重共线性的检验方法（有多种方法）

vif2023/7/27陈小林（四）模型诊断多重共线性的后果2023/7/31陈小林（四）模型诊断多重共线性的克服转换变量法，差分法，对数法，倒数、增长率等。利用截面数据（时间序列容易产生多重共线性）删去共线变量删去变量后的模型不能反映出被删除变量与因变量的关系删除变量后的回归系数估计量不再是无偏的，而是有偏的，且决定系数和F统计量都可能降低可能会删除错变量，引起模型选择的错误2023/7/27陈小林（四）模型诊断多重共线性的克服2023/7/31陈小林（四）模型诊断异方差样本方差不一致，于是就有所谓异方差(Heteroscedasticity)如下图可以明显看出样本方差与点(Xi,Yi)有关，随着样本数值增大而增大。造成异方差往往是因变量不对称2023/7/27陈小林（四）模型诊断异方差造成异方差往往2023/7/31陈小林（四）模型诊断异方差的后果普通最小二乘法参数估计量不再有效；显著性检验失效；预测精度下降异方差的检验一般需要比较大的样本，一般都是作所谓残差分析最简单直观的方法是将残差平方和

与画在一张图上，大致可以看出残差是否发生改变2023/7/27陈小林（四）模型诊断异方差的后果2023/7/31陈小林（四）模型诊断

2023/7/27陈小林（四）模型诊断

2023/7/31陈小林（四）模型诊断异方差的解决可以通过因变量的转换，如取对数变换、倒数变换、开方变换等使用统计技术，如stata中的robustthet-statisticsontheindependentvariablesaremuchsmallerwhenthestandarderrorsareadjustedforheteroscedasticity2023/7/27陈小林（四）模型诊断异方差的解决2023/7/31陈小林（四）模型诊断2023/7/27陈小林（四）模型诊断（四）模型诊断引起内生性的原因（1）模型设定偏误（遗漏变量）这主要是因为实际的问题中，一个变量往往受到许多变量的影响，在实际建模过程中无法将解释变量全部列出。在这样的情况下，遗漏的变量的影响就被纳入了误差项中，在该遗漏变量与其他解释变量相关的情况下，就引起了内生性问题。即。（四）模型诊断引起内生性的原因（四）模型诊断（2）测量误差关于测量误差引起内生性的问题要基于测量误差的假设。测量误差可能是对被解释变量的测量误差，也可能是由于对解释变量的测量误差。这两种情况引发的结果是不一样的。内生性来源于X的测量误差。(3)双向交互影响（或者同时受其他变量的影响）这种情况引起的内生性问题在现实中最为常见。其基本的原理可以阐述为，被解释变量Y和解释变量X之间存在一个交互影响的过程。X的数值大小会引起y取值的变换，但同时Y的变换又会反过来对X构成影响。例如：例1：金融发展与经济增长例2：外商直接投资FDI与经济增长例3：犯罪率与警备投入（四）模型诊断（2）测量误差2023/7/31陈小林（四）模型诊断内生性的检验Hausman(1978)首先提出关于变量内生性的检验用统计量。Davison&MacKinnon(1989;1993)又提出一种借助辅助回归进行Hausman检验的方法现假定做如下回归2023/7/27陈小林（四）模型诊断内生性的检验2023/7/31陈小林（四）模型诊断二次回归2023/7/27陈小林（四）模型诊断二次2023/7/31陈小林（四）模型诊断异常值异常值可能对模型产生重大影响2023/7/27陈小林（四）模型诊断异常值2023/7/31陈小林（四）模型诊断解决方法删去异常值cook’s大于4/N认为影响大，应该删去把极端值定义为某一个数字，如百分之一分位数中位数回归（分位数回归）winsorlnaf,gen(wlnaf)p(0.01)winsorlnta,gen(wlnta)p(0.01)sumlnafwlnaflntawlnta,detailregwlnafwlntabig62023/7/27陈小林（四）模型诊断解决方法2023/7/31陈小林（四）模型诊断相关残差（Correlatederrors）Theresidualsofagivenfirmarecorrelatedacrossyears(“timeseriesdependence”)Theresidualsofagivenyeararecorrelatedacrossfirms(“cross-sectionaldependence”)2023/7/27陈小林（四）模型诊断相关残差（Corre2023/7/31陈小林（四）模型诊断Time-seriesdependence使用面板数据时往往成为一个问题，在面板数据中，可能存在有未观察到公司具体特征变量不随时间的变化而变化存在此问题时，重复的观察值不能提供附加信息，影响估计的标准差（实际标准差不变），估计标准差更小，而T更大解决问题：stata：robustcluster（companyid）按公司进行cluster凡是使用planeldata数据回归时，要习惯使用robustcluster2023/7/27陈小林（四）模型诊断Time-series2023/7/31陈小林（四）模型诊断Cross-sectionaldependence残差截面相关性是指同一年份的不同公司的残差是相关的可以采用Fama-MacBeth(1973)的方法纠正2023/7/27陈小林（四）模型诊断Cross-secti2023/7/31陈小林（四）模型诊断Forexample:reglnaflntaifyear==1998,robustgenlnta_coeff=_b[lnta]in1reglnaflntaifyear==1999,robustreplacelnta_coeff=_b[lnta]in2reglnaflntaifyear==2000,robustreplacelnta_coeff=_b[lnta]in3reglnaflntaifyear==2001,robustreplacelnta_coeff=_b[lnta]in4reglnaflntaifyear==2002,robustreplacelnta_coeff=_b[lnta]in5sumlnta_coeff2023/7/27陈小林（四）模型诊断Forexample2023/7/31陈小林（四）模型诊断解决方案，可以通过clusteringontime，即robustcluster(year)Note：

weclusterontimetocontrolforcross-sectionaldependencewhileweclusteronthecompanytocontrolfortime-seriesdependence2023/7/27陈小林（四）模型诊断解决方案，可以通过cl2023/7/31陈小林中位数回归（medianregression）中位数回归模型中，系数估计是最小化残差绝对值之和，因而受异常值（极端值）影响更小STATA把中位数回归作为一种特殊的分量回归模型对待2023/7/27陈小林中位数回归（medianregre2023/7/31陈小林中位数回归（medianregression）2023/7/27陈小林中位数回归（medianregre2023/7/31陈小林中位数回归（medianregression）分位数回归中，系数估计是残差加权平均和最小权数就是Wi2023/7/27陈小林中位数回归（medianregre2023/7/31陈小林中位数回归（medianregression）对符号为正的残差和符号为负的残差，可选择不同的加权数如果所有的残差的加权数相等，那么所进行的回归就是中位数回归如果正的残差的加权因子为1.5，负的残差的加权因子为0.5，所进行的回归就是第三分位数回归，依次类推2023/7/27陈小林中位数回归（medianregre2023/7/31陈小林中位数回归（medianregression）在STATA中执行分位数回归，可用qreg

qreglnaflntabig6reglnaflntabig62023/7/27陈小林中位数回归（medianregre2023/7/31陈小林Tobit模型当数据出现left-censored或right-censored是可以使用tobit模型Tobit模型有点相似于Y*=a0+a1X+eY=0if-<Y*0Y=Y*if0<Y*<+如非审计服务费用很多公司为0在stata可以使用如下命令tobitlnnaf1lntaifmiss==0，ll（0）ul其中||确定因变量的最低数UL确定因变量的最高数2023/7/27陈小林Tobit模型当数据出现left-c2023/7/31陈小林Tobit模型2023/7/27陈小林Tobit模型2023/7/31陈小林间断回归（Intervalregression）Tobit模型是间断回归的一个特殊情形间断回归的优点在于能使用robustcluster()选项纠正异方差和时间系列的依赖性等不足使用间隔回归，有两个因变量2023/7/27陈小林间断回归（Intervalregr2023/7/31陈小林间断回归（Intervalregression）thefirstdependentvariabletakesamissingvalue(.)fortheleft-censoreddatatakestheactualvaluefortheuncensoreddata,takesavalueequaltotheuppercensoringpointfortheright-censoreddatatheseconddependentvariabletakesavalueequaltothelowercensoringpointfortheleft-censoreddatatakestheactualvaluefortheuncensoreddata,takesamissingvalue(.)fortheright-censoreddata2023/7/27陈小林间断回归（Intervalregr2023/7/31陈小林间断回归（Intervalregression）Stata：intreg命令如：genlnnaf1=lnnafreplacelnnaf1=.iflnnaf==0

intreglnnaf1lnnaflnta2023/7/27陈小林间断回归（Intervalregr2023/7/31陈小林间断回归（Intervalregressiondroplnnaf1genlnnaf1=lnnafreplacelnnaf1=.iflnnaf==0replacelnnaf1=5iflnnaf>5genlnnaf2=lnnafreplacelnnaf2=.iflnnaf>5&lnnaf!=.intreglnnaf1lnnaf2lntaifmiss==02023/7/27陈小林间断回归（Intervalregr2023/7/31陈小林Logistic回归模型引入Logistic的原因二值因变量的存在（虚拟变量）采用OLS会产生预测值无法解释的现象和异方差等审计学：审计意见、事务所规模、审计师更换常用来研究审计意见的影响因素审计意见的预测事务所的选择审计师为什么会更换财务会计中也会用来预测企业破产的概率2023/7/27陈小林Logistic回归模型引入Logi2023/7/31陈小林Logistic回归模型Logitstic模型

logit变换对数发生比线性函数2023/7/27陈小林Logistic回归模型Logits实证研究中的数据分析课件2023/7/31陈小林Logistic回归模型发生比odds2023/7/27陈小林Logistic回归模型发生比2023/7/31陈小林Logistic回归模型2023/7/27陈小林Logistic回归模型2023/7/31陈小林Logistic回归模型Logistics模型的检验（1）模型拟合度的检验拟表示成卡方值chi-square2023/7/27陈小林Logistic回归模型Logist2023/7/31陈小林Logistic回归模型2023/7/27陈小林Logistic回归模型2023/7/31陈小林Logistic回归模型（1）系数检验和解释Wald检验系数的解释：系数显著为正，表示在其他变量不变的情况下，对数发生比随自变量值的增加而增加系数显著为负，表示在其他变量不变的情况下，对数发生比随自变量的增加而减少系数不显著，说明自变量对因变量的影响不显著2023/7/27陈小林Logistic回归模型（1）系数检2023/7/31陈小林Logistic回归模型因logistic的因变量是logit，不是连续变量，直接解释系数时含义较为模糊，为了清晰地反映变量之间的关系，通常转换后再进行解释，如转换为发生比（P/(1-P)）。发生比是日常大家能够轻易理解的概念，比如高考的升学率，发表非标准意见的比率，选择大所的可能性、企业发生破产的可能性等。发生比odds=发生的概率/不发生的概率，如果odds大于1，表示事件发生的可能性更大，反之，则不发生的可能性更大。2023/7/27陈小林Logistic回归模型因logis2023/7/31陈小林Logistic回归模型比如，发表非标准意见的概率为0.6，那么发表标准意见的概率就是0.4。发生比就为1.5，表示发表非标的可能性是发表标准可能性的1.5倍。发生比率如果有10家民营企业和5家国有企业被出具了非标准意见，100家民营企业和200家国有企业被出具标准意见。那么：民营企业：发生比=10/100=10%国有企业：发生比=5/200=2.5%民营和国有的发生比率（OR）=10%/2.5%=42023/7/27陈小林Logistic回归模型比如，发表非2023/7/31陈小林Logistic回归模型Logistic模型转换2023/7/27陈小林Logistic回归模型Logist2023/7/31陈小林Logistic回归模型连续自变量的解释自变量每变化一个单位，发生比率的变化率就是2023/7/27陈小林Logistic回归模型连续自变量的2023/7/31陈小林对于连续变量的分析，往往不会只比较相邻两个值之间的发生比率，而是比较某一个组距（b-a）的发生比，即从a变到b。此时调整发生比率为：2023/7/27陈小林对于连续变量的分析，往往不会只比较相2023/7/31陈小林Logistic回归模型分类自变量（虚拟变量等）与线性模型一样，代表的是该变量与参照变量对因变量影响的差异，即是该变量与参照变量的发生比率。如果虚拟变量企业性质的指数为则表示，民营企业被出具非标准意见的发生比是国有企业的2.5倍。能否转换表述为民营企业被出具非标准意见的概率是国有企业的2.5倍？分类自变量多于两个分类时如何转化为虚拟变量？2023/7/27陈小林Logistic回归模型分类自变量（2023/7/31陈小林Logistic回归模型

标准化回归系数与OLS一样，也可以计算标准化回归系数，OLS计算标准化回归系数的方法：（1）代入回归前先将变量标准化：标准化值=（变量-变量平均值）/变量的标准差（2）按下述公式计算但对于分类变量，标准化没有意义。2023/7/27陈小林Logistic回归模型标准化回归2023/7/31陈小林Logistic回归模型Logistic计算标准化回归系数要更为复杂，计算方法如下：2023/7/27陈小林Logistic回归模型Logist2023/

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

实证研究中的数据分析课件

文档简介

温馨提示

最新文档

评论

实证研究中的数据分析课件

文档简介

温馨提示

最新文档

评论

相关文档