多元回归分析进一步问题_第1页
多元回归分析进一步问题_第2页
多元回归分析进一步问题_第3页
多元回归分析进一步问题_第4页
多元回归分析进一步问题_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关于多元回归分析进一步问题1第一张,PPT共五十五页,创作于2022年6月2Multiple Regression Analysis多元回归分析 y = b0 + b1x1 + b2x2 + . . . bkxk + u 4. Further Issues进一步的问题第二张,PPT共五十五页,创作于2022年6月3Chapter Outline 本章大纲Effects of Data Scaling on OLS Statistics数据的测度单位换算对OLS统计量的影响More on Functional Form对函数形式的进一步讨论More on Goodness-of-Fit and

2、Selection of Regressors拟合优度和回归元选择的进一步探讨Prediction and Residual Analysis预测和残差分析第三张,PPT共五十五页,创作于2022年6月4Lecture Notes 课堂笔记Effects of Redefining variables重新定义变量的影响Estimated coefficients 估计系数R squared R 平方t statistics t 统计量Functional form 函数形式Logarithmic form 对数函数形式Models with Quadratics 含二次式的模型Models w

3、ith interaction terms 含交叉项的模型第四张,PPT共五十五页,创作于2022年6月5Redefining Variables重新定义变量Why would we want to do so?为什么我们想这样做?Often, data scaling is used to reduce the number of zeros after a decimal point in an estimated coefficient, so that the results appear prettier.数据测度单位变换经常被用于减少被估参数小数点后的零的个数,这样结果更好看一些。

4、Since this is mainly an action of decoration, we expect nothing essential should change.既然这样做主要为了好看,我们希望本质的东西不改变。第五张,PPT共五十五页,创作于2022年6月6Redefining Variables: An example重新定义变量:一个例子Consider a model relating infant birth weight to cigarette smoking and family income:以下模型反映了婴儿出生体重与孕妇吸烟量和家庭收入之间的关系:(1)Co

5、nsider the following rescaling:考虑如下单位变换:(2) Birth weight is changed from ounces to pounds出生体重单位由盎司变为磅(3)Number of cigarettes is changed to packs of cigrattes香烟的支数变为包数The estimation results is presented in the following table.估计结果列于下表第六张,PPT共五十五页,创作于2022年6月7Table 6.1Y (column) (1) bwght(2)bwghtlbs(3)

6、 bwghtX (rows)Cigs-0.4634 (0.0916)-0.0289 (0.0057)-Packs-9.268 (1.832)Faminc0.0927 (0.0292)0.0058 (0.0018)0.0927(0.0292)Intercept116.794 (1.049)7.3109 (0.0656)116.974(1.049)Observations138813881388R-squared0.02980.02980.0298SSR557,485.512177.5778557.485.51SER20.0631.253920.063第七张,PPT共五十五页,创作于2022年6月

7、8Impact of changing the scale of the dependent variable改变被解释变量测度单位的影响Since 1lbs = 16 oz, the dependent variable is transformed by dividing 16.因为1磅16盎司,被解释变量被除以16。We compare columns (1) and (2).比较第1列与第2列。The estimated coefficients in (1)/16 = those in (2). (1)中被估参数/16 (2)中被估参数The standard errors of e

8、stimated coefficients in (1)/16=those in (2)(1)中被估参数的标准差/16 (2)中被估参数的标准差第八张,PPT共五十五页,创作于2022年6月9Impact of changing the scale of the dependent variable改变被解释变量测度单位的影响The t statistics in (1) and (2) are identical.(1)和(2)中 t 统计量相同The R squared are identical.R平方相同SSR in (1) /(16*16)=SSR in (2)(1)中SSR/(16

9、*16) (2)中SSRSER (standard error) in (1)/16=SER in (2)(1)中SER(标准差)/16 (2)中SER第九张,PPT共五十五页,创作于2022年6月10Impact of changing the scale of the independent variable改变解释变量测度单位的影响Now number of cigarettes is changed to packs of cigarettes. 现在香烟数量单位变为包。Now compare columns (1) and (3).现在比较 第(1)列和第(3)列。Coefficie

10、nts estimates and standard errors on faminc and intercept are the same.变量faminc系数和截距项的估计值和其标准差分析同上。Coefficients estimates and standard errors on packs are 20 times larger.packs的系数估计值和标准差变为20倍。第十张,PPT共五十五页,创作于2022年6月11Impact of changing the scale of the independent variable改变解释变量测度单位的影响The t statisti

11、cs are identical.t 统计量相同The R squared are identical.R平方相同The SSR are identical.SSR相同The SER are identical.SER相同第十一张,PPT共五十五页,创作于2022年6月12Redefining Variables重新定义变量 Changing the scale of the y variable will lead to a corresponding change in the scale of the coefficients and standard errors, so no cha

12、nge in the significance or interpretation改变变量y的测度单位会导致系数和标准差相应的改变,所以解释变量系数显著性和对其解释没有改变。 Changing the scale of one x variable will lead to a change in the scale of that coefficient and standard error, so no change in the significance or interpretation on this variable and other variables.改变一个变量x的测度单位

13、会导致该变量系数和标准差的相应改变,所以所有解释变量显著性和对其解释没有改变。第十二张,PPT共五十五页,创作于2022年6月13Redefining Variables重新定义变量If the dependent variable appears in logarithm form, changing the unit of measurement of the dependent variable does not affect any of the slope coefficient.如果被解释变量以对数形式出现,改变被解释变量度量单位对任何斜率系数没有影响。This follows f

14、rom log(cy)=log(c)+log(y), rescaling y will result in changes to the intercept but not the slope coefficients.来自log(cy)=log(c)+log(y),改变y测度单位将改变截距,不改变斜率系数。第十三张,PPT共五十五页,创作于2022年6月14Beta Coefficients Beta系数Consider a sample regression function of the following form:考虑如下形式的样本回归方程:=200+20,000 x1 +0.2x2

15、Can we say that x1 is the most important variable?我们能说x1是最重要的变量吗?Now look at the units of each variable:现在,查看以下各个变量的单位:y in dollars y单位:美元x1 in cents x1单位:美分x2 in thousands x2单位:千美元第十四张,PPT共五十五页,创作于2022年6月15Beta Coefficients Beta系数What problem does the above example reveal?上例揭示了什么问题?The magnitude of

16、 the estimated coefficients are not comparable.被估计系数的大小是不可比较的。A related problem is when the magnitudes of variables differ too much, the round-off error can be serious in regression calculations.一个相关的问题是,当变量大小差别过大时,在回归中因运算近似而导致的误差会比较大。第十五张,PPT共五十五页,创作于2022年6月16Beta Coefficients Beta系数 Occasionally y

17、oull see reference to a “standardized coefficient” or “beta coefficient” which has a specific meaning有时,我们会看见“标准化系数”或“Beta系数”,这些名称有着特殊的意义 Idea is to replace y and each x variable with a standardized version i.e. subtract mean and divide by standard deviation 使用Beta系数是因为有时我们把y和各个x替换为标准化版本也就是,减去均值后除以标

18、准离差。 Coefficient reflects standard deviation of y for a one standard deviation change in x 系数反映对于一单位x的标准离差的y的标准离差。第十六张,PPT共五十五页,创作于2022年6月17Beta Coefficients Beta系数第十七张,PPT共五十五页,创作于2022年6月18Beta Coefficients Beta系数第十八张,PPT共五十五页,创作于2022年6月19Functional Form 函数形式 OLS can be used for relationships that

19、are not strictly linear in x and y by using nonlinear functions of x and y will still be linear in the parametersOLS也可以用在x和y不是严格线性的情况,通过使用非线性方程,使得关于参数仍为线性。 Can take the natural log of x, y or both可以取x,y(一个或全部)的自然对数 Can use quadratic forms of x可以用x的平方形式 Can use interactions of x variables可以用x的交叉项第十九张

20、,PPT共五十五页,创作于2022年6月20Interpretation of Log Models对数模型的解释 If the model is ln(y) = b0 + b1ln(x) + u如果模型是 ln(y) = b0 + b1ln(x) + u b1 is the elasticity of y with respect to xb1是y对于x的弹性 If the model is ln(y) = b0 + b1x + u如果模型是ln(y) = b0 + b1x + u b1 is approximately the percentage change in y given a

21、1 unit change in x , often called semi-elasticity.b1近似是,给定一单位x的改变,y的百分比变化,常被称为半弹性。第二十张,PPT共五十五页,创作于2022年6月21Why use log models?为什么使用对数模型? The slope coefficients on Logged variables are invariant to the scale of the variables.取对数后变量的斜率系数,不随变量测度单位改变。 They give a direct estimate of elasticity if both r

22、egressor and regressand have taken logs.如果回归元和回归子都取对数形式,斜率系数给出对弹性的一个直接估计。 For models with y 0, the conditional distribution is often heteroskedastic or skewed, while ln(y) is much less so对于y0的模型,条件分布经常偏斜或存在异方差,而ln(y)就小多了,所以 The distribution of ln(y) is more narrow, limiting the effect of outliersln(

23、y)的分布窄多了,限制了异常(或极端)观测值(outliers)的影响。第二十一张,PPT共五十五页,创作于2022年6月22Some Rules of Thumb一些经验法则 What types of variables are often used in log form? 什么类型的变量经常用对数形式? Dollar amounts that must be positive, wages, salaries, firm sales, and firm market value.肯定为正的钱数:工资,薪水,企业销售额和企业市值。 Very large variables, such a

24、s population, total number of employees, school enrollment, etc.非常大的变量:如人口,雇员总数和学校注册人数等。第二十二张,PPT共五十五页,创作于2022年6月23Some Rules of Thumb一些经验法则What types of variables are often used in level form? 什么类型的变量经常用水平值形式? Variables measured in years, e.g., education, experience, tenure, age用年测量的变量:如教育年限,工作经历,任

25、期年限和年龄 Variables, that can appear either in log or in level: 可以以水平值或对数形式出现的变量:Variables that are a proportion or percent: unemploy rate, the participation rate in a pension, etc.比例或百分比变量:失业率,养老保险金参与率等。第二十三张,PPT共五十五页,创作于2022年6月24Limitations of Logs对数形式的限制It cannot be used if a variable takes on zero

26、of negative values.一个变量取零或负值,则不能使用对数。In cases when y is nonnegative but can take 0, log(1+y) is sometimes used.如果y非负但可以取零,则有时使用log(1+y)。Using log(1+y) and then interpreting the estimates as if the estimates were log(y) is acceptable when the data on y are not dominated by zeros.当数据并非多数为零时,使用log(1+y)

27、 估计,并且假定变量为log(y),解释所得的估计值,是可以接受的。第二十四张,PPT共五十五页,创作于2022年6月25Cautions in using Logs慎重使用对数形式Notice that when y is in log form, it is more difficult to predict the original variables, since the original model allow us to predict log(y) instead of y.注意到,当y取对数形式时,更难以预测原变量的值,因为原模型允许我们预测log(y)而不是y。第二十五张,P

28、PT共五十五页,创作于2022年6月26Cautions in using Logs慎重使用对数形式第二十六张,PPT共五十五页,创作于2022年6月27Quadratic Models含二次式的模型 For a model of the form y = b0 + b1x + b2x2 + u we cant interpret b1 alone as measuring the change in y with respect to x, we need to take into account b2 as well, since对于形式为y = b0 + b1x + b2x2 + u的模

29、型,我们不能单独将b1解释为关于x,y变化的度量,我们需要将b2也考虑进来,因为第二十七张,PPT共五十五页,创作于2022年6月28Quadratic Models含二次式的模型If one is interested in calculating the predicted changes in y given a starting value of x and a change in x, one can directly use (1).如果感兴趣的是,给定x的初始值和变动,预测y的变化,那么可以直接使用(1)。In general, we may use the average va

30、lue of x, or the median, or the lower and upper quantiles to predict y, depending on the question of our interest.一般来说,我们可以使用x的平均值,中值,或上下四分位数来预测y,取决于我们感兴趣的问题。第二十八张,PPT共五十五页,创作于2022年6月29Quadratic Models含二次式的模型第二十九张,PPT共五十五页,创作于2022年6月30Quadratic Models含二次式的模型第三十张,PPT共五十五页,创作于2022年6月313.737.3724.4expe

31、rwage第三十一张,PPT共五十五页,创作于2022年6月32More on Quadratic Models对含二次式模型的进一步讨论 Suppose that the coefficient on x is positive and the coefficient on x2 is negative假如x的系数为正, x2的系数为负。 Then y is increasing in x at first, but will eventually turn around and be decreasing in x那么,y首先随x上升而上升,但最终转向随x上升而下降。第三十二张,PPT共五

32、十五页,创作于2022年6月33More on Quadratic Models对含二次式模型的进一步讨论 Suppose that the coefficient on x is negative and the coefficient on x2 is positive假如x的系数为负, x2的系数为正。Then y is decreasing in x at first, but will eventually turn around and be increasing in x那么,y首先随x上升而下降,但最终转向随x上升而上升。第三十三张,PPT共五十五页,创作于2022年6月34I

33、nteraction Terms交叉项 For a model of the form y = b0 + b1x1 + b2x2 + b3x1x2 + u we cant interpret b1 alone as measuring the change in y with respect to x1, we need to take into account b3 as well, since 对于形式为y = b0 + b1x1 + b2x2 + b3x1x2 + u的模型,我们不能单独将b1解释为关于x1,y变化的度量,我们需要将b3也考虑进来,因为第三十四张,PPT共五十五页,创作于

34、2022年6月35Interaction Terms交叉项第三十五张,PPT共五十五页,创作于2022年6月36Interaction Terms交叉项Example 6.3, page 195.mple 6.3, page 195.第三十六张,PPT共五十五页,创作于2022年6月37More on Goodness-of-Fit and Selection of Regressors拟合优度和解释变量选择的进一步探讨Adjusted R-Squared第三十七张,PPT共五十五页,创作于2022年6月38More on Goodness-of-Fit and Selection of Re

35、gressors拟合优度和解释变量选择的进一步探讨We define the population R-squared is the proportion of the variation in y in the population explained by the independent variables, as 我们定义总体R2为:y的变异在总体中能被解释变量解释的比例,为The adjusted R-square is still not an unbiased estimator of the population R-squared, because the ratio of t

36、wo unbiased estimators is not an unbiased estimator.调整过的R2仍不是总体R2的一个无偏估计量,因为两个无偏估计量的比例不是一个无偏估计量。第三十八张,PPT共五十五页,创作于2022年6月39More on Goodness-of-Fit and Selection of Regressors拟合优度和解释变量选择的进一步探讨The primary attractiveness of is that is imposes a penalty for adding more independent variables to a model.调

37、整过的R2最根本的吸引力,在于它对向模型增加自变量的惩罚。If we add a new independent variable to a regression equation, increases if and only if the t statistic on the new variable is greater than one in absolute value.如果我们向回归模型加入一个新的解释变量,当且仅当新变量的t统计量的绝对值大于1时,调整过的R2增加。第三十九张,PPT共五十五页,创作于2022年6月40Using Adjusted R-Sqrared to Choo

38、se Between Nonnested Models利用调整的R2在两个非嵌套模型中进行选择Two models are nonnested if neither model is a special case of the other.如果两个模型中任何一个都不是另一个的特例,则两个模型是非嵌套的。The F statistics only allow us to test nested models, since the restricted model is a special case of the unrestricted model.F统计量只允许我们检验嵌套的模型,因为有限制的

39、模型是无限制模型的特例。We need some guidance in choosing among nonnested models.我们需要一些在无嵌套模型间进行选择的指导。第四十张,PPT共五十五页,创作于2022年6月41Using Adjusted R-Squared to Choose Between Nonnested Models利用调整的R2在两个非嵌套模型中进行选择 Comparing to choose among different nonnested sets of independent variables can be valuable when these v

40、ariables represent different functional form.当变量有不同函数形式时,通过比较调整过的R2 ,在不同的解释变量的非嵌套组合中进行选择,是颇有价值的。For example, one model is y= b0 + b1x1 + b2log(x2 ) but the other is y= b0 + b1x1 +b2 x2+b3 x22. If the Adjusted R-Squared is 0.3 but it is 0.6 from the second one, we tend to choose the second model.例如,一

41、个模型是y= b0 + b1x1 + b2log(x2 ) ,另一个是y= b0 + b1x1 +b2 x2+b3 x22 。如果第一个模型调整过的R平方为0.3,而第二个为0.6,我们倾向于选择第二个模型第四十一张,PPT共五十五页,创作于2022年6月42Using Adjusted R-Squared to Choose Between Nonnested Models利用调整的R2在两个非嵌套模型中进行选择 The Limitation of Adjusted R-squared: we cannot use it to choose between different functio

42、nal forms for the dependent variable.调整过的R2的限制:我们不能利用它在关于因变量函数形式不同的模型间进行选择第四十二张,PPT共五十五页,创作于2022年6月43Prediction Analysis: the estimator预测分析:估计量第四十三张,PPT共五十五页,创作于2022年6月44Prediction Analysis: the standard error预测分析:标准差第四十四张,PPT共五十五页,创作于2022年6月45Prediction Analysis: the Confidence Interval预测分析:置信区间第四十

43、五张,PPT共五十五页,创作于2022年6月46Prediction Analysis: Confidence Interval for a particular y预测分析:一个特殊y的置信区间第四十六张,PPT共五十五页,创作于2022年6月47Prediction Analysis: Prediction Interval for y0预测分析: y0的预测区间第四十七张,PPT共五十五页,创作于2022年6月48Prediction Analysis: Prediction Interval for y0预测分析: y0的预测区间第四十八张,PPT共五十五页,创作于2022年6月49 Sometimes, it is useful to examine individual observa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论