回归分析regressionanalysis课件_第1页
回归分析regressionanalysis课件_第2页
回归分析regressionanalysis课件_第3页
回归分析regressionanalysis课件_第4页
回归分析regressionanalysis课件_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第14章簡單線性迴歸和相關分析第14章簡單線性迴歸和相關分析迴歸分析迴歸分析(regressionanalysis)是以其他變數為基礎預測另一個變數的值。這個方法可能是最被廣泛應用的統計程序。此方法包括推導一個數學方程式或模式,以描述想要預測的變數,稱為依變數(dependentvariable),以及統計實作人員認為和依變數有關的變數之間的關係。依變數以Y表達,而有關的變數,稱為獨立變數(independentvariables),以X1,

X2,...,Xk

表示(其中k

是獨立變數的個數)。14.2第14章簡單線性迴歸和相關分析第400頁迴歸分析迴歸分析(regressionanalysis)相關分析假如我們只對關係是否存在感興趣,我們採用相關分析,一個我們已經介紹過的方法。在本章中,我們將呈現決定兩個變數間的關係,有時候稱為簡單線性迴歸。描述這些關係的數學方程式也稱做模式,分為兩種類型:確定性模式(deterministicmodel)或隨機性模式(probabilisticmodel)。14.3第14章簡單線性迴歸和相關分析第400.402頁相關分析假如我們只對關係是否存在感興趣,我們採用相關分析,一模式確定性模式(deterministicmodel):是指一個方程式或方程式集容許我們從獨立變數的數值去決定依變數的數值。隨機性模式(probabilisticmodel):是一種能將隨機性呈現出來的方法,這對現實生活的應用比較實際。例如,相同大小的所有房屋(以平方呎計)是否都以完全相同的售價賣出?14.4第14章簡單線性迴歸和相關分析第402頁模式確定性模式(deterministicmodel):是模式要產生一個隨機模式,我們從一個確定性模式開始,用以近似我們想要的關係模式。接著我們再加一個項,用以衡量確定性元素的隨機誤差。確定性模式:蓋一棟新房子的成本大約是每平方呎$100而且大部分的土地售價約是$100,000。近似的銷售價格(y)將是:y=$100,000+100x其中y=銷售價格,x=房屋的大小(以平方呎計)。]14.5第14章簡單線性迴歸和相關分析第402頁模式要產生一個隨機模式,我們從一個確定性模式開始,用以近似我第14章簡單線性迴歸和相關分析模式房屋大小(依變項)與房屋售價(獨立變項)之間關係的模式如下:14.6房屋大小房屋售價大部分的土地售價為$100,000蓋一棟房子大約是每平方呎$100房屋售價

=100,000+100(房屋大小)這個模式中,房屋售價完全決定於房屋大小。第14章簡單線性迴歸和相關分析模式房屋大小(依變項)與房模式然而在現實生活,房屋成本在相同的房屋大小中仍將有所不同:14.7房屋大小房屋售價100K$相同平方呎,但不同價格點(如:裝潢的選擇,改善隔間,土地位置…)較低vs.較高的變異性x房屋售價=100,000+100(大小)+第14章簡單線性迴歸和相關模式然而在現實生活,房屋成本在相同的房屋大小中仍將有所不同:誤差變數我們將使用隨機性模型表示房屋估計可賣的價格:y=100,000+100x+

其中ε

(希臘字母epsilon)表示隨機項[又稱誤差變數(errorvariable)]──實際銷售價格和依據房屋大小來估計的價格之間的差異。甚至當x

維持不變時,ε

的值也將會隨著一筆筆不同的銷售而改變。14.8第14章簡單線性迴歸和相關分析第402頁誤差變數我們將使用隨機性模型表示房屋估計可賣的價格:14.8簡單線性迴歸模型含一個獨立變數的直線模型稱為一階線性模型(first-orderlinearmodel)──有時也稱為簡單線性迴歸模型(simplelinearregressionmodel)。14.9誤差變數依變數獨立變數y-軸截距直線斜率第14章簡單線性迴歸和相關分析第402頁簡單線性迴歸模型含一個獨立變數的直線模型稱為一階線性模型(f第14章簡單線性迴歸和相關分析簡單線性迴歸模型注意係數

0

1是母體參數,它們幾乎都是未知的。因此,由資料估計而得。14.10yx長高=斜率(=高/長)=

y-軸截距第14章簡單線性迴歸和相關分析簡單線性迴歸模型注意係數迴歸係數的估計如同我們以為基礎估計µ的方式,我們以b0

估計β0

且以b1

估計β1,最小平方或迴歸線的y-軸截距及斜率如下:(回想:這是最小平法的應用且產生一條點與線間差異平方和最小的直線。)14.11第14章簡單線性迴歸和相關分析第403頁迴歸係數的估計如同我們以為基礎估計µ的方式,我們以b0範例14.1年度紅利與服務年數Xm16-016位員工的年度紅利(以$l,000計)與其服務年數被記錄並列出如下。我們想要決定年度紅利與服務年數之間的直線關係。14.12第14章簡單線性迴歸和相關分析第405頁範例14.1年度紅利與服務年數第14章簡單線性迴歸和相關分析第406頁圖14.1最小平方線14.13第14章簡單線性迴歸和相關分析第406頁圖14.範例14.2二手ToyotaCamry的哩程表讀數與價格,第一部分北美的汽車經銷商使用「藍皮書」以協助他們決定,當他們的顧客於購買新車時,所換購的二手車的價值。這本每月出版的藍皮書列出所有基本車款的換購價值。根據不同的汽車狀況與選用配備,藍皮書提供每一種車款各種不同的價值。而汽車價值的決定是根據最近二手車拍賣會中的平均成交價,以及許多二手車經銷商所提供的資源。14.14第14章簡單線性迴歸和相關分析第407頁範例14.2二手ToyotaCamry的哩程表讀數與範例14.2二手ToyotaCamry的哩程表讀數與價格,第一部分但是,藍皮書並沒有指出依據哩程表讀數所決定的價值,儘管事實上對二手車買主而言,一部車已經被開過多少哩是一個關鍵的因素。為了檢視這項議題,一位二手車經銷商隨機選取100輛在上個月拍賣會中售出的車齡3年的ToyotaCamry。

這位經銷商紀錄價格(以$1,000計)與哩程表上的哩程數(以千計)。Xm16-02這位經銷商想找出迴歸線。第14章簡單線性迴歸和相關分析第407頁14.15範例14.2二手ToyotaCamry的哩程表讀數與第14章簡單線性迴歸和相關分析第409頁範例14.2二手ToyotaCamry的哩程表讀數與價格,第一部分

14.16為我們計算出許多好的統計量,但是現在我們只對這項感興趣

第14章簡單線性迴歸和相關分析第409頁範例14.2範例14.2二手ToyotaCamry的哩程表讀數與價格,第一部分斜率係數b1

是–

.0669,其意義是哩程表上每增加1哩,價格平均會降低$.0669或6.69美分。截距是b0

=17.250。意思是當x=0(亦即,車完全沒有被開過),汽車售價為$17,250。然而我們的樣本並沒有任何哩程表讀數為少於19,100哩的汽車。這不是正確的估計。14.17詮釋第14章簡單線性迴歸和相關分析第410頁範例14.2二手ToyotaCamry的哩程表讀數與誤差變數的必要條件為了使這些方法有效,以下四個與誤差變數(ε)之機率分配有關的條件必須被滿足。ε

的機率分配為常態。機率分配的平均數為0;也就是,E(ε)=0。ε

的標準差為

ε,無論x的值為何,它是一個常數。與任何特定y值相關的ε

值與任何其他y值相關的ε值是獨立的。14.18第16章簡單線性迴歸和相關分析第412頁誤差變數的必要條件為了使這些方法有效,以下四個與誤差變數(ε評估模型最小平方法產生一條最佳的直線。但是,事實上有可能兩個變數之間沒有關係,或有非線性關係。有數個方法可以被用來評估模式。在本節中,我們呈現兩個統計量和一個檢定程序,以決定線性模式是否應該被採用。它們是估計值的標準誤(standard

errorofestimate)、斜率的t-檢定,和判定係數(coefficientofdetermination)。這些方法都是立基於誤差的平方和。14.19第14章簡單線性迴歸和相關分析第414頁評估模型最小平方法產生一條最佳的直線。但是,事實上有可能兩個誤差平方和誤差平方和計算如下:其中是依變數的樣本變異數。且使用在估計標準誤(standarderrorofestimate)的計算上:若sε

為0,所有的點都落在迴歸線上。14.20第14章簡單線性迴歸和相關分析第415頁誤差平方和誤差平方和計算如下:14.20第14章簡單線性估計標準誤若

很小,適配是優良的,且線性模型可以用於預測。若

很大,模型是不良的…16.21但什麼是小?什麼是大呢?第14章簡單線性迴歸和相關估計標準誤若很小,適配是優良的,且線性模型可以用於預測範例14.3二手ToyotaCamry的哩程表讀數與價格,第二部分對範例14.2求出估計標準誤並且敘述它告訴你什麼有關模式配適度的訊息。14.22第14章簡單線性迴歸和相關分析第416頁範例14.3二手ToyotaCamry的哩程表讀數與範例14.3二手ToyotaCamry的哩程表讀數與價格,第二部分為了計算估計的標準誤,我們必須計算SSE,它是由樣本變異數與共變異數計算而得。我們已經算出共變異數與x的變異數。它們分別是–2.909與43.509。y

的樣本變異數(應用簡易計算方法)是14.23第14章簡單線性迴歸和相關分析第416頁範例14.3二手ToyotaCamry的哩程表讀數與範例14.3二手ToyotaCamry的哩程表讀數與價格,第二部分估計的標準誤如下:14.24第14章簡單線性迴歸和相關分析第416頁範例14.3二手ToyotaCamry的哩程表讀數與範例14.3二手ToyotaCamry的哩程表讀數與價格,第二部分我們藉由比較sε

與依變數的樣本平均數,以判斷sε數值的大小。在此範例中,sε

=.3265且=14.841所以它確實顯示估計標準誤的數值是「小的」,因此車子價格的線性迴歸模型如同哩程表的函數是「良好的」。14.25第14章簡單線性迴歸和相關分析第417頁範例14.3二手ToyotaCamry的哩程表讀數與檢定斜率若兩個變數間不存在線性關係,我們將預估迴歸線是一條水平線,斜率為0。我們考慮是否有線性關係,如:我們考慮斜率(β1)是否為零以外的數值。我們的研究假設變成:

H1:β1≠0因此,虛無假設變成:

H0:β1=016.26第14章簡單線性迴歸和相關分析第417-418頁檢定斜率若兩個變數間不存在線性關係,我們將預估迴歸線是一條水檢定斜率我們可以執行這個檢定統計量以測試我們的假設:

是b1的標準誤,解釋為:假設誤差變項(ε)是常態分布,檢定統計量是自由度為n–2的學生t

分配。拒絕域的決定是根據我們是進行一項單尾或雙尾的檢定(雙尾檢定最為典型)。14.27第14章簡單線性迴歸和相關分析第418頁檢定斜率我們可以執行這個檢定統計量以測試我們的假設:14.2範例14.4哩程表讀數與二手ToyotaCamry的價格是否相關?檢定以決定在範例14.2中是否有充分證據去推論對所有3年車齡的ToyotaCamry而言,拍賣價格與哩程表讀數之間存有線性關係。使用5%的顯著水準。14.28第14章簡單線性迴歸和相關分析第419頁範例14.4哩程表讀數與二手ToyotaCamry的範例14.4哩程表讀數與二手ToyotaCamry的價格是否相關?我們檢定這些假設

H1:β1≠0

H0:

β1=0(如果虛無假設為真,表示沒有線性關係存在。)拒絕域為:14.29第14章簡單線性迴歸和相關分析第419頁範例14.4哩程表讀數與二手ToyotaCamry的範例14.4哩程表讀數與二手ToyotaCamry的價格是否相關?我們可以手算t

或用Excel輸出我們看到對「哩程表」的t-統計量(即,斜率

b1)是

–13.44其為小於

tCritical=–1.984.我們同時注意到p-值為0。14.30計算比較p-值第14章簡單線性迴歸和相關分析第420頁存在強烈的證據去推論哩程表與價格之間存在線性關係範例14.4哩程表讀數與二手ToyotaCamry的單尾檢定如果我們想要假設檢定正或負的線性關係,我們執行單尾檢定。我們會指定研究假設為

H1:β1

<0(檢定負斜率) 或

H1:β1>

0(檢定正斜率)虛無假設仍為:

H0:

β1=0。14.31第14章簡單線性迴歸和相關分析第421頁單尾檢定如果我們想要假設檢定正或負的線性關係,我們執行單尾檢判定係數β1檢定僅強調是否有足夠的證據去推論線性關係存在的問題。然而在許多情況下,測量線性關係的強度也很有用,尤其是當我們想要比較數個不同的模型時。執行這項功能的統計量是判定係數,標示為R2。 或判定係數是相關係數(r)的平方,因此

R2=(r)2。14.32第14章簡單線性迴歸和相關分析第421頁判定係數β1檢定僅強調是否有足夠的證據去推論線性關係存在的問判定係數在這項方程式等號左邊的數量是依變數y變異的測量。方程式右邊的第一個數量是SSE,第二項以SSR表示。我們可以重寫此一方程式為y

的變異=SSE+SSRSSE(SumofSquaresError)——測量y

的變異未被解釋的量(即,誤差)。SSR(SumofSquaresRegression)——測量y

的變異能夠被獨立變數x

的變異所解釋的量。第14章簡單線性迴歸和相關分析第422頁14.33判定係數在這項方程式等號左邊的數量是依變數y變異的測量。範例14.5測量哩程表讀數與ToyotaCamry二手車價格之間線性關係的強度求出範例14.2的判定係數並描述這項統計量告訴你什麼有關迴歸模式的訊息。14.34第14章簡單線性迴歸和相關分析第423頁範例14.5測量哩程表讀數與ToyotaCamry範例14.5測量哩程表讀數與ToyotaCamry二手車價格之間線性關係的強度我們可以用手算或Excel得到:14.35計算第14章簡單線性迴歸和相關分析第423頁範例14.5測量哩程表讀數與ToyotaCamry範例14.5測量哩程表讀數與ToyotaCamry二手車價格之間線性關係的強度我們得到R2等於.6483。這項統計量告訴我們拍賣價格變異的64.83%是被哩程表讀數的變異所解釋。剩餘的35.17%是未被解釋的。不像一個檢定統計量的值,判定係數並沒有一個臨界值讓我們去做結論。一般而言,R2的值越高,模型配適資料的情況則越好R2=1:線與資料點之間的完美配適。R2=0:x

與y

之間沒有任何線性關係。詮釋14.36第14章簡單線性迴歸和相關分析第424頁範例14.5測量哩程表讀數與ToyotaCamry電腦輸出結果的其他部分簡單線性迴歸模型ANOVA表的一般格式:14.37第14章簡單線性迴歸和相關分析第424頁電腦輸出結果的其他部分簡單線性迴歸模型ANOVA表的一般格式相關係數的檢定母體相關係數被標示為ρ(希臘字母rho)。我們必須從樣本資料去估計它的值。樣本相關係數的定義如下:當兩個變數之間沒有線性關係,ρ

=0:它服從自由度為v=n–2的學生t

分配。14.38第14章簡單線性迴歸和相關分析第426頁相關係數的檢定母體相關係數被標示為ρ(希臘字母rho)範例14.6執行相關係數的t-檢定以決定在範例16.2中哩程表讀數與拍賣價格是否線性相關。要檢定的假設為:

H1:ρ

≠0

H0:

ρ=0(當兩個變數之間沒有線性關係,ρ

=0。)14.39第14章簡單線性迴歸和相關分析第426頁範例14.6執行相關係數的t-檢定以決定在範例16.2中哩範例14.6在範例14.2與範例14.5中,我們得到:因此,相關係數是:檢定統計量的值是:14.40計算第14章簡單線性迴歸和相關分析第427頁範例14.6在範例14.2與範例14.5中,我們得到:14.範例14.6ρ

的t-檢定與範例16.4中

1的t-檢定產生相同的結果。14.41計算第14章簡單線性迴歸和相關分析第427頁範例14.614.41計算第14章簡單線性迴歸和相關分析使用迴歸方程式使用迴歸方程式,我們得到:估計一輛哩程表讀數有40(千)哩車齡3年的ToyotaCamry之售價我們稱此數值為點預測(pointprediction)

並稱

為當x

=40時,y

的預測值或點估計(pointestimate)。因此,這位交易商將預測這部汽車應該能夠以$14,574賣出。14.42第14章簡單線性迴歸和相關分析第429頁使用迴歸方程式使用迴歸方程式,我們得到:14.42第14章預測區間我們提出的第一個信賴區間,是在獨立變數為一個給定的xg

值之下,每當我們想要對一個依變數的特定值發生一次的狀況做預測。(其中xg

是x的給定值)14.43第14章簡單線性迴歸和相關分析第429頁預測區間我們提出的第一個信賴區間,是在獨立變數為一個給定的範例14.7(a)一位二手車的交易商將要投標一輛3年車齡的ToyotaCamry,該車具有全部的標準配備,並且哩程表讀數為40,000(xg

=40)哩。為了幫助他決定投標金額,他必須預測銷售價格。預測區間的下限和上限分別是$13,922和$15,226。14.44第14章簡單線性迴歸和相關分析第430-431頁範例14.7(a)一位二手車的交易商將要投標一輛3年車齡範例14.7(b)y

期望值的信賴區間估計量:一位二手車的交易商有機會投標許多輛由一家租車公司所提供的汽車。租車公司有250部具有標準配備的ToyotaCamry。這一批汽車的哩程表讀數大約是40,000(xg

=40)哩。這位交易商想要估計這一批汽車的銷售價格。16.45第14章簡單線性迴歸和相關分析第431頁範例14.7(b)y期望值的信賴區間估計量:16.45第1信賴區間估計量平均價格的95%信賴區間估計量為:期望值信賴區間估計值的下限與上限分別為$14,498以及$14,650。14.46第14章簡單線性迴歸和相關分析第431頁信賴區間估計量平均價格的95%信賴區間估計量為:14.46第預測區間與信賴區間的不同14.47預測區間信賴區間1沒有1是在獨立變數為一個給定的xg

值之下,對一個依變數的特定值發生一次的狀況做預測。是在獨立變數為一個給定的xg值之下,估計y的平均數或是y的長期平均值。y期望值的信賴區間估計值將會比在相同的x給定值與信賴水準下的預測區間更窄。這是因為估計一個平均數的數值,相對於預測一個個別的數值,會有較少的誤差。第14章簡單線性迴歸和相關分析預測區間與信賴區間的不同14.47預測區間信賴區間1沒有1運用Excel計算區間…14.48計算PredictionInterval(預測區間)ConfidenceIntervalEstimatorofthemeanprice(平均價格的信賴區間估計值)PointPrediction(點的預測)第14章簡單線性迴歸和相關分析第432頁運用Excel計算區間…14.48計算Prediction迴歸診斷迴歸分析有效的必要條件:誤差變數必須服從常態分配誤差變數的變異數必須是常數誤差間必須彼此獨立。我們如何診斷這些條件的違反行為?

殘差分析,

也就是檢查各個實際資料點與那些使用線性方程式所預測的點之間的差異…14.49第14章簡單線性迴歸和相關分析第433頁迴歸診斷迴歸分析有效的必要條件:14.49第14章簡單線殘差分析讓我們回顧,實際資料點與迴歸線之間的偏差稱為殘差。在Excel中,計算殘差是迴歸分析的一部分。殘差分析讓我們可以決定誤差變數是否為常態、誤差變異數是否為常數,以及誤差是否獨立。我們從非常態開始討論。14.50第14章簡單線性迴歸和相關分析第434-435頁殘差分析讓我們回顧,實際資料點與迴歸線之間的偏差稱為殘差。在非常態性我們以繪製殘差的直方圖來檢查常態性。直方圖呈現鐘形,使我們相信誤差服從常態分配。

14.51第14章簡單線性迴歸和相關分析第435頁圖14.9非常態性我們以繪製殘差的直方圖來檢查常態性。14.51第14異質性誤差變數的變異數

必須是常數。當這項條件被違反時,則稱此情況為異質性(heteroscedasticity)。診斷異質性的一種方法適繪製殘差相對於

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论