920 likes | 1.64k Views
線性迴歸分析 Linear regression. 賴阿福. “ 迴歸 (Regression)” 名稱的由來. F . Galton 和他的學生,現代統計學的奠基者之一 K . Pearson(1856~1936) 在研究父母身高與其子女身高的遺傳問題時,觀察了 1078 對夫婦。以每對夫婦的平均身高作為解釋變數 x ,取他們的一個成年兒子的身高作為被解釋變數 y ,將結果在平面直角座標系上繪成散點圖,發現趨勢近乎一條直線。演算出的迴歸直線方程為; ŷ=33.73+ 0.516 x
E N D
“迴歸(Regression)”名稱的由來 • F.Galton和他的學生,現代統計學的奠基者之一K.Pearson(1856~1936)在研究父母身高與其子女身高的遺傳問題時,觀察了1078對夫婦。以每對夫婦的平均身高作為解釋變數x,取他們的一個成年兒子的身高作為被解釋變數y,將結果在平面直角座標系上繪成散點圖,發現趨勢近乎一條直線。演算出的迴歸直線方程為; ŷ=33.73+0.516x 這種趨勢及迴歸方程表明父母身高每增加一個單位時,其成年兒子的身高也平均增加0.516個單位。 • 這個結果表明,雖然高個子父輩有生高個子兒子的趨勢,但父輩身高增加一個單位,兒子身高僅增加半個單位左右。反之,矮個子父輩的確有生矮個子兒子的趨勢,但父輩身高減少一個單位,兒子身高僅增減少半個單位左右。 • 當父母親身高很高或很矮(極端傾向)時,子女的身高會不如父母身高的極端化,而朝向平均數移動(regression toward mediocrity),也就是著名的regression toward the mean現象。
迴歸分析簡介 • 若要能根據某變數來預測另一變數的值,則是迴歸分析。 • 迴歸分析必須以相關分析為基礎,任何預測的可靠性因變數間關係的強度而有所不同。 • 1.能否找出一個線性方程式,用來說明一組預測變數與效標變數的關係? • 2.這個方程式的預測能力如何?即其關係強度有多大? • 3.整體關係是否達到顯著水準? • 4.在解釋效標變數的變異時,是否只採用某些預測變數即具有足夠的預測力?
迴歸分析應用 主要用途: • 解釋: 說明預測變數與效標變數關聯強度及方向 • 預測:利用已知的自變數預測未知的變數 迴歸分析主要解決以下問題: • 執行分析大量的樣本資料,確定變數之間的數學關係式。 • 對所確定的數學關係式的可信程度進行各種統計檢定,並區分出對某一特定變數影響較為顯者的變數和影響不顯著的變數。 • 利用所確定的數學關係式,根據一個或幾個變數的值來預測或控制另一個特定變數的取值,並給出這種預測或控制的精確度。
線性迴歸基礎 • 設有兩變數X和Y,X為一自變數(或稱獨立變數),是一種能事先準確觀測的變量(即可忽略其誤差),因此它不是一種隨機變數,而無機率分配的性質。Y為依變數,稱作「被解釋變數」,其是依X之值而改變的隨機變數。
X E(Y)=α+βX Y 線性迴歸方程式 • 隨機變數Yi之期望值 E(Yi) = UYi=α+βXi • 由於E(Yi)為X之線性函數(即直線),因此理論(即母群體)的線性迴歸方程式可表為 E(Y) = UY=α+βX α:直線的截距 Β:直線的斜率
判定係數R2 • 迴歸方程的撮合度檢定就是要檢定樣本資料聚集在樣本迴歸直線周圍的密集程度,從而判斷迴歸方程式對本資料的代表程度。 • 迴歸方程式的撮合集成度檢定一般用判定係數R2執行。該指標是建立在對總離差平方和進行分解的基礎之上。
迴歸分析各離均差概念 y (Xj,Yi) 誤差 迴歸離均差 原始離均差 x xi 迴歸分析各離均差概念圖示
總離差 應變數的實際觀測值(y)與樣本平均數( )的離差即總離差(y- )可以分解為兩部分:一部分是應變數的理論迴歸值(或稱預測值ŷ)與樣本平均值( )的離差(ŷ- ),它可以看成是能夠由迴歸直線解釋的部分,稱為可解釋離差;另一部分是實際觀測值與理論迴歸值的離差(y- ŷ),它是不能由迴歸直線加以解釋的殘差e。對任一實際觀測值y總有: y- =(ŷ- )+(y-ŷ)
判定係數R2 將上式兩邊平方,並對所有個點求和,最終可得: = ŷ- )2+ • SST=SSR+SSE SST= 是總離差平方和; SSR=ŷ- )2稱為迴歸平方和,是由迴歸直線可以解釋的那一部分離差平方和; SSE= 稱為殘差平方和或剩餘平方和,是用迴歸直線無法解釋的離差平方和。 ŷ
判定係數R2 • 各樣本觀點(散點)與樣本迴歸直線靠得越緊,SSR/SST則越大,直線撮合得越好。將這一比例定義為判定係數或可決係數,記為R2。 • 判定係數R2= =1-
判定係數R2 :the coefficient of multiple determination • 判定係數R2測量迴歸直線對觀測資料的撮合程度。 • 若所有觀測值yi都落在迴歸直線上,SSE=0,R2 =1,撮合是完全的; • 如果迴歸直線沒有解釋任何離差,y的總離差全部歸於殘差平方和,即SST=SSE, R2 =0,則表示因變數x與應變數y完全無關; • 通常觀測值都是部分的落在迴歸直線上,即0<R2<1。 • R2越接近於1,表明迴歸直線的撮合程度越好;反之, R2越接近於0,迴歸直線的撮合程度就越差。
R2 • R2, called multiple correlation or the coefficient of multiple determination, is the percent of the variance in the dependent explained uniquely or jointly by the independents. • R-squared can also be interpreted as the proportionate reduction in error in estimating the dependent when knowing the independents. That is, R2 reflects the number of errors made when using the regression model to guess the value of the dependent, in ratio to the total errors made when using only the dependent's mean as the basis for estimating all cases.
簡單迴歸&多元迴歸R2 • 迴歸可解釋變異量比,又稱為R2(R square),表示使用X去預測Y時的預測解釋力,即Y迴變項被自變項所解釋的比率、。 • R2又稱為歸迴模型的決定係數(coefficient of determination), R2開方後可得multiple R,為自變項與依變項的多元相關。 R2反應了由自變項與依變項之間沒有線性關係。 • 簡單迴歸時, multiple R即等於相關係數,在多元迴歸分析中, multiple R才真正反應了多個自變項與一個依變項的多元相關。
校正後R2 • 以樣本統計量推導出來的R2來評估整體模式的解釋力,並進而推論到母群體時,會有高估的傾向,樣本數越小,越容易高估,解釋力膨脹效果越明顯,樣本數越大,膨脹情形越輕微。因此,將樣本大小的影響納入考慮,上述公式的離均差平方和除以自由度,可計算出校正後R2(adjusted R2),可以減輕因為樣本估計帶來的R2膨脹效果。當樣本數越小,應採用校正後R2。 R2
迴歸分析的整體考驗&迴歸係數考驗 • R2的基本原理是變異數,因此對於R2的檢定可利用F考驗來進行。 R2的F考驗可以說是迴歸分析的一個整體考驗(overall test),如果R2的效果不顯著,則後續針對迴歸係數的統計考驗則無需進行。 • 迴歸係數b或β係數的統計考驗,與相關係數考驗的原理相同,使用t考驗來進行。 R2達顯著水準後,每一個迴歸係數必須個別加以考驗,以說明各獨變項對於依變項的預測力,而標準迴歸係數的大小則伐表各預測變項的相對重要性。
個別自變項的共線性檢驗 • 在多元迴歸分析,自變項不只一個,若自變項間相關程度過高,不但變項之間的概念區隔模糊,難以解釋外,在數學上會因為自變項間共變過高,造成自變項與依變項共變分析上的扭曲現象,稱為多元共線性(multicollinearnality),迴歸分析應避免多元共線性的存在。多元共線性明顯的情況下,迴歸所計算出的參數值,變異量嚴重膨脹,成為無窮大,進一步造成推論上的問題,如信賴區間擴大。 • 對於某一個自變項共線性的檢驗,可以使用容忍值(tolerance)或變異數膨脹因素(variance inflation factor, VIF)來評估。公式為: • Tolerance=1-Ri2 • VIF=1/Tolerance=1/(1-Ri2) • Ri2為某一個自變項被其他自變項當作依變項來預測時,該自變項可以被解釋的比例, 1-Ri2(容忍值)為該自變項被其他自變項無法解釋的殘差比,Ri2比例越高,容忍值越小,代表預測變項不可解釋殘差比低,VIF越大,即預測變項迴歸係數的變異數增加,共變性越明顯。 • 容忍值.40,VIF值為2.5之變項,較容忍值.80,VIF值為1.25之變項的多元共線性嚴重,可見得在迴歸分析中,容忍值越大越好。
整體迴歸模式的共線性診斷 • 除了個別自變項的共線性檢驗之外,整體迴歸模式的共線性診斷可以透過特徵值(eigenvalue)與條件指數(conditional index; CI)來判斷。 • 所謂特徵值為k個自變項與1個常數項所能夠提供的總變異量中k+1中,以各項為中心所重新計算出的變項變異量線性組合,當自變項之間有高度共線性之時,其中幾個線性組合的特徵值會偏低。 • 條件指數則是取最大的特徵值除以特定組合的特徵值的開方值,CI值越高,表示共線性嚴重,當CI值低於30,表示共線性問題緩和,30至100間,表示迴歸模式具有中度至高度的共線性,100以上則表示嚴重的共線性(Belsley, Kuh, & Welsch, 1980)。 • 當診斷出具有共線性的變項時,應予以剔除,或利用逐步迴歸法來評估變項的作用力。
迴歸分析的預測力 • 為了增加迴歸分析的預測力,所有的預測變數之間的相關要愈低愈好,而每個預測變數與依變數的相關則要愈高愈好。 • 如果每個預測變數之間的相關都是0,則所有預測變數與依變數的多元相關就等於個別相關係數的總和,此時自變數對依變數的整體預測力最大,同時也沒有多元共線性(multicollinearity)的問題。
相關分析和迴歸分析比較 相關分析和迴歸分析都是研究變數間關係的統計學課題。在應用中,兩種分析方法經常相互結合和滲透,但它們研究的側重點和應用面不同: • 在迴歸分析中,變數稱為應變數,處於被解釋的特殊地位;而在相關分析中,變數y與變數x處於平等的地位,研究變數y與變數x的密切程度和研究變數x與變數y的密切程度是一樣的。 • 相關分析是測定變數之間的關係密切程度,所使用的工具是相關係數;而迴歸分析則是側重於考察變數之間的數量變化規律,並執行一定的數學表達式來敘述變數之間的關係,進而確定一個或者幾個變數的變化對另一個特定變數的影響程度。 • 相關分析的目的在描述兩個連續變數的線性關係,而迴歸則基於兩變項之間的線性關係,進一步分析兩變項之間的預測關係。 • 一個顯著的相關係數,僅能說明兩個變項之間具有一定程度的關聯,而無法確知兩個變項之間的因果與先後關係。 • 相關係數計算之時,同時考慮兩個變項的變異情形,屬於對稱性設計,以X↔Y表示。迴歸之目的在取用某一變項去預測另一變項的變化情形,X、Y 兩個變項各有其角色,在迴歸係數的計算中,X、Y變項為不對稱設計,以 X→Y或 X → Y表示。
例1:簡單迴歸分析 • 下表是某年10名高中畢業生高中成績和大學聯考成績。試根據此一資料求一預測方式。 • simple-regress-a.sav
Procedure • Analyze、Regression、Linear…
Report: model Summary • 「model Summary」中決定係數R Square=.647(多元相關係數R=.805)。 • F Change=14.689,p<.05達顯著水準。
迴歸方程式 • 「coefficients」列出迴歸係數(B)、標準誤、標準化迴歸係數(Beta)及其顯著性檢定。 • β=0.704,α=2.697,故迴歸方程式可寫成:Y=.704X+2.697 • 若有一個學生的高中成績為4,代入此方程式,則 • Y=.704(4)+2.697=5.5113 • 預測此學生大學聯考的分數將為5.51分。
Fit Line • double click 該圖以進入chart editor • Chart->Options….. Double-Click Fit Line
迴歸模式測試 • Analyze->Regression->Curve Estimation 線性模式:linear 混合模式:compound 羃次模式:power
Report MODEL: MOD_1. Independent: X Dependent Mth Rsq d.f. F Sigf b0 b1 Y LIN .647 8 14.69 .005 2.6968 .7036 Y COM .625 8 13.35 .006 3.4550 1.1092 Y POW .657 8 15.33 .004 2.5062 .5717 • 三種皆適配本研究之預測方程式 • 線性模式:Y=B0+B1X • Y=2.6968+.7036X • 混合模式: Y=B0*B1X • Y=3.4550*1.1092x • 羃次模式: Y=B0*Xb1 • Y=2.5062*X.5717
範例2:線性迴歸 • 利用線性迴歸分析法,探討電話用戶數與人口數之間的關係。 • 以民國六十一年至七十九年間,每半年的電話全區總用戶數和全區人口數的資料作線性迴歸。(reg-1.sav)
分析結果 • 迴歸分析基本結果: (1)兩變數的相關係數高達0.985。 (2) 判定係數之值為0.969,此模式的解釋能力相當高,達96.9%。
截距與斜率的檢定 (1)簡單線性迴歸方程式為:S1=-1.8E+07+1.162*S3。 (2)截距與斜率的檢定:由於p均為0.0000,小於顯著水準0.05,所以理論上它們均不為零。 (3)斜率之95%的信賴區間為(1.092,1.232)。 (4)因為獨立變數只有一個,所以Tolerance和VIF值均為1。獨立變數只有一個時,這些值無意義。
適合性檢定 • 適合性檢定:從變異數分析表中,可知其p值為0.0000 ,小於顯著水準0.05 • 表示此模式適合,即全區人口數(自變數)可以用來解釋全總用戶數(依變數)。
殘差分析的結果 • 從上面的分析結果可知,以人口數來作為電話用戶數成長的依據是相當合適的一個因素,而且所建立的模式也令人滿意,但是否就表示可用該模式?答案是必須再作進一步的探討,原因是該模式是否符合簡單線性迴歸模型的假設呢?若是,則此模式是合適的,否則就應該再尋找其他的模式了。進行殘差分析,可以判定該模式是否符合簡單線性迴歸模型的假設。 • (1)DW值為0.060,相當接近於0,所以可判定殘差彼此間的相關性相當強。 • (2)殘差的機率分配並不接近常態機率分配。 • (3)標準化殘差和標準化預測值對應圖:此圖顯示出明顯的圖樣,顯示此迴歸模型並不適當。
範例2結論 • 雖然從基本的結果可得到此迴歸模型均符合所需的檢定,且判定係數很高。但從殘差分析中,可看出此迴歸模型並不符合假設,所以此模型並不適當,有待進一步探討。 • 然因其判定係數高達96.9%,換言之,以人口數來解釋電話用戶數是很恰當的,並不需要再考慮其他的變數。
範例3 • 同範例2,但將電話用戶數取對數和開平方後,再與人口數作迴歸分析。 • reg-2.sav
多元迴歸 • 簡單迴歸係使用單一的一個預測變數,去預測另一個依變數。 • 在許多研究當中,影響某一個依變數的自變項不只一個,此時,簡單迴歸所建立的方程式,同時納入多個預測變項,來說明其對於依變數的影響,稱為多元迴歸(multiple regression)。
多元迴歸分析 • 多元迴歸分析之「逐步迴歸法」(stepwise),它結合「順向選擇法」(forward selection)與「反向剔除法」(backward elimination)二種方式的優點。 • 所謂順向選擇法即是自變項一個一個(或一個步驟一個步驟)進入迴歸模式,中在第一個步驟中,首先進入方程式的自變項是與依變項關係最密切者,亦即與依變項有最大正相關或最大負相關者;第二個步驟(以後每一個次止驟中)則選取與依變項間的淨相關為最大之自變項,進入迴歸模式中。 • 所謂反向剔除法是先將所有自變項均納入迴歸模式中,之後再逐一對模式頁獻最小的預測變項移除,直到所有自變項均達到標準為止。剔除的標有二,一為標準化迴歸係數顥著性考驗的F值最小;二為最大的F機率值。 • 多元迴歸分析之原始化迴歸方程式為: Y=B0+B1X1+ B2X2+ B3X3+…+BkXk • 其中B0為截距、Bk為原始迴歸係數 • 標準化迴歸方程式為: ΖY=β1ΖX1+β2ΖX2+β3ΖX3+…+βkΖXk 其中βk為標準化迴歸係數
共線性(collinearity)問題 • 共線性指的是由於自變項間的相關太大,造成迴歸分析之情境困擾。 • 如因變項間有共線在迴歸分析中,最好先呈現預測變項間相關矩陣,以探討變項間的相關情形 • 如果某些自變項間相關係數太高,可考量只挑選其中一個重要的變項投入多元迴歸分析。
Multiple regression • Multiple regression is used to account for (predict) the variance in an interval dependent, based on linear combinations of interval, dichotomous, or dummy independent variables. Multiple regression can establish that a set of independent variables explains a proportion of the variance in a dependent variable at a significant level (through a significance test of R2), and can establish the relative predictive importance of the independent variables (by comparing beta weights). • The multiple regression equation takes the form y = b1x1 + b2x2 + ... + bnxn + c. The b's are the regression coefficients, representing the amount the dependent variable y changes when the corresponding independent changes 1 unit. The c is the constant, where the regression line intercepts the y axis, representing the amount the dependent y will be when all the independent variables are 0. The standardized version of the b coefficients are the beta weights, and the ratio of the beta coefficients is the ratio of the relative predictive power of the independent variables. • Associated with multiple regression is R2, multiple correlation, which is the percent of variance in the dependent variable explained collectively by all of the independent variables.
assumptions in Multiple regression • Multiple regression shares all the assumptions of correlation: linearity of relationships, the same level of relationship throughout the range of the independent variable ("homoscedasticity"), interval or near-interval data, absence of outliers, and data whose range is not truncated. • In addition, it is important that the model being tested is correctly specified. The exclusion of important causal variables or the inclusion of extraneous variables can change markedly the beta weights and hence the interpretation of the importance of the independent variables.
迴歸分析的方法-1 一、同時分析法(simultaneous multiple regression):所有的預測變項同時納入迴歸方程式當中,對於依變項進行估計。此時,整個迴歸分析僅保留一個包括全體預測項的迴歸方程式。 (一)強制進入法:在某一顯著水準下,將所有對於依變項具有解釋力的預測變項納入迴歸方程式,不考慮預測變數間的關係,一次全部排除在迴歸方程式之外,再計算所有保留在迴歸方程式中的預測變數的迴歸係數。
迴歸分析的方法-2 (二)強制淘汰法:與強迫進入法相反,強制淘汰法之原理為在某一顯著水準下,將所有對於依變項沒有解釋力的預測變項,不考慮預測變數間的關係,一次全部排除在迴歸方程式之外,再計算所有保留在迴歸方程式中的預測變數的迴歸係數。
迴歸分析的方法-3 二、逐步分析法(stepwise multiple regression):所有的預測變項並非同時被取用來進行預測,而是依據解釋力的大小,逐步的檢視每一個預測變項的影響,稱為逐步分析法。 (一)順向進入法(forward):預測變項的取用順序,以具有最大預測力且達統計顯著水準的獨項首先被選用,然後依序納入方程式中,直到所有達顯著的預測變項均被納入迴歸方程式。 (二)反向淘汰法(backword):與順向進入法相反的程序,所有的預測變項先以同時分析法的方式納入迴歸方程式的運算當中,然後逐步的將未達統計顯著水準的預測變項,以最弱、次弱的順序自方程式中予以排除。直到所有未達顯著的預測變項均被淘汰完畢為止。 (三)逐步分析法(stepwise):綜合順向進入法與反向淘汰法,迴歸分析先依順向進入法,逐步納入最具預測效力的預測變項,但是每納入一個預測變項後,即利用反向淘汰法檢驗在方程式中的所有預測變項,若有任何未達顯著的預測變項便將被淘汰,依此原則交叉循環進行檢測,直到所有保留在方程式中的預測變項都是達到顯著水準、淘汰的預測變項為不顯著之變項為止。此法兼具順向法與淘汰法的優點,經常被研究者使用。
迴歸分析的方法-4 三、階層分析法:前述幾種進入模式,均由統計量大小作為預測變項取捨的依據。但是在一般的研究中,預測變項間可能具有特定的先後關係,而需依照研究者的設計,以特定的順序來進行分析。例如,以性別、社經地位、自尊、焦慮感與努力程度來預測學業表現時,性別與社經地位兩變項在概念上屬於人口變項,不受任何其他預測變項的影響,而自尊與焦慮感兩變項則為情意變,彼此之間可能具有高度相關,亦可能受到其他變項的影響,因此四個預測變項可以被區分為兩個階段,先將人口變項以強迫進入法進行迴歸分析、計算迴歸係數,其次再將情意變項以逐步分析法計算自尊、焦慮感各自的預測力,完成對於依變項的迴歸分析,稱為階層分析法(hierarchical multiple regression)。 多層次的迴歸分析、多運用在當研究者有一明確的理論依據,得以將多個預測變項進行事先的分割排序之時。路徑分析即利用此一原理,進行多層次的迴歸來進行迴歸預測。但是階層分析法與徑路分析不同之處,在於階層分析法僅有一個依變數,每一個迴歸分析的階層,依變數皆相同:但在路徑分析,每一次個迴歸階層,其依變項則不相同,部份的預測變數除了被設定去預測某一個依變數,其自身在另一個階層之時,可能作為被其他變項預測的依變數。
判斷迴歸方程式是否是一個合適的模式-1 不是一件容易的事,但依理論而言,其重點如下: 1.首先要觀察各個自變數與依變數的關係是否密切,用該自變數當作解釋變數是否適當。若關係密切且適當,則必須考慮要將其放入迴歸模型內。但也必須注意,它們的關係是否是因第三者所造成,而實際上,它們並無關係。因此要再仔細觀察各個自變數之間的關係,若關係很密切,則必須考慮捨棄其中之一。
判斷迴歸方程式是否是一個合適的模式-2 • 檢定迴歸模型之各個係數是否為零。若為零,則其對應的自變數對依變數不具解釋能力,可從迴歸模型中剔除。 • 檢定迴歸模型之適合性,即迴歸變異數分析表中,統計量F是否達顯著水準,亦即其p值是否小於所設定的顯著水準。 • 觀察判定係數(調整型判定係數)的大小,其愈高表示模型愈恰當,亦即由自變數所構成的迴歸方程式對依變數的解釋能力愈高。 • 觀察殘差的性質與變化。殘差分析主要是用以驗証迴歸模型的假設是否成立,若不成立,則表示迴歸模式不符合假設,此時必須作適當的變數轉換後,再嘗試求迴歸方程式。一般殘差分析的應用如下: • 驗証殘差是否具常態分配。 • 驗証殘差的獨立性,即殘差間不具自我相關。 • 驗証殘差與依變數、自變數是否無關。即繪其對應的散佈圖,判斷是否不具任何圖樣。 • 複迴歸分析方法有多種,但並無優劣之分,雖逐步迴歸選取法應用較廣,但也應與其他方法的結果作比較,以找出一合適的迴歸模型。
範例 1:多元迴歸分析 • 某教師想根據高中平均學業成績(X1)和智力測驗成績(X2)來預測大學入學考成績(Y),乃自19xx年參與大學入學考的學生中抽取一部分學生作為樣本。下表是這些學生每人的三項分數。(1)試求根據高中平均學業成績和智力測驗成績預測大學入學考成績時的多元迴歸預測公式及多元相關係數。(2)假定今年有一位應屆高三畢業生,其高中學業成績為14,智力測驗成績9。試預測如果他也參加今年的大學入學考,他將得幾分? • (multiple-regress.SAV)
Procedure • analyze、regression、linear…