異方差和自相關

佛曰不可说 2024-09-26 15:44 11次浏览 0 条评论 taohigo.com

一、異方差

在處理實際問題中,問題是錯綜復雜的,因此在建立實際問題的回歸模型的時候,通常會出現一些因素隨著解釋變量觀測值的變化而對解釋變量產生不同的影響,導致隨機誤差項產生不同的方差

異方差對最小二乘估計的影響:

  1. 參數估計值雖然是無偏的,但不是最小方差線性無偏
  2. 參數的顯著性檢驗失敗
  3. 回歸方程應用及其不理想

異方差檢驗方式

  1. 殘差圖分析法——>這是一種主觀的分析方法
  2. 等級相關系數法——->使用斯皮爾曼等級相關系數

異方差性的處理方法:

  1. 加權最小二乘法
  2. BOX-COX變換法
  3. 方差穩定性變換法

示例

我們將數據導入後對其進行回歸分析並且保存其為標準化的殘差,具體做法參照

我們通過繪制其參殘差的散點圖來觀察其殘差的分佈情況,如下圖

通過觀察這張散點圖我們可以發現其殘差分析圖中具體呈現出的趨勢為前面密集後面稀疏的趨勢,像是一個喇叭狀的數據分佈,即隨著自變量x的增加其誤差也隨之增加,為進一步驗證我們的其具有異方差性的猜想,對其進行斯皮爾曼等級相關系數的相關性分析

首先我門需要對殘差進行求絕對值,點擊轉還->計算變量->目標變量輸入abse->數學表達是輸入絕對值函數->確定

之後點擊分析->相關->雙變量->勾選上斯皮爾曼->確定

查看上述得到的結果我們可以看出,r=0.576,其p值=0.01,小於0.05,拒絕原假設,認為殘差的絕對值與自變量之間顯著相關存在異方差性,在此次示例中我們采用加權最小二乘法,這個一個較為常用的做法,其主要的思想是在平方和中加入一個適當的權函數 omega_{i} ,以調整各項平方和中的作用

首先我們需要尋找最優的權函數,點擊分析->回歸->權重估算,將應變量和自變量放入其中,並將存在異方差性的自變量放入權重變量中

可以得到其對數的似然值如下圖所示

從中我們可以看出其權函數m=2.0的時候取到最優,我們也可以通過擴大權函數的估算范圍來尋找最優的權函數,本例中當m=2.5時其對數似然值略大於m=2其差別不大,這裡不做示例,我們選擇m=2來計算

第一步,其冪指數m=2,對應的權函數 omega=1/x^{m} ,即omega=1/x^{2},通過變量轉換計算

第二步,進入線性回歸交互框,把第一步計算出來的 omega_{i} 選入WLS權重變量框

第三步,點擊線性回歸對話框,保存選項卡,保存殘差變量,可以根據需要選擇未標準化和標準化的殘差,運行回歸模型得到加權殘差e,再計算權變換殘差 sqrt{omega_{i}}e

第四不,以自變量x為橫軸,以權變換殘差sqrt{omega_{i}}e為縱軸畫出殘差圖

從殘差圖中可以看出異方差問題已經解決,但是有兩個數據點似乎成為瞭異常值點,也可以將這兩個異常值點進行剔除再重新擬合方程這裡不做過多的贅述。

註意:

加權最小二乘是以犧牲大方差項的擬合效果為代價改善瞭小方差項的擬合效果,但這也並不總是研究者所需要的,在一些特定的場合即便數據存在異方差性,也可以選擇使用普通最小二乘估計

多元回歸分析中,對待異方差的處理我們選取等級相關系數最大的自變量來構造權函數

二、自相關

1、自相關產生的原因

  1. 遺漏關鍵變量時會產生序列的自相關性
  2. 經濟變量的滯後性會給序列帶來自相關性
  3. 采取錯誤的回歸函數形式可能引起自相關性
  4. 蛛網現象可以帶來序列的自相關性
  5. 因對數據加工整理而導致誤差項之間產生自相關性

2、自相關性所帶來的問題

  1. 參數的估計值不再具有最小方差線性無偏性
  2. 均方誤差可能嚴重低估誤差項的方差
  3. 容易導致T值評價過高,常用的F檢驗和T檢驗失效
  4. 其系數的估計量可能不符合真實情況
  5. 會對模型的預測和結構分析帶來較大的方差甚至錯誤的解釋

3、診斷方法

1、圖示法

通過繪制其函數殘差 e_{t}e_{t-1} 的散點圖大致呈下圖所示的分佈則認為其存在自相關性,按照時間順序繪制回歸殘差項e_{t}的圖形,其隨t的變化逐次有規律的呈現鋸齒或循環形狀的變化,就可以說明其殘差存在自相關性

圖一圖二

2、自相關系數

3、DW檢驗

4、處理方法

1、跌代法

y^{,} = y_{t}-rho y_{t-1}

x^{,} = x_{t}-rho x_{t-1}

beta_{0}^{,} = beta_{0}(1-rho)

由於上述的式子中自相關系數 rho 是未知的,需要對其進行估計 tilde{rho}approx1-frac{1}{2}DW

示例:

在線性回歸交互框中點擊統計->殘差->德賓-沃森->繼續->確定

之後我們得到的結果中我們可以看到模型摘要的表格中

從上面的表格我們可以看出其DW值為0.663,經過查表可以得到其具有自相關性,同時我們也可以通過主管的判讀其值接近2的時候才沒有自相關性

首先我們需要分佈計算x,y的延遲一階,點擊轉換->計算變量,在計算變量的交互框中運用lag()函數計算其延遲一階

之後我們運用公式計算其 x^{,}y^{,} ,如圖

之後將得到的x^{,}y^{,},放入到線性回歸的交互框中

查看其模型摘要的數據表可以看出其DW=1.360,經查表得其落在瞭不能確定其是否具有自相關性的區域,對其進行延遲二階的計算後得到的DW值變小,則我們可以不繼續進行延遲二階的操作,其自相關性研究基本解決

通過觀察其系數我們可以得到他的方程為

y^{,}=0.173x^{,}-0.3

將其還原則其方程為

y_{t}-y_{t-1}=0.173(x_{t}-x_{t-1})-0.3

2、差分法

一階差分法適用於原模型具有較高程度的一階自相關的情況,當 rho=1時,其式為

y_{t}-y_{t-1}=beta(x_{t}-x_{t-1})-(varepsilon_t-varepsilon_{t-1})

Delta y_{t} = beta Delta x_{t} +mu

差分法存在的原因:

  1. 迭代法需要用樣本估計自相關系數 rho ,對其估計誤差會影響迭代法使用的效率
  2. 差分法比迭代法簡單

示例:

我們通過相同的方法計算出自變量和因變量的延遲一階之後,在轉換變量中計算出其 Delta x,Delta y

之後我們將這兩變量放入到線性回歸模型的交互框中,值得註意的是在這裡我們需要點擊選項->取消勾選方程中的常量->繼續

通過模型摘要我們可以看出其DW=14.62,經查表得其已經落入無自相關區域,且其模型的擬合優度也較好

通過觀察其系數表可以看出其系數P值為0.0001,非常顯著,得到其模型方程為

Delta y = 0.169Delta x

還原其方程得

y_{t}-y_{t-1} =0.169 ( x_{t}-x_{t-1})