2014.05.30 教育及心理統計(十) 回歸 ( Regression)

回歸: 以  X 預測結果 Y 之方法

  • 單回歸
    • 方程式
      • Y = a + b X + e
      • Y^ = a + b X
    • 最小平方法: let min sigma (Y - Y^) ^2  = 0 
      • 偏微分後解 a, b
    • 估計標準誤 (概念似變異數)
      • Se ^2 = sigma (Y - Y^)^2 / n - 2 (使用 2 個 df 估計 x, y)
        • 各資料點其 Y值與最小回歸線之離散程度
      • 因加總計算,故
        • 變異數同質假設 (指各 x 值間,y 分配之變異數)
    • 決定係數 ( R -square): Y 的變異量中有多少為 X 所解釋
      • 於單回歸時,與相關係數為平方關係
    • 回歸檢驗:若回歸無效,等同於零相關
      • ANOVA 為回歸的一個特例
      • 檢驗回歸是否能預測 = 相關係數是否為零 = 回歸線斜率是否為零
    • 利用回歸做預測 (外來資料之預測及整合)
      • 預測標準誤:加入新資料之後,其估計標準誤需修正,存在修正關係
        • 依據公式 (參考講義),可知如果此資料點 X 距離平均值越遠,其預測標準誤越大,造成信賴區間的邊界的扭曲
          • 單筆資料加入與多筆資料加入
            • 多筆資料比較精準,使用不相似但不同的計算公式 (參考講義)
  • 複回歸:為單回歸之延伸
    • 概念及定義
      • 相較於單回歸以單一 X 預測 Y; 多元回歸使用多個 X 預測 Y
      • 單回歸之斜率代表單位 X 增加時,Y 的變化量;
        多元回歸之係數 b 稱為 partial regression coeff./weight,指「當其它 X 均固定於特定數值下, 單位 Xp 變化時,Y 值之變化量」,即 mean response E (Y|X) 之變化量
    • 估計方法:最小平方法
      • 令 Q = sigma (Y - Y^)^2 = sigma (Y - b0 - b1x1 - b2x2 - .....) = sigma e^2
        • 對 Q 採用 b0 ~ bp 進行偏微分並整理之 (normal equations)
        • 利用矩陣描述 normal equations  得 Rxy = R xx * b (  Rxy & Rxx 已知)
          可利用反矩陣解出 b ,然此反矩陣需存在方能使用
          • 向量彼此互相獨立(線性獨立),即某一向量不得為其它向量之線性相依(X 不為其它 X 之線性組合)
          • 共線性 (multicalinearity) :一個 X 為其它變項的線性組合
            最小平方法進行偏微分後取得之資訊,得以恰好解模型方程式,然而當共線性存在時,將缺少數個資訊,造成未知數與方成數不對等,而無法解出方程式
    • 相關
      • 單回歸之變項相關 (correlation)
        • rxy^ = 1 (因 Y^ 所有資料均來自 X)
        • rxe = 0 (因已扣除所有訊息)
        • r xy = ryy^
          決定係數 rxy ^2 = ryy^ ^2 = SSy^ / SSy
      • 多回歸之變項相關 (multiple correlation)
        • R^2 = SSy^ / SS y 多元決定係數
          由於無法直接算出相關,故取得多元決定係數後,再根號之

      • adjusted R^2 
        • R^2 = SSy^ / SSy = (SSy - SSe) / SSy = 1 - SSe / SSy = 1 - sigma (Y - Y^)^2 / sigma (Y - Y-bar)^2
        • adjusted R^2 = 1 - sigma (Y - Y^)^2 / (n - p - 1) * (n - 1) / sigma (Y - Y-bar)^2 = 1 - (1 - R^2) * (n-1) / (n - p - 1)
          理論上越多 X 可得到越大的 R^2,但其中許多 X 影響甚微,故理想上應使用有限少數的 X,並取得良好之 R^2
        • 修正之理由:
          • 如果 n 很小, R^2 可能 biased,故修正為n則使用調整版
          • 控制投入變項 X 之數量 (以 df 為之)
      • 圖解概念
        • 單回歸:X 及 Y 交集處即為其R^2
        • 多回歸:
          • 變項獨立時:R^2 將所有 X 及 Y 交集處加總即可
          • 變項不獨立時:X 資料點間彼此重疊,故需要扣除一次彼此重疊之內容
      • 標準化回歸
        • Y^ = a + bX  ==> Zy^ = rxx * Zx
          概念性等同,非實質等同
          • 將所有項目除以 Y 之標準差 (亦可使用 beta 計算決定係數)
            beta = b (Sx / Sy)
            beta coeff./ weight or Standardized partial reg. coeff./weight
        • 在原始模型中,無法單純以 b 之數值大小來描述各變項之重要程度
          然標準化去除單位差距後,仍未必可以直接比較其重要性,因 X 變項間可能有無法去除之相關 (但如果無相關則可)  ==> 淨相關 / 半淨相關
      • 半淨相關(semipartial correlation): Ry (1˙2),僅扣除 X 變項之影響
        • Incremental validity (增加量,指增加一個變項時,其解釋量的變化)
          note:似 stepwise ?
      • 淨相關(partial correlation):R y 1˙2,同時扣除 X & Y 變項之影響
        • 以文氏圖面積概念解釋,首先將 Y 進行標準化,使面積為1
      • 以回歸看淨相關 (X1, X2, & Y)
        • 製造二條回歸
          (1) X2 預測 Y,得回歸式及error (Y - Y^)
          (2) X2 預測 X1,得回歸式及error (X1 - X2)
        • 計算相關
          淨相關 Ry1˙2:表 Y 及 X1 之關係,二者均扣除 X2 之影響,故為error (Y - Y^) 和  error (X1 - X2) 之相關
          半淨相關 Ry(1˙2):表 Y 及 X1 之關係,僅 X1 扣除 X2 之影響,故為 Y 和 error (X1 - X2)  之相關
  • 壓抑變項、抑制變項 (Suppressor Variable)
    • 理論上, X 如與 Y 的相關性高,其解釋力亦較高,傾向放入回歸模型中;然某些變項本身相關性甚低,但加入後可以移除誤差,進而提升 R^2 的預測力
      (即些許變項與主要變項 X 具高度相關,但與預期結果 Y 無直接相關,卻可影響其表現變異之變項,稱為壓抑、抑制變項,同家眷附帶概念)
    • 判斷是否為抑制變項
      1. 加入此變項是否使 R^2 提升?
      2. Y 與該變項相關性甚低
      3. 通常 Y 與該變項之係數為負值
      上述條件達成,可懷疑其為壓抑變項
  • 多元回歸建構
    • 目標:找到最精簡的模式 (parsimonious model),又能取噁足夠的解釋量
    • 方法
      • forward(一個一個加入):建立個別 X 與 Y 之回歸,以相關性最高者為開始,逐步加入相關性次大者,直到邊際增加低於標準時
      • backward(一個一個刪除):建立所有 X 與 Y 之回歸,並且刪除其中一個重新回歸,並觀察其決定係數之變化量,直到明顯下降為止 (顯著差異)
      • stepwise(結合上述二者):加入最大與次大者,考量是否可刪;再加入新的便項,並考慮原變項是否刪除
      • all the possible sets :通常用於 X 變項很少時, n 個變可產生 2^n -1 種回歸式,列出所有可能並觀察其刪除變化量,以判斷最佳模式
      • Block :將變項群組,綁定一同放入或者共同刪除之操作模式
  • Full and Reduced models: Ho: b1=b2=b3=b4=bn....= 0; Ha:至少一個 bn≠ 0
    • Full model:納入所有 X 變項之 model
    • Reduced model:刪除部分 X 變項之 model (即其係數為 0)
      F 檢定二模型之差異是否達顯著,以判斷是否可刪除某些變項
ANOVA & Regression
  • ANOVA 是一種回歸特例
  • 可使用不同 coding 方式,並以此結果作為 X,進行回歸
    • unweight mean:不考慮人數關係直接取平均
    • weight mean:考慮不同組之人數而平衡之
  • 將原始資料以矩陣表示
    [原始資料] = [1,0 coding][係數] + [e]
    此 [1,0 coding] 此方式稱為 dummy coding ,在解的時候,因其內部組成具共線性(一個向量為其它向量之線性組合),因此不存在其反矩陣,不得解
  • 然而,當有 n 個組別時,僅需 n-1個個變化值即可區分之,故刪除一組變項使之可求反矩陣,並讓 X1, X2, X3 對 Y 進行回歸,其結果
    截距:刪除組別之 baseline 平均
    斜率:各組與刪除組平均之差
  • 如採用 effect coding (即使用1, 0, -1),同樣使用 n - 1 組即可,判別,進行回歸
    截距: 為 unweighted mean
    斜率:各組與刪除組平均之差

Summary
  • ANOVA 為回歸之特例,即回歸中對自變項使用不同coding(dummy / effect) ,可呈現二者關係
  • 使用回歸進行 ANOVA,適用於人數不同之狀況,因複雜 ANOVA 需使用回歸方式方可計算
    proc ANOVA (當 n 相等), proc glm (未限制 n  是否相等)
  • dummy & effect coding 也可用來處理複雜 interaction ,唯計算複雜而不在此討論
所以, ANOVA 是回歸特例,對不同組別使用特殊 coding,並且 j 個組別僅需 j-1 個向量即可計算之,其所得之迴歸係數與原 group mean 相關


留言

熱門文章