2014.05.23 教育及心理統計(九) 相關(Correlation)


了解變項間的關係
  • 相關
    • 圖解相關
      • 正相關、零相關、負相關
    • 數說相關
      • 數值大小代表關係強弱
      • 正負號代表相關方向
      • 線性轉換不改變相關性

    • 共變:一個現象改變時候,另外一個變相改變的程度
      • 變異數是共變的特例,當自己與自己共變的時候
      • 數值受到單位及數值大小影響,故不建議以共變描述變項間相關
    • Pearsons' r:連續變項間的相關
      • (x,y)的相關和(y,x)的相關相同
      • (x,y)的相關=(Zx,Zy)的相關=(Zx,Zy)的共變
      • 定義公式及計算公式
      • 相關結果解釋的限制
        • 相關係數高未必有相關=>可能有其它因子促成
        • 相關係數低未必無相關=>樣本可能不具代表性(異質),或非現象相關
    • 相關係數的假設檢定
      • 如H0為平均數為零之對稱母群,則使用z test
      • 如H0非平均數為0之對性母群,則將母群進行Fisher's transformation後再執行z test
    • 總結
      • 連續對連續=>Pearsons' r,呈現變項之線性關係
        • 非線性關係無法精確呈現,結果可能為零相關
      • 二分變項對二分辨項=>Phi相關,但如有常態假設則可用四分相關
        • 如背後概念為能力比例,能力超過一個水平會答對者,適用四分相關
      • 二分辨項對連續變相=>點值雙列相關,如果有常態分配假設,可用雙列相關
      • 順序變相對順序變相=>Spearman's rho/Kendall's tau,如常態分配假設,可用多序類相關
        • 如常態分配建立二切截分數,過高標則為2,介於二者間為1,低於低標為0,適用多序列相關
        • Spearman's rho有簡易公式及Pearon's r推倒公式,如沒有ties則二者一致,如有ties則使用後者計算
        • Kendall's tau以線段連接配對數值,計算配對數與交叉的比例延展為同意度概念
      • 不同變項對應統計方式不同,然其餘計算複雜而不贅述
  • 回歸 (regression)
    • 目的:預測或解釋
      • 以X變項預測Y變項之變化
        • 以高中成績預測大學落點
        • 使用發病狀況預測預後狀況
    • 變項: X=>Y,用X預測Y
      • X變項:預測變項,又稱為 predictor, independent var.
      • Y變項:效標變項,又稱為criterion, dependent var.
    • Galton (1885)提出回歸方法
      • 其收集兒童發展資料,發現兒童身高終將回歸到父母身高平均
    • 線性模式 (Linear model)
      • 單回歸 (simple regression): Y=E(Y|X)+e=a+bX
        • 指單一變項預測之結果,得一預測線
        • 實務操作使用Y^(fitted or predicted var, 最小回歸線)估計理論上之回歸線段
      • 複回歸、多元回歸 (multiple regression):
        • 指多個變項預測單一結果,得一預測面
          • 如推廣3個以上的X進行預測,則稱為hyperplane
    • 回歸線: Y=a+bX
      • a稱為截距 (intercept):指X=0之Y值,即該線段與Y軸相關點之Y值
      • b稱為斜率 (slope):單位X改變時,Y的改變量
    • 估計回歸線:概念上回歸線應穿過眾多資料點,故應極小化資料點與線段之距
      • minimize Sigma (Y-C)之問題? 其數值為0,因平均二邊的結果互抵銷
      • minimize Sigma (Y-C)^2之方法 => 最小平方法 (Method of Least Square)
    • 最小平方法
      • let Q = minimize Sigma (Y-C)^2,求Y^=a+bX
      • 為求最小值,對 Q 進行偏微分,分別讓 da 及 db 為0
        • 可得 2 條方程式,對應 2 未知數可得解 
      • 整理結果
        • Y^ = a + bX = (Y-bar - b*x-bar) + bx = Y-bar + b (x - x-bar)
        • Y^=Y-bar + b (x - x-bar),表必通過 (x-bar , y-bar)
    • 標準化 & 非標準化迴歸係數
      • 如 a, b 均為迴歸係數
        • 原始數值計算而得稱為原始迴歸係數,b, X => Y
        • 經標準化程序而得的稱為標準迴歸係數, beta, Zx => Zy
      • 標準化數值利於比較,控制單位造成之影響
        • 可應用於
          • 跨國、跨文化、跨單位比較
          • 多元回歸跨變項之比較
            • 然標準化後仍有更進一步的控制方法,此不贅述
        • 如休閒花費金額與壽命之回歸關係
          • 台幣與美金本身幣值不等,原始回歸係數不易比較
          • 使用標準化,可統一貨幣之數值差,可提供有效資訊
        • 原始回歸
          • X => Y
          • Y^ = a + bX
          • b = rxy * Sy/Sx
          • a = Y-bar + b (x - x-bar)
        • 標準回歸
          • Zx => Zy
          • Zy^ = alpha + beta * Zx
            • 整合下方資訊,得 Zy^  = rXY * Zx
            • 概念上將以X-bar 和 Y-bar作為新的 (0, 0)完成線性轉換,並改以Zx及Zy為新的軸座標
          • beta = bZxZy = rZxZy * SZy/SZx = rZxZy * 1 = rxy
          • alpha = Zy-bar - beta * Zx = 0
        • 整體
          • Y = a + bX + e
            • e稱為誤差項,指 Y 及 Y^的差距
              • Sigma e = 0
              • Sigma e^2 = minimal error,代表
          • Y^ = a + bX
            • Y^為樣本資訊推估所得的回歸式
      • 估計標準誤 (描述資料點與回歸線之離散狀況)
        •  S^2 =  Sigma (x - x-bar)^2/ n-1 (花費一個自由度估計x)
        • Se^2 = Sigma (Y - Y^)^2/n-2 (花費一個自由度估計 x, y)
        • 因此, Se = 根號之Sigma (Y - Y^)^2/n-2 (花費一個自由度估計 x, y)
      • 變異數同質 (hemomoscedasticity)
        • Y - a + bx + e
        • Var (Y | X ) = Var (e | X) = O^2 for all X
        • 代表在不同 X level之下,其Y的離散程度是否一致
          • 此同質意義是各X level 資料點是否同質,以利加總比較之
    • SSy = Sigma (Y - Y-bar)^2 可依與 X 是否相關二分
      • 與 X 相關:表可用 X 解釋的部分,即Y^與Y-bar差距
      • 與 X 無關:表無法用 X 解釋的部分,即Y與Y^差距
      • Y - Y-bar = (Y - Y^) + (Y^ - Y-bar)
        • Sigma (Y - Y-bar)^ = Sigma [(Y - Y^) + (Y^ - Y-bar)]^2
          • SSy = Sigma (Y - Y^) ^2 + Sigma (Y^ - Y-bar) ^ + 2*Sigma (Y - Y^) ( Y^ - Y-bar),其中  2*Sigma (Y - Y^) ( Y^ - Y-bar), =0
          • 故 SSy = Sigma (Y - Y^) ^2 + Sigma (Y^ - Y-bar) ^ = SSe + SSy^
            • SSe 表 X 無法解釋部分
            • SSy^ 表回歸可解釋部分
              • 上述二部分彼此相關性 = 0
        • 經推導(參考講義), SSy^ = r^2 xy * SSy
          • r^2 xy = SSy^ / SSy ,代表在所有 SSy中,SSreg佔的百分比
    • 決定係數 (Coefficient of determination)
      • r^2 xy = SSy^ / SSy ,表 Y的變異量中可被 X 解釋的部分
        • 如 r = 0.8,則其 r^2 = 0.64,表 X 可解釋所有 Y 變異的 64%
    • 估計標準誤與變異之差異
      • Se = Sy * 根號 (1 - r^2) * (n - 1) / (n - 2) 
        • 如 n 夠大,可寫為 Se = Sy * 根號 (1 - r^2)
    • 回歸之假設
      • X 沒有測量誤差 (回歸討論之誤差來自於 Y 之估計)
      • X 和 Y 是線性關係
      • 變異數同質 (e | X) ~ (0 , O^2)
        • Var (e | X) = O^2 for all X,任何 X 的狀況下,e 均相同
      • 常態分配條件化 (指無論X之level, Y 的分配均為常態分配)
      • 資料點獨立
      • 誤差常態分配 error ~ N (0, O^2)
      • 沒有一類任何預測變項 X,表已選擇最佳回歸
Model testing
  • SSy = SSreg + SSe
    • SSreg 表 X 可解釋部分
    • SSe 表 X 不可解釋部分
  • 回歸是否有效?
    • H0: b1 = b2 = 0, 結果為 Y^ = Y-bar
    • H1:至少一個 b 不為 0,結果為 Y^ ≠ Y-bar
  • 單回歸 ANOVA table
    • ANOVA 為回歸特例
    • 用以檢定回歸之有效性
      • 公式整理結果,整體回歸有效性之檢定,等同於相關係數是否為 0
    • 對照結果
      • F (1, n-2, 0.05),僅在單回歸其一個 df=1,此時等同 t^2 ( n-2, 0.025)
檢定迴歸係數或截距
  • H0: b = b* (b*自由設定)
  • H1: b ≠ b*
  • t = b - b* / Sb
    • 整體回歸有效性之檢定 = 相關係數是否為零 = 迴歸係數斜率是否為零
利用回歸預測
  • 當一筆新的資料加入後,其估計標準誤差(實為預測標準誤)之改變
    • S'e = Se * 根號 1 + 1/n + (Xn - X-bar)^2 / (n-1) Sx^2
      • 當此人分數距平均數越遠時,將使預測標準誤上升
      • 此結果將造成估計標準誤呈現弧度 (原為平行)
  • 當有 m 筆新的資料加入後,其估計標準誤改變為
    • S'e = Se * 根號 1/m + 1/n + (Xn - X-bar)^2 / (n-1) Sx^2
      • 代表當加入的人數較多時,其預測會較為精準

留言

熱門文章