2014.05.23 教育及心理統計(九) 相關(Correlation)

2014.05.23 教育及心理統計(九) 相關(Correlation)

了解變項間的關係

相關

圖解相關

正相關、零相關、負相關

數說相關

數值大小代表關係強弱
正負號代表相關方向
線性轉換不改變相關性

共變：一個現象改變時候，另外一個變相改變的程度

變異數是共變的特例，當自己與自己共變的時候
數值受到單位及數值大小影響，故不建議以共變描述變項間相關

Pearsons' r：連續變項間的相關

(x,y)的相關和(y,x)的相關相同
(x,y)的相關=(Zx,Zy)的相關=(Zx,Zy)的共變
定義公式及計算公式
相關結果解釋的限制

相關係數高未必有相關=>可能有其它因子促成
相關係數低未必無相關=>樣本可能不具代表性(異質)，或非現象相關

相關係數的假設檢定

如H0為平均數為零之對稱母群，則使用z test
如H0非平均數為0之對性母群，則將母群進行Fisher's transformation後再執行z test

總結

連續對連續=>Pearsons' r，呈現變項之線性關係

非線性關係無法精確呈現，結果可能為零相關

二分變項對二分辨項=>Phi相關，但如有常態假設則可用四分相關

如背後概念為能力比例，能力超過一個水平會答對者，適用四分相關

二分辨項對連續變相=>點值雙列相關，如果有常態分配假設，可用雙列相關
順序變相對順序變相=>Spearman's rho/Kendall's tau，如常態分配假設，可用多序類相關

如常態分配建立二切截分數，過高標則為2，介於二者間為1，低於低標為0，適用多序列相關
Spearman's rho有簡易公式及Pearon's r推倒公式，如沒有ties則二者一致，如有ties則使用後者計算
Kendall's tau以線段連接配對數值，計算配對數與交叉的比例延展為同意度概念

不同變項對應統計方式不同，然其餘計算複雜而不贅述

回歸 (regression)

目的：預測或解釋

以X變項預測Y變項之變化

以高中成績預測大學落點
使用發病狀況預測預後狀況

變項： X=>Y，用X預測Y

X變項：預測變項，又稱為 predictor, independent var.
Y變項：效標變項，又稱為criterion, dependent var.

Galton (1885)提出回歸方法

其收集兒童發展資料，發現兒童身高終將回歸到父母身高平均

線性模式 (Linear model)

單回歸 (simple regression)： Y=E(Y|X)+e=a+bX

指單一變項預測之結果，得一預測線
實務操作使用Y^(fitted or predicted var, 最小回歸線)估計理論上之回歸線段

複回歸、多元回歸 (multiple regression)：

指多個變項預測單一結果，得一預測面

如推廣3個以上的X進行預測，則稱為hyperplane

回歸線： Y=a+bX

a稱為截距 (intercept)：指X=0之Y值，即該線段與Y軸相關點之Y值
b稱為斜率 (slope)：單位X改變時，Y的改變量

估計回歸線：概念上回歸線應穿過眾多資料點，故應極小化資料點與線段之距

minimize Sigma (Y-C)之問題？其數值為0，因平均二邊的結果互抵銷
minimize Sigma (Y-C)^2之方法 => 最小平方法 (Method of Least Square)

最小平方法

let Q = minimize Sigma (Y-C)^2，求Y^=a+bX
為求最小值，對 Q 進行偏微分，分別讓 da 及 db 為0

可得 2 條方程式，對應 2 未知數可得解

整理結果

Y^ = a + bX = (Y-bar - b*x-bar) + bx = Y-bar + b (x - x-bar)
Y^=Y-bar + b (x - x-bar)，表必通過 (x-bar , y-bar)

標準化 & 非標準化迴歸係數

如 a, b 均為迴歸係數

原始數值計算而得稱為原始迴歸係數，b, X => Y
經標準化程序而得的稱為標準迴歸係數， beta, Zx => Zy

標準化數值利於比較，控制單位造成之影響

可應用於

跨國、跨文化、跨單位比較
多元回歸跨變項之比較

然標準化後仍有更進一步的控制方法，此不贅述

如休閒花費金額與壽命之回歸關係

台幣與美金本身幣值不等，原始回歸係數不易比較
使用標準化，可統一貨幣之數值差，可提供有效資訊

原始回歸

X => Y
Y^ = a + bX
b = rxy * Sy/Sx
a = Y-bar + b (x - x-bar)

標準回歸

Zx => Zy
Zy^ = alpha + beta * Zx

整合下方資訊，得 Zy^ = rXY * Zx
概念上將以X-bar 和 Y-bar作為新的 (0, 0)完成線性轉換，並改以Zx及Zy為新的軸座標

beta = bZxZy = rZxZy * SZy/SZx = rZxZy * 1 = rxy
alpha = Zy-bar - beta * Zx = 0

整體

Y = a + bX + e

e稱為誤差項，指 Y 及 Y^的差距

Sigma e = 0
Sigma e^2 = minimal error，代表

Y^ = a + bX

Y^為樣本資訊推估所得的回歸式

估計標準誤 (描述資料點與回歸線之離散狀況)

S^2 = Sigma (x - x-bar)^2/ n-1 (花費一個自由度估計x)
Se^2 = Sigma (Y - Y^)^2/n-2 (花費一個自由度估計 x, y)
因此， Se = 根號之Sigma (Y - Y^)^2/n-2 (花費一個自由度估計 x, y)

變異數同質 (hemomoscedasticity)

Y - a + bx + e
Var (Y | X ) = Var (e | X) = O^2 for all X
代表在不同 X level之下，其Y的離散程度是否一致

此同質意義是各X level 資料點是否同質，以利加總比較之

SSy = Sigma (Y - Y-bar)^2 可依與 X 是否相關二分

與 X 相關：表可用 X 解釋的部分，即Y^與Y-bar差距
與 X 無關：表無法用 X 解釋的部分，即Y與Y^差距
Y - Y-bar = (Y - Y^) + (Y^ - Y-bar)

Sigma (Y - Y-bar)^ = Sigma [(Y - Y^) + (Y^ - Y-bar)]^2

SSy = Sigma (Y - Y^) ^2 + Sigma (Y^ - Y-bar) ^ + 2*Sigma (Y - Y^) ( Y^ - Y-bar)，其中 2*Sigma (Y - Y^) ( Y^ - Y-bar)， =0
故 SSy = Sigma (Y - Y^) ^2 + Sigma (Y^ - Y-bar) ^ = SSe + SSy^

SSe 表 X 無法解釋部分
SSy^ 表回歸可解釋部分

上述二部分彼此相關性 = 0

經推導(參考講義)， SSy^ = r^2 xy * SSy

r^2 xy = SSy^ / SSy ，代表在所有 SSy中，SSreg佔的百分比

決定係數 (Coefficient of determination)

r^2 xy = SSy^ / SSy ，表 Y的變異量中可被 X 解釋的部分

如 r = 0.8，則其 r^2 = 0.64，表 X 可解釋所有 Y 變異的 64%

估計標準誤與變異之差異

Se = Sy * 根號 (1 - r^2) * (n - 1) / (n - 2)

如 n 夠大，可寫為 Se = Sy * 根號 (1 - r^2)

回歸之假設

X 沒有測量誤差 (回歸討論之誤差來自於 Y 之估計)
X 和 Y 是線性關係
變異數同質 (e | X) ~ (0 , O^2)

Var (e | X) = O^2 for all X，任何 X 的狀況下，e 均相同

常態分配條件化 (指無論X之level， Y 的分配均為常態分配)
資料點獨立
誤差常態分配 error ~ N (0, O^2)
沒有一類任何預測變項 X，表已選擇最佳回歸

Model testing

SSy = SSreg + SSe

SSreg 表 X 可解釋部分
SSe 表 X 不可解釋部分

回歸是否有效？

H0： b1 = b2 = 0，結果為 Y^ = Y-bar
H1：至少一個 b 不為 0，結果為 Y^ ≠ Y-bar

單回歸 ANOVA table

ANOVA 為回歸特例
用以檢定回歸之有效性

公式整理結果，整體回歸有效性之檢定，等同於相關係數是否為 0

對照結果

F (1, n-2, 0.05)，僅在單回歸其一個 df=1，此時等同 t^2 ( n-2, 0.025)

檢定迴歸係數或截距

H0： b = b* (b*自由設定)
H1： b ≠ b*
t = b - b* / Sb

整體回歸有效性之檢定 = 相關係數是否為零 = 迴歸係數斜率是否為零

利用回歸預測

當一筆新的資料加入後，其估計標準誤差(實為預測標準誤)之改變

S'e = Se * 根號 1 + 1/n + (Xn - X-bar)^2 / (n-1) Sx^2

當此人分數距平均數越遠時，將使預測標準誤上升
此結果將造成估計標準誤呈現弧度 (原為平行)

當有 m 筆新的資料加入後，其估計標準誤改變為

S'e = Se * 根號 1/m + 1/n + (Xn - X-bar)^2 / (n-1) Sx^2

代表當加入的人數較多時，其預測會較為精準

留言