2014.05.23 教育及心理統計(九) 相關(Correlation)
了解變項間的關係
- 相關
- 圖解相關
- 正相關、零相關、負相關
- 數說相關
- 共變:一個現象改變時候,另外一個變相改變的程度
- 變異數是共變的特例,當自己與自己共變的時候
- 數值受到單位及數值大小影響,故不建議以共變描述變項間相關
- Pearsons' r:連續變項間的相關
- (x,y)的相關和(y,x)的相關相同
- (x,y)的相關=(Zx,Zy)的相關=(Zx,Zy)的共變
- 定義公式及計算公式
- 相關結果解釋的限制
- 相關係數高未必有相關=>可能有其它因子促成
- 相關係數低未必無相關=>樣本可能不具代表性(異質),或非現象相關
- 相關係數的假設檢定
- 如H0為平均數為零之對稱母群,則使用z test
- 如H0非平均數為0之對性母群,則將母群進行Fisher's transformation後再執行z test
- 總結
- 連續對連續=>Pearsons' r,呈現變項之線性關係
- 非線性關係無法精確呈現,結果可能為零相關
- 二分變項對二分辨項=>Phi相關,但如有常態假設則可用四分相關
- 如背後概念為能力比例,能力超過一個水平會答對者,適用四分相關
- 二分辨項對連續變相=>點值雙列相關,如果有常態分配假設,可用雙列相關
- 順序變相對順序變相=>Spearman's rho/Kendall's tau,如常態分配假設,可用多序類相關
- 如常態分配建立二切截分數,過高標則為2,介於二者間為1,低於低標為0,適用多序列相關
- Spearman's rho有簡易公式及Pearon's r推倒公式,如沒有ties則二者一致,如有ties則使用後者計算
- Kendall's tau以線段連接配對數值,計算配對數與交叉的比例延展為同意度概念
- 不同變項對應統計方式不同,然其餘計算複雜而不贅述
- 回歸 (regression)
- 目的:預測或解釋
- 以X變項預測Y變項之變化
- 以高中成績預測大學落點
- 使用發病狀況預測預後狀況
- 變項: X=>Y,用X預測Y
- X變項:預測變項,又稱為 predictor, independent var.
- Y變項:效標變項,又稱為criterion, dependent var.
- Galton (1885)提出回歸方法
- 其收集兒童發展資料,發現兒童身高終將回歸到父母身高平均
- 線性模式 (Linear model)
- 單回歸 (simple regression): Y=E(Y|X)+e=a+bX
- 指單一變項預測之結果,得一預測線
- 實務操作使用Y^(fitted or predicted var, 最小回歸線)估計理論上之回歸線段
- 複回歸、多元回歸 (multiple regression):
- 指多個變項預測單一結果,得一預測面
- 如推廣3個以上的X進行預測,則稱為hyperplane
- 回歸線: Y=a+bX
- a稱為截距 (intercept):指X=0之Y值,即該線段與Y軸相關點之Y值
- b稱為斜率 (slope):單位X改變時,Y的改變量
- 估計回歸線:概念上回歸線應穿過眾多資料點,故應極小化資料點與線段之距
- minimize Sigma (Y-C)之問題? 其數值為0,因平均二邊的結果互抵銷
- minimize Sigma (Y-C)^2之方法 => 最小平方法 (Method of Least Square)
- 最小平方法
- let Q = minimize Sigma (Y-C)^2,求Y^=a+bX
- 為求最小值,對 Q 進行偏微分,分別讓 da 及 db 為0
- 可得 2 條方程式,對應 2 未知數可得解
- 整理結果
- Y^ = a + bX = (Y-bar - b*x-bar) + bx = Y-bar + b (x - x-bar)
- Y^=Y-bar + b (x - x-bar),表必通過 (x-bar , y-bar)
- 標準化 & 非標準化迴歸係數
- 如 a, b 均為迴歸係數
- 原始數值計算而得稱為原始迴歸係數,b, X => Y
- 經標準化程序而得的稱為標準迴歸係數, beta, Zx => Zy
- 標準化數值利於比較,控制單位造成之影響
- 可應用於
- 跨國、跨文化、跨單位比較
- 多元回歸跨變項之比較
- 然標準化後仍有更進一步的控制方法,此不贅述
- 如休閒花費金額與壽命之回歸關係
- 台幣與美金本身幣值不等,原始回歸係數不易比較
- 使用標準化,可統一貨幣之數值差,可提供有效資訊
- 原始回歸
- X => Y
- Y^ = a + bX
- b = rxy * Sy/Sx
- a = Y-bar + b (x - x-bar)
- 標準回歸
- Zx => Zy
- Zy^ = alpha + beta * Zx
- 整合下方資訊,得 Zy^ = rXY * Zx
- 概念上將以X-bar 和 Y-bar作為新的 (0, 0)完成線性轉換,並改以Zx及Zy為新的軸座標
- beta = bZxZy = rZxZy * SZy/SZx = rZxZy * 1 = rxy
- alpha = Zy-bar - beta * Zx = 0
- 整體
- Y = a + bX + e
- e稱為誤差項,指 Y 及 Y^的差距
- Sigma e = 0
- Sigma e^2 = minimal error,代表
- Y^ = a + bX
- Y^為樣本資訊推估所得的回歸式
- 估計標準誤 (描述資料點與回歸線之離散狀況)
- S^2 = Sigma (x - x-bar)^2/ n-1 (花費一個自由度估計x)
- Se^2 = Sigma (Y - Y^)^2/n-2 (花費一個自由度估計 x, y)
- 因此, Se = 根號之Sigma (Y - Y^)^2/n-2 (花費一個自由度估計 x, y)
- 變異數同質 (hemomoscedasticity)
- Y - a + bx + e
- Var (Y | X ) = Var (e | X) = O^2 for all X
- 代表在不同 X level之下,其Y的離散程度是否一致
- 此同質意義是各X level 資料點是否同質,以利加總比較之
- SSy = Sigma (Y - Y-bar)^2 可依與 X 是否相關二分
- 與 X 相關:表可用 X 解釋的部分,即Y^與Y-bar差距
- 與 X 無關:表無法用 X 解釋的部分,即Y與Y^差距
- Y - Y-bar = (Y - Y^) + (Y^ - Y-bar)
- Sigma (Y - Y-bar)^ = Sigma [(Y - Y^) + (Y^ - Y-bar)]^2
- SSy = Sigma (Y - Y^) ^2 + Sigma (Y^ - Y-bar) ^ + 2*Sigma (Y - Y^) ( Y^ - Y-bar),其中 2*Sigma (Y - Y^) ( Y^ - Y-bar), =0
- 故 SSy = Sigma (Y - Y^) ^2 + Sigma (Y^ - Y-bar) ^ = SSe + SSy^
- SSe 表 X 無法解釋部分
- SSy^ 表回歸可解釋部分
- 上述二部分彼此相關性 = 0
- 經推導(參考講義), SSy^ = r^2 xy * SSy
- r^2 xy = SSy^ / SSy ,代表在所有 SSy中,SSreg佔的百分比
- 決定係數 (Coefficient of determination)
- r^2 xy = SSy^ / SSy ,表 Y的變異量中可被 X 解釋的部分
- 如 r = 0.8,則其 r^2 = 0.64,表 X 可解釋所有 Y 變異的 64%
- 估計標準誤與變異之差異
- Se = Sy * 根號 (1 - r^2) * (n - 1) / (n - 2)
- 如 n 夠大,可寫為 Se = Sy * 根號 (1 - r^2)
- 回歸之假設
- X 沒有測量誤差 (回歸討論之誤差來自於 Y 之估計)
- X 和 Y 是線性關係
- 變異數同質 (e | X) ~ (0 , O^2)
- Var (e | X) = O^2 for all X,任何 X 的狀況下,e 均相同
- 常態分配條件化 (指無論X之level, Y 的分配均為常態分配)
- 資料點獨立
- 誤差常態分配 error ~ N (0, O^2)
- 沒有一類任何預測變項 X,表已選擇最佳回歸
Model testing
- SSy = SSreg + SSe
- SSreg 表 X 可解釋部分
- SSe 表 X 不可解釋部分
- 回歸是否有效?
- H0: b1 = b2 = 0, 結果為 Y^ = Y-bar
- H1:至少一個 b 不為 0,結果為 Y^ ≠ Y-bar
- 單回歸 ANOVA table
- ANOVA 為回歸特例
- 用以檢定回歸之有效性
- 公式整理結果,整體回歸有效性之檢定,等同於相關係數是否為 0
- 對照結果
- F (1, n-2, 0.05),僅在單回歸其一個 df=1,此時等同 t^2 ( n-2, 0.025)
檢定迴歸係數或截距
- H0: b = b* (b*自由設定)
- H1: b ≠ b*
- t = b - b* / Sb
- 整體回歸有效性之檢定 = 相關係數是否為零 = 迴歸係數斜率是否為零
利用回歸預測
- 當一筆新的資料加入後,其估計標準誤差(實為預測標準誤)之改變
- S'e = Se * 根號 1 + 1/n + (Xn - X-bar)^2 / (n-1) Sx^2
- 當此人分數距平均數越遠時,將使預測標準誤上升
- 此結果將造成估計標準誤呈現弧度 (原為平行)
- 當有 m 筆新的資料加入後,其估計標準誤改變為
- S'e = Se * 根號 1/m + 1/n + (Xn - X-bar)^2 / (n-1) Sx^2
- 代表當加入的人數較多時,其預測會較為精準
留言
張貼留言