2014.05.16 教育及心理統計(八) 相關(Correlation)
了解變項間的關係
相關
- 繪圖:散布圖(scatter plot)
- 正相關:斜率為正之走向,當一個變數變大的時候,另外一個變數亦增加之狀況
- 負相關:斜率為負之走向,當一個變數變大的時候,另外一個變數縮小之狀況
- 完美相關(perfect relationship):當所有資料點排列在同一直線上之狀況
- 零相關:斜率為0之或者斜率無限大之線段,當一個變數改變時另外一個變數無改變之狀況
- 線性 v.s. 非線性 (linear relationship & non-linear relationship)
- 天花板效應(ceiling effect):正相關到極致而達高原期
- 地板效應(floor effect):負相關到極致而達高原期
- 劑量反應(dose-response effect):呈現轉折而出現最大/最小值
- 相關性大小:同為正相關之散步圖,
- 如其數值越收斂(一致而呈現窄瘦),其相關係數越大
- 其數值越分散(分散而呈現寬胖),其相關係數越小
- 相關係數:實際計算數值而判斷之
- Galton首先提出相關概念,至Pearson首先提出公式
- 相關係數:
- 符號表示關係方向
- 正相關(+)
- 負相關(-)
- 數值大小表示關係強弱
- 介於±1之間
- |r|=1代表完美相關
- 處理程序: 令有X及Y資料數筆
- 將X及Y之資料標準化,取得其Z分數
- 依照Zx及Zy繪出散步圖(scatter plot)
- 將X及Y標準化之作法為線性轉換
- 線係轉換不影響資料點間的關係
- 共變(Covariance):二個變項一起變動的程度
- X↑Y↑,X↓Y↑,X↑Y↓,X↓Y↓
- 變異/共變數之計算:
- 變異數:s=(X-mean)^2/(n-1),x內之數值關係,為共變之特例
- 共變數:Cov(x,y)=Sxy=sigma(X-mean)(Y-mean)/(n-1),表x,y間的數值關係
- 共變數
- 數值大小代表共變大小
- 符號代表共變方向
- 依(x,y)之正負關係建立出四象限圖
- 第一、第三象限:乘積結果為+
- 第二、第四象限:乘積結果為-
- 共變數計算實比較正、負之多寡及數值
- 使用共變取代相關?
- 不適當,因共變易受到伸縮影響,此線性轉換不影響其資料點相對關係,然此轉換將造成共變數值之改變
積差相關(Pearson's Product-moment Correlation Coefficient, Pearson's r)
- r=sigma(Zx)(Zy)/(n-1)=Szxzy
- xy相關=ZxZy相關=ZxZy共變
- r=Sxy/Sx*Sy (此有標準化去除單位之概念)
- 由此可見,相關係數為共變數各自對x,y標準化之結果,經標準化去除方向、分散程度影響
- Pearson's r之計算公式(參考講義內容)
In summary
- x,y相關係數=Sxy/Sx*Sy
- 數值大小代表關係強弱
- 正負符號代表關係方向
- x,y,相關係數=Zx,Zy相關係數=Zx,Zy共變數
- 線性轉換不改變相關係數
- 如為Pearsons' r,表計算x,y間的線性關係
- r=0,表x,y沒有線性關係,但可能有非線性關係而未能呈現
- r≠0,表x,y間未必有關,可能受到第三變項影響
- 舉例而言,中國地理與美國哲學之間應該沒有關係,但實際上測驗分數可能呈現相關,因受到考試性質之時間(速度)因素影響
- 相關(correlation)不等同因果(cause-effect relation),相關不代表有因果關係
- 理想因果關係之建立須於實驗場域控制其餘變項取得
- 影響相關之要素: 選取範圍 & 異質團體
- 選取範圍(restriction of range):如實為非線性相關,但只選取部分時則呈現相關,造成結果與預期落差
- 異質團體(heterogeneous subsamples):樣本中包含異質成分,然分析時未正確分離,造成相關性無法顯現
- 如高社經地位者為正相關,低社經地位為負相關,未分組的情況下,結果將呈現近似無相關
- 如男女個別無相關,但同時考慮男女的時候,結果顯示男、女間呈現特定相關
相關係數的假設檢定 (使用母群代號進行檢定)
- H0:rho=0 ;H1: rho≠0
- t =rxy/根號(1-r^2)/(n-2)
- H0:rho=rho0 :H1:rho≠rho0
- Fisher's Z transformation
- 當母群分配非對稱時,需進行轉換成為對稱常態分配後,再以z test檢定之
- r=>r'
- rho=>rho'
- 當n>10時,r'~N(rho', 1/n-3),使用z test
- 二獨立樣本相關係數
- 延伸 Fisher's Z transformation
In summary (參考講義整理)
- Continuous & Continuous = Pearsons's r
- Binary & Binary
- Phi
- 計算公式 phi =對角乘積差/根號兩兩總和乘積
- phi = 根號 chi/n,故n phi^2 =chi
- 四分相關 (當背後假定為常態分配時)
- 因涉及二個常態分配之關係,故計算複雜,不特別討論
- Binary & Continuous
- 點值雙列相關
- X (dichotomous variable)
- Y (continuous variable)
- mean of Y
- standard deviation of Y
- Y-bar 1 (mean of Y with X=1)
- pro x (proportion of subject with X=1)
note: 若coding成0,1的話,其結果同 Pearsons' r
note2:因電腦計算無點值雙列相關方式,但可將X編碼為0,1,即可使用 Pearson's r計算之
note3:如coding之0,1互換,其結果僅改變方向,即正負號 - 二分相關(雙列相關, Biserial correlation) 假定二分變項背後為常態分配
- 假定能力超過一個閾值可答對,未超過則答錯
- 此計算涉及常態分配f(Z),其指以Z分數對應標準常態分配之y值,所得的結果(也可將Z帶入標準常態分配公式取得結果)
- 如果其背後實質分配為雙峰,則算出來的結果r>1
- rb和rpb存在關係式,可轉換計算之
- Ordinal & Ordinal
- Spearman rank-order correlation (spearman's rho)
- 自小而大將觀察值排序
- 計算二排序值間的差距
- 將差距平方加總
- 依照此排序有無ties決定使用的公式
- ties:使用mean rank,再將rank A & rank B 計算pearson's r取得
- no ties:使用公式直接計算,公式由pearons's推導而來
- Kendall's tau
- 用於測量同意度
- 將數值相同者連線
- 如交叉稱為inversion,如數量越多則tau數值下降
- tau=1-2(#inversion)/#pairs
- #pairs=Cn取2
- *2原因為1,2和2,1配對意義相同
- Kendall's coefficient of concordance (omega)
- 同意度概念
- 使用rank加總之變異判斷同意度
- 如一致性高,則ranks加總之變異性高
- 如一致性低,則ranks加總之變異性低
- 與 spearman's rho的關係
- Kandall's coefficient of concordance 有多個測量者,如認取二者進行spearman's rho則如何?
- 將所有speraman's rho加總平均後,其結果與oemga存在轉換關係(參考講義)
留言
張貼留言