2014.11.13 心理測驗(十四) Realibility
再測信度(test-retest reliability)
- 誤差來源可能是時間要素
- measure of stability
- Corr(X1,X2)=Var (T)/Var (X)
- T1=T2 (let)
- Ox1=Ox2 (thus)
- Cov(X1,X2)=Cov(T+E1,T+E2)=Cov(T,T)=oT^2 (while assumption)
- Corr(X1,X2)=Cov(X1,X2)/(ox1*ox2)=oT^2/Ox^2 (thus)
- 影響因素
- 測驗間隔時間:二次測驗間隔時間並沒有確切答案,但是需注意二次測驗是否會彼此干擾(可能依測驗內容而定)
- 鮮少超過六個月,因時間過長
- 系統性變化:
- systematic changes:當受試者能力產生系統性的改變,如持續在學習、成長
- reactivity:做完第一次測驗之後的反應如何,可能存有個體差異。如很想要知道答案的個體,可能在測驗之後去找尋答案,故影響第二次測驗的結果。
- carry-over effect (practice, memory):基於受試者仍記得題目,或者記得答案為何造成影響。
- 費用較高
複本信度(alternate-form reliability)
- 誤差來源:內容、時間
- 考量因素
- 內容建構
- 統計結果相似
- 不同複本之間的相關
- measure of equivalence (同時測驗二個不同複本)
- measure of equivalence and stability (非同時測量,誤差來源為內容與時間)
- 議題
- 練習效應
- 費用較高
- 受試者易疲勞
- 結論
- 非必要,方建構之
內部一致性信度(internal consistency):是最常使用的指標,且僅需要單次施測
- 誤差來源:內容、行為向度異質性
- measure of internal consistency
- 類型
- 折半信度(split-half reliability):將整個測驗拆成二半,並且比較二者之相關
- 行為向度異質性的影響較小
- 由於折半之後題數減少,故需要校正之(SB/ Rulon)
- 計算:X=A+B,計算A & B 之相關
- Rulon's apporach:A & B之間的差值,代表測驗之誤差
- rxx=1-( Var(D)/Var(x) )
- Spearman-Brown Formula:Rxx=Kryy/(1+(K-1)ryy)
- rxx & ryy:reliability coefficient
- K:測驗長度,即題的倍數關係
- 假設每個測驗的能力之間彼此獨立
- rxx=1rab/(1+rab)
- 實際上折半信度是校正後的數據
- 可有無限多種拆解方式
- Kuder-Richardson reliability:KR20 / KR21
- 數字來自於第20及21條公式,其中KR20較常用
- KR21有另外一個假設,即假定所有題目的難度(通過率)均相同
- 既討論通過率,表其應用在二分計分的題目上
- KR21=(N/N-1)*(1-(u(N-u)/Nox^2))
- u=Np, p=u/N
- KR20=(N/(N-1))*(1-sigma p*q/ox^2)
- 實際上sigma p*q即使為變異數
- 共變數矩陣
- 對角線處為項目之間的變異數
- 非對角線為項目之間的共變數
- 題目與題目之間的共變程度(共變即為相關除以對應標準差)
note:題目之前的項目數比例實際上為導出來的結果
note2:此數值提供的是信度數值的下限,換言之,實際的信度應較原本為高;故此最小數直是數學推導而來 - (coefficient alpha / Cronbach alpha):正確名稱為"內部一致性信度"
- 公式同KR20,唯沒有限制僅能用在二分變項上
- 但發展時間上,KR20較早發展
- Cronbach's alpha=(N/(N-1))*(1-(sigma o^2/Ox^2)
- 實際上代表所有折半信度的平均(依據Rulon的方式計算而來
- 是母群信度的下限
- 等號成立於當測驗之間的真分數僅差一個常數時(推導而來)
- Alpha不可用於異質性的測驗
- 高alpha代表高的單向度(unidimensionality)?
- 實際上未必,因為alpha同時受到題數與題目間相關的影響
- 而且,alpha代表其共變數高,代表其受到相同的因素影響,但實際上二者未必相同
- 例如僅有六題, 其三題高相關;後三題高相關
- 因素分析結果應可見二個因素
- 前三與後三僅有0.3的相關
- 但alpha可達0.8
- 故alpha高不太表具有相同的建構
- 通常採計各分量表的信度
- 因測驗內容的異質性
- 題數與信度相關
- 題目數量較高,則此信度較高
- 故可能特別次量表的alpha較整理測驗總和的alpha低(受題數影響)
施測者間信度(interrater reliability)
- 誤差來源:評分者之間的差異
- 通常需要訓練
- 相關/同意度
Summary
- 不同種類的信度反應的誤差來源不同
- 再測:需要一個版本,需測驗二冊,誤差來源為時間
- 複本:需二個版本,一次施測,誤差來源為題目及樣本
- 二個版本,二次施測,誤差來源為題目及時間
- 折半:一個版本、一次施測,誤差為樣本及插解方式
- alpha:一個版本、一次施測,誤差來源為題目、樣本以及異質性
- 施測者堅信度:一個版本、二次施測,誤差來源為施測者間的評分差異
- 理想?看測驗目的而定
- 大多數是alpha + test-retest
Item reliability index
- 可幫助選擇題目,得以提升alpha
信度解釋
- 速度測驗:特色為題目簡單(有作答即可答對)
- 適合:再測、複本信度
- 不適合:折半信度,特別是奇、偶數對分,會有高相關
- 可改用提數對分並且矯正時間,再進行相關後校正
- 影響信度的因素:
- 測驗長度
- 全距限制:因使用相關係數,易受到全距影響
- 信度標準:沒有定論
- 不同類型的測驗,信度準則不同
- 智力測驗信度最高
- 人格測驗約為0.7~0.8
- 亦應考慮測驗目的
- 篩檢測驗:信度要求較低
- 成效評估:信度要求高
- 誤差的容忍程度?
- 真分數的信賴區間:判斷此信賴區間是否夠窄,以判斷其信度是否可接受
- Bandwidth-Fidelity dilemma
- 希望測驗可以廣泛收集不同的資訊(bandwidth)
- 希望測驗可以精準評估(accuracy)
- 由於難以滿足上述,題目多則作答者容易疲勞;題目少則不易精準
- 題目應如何配置,與測驗目標及重點相關
測量標準誤(Standard Error of Measurement)
- 目的:建構真分數的信賴區間
- 作法:
- 假設每個人的變異數都相同(CTT之限制),且為常態分配
- 則真分數的信賴區間,為觀察分數±k * SEM
- SEM=SD*(1-rxx)^(1/2)
- 應用:
- 每一次測驗的分數都有誤差
差異分數的信度(reliability of difference scores)
- 通常較低
- 若二個差異分數相關程度高,則其信度將下降
留言
張貼留言