2014.11.13 心理測驗(十四) Realibility

2014.11.13 心理測驗(十四) Realibility

再測信度(test-retest reliability)

誤差來源可能是時間要素

measure of stability

Corr(X1,X2)=Var (T)/Var (X)

T1=T2 (let)
Ox1=Ox2 (thus)
Cov(X1,X2)=Cov(T+E1,T+E2)=Cov(T,T)=oT^2 (while assumption)
Corr(X1,X2)=Cov(X1,X2)/(ox1*ox2)=oT^2/Ox^2 (thus)

影響因素

測驗間隔時間：二次測驗間隔時間並沒有確切答案，但是需注意二次測驗是否會彼此干擾(可能依測驗內容而定)

鮮少超過六個月，因時間過長

系統性變化：

systematic changes：當受試者能力產生系統性的改變，如持續在學習、成長
reactivity：做完第一次測驗之後的反應如何，可能存有個體差異。如很想要知道答案的個體，可能在測驗之後去找尋答案，故影響第二次測驗的結果。
carry-over effect (practice, memory)：基於受試者仍記得題目，或者記得答案為何造成影響。

費用較高

複本信度(alternate-form reliability)

誤差來源：內容、時間
考量因素

內容建構
統計結果相似

不同複本之間的相關

measure of equivalence (同時測驗二個不同複本)
measure of equivalence and stability (非同時測量，誤差來源為內容與時間)

議題

練習效應
費用較高
受試者易疲勞

結論

非必要，方建構之

內部一致性信度(internal consistency)：是最常使用的指標，且僅需要單次施測

誤差來源：內容、行為向度異質性

measure of internal consistency

類型

折半信度(split-half reliability)：將整個測驗拆成二半，並且比較二者之相關

行為向度異質性的影響較小
由於折半之後題數減少，故需要校正之(SB/ Rulon)
計算：X=A+B，計算A & B 之相關

Rulon's apporach：A & B之間的差值，代表測驗之誤差

rxx=1-( Var(D)/Var(x) )

Spearman-Brown Formula：Rxx=Kryy/(1+(K-1)ryy)

rxx & ryy：reliability coefficient
K：測驗長度，即題的倍數關係
假設每個測驗的能力之間彼此獨立
rxx=1rab/(1+rab)
實際上折半信度是校正後的數據

可有無限多種拆解方式

Kuder-Richardson reliability：KR20 / KR21

數字來自於第20及21條公式，其中KR20較常用
KR21有另外一個假設，即假定所有題目的難度(通過率)均相同

既討論通過率，表其應用在二分計分的題目上
KR21=(N/N-1)*(1-(u(N-u)/Nox^2))

u=Np, p=u/N

KR20=(N/(N-1))*(1-sigma p*q/ox^2)

實際上sigma p*q即使為變異數
共變數矩陣

對角線處為項目之間的變異數
非對角線為項目之間的共變數

題目與題目之間的共變程度(共變即為相關除以對應標準差)
note：題目之前的項目數比例實際上為導出來的結果
note2：此數值提供的是信度數值的下限，換言之，實際的信度應較原本為高；故此最小數直是數學推導而來

(coefficient alpha / Cronbach alpha)：正確名稱為"內部一致性信度"

公式同KR20，唯沒有限制僅能用在二分變項上

但發展時間上，KR20較早發展

Cronbach's alpha=(N/(N-1))*(1-(sigma o^2/Ox^2)
實際上代表所有折半信度的平均(依據Rulon的方式計算而來

是母群信度的下限
等號成立於當測驗之間的真分數僅差一個常數時(推導而來)

Alpha不可用於異質性的測驗
高alpha代表高的單向度(unidimensionality)？

實際上未必，因為alpha同時受到題數與題目間相關的影響
而且，alpha代表其共變數高，代表其受到相同的因素影響，但實際上二者未必相同

例如僅有六題，其三題高相關；後三題高相關
因素分析結果應可見二個因素
前三與後三僅有0.3的相關
但alpha可達0.8

故alpha高不太表具有相同的建構

通常採計各分量表的信度

因測驗內容的異質性

題數與信度相關

題目數量較高，則此信度較高
故可能特別次量表的alpha較整理測驗總和的alpha低(受題數影響)

施測者間信度(interrater reliability)

誤差來源：評分者之間的差異

通常需要訓練

相關/同意度

Summary

不同種類的信度反應的誤差來源不同

再測：需要一個版本，需測驗二冊，誤差來源為時間
複本：需二個版本，一次施測，誤差來源為題目及樣本

二個版本，二次施測，誤差來源為題目及時間

折半：一個版本、一次施測，誤差為樣本及插解方式
alpha：一個版本、一次施測，誤差來源為題目、樣本以及異質性
施測者堅信度：一個版本、二次施測，誤差來源為施測者間的評分差異

理想？看測驗目的而定

大多數是alpha + test-retest

Item reliability index

可幫助選擇題目，得以提升alpha

信度解釋

速度測驗：特色為題目簡單(有作答即可答對)

適合：再測、複本信度
不適合：折半信度，特別是奇、偶數對分，會有高相關

可改用提數對分並且矯正時間，再進行相關後校正

影響信度的因素：

測驗長度
全距限制：因使用相關係數，易受到全距影響
信度標準：沒有定論

不同類型的測驗，信度準則不同

智力測驗信度最高
人格測驗約為0.7~0.8
亦應考慮測驗目的

篩檢測驗：信度要求較低
成效評估：信度要求高

誤差的容忍程度？

真分數的信賴區間：判斷此信賴區間是否夠窄，以判斷其信度是否可接受

Bandwidth-Fidelity dilemma

希望測驗可以廣泛收集不同的資訊(bandwidth)
希望測驗可以精準評估(accuracy)
由於難以滿足上述，題目多則作答者容易疲勞；題目少則不易精準

題目應如何配置，與測驗目標及重點相關

測量標準誤(Standard Error of Measurement)

目的：建構真分數的信賴區間
作法：

假設每個人的變異數都相同(CTT之限制)，且為常態分配
則真分數的信賴區間，為觀察分數±k * SEM

SEM=SD*(1-rxx)^(1/2)

應用：

每一次測驗的分數都有誤差

差異分數的信度(reliability of difference scores)

通常較低
若二個差異分數相關程度高，則其信度將下降

留言