2014.11.13 心理測驗(十四) Realibility

再測信度(test-retest reliability)
  • 誤差來源可能是時間要素
    • measure of stability
  • Corr(X1,X2)=Var (T)/Var (X)
    • T1=T2 (let)
    • Ox1=Ox2 (thus)
    • Cov(X1,X2)=Cov(T+E1,T+E2)=Cov(T,T)=oT^2 (while assumption)
    • Corr(X1,X2)=Cov(X1,X2)/(ox1*ox2)=oT^2/Ox^2 (thus)

  • 影響因素
    • 測驗間隔時間:二次測驗間隔時間並沒有確切答案,但是需注意二次測驗是否會彼此干擾(可能依測驗內容而定)
      • 鮮少超過六個月,因時間過長
    • 系統性變化:
      • systematic changes:當受試者能力產生系統性的改變,如持續在學習、成長
      •  reactivity:做完第一次測驗之後的反應如何,可能存有個體差異。如很想要知道答案的個體,可能在測驗之後去找尋答案,故影響第二次測驗的結果。
      •  carry-over effect (practice, memory):基於受試者仍記得題目,或者記得答案為何造成影響。
    • 費用較高

複本信度(alternate-form reliability)
  • 誤差來源:內容、時間
  • 考量因素
    • 內容建構
    • 統計結果相似
  • 不同複本之間的相關
    • measure of equivalence (同時測驗二個不同複本)
    • measure of equivalence and stability (非同時測量,誤差來源為內容與時間)
  • 議題
    • 練習效應
    • 費用較高
    • 受試者易疲勞
  • 結論
    • 非必要,方建構之
內部一致性信度(internal consistency):是最常使用的指標,且僅需要單次施測
  • 誤差來源:內容、行為向度異質性
    • measure of internal consistency
  • 類型
    • 折半信度(split-half reliability):將整個測驗拆成二半,並且比較二者之相關
      • 行為向度異質性的影響較小
      • 由於折半之後題數減少,故需要校正之(SB/ Rulon)
      • 計算:X=A+B,計算A & B 之相關
        • Rulon's apporach:A & B之間的差值,代表測驗之誤差
          • rxx=1-( Var(D)/Var(x) )
        • Spearman-Brown Formula:Rxx=Kryy/(1+(K-1)ryy)
          • rxx & ryy:reliability coefficient
          • K:測驗長度,即題的倍數關係
          • 假設每個測驗的能力之間彼此獨立
          • rxx=1rab/(1+rab)
          • 實際上折半信度是校正後的數據
      • 可有無限多種拆解方式
    • Kuder-Richardson reliability:KR20 / KR21
      • 數字來自於第20及21條公式,其中KR20較常用
      • KR21有另外一個假設,即假定所有題目的難度(通過率)均相同
        • 既討論通過率,表其應用在二分計分的題目上
        • KR21=(N/N-1)*(1-(u(N-u)/Nox^2))
          • u=Np, p=u/N
      • KR20=(N/(N-1))*(1-sigma p*q/ox^2)
        • 實際上sigma p*q即使為變異數
        • 共變數矩陣
          • 對角線處為項目之間的變異數
          • 非對角線為項目之間的共變數
        • 題目與題目之間的共變程度(共變即為相關除以對應標準差)
          note:題目之前的項目數比例實際上為導出來的結果
          note2:此數值提供的是信度數值的下限,換言之,實際的信度應較原本為高;故此最小數直是數學推導而來
    • (coefficient alpha / Cronbach alpha):正確名稱為"內部一致性信度"
      • 公式同KR20,唯沒有限制僅能用在二分變項上
        • 但發展時間上,KR20較早發展
      • Cronbach's alpha=(N/(N-1))*(1-(sigma o^2/Ox^2)
      • 實際上代表所有折半信度的平均(依據Rulon的方式計算而來
        • 是母群信度的下限
        • 等號成立於當測驗之間的真分數僅差一個常數時(推導而來)
      • Alpha不可用於異質性的測驗
      • 高alpha代表高的單向度(unidimensionality)?
        • 實際上未必,因為alpha同時受到題數與題目間相關的影響
        • 而且,alpha代表其共變數高,代表其受到相同的因素影響,但實際上二者未必相同
          • 例如僅有六題, 其三題高相關;後三題高相關
          • 因素分析結果應可見二個因素
          • 前三與後三僅有0.3的相關
          • 但alpha可達0.8
      • 故alpha高不太表具有相同的建構
  • 通常採計各分量表的信度
    • 因測驗內容的異質性
  • 題數與信度相關
    • 題目數量較高,則此信度較高
    • 故可能特別次量表的alpha較整理測驗總和的alpha低(受題數影響)
施測者間信度(interrater reliability)
  • 誤差來源:評分者之間的差異
    • 通常需要訓練
  • 相關/同意度
Summary
  • 不同種類的信度反應的誤差來源不同
    • 再測:需要一個版本,需測驗二冊,誤差來源為時間
    • 複本:需二個版本,一次施測,誤差來源為題目及樣本
      • 二個版本,二次施測,誤差來源為題目及時間
    • 折半:一個版本、一次施測,誤差為樣本及插解方式
    • alpha:一個版本、一次施測,誤差來源為題目、樣本以及異質性
    • 施測者堅信度:一個版本、二次施測,誤差來源為施測者間的評分差異
  • 理想?看測驗目的而定
    • 大多數是alpha + test-retest
Item reliability index
  • 可幫助選擇題目,得以提升alpha

信度解釋
  • 速度測驗:特色為題目簡單(有作答即可答對)
    • 適合:再測、複本信度
    • 不適合:折半信度,特別是奇、偶數對分,會有高相關
      • 可改用提數對分並且矯正時間,再進行相關後校正
  • 影響信度的因素:
    • 測驗長度
    • 全距限制:因使用相關係數,易受到全距影響
    • 信度標準:沒有定論
      • 不同類型的測驗,信度準則不同
        • 智力測驗信度最高
        • 人格測驗約為0.7~0.8
        • 亦應考慮測驗目的
          • 篩檢測驗:信度要求較低
          • 成效評估:信度要求高
        • 誤差的容忍程度?
          • 真分數的信賴區間:判斷此信賴區間是否夠窄,以判斷其信度是否可接受
    • Bandwidth-Fidelity dilemma
      • 希望測驗可以廣泛收集不同的資訊(bandwidth)
      • 希望測驗可以精準評估(accuracy)
      • 由於難以滿足上述,題目多則作答者容易疲勞;題目少則不易精準
        • 題目應如何配置,與測驗目標及重點相關
測量標準誤(Standard Error of Measurement)
  • 目的:建構真分數的信賴區間
  • 作法:
    • 假設每個人的變異數都相同(CTT之限制),且為常態分配
    • 則真分數的信賴區間,為觀察分數±k * SEM
      • SEM=SD*(1-rxx)^(1/2)
  • 應用:
    • 每一次測驗的分數都有誤差
差異分數的信度(reliability of difference scores)
  • 通常較低
  • 若二個差異分數相關程度高,則其信度將下降

留言

熱門文章