2014.10.23 心理測驗(九) 項目反應理論(IRT)

測驗理論:

  • 古典測驗理論
  • 概推度測驗理論
  • 項目反應理論
古典測驗理論(CTT)
  • 假設
    • X= T + E   :測驗的分數為真實分數與隨機誤差的總和
      • 觀察分數(X)
      • 真實分數(T)
      • 誤差分數(E)
    • E(X) = E(T+E) = T :觀察分數的期望值,即為真實分數(T)
      • 實際上的推導為E(X)=E(T+E)=E(T)+E(E)=E(T)=T
      • 期望值"理想上的數值,即經過多次重覆抽取平均之結果,將使隨機誤差正負相消,故最後為真實分數"
    • rho (ET)=0 :表示真實分數與誤差之間沒有相關,彼此獨立
    • rho (E1E2)=0 :表示二次測驗之間的隨機誤差間沒有相關,彼此獨立
    • rho (E1T2)=0 :表示二次測驗之間的隨機誤差與真實值沒有相關,彼此獨立
    • 平行測驗(parallel tests):若二個測驗符合前述假設,並且T=T',oE^2=OE'^2(平均相同,變異相等),則為平行測驗
    • 主要真實值相等測驗(essentially t -equivalent tests):若二測驗符合假說(1)~5(5),並且T1=T2+C12 (二測驗間的真實分數僅差一個常數)
      note:從上述假設中可以推導出信、效度公式
  • 概推度理論(generalizability theory, GT):找出測量誤差的來源,並於計算信、效度的時候扣除之
    • 如由多個施測者進行前後測驗,並且以RM-ANOVA進行分析,則可得到P、D、O的main effect,以及二二交互和總交互作用
      • 個別來源可以計算個別的Expected mean square (EMS)
      • 比較EMS與真實值(MS),可以推導出個別項目的變異數
      • 再利用這些分離出來的變異,扣除掉隨機誤差的來源,進而使整體信度提高(因相較於CTT,分母少了一些項目)
        note:GT相關的書籍會描述,計算不同信度應扣除哪些項目
    • 其立意良善,但是ANOVA計算複雜而不易理解、操作
  • 項目反應理論(item response theory ,IRT)
    • 又稱為Modern test theory, Latent Trait Model, or Item Characteristic Curve Theory (ICC-theory)
    • ICC:使用theta作為能量描述,本身屬於一種latent trait
    • IRF:以function的方式,同ICC的圖,描述同能力的反應狀況
    • Parameters of IRT
      • Item parameters
        • difficulty parameter (b)':困難度參數
        • discrimination parameter (a):鑑別度參數
        • guessing parameter (c):猜測率參數,代表即便能力極差仍可答對的狀況。但是未必存在所有類型的題目中,如人格特質等測驗就沒有此問題。
      • Person parameters
        • ability (theta)
    • sample free
      • invariance of item parameters:不變性,指項目參數不隨樣本改變(經過校正後,不同團體所得的項目難度參數穩定
      • indeterminacy of ability scale:未定性,因其橫軸使用theta(標準分數),因此屬於相對值
    • Basic of IRT
      • 如果知道每個題目能力與作答機率(橫軸與縱軸)的關係,則各題目的題目參數(a,b,c,)可由數學方式估計取得。
      • 藉由每個人的作答形式(pattern),結合ICC可估計每個人的能力。
      • 以及估計誤差。
    • Assumptions of IRT
      • unidimensionality (但是各向度之間可能相關,因此後續有multidimensionality IRT)
      • local independent:局部獨立性,指相同能力的人,答對每個題目之間的機率是彼此獨立;反之,相同難度的題目,不同能力答對的機率也是彼此獨立
        • P(X1=1, X2=1|theta)=P(X1=1|theta)*P(X2=1|theta) 表彼此為獨立事件,可以相乘
      • nonspeedness:非速度型的測驗,因速度型測驗恐造成某些題目未被作答,因此隱含速度因素而非單向度
      • know-correct:假設知道就會答對,不會有錯達上的錯誤
      • equal discrimination (Rasch):每個題目的區辨度相同。因Rasch model為1-PL,因此只考慮題目難度與能力。
      • minimal guessing (Rasch):猜測率趨近於無,同上原因,只考慮b和theta
    • Models of IRT
      • normal ogive models:常態肩形模式
        •  Lord (1952)提出,因ICC看起來像肩膀得名
        • 依照使用的參數,可分為單參數、雙參數與三餐數模型 ,所有models都包含常態分配的假設,以及累計積分的概念
          • 單參數:僅有題目難度(b)
          • 雙參數:包含題目難度(b)和鑑別度(a)
          • 三餐數:包含題目難度(b)、鑑別度(a)和猜測率(c)
      • logistic models 
        • Brinbaum(1968)提出,有鑑於常態分配假設不好積分,因此改用logistsic models來估計。同樣有3個參數的差別(這是我們學的)
          • 1-PL代表只考慮題目難度,且鑑別度為常數的模型
            • 如鑑別度剛好為1,則為Rasch model
            • Rasch familties (都有上述假設)
              • RSM
              • PCM
              • Many0facted mdoel
              • Ordered partition model
              • Random coeff. logit model
              • Multidimensional model
          • 2-PL代表同時考慮題目難度以及鑑別度的模型
          • 3-PL代表同時考慮題目難度、鑑別度與猜測度的模型
      • nominal response models 
      • graded response models
      • rating scale models
      • partial credit models
    • model selection
      • model fit data? or data fit model? 
        • 依照資料的類型與特質,選擇合適的model進行分析,如重視資料的價值。通常使用多參數模型。如ETS
        • 依照data去測試較好結果的models,如重視理論架構者,多使用單參模型。如Ben Wright
      • availability of sample
        • 1P:>200
        • 2P:>500
        • 3P:>1000
      • quality of data:由於使用到猜測度,如能力低者數量不足則不易使用
      • computer-related factors:由於科技進步,也有許多軟體可供使用
        • avability of resoureces
        • the choic of estimation procudure
        • availability of computer programs
        • assessment of model fit
    • Bandwidth paradox: Tradeoff between discrimination and the range of theta for which the item is discriminating (依照目標進行鑑別度選取,而非越大越好)
      • 鑑別度大的題目,僅能g針對特定能力範圍進行鑑別
      • 鑑別度小的題目,可鑑別的能力範圍較大
    • Information function (所有的函數均以theta為參數)
      • item information function:個別項目的訊息
      • test information function:整體測驗的訊息量(為個題目的訊息總和)
      • measurement error variance:為整體測驗訊息量的倒數
      • standard error of estimate:即為SE,為整體測驗訊息量的倒數根號
        note: no test is reliabile for all examiness:因每個人的能力不同,實際上測量的誤差也會有所不同。IRT models提供每個人不同的測量誤差,但同時也代表每個人的信度並不相同。
  • Joint Estimation of Parameters (題目參數估計,或者能力參數估計)
    • Estimation of Ability: conditional estimation (條件化估計)
    • Likelihood function
      • 使用重複疊代的方式,以估計能力參數(theta)
      • 其實為每個題目的機率連乘
        • 由於連乘不容易計算,因此將之使用logit,改為連加
      • maximal likelihood 最大概似估計法: 依照作答型計算概率,進而找到最合適的能力
  • IRT V.S. CTT & Guttman
    • IRT的圖形為單調遞增的ICC,表示不同能力有不同的答對機率(較合理)
    • CTT的圖形為無論受試者參數,表不同能力的受試者有相同的答對率
    • Guttman的圖形為項目變化,即不同能力階層有不同的答對率,然非連續變化

留言

熱門文章