IRT筆記

IRT筆記

閱讀試題反應理論(item response theory)之簡介，並且筆記於此：

測驗理論(test theory)，又稱為心理測驗理論，為解釋測驗結果與實證間的系統性理論，可分為古典與現代學派：

古典理論：以真實分數模式(true score model)為架構，依據弱勢假設(weak assumption)而來，資訊解釋依循測驗之分數結果，計算方式較簡潔明瞭，至今發展已久並頗具規模，且可應用於小樣本的計算中。
現在理論：以試題反應理論(item response theory)為架構，依據強勢假設(strong assumption)而來，資訊解釋依循題目而來，假設更為合理且結構嚴謹，但因發展較晚而計算方式艱深，且適用對象有其限制(適用於大樣本 )，雖品質勝古典理論，但推廣應用困難。

古典理論之限制：

古典理論所言之各項指標，如困難度(difficulty)、鑑別度(discrimination)以及信度(reliability)等，皆受檢測樣本而有所變化，故同一工具難以獲得一致結果。[但假設工具能力固定，或可用多次檢測平均值，掌握其粗略效能範圍？]
古典理論之結果以真實分數加上測驗誤差而來，並假設對所有樣本存在相同誤差，但未考慮個體能力之差異，因而過於理想。
古典理論對於非副本，但功能相同之測驗無法提供有意義的比較與解釋，其功能僅限於同樣的測驗之前、後測結果比較。
古典理論對於信度檢驗的假設，建立於重複檢測其副本之結果比較，然執行上無法讓單一個體重複執行同一測驗，並且結果實質上可能受到學習效應影響，又或者並非每個測驗都建有副本，造成過於理想而無法執行的問題。
古典理論著重於分數的解釋，因此對相同分數者將被視為能力相同，然未能提供更精確的解釋。

現代理論之優勢：

現代理論所言之各項指標，可不受樣本族群特性影響，而有近似於絕對值之指標。
現代理論可依不同受試者提供不同的標準差，能更清楚反應個案之能力差異。
現代理論可使用同質之不同題測驗，檢驗受試者之能力，因而對於分數相同者可有更清楚之解釋。
現在理論使用適合度考驗值(statistic of goodness-of-fit)，可反應測驗模式與資料、受試者能力間的合適性。

現代理論之瓶頸：

建立於嚴謹數學模式上，入門與深入掌握難度甚高，對於現存之學者而言難以立即學習、應用。
提倡與熟悉者多為數學相關背景，偏重於模式的建立與討論，較忽略應用層面的合適性。
過去硬體設備不足，繁複計算非簡易計算機可完成，然現可透過電腦協助運算，增加其可利用性。
受古典支持者質疑其效能，因而部分研究主力投入證明、模式討論等面向，造成偏向理論而非實際層面。
適用於大樣本，因此限制造成應用上之困難。

參考資料來源：http://www.edutest.com.tw/e-irt/irt1.htm

留言