2014.10.23 心理測驗(九) 項目反應理論(IRT)

2014.10.23 心理測驗(九) 項目反應理論(IRT)

測驗理論：

古典測驗理論
概推度測驗理論
項目反應理論

古典測驗理論(CTT)

假設

X= T + E ：測驗的分數為真實分數與隨機誤差的總和

觀察分數(X)
真實分數(T)
誤差分數(E)

E(X) = E(T+E) = T ：觀察分數的期望值，即為真實分數(T)

實際上的推導為E(X)=E(T+E)=E(T)+E(E)=E(T)=T
期望值"理想上的數值，即經過多次重覆抽取平均之結果，將使隨機誤差正負相消，故最後為真實分數"

rho (ET)=0 ：表示真實分數與誤差之間沒有相關，彼此獨立
rho (E1E2)=0 ：表示二次測驗之間的隨機誤差間沒有相關，彼此獨立
rho (E1T2)=0 ：表示二次測驗之間的隨機誤差與真實值沒有相關，彼此獨立
平行測驗(parallel tests)：若二個測驗符合前述假設，並且T=T'，oE^2=OE'^2(平均相同，變異相等)，則為平行測驗
主要真實值相等測驗(essentially t -equivalent tests)：若二測驗符合假說(1)~5(5)，並且T1=T2+C12 (二測驗間的真實分數僅差一個常數)
note：從上述假設中可以推導出信、效度公式

概推度理論(generalizability theory, GT)：找出測量誤差的來源，並於計算信、效度的時候扣除之

如由多個施測者進行前後測驗，並且以RM-ANOVA進行分析，則可得到P、D、O的main effect，以及二二交互和總交互作用

個別來源可以計算個別的Expected mean square (EMS)
比較EMS與真實值(MS)，可以推導出個別項目的變異數
再利用這些分離出來的變異，扣除掉隨機誤差的來源，進而使整體信度提高(因相較於CTT，分母少了一些項目)
note：GT相關的書籍會描述，計算不同信度應扣除哪些項目

其立意良善，但是ANOVA計算複雜而不易理解、操作

項目反應理論(item response theory ,IRT)

又稱為Modern test theory, Latent Trait Model, or Item Characteristic Curve Theory (ICC-theory)
ICC：使用theta作為能量描述，本身屬於一種latent trait
IRF：以function的方式，同ICC的圖，描述同能力的反應狀況
Parameters of IRT

Item parameters

difficulty parameter (b)'：困難度參數
discrimination parameter (a)：鑑別度參數
guessing parameter (c)：猜測率參數，代表即便能力極差仍可答對的狀況。但是未必存在所有類型的題目中，如人格特質等測驗就沒有此問題。

Person parameters

ability (theta)

sample free

invariance of item parameters：不變性，指項目參數不隨樣本改變(經過校正後，不同團體所得的項目難度參數穩定
indeterminacy of ability scale：未定性，因其橫軸使用theta(標準分數)，因此屬於相對值

Basic of IRT

如果知道每個題目能力與作答機率(橫軸與縱軸)的關係，則各題目的題目參數(a,b,c,)可由數學方式估計取得。
藉由每個人的作答形式(pattern)，結合ICC可估計每個人的能力。
以及估計誤差。

Assumptions of IRT

unidimensionality (但是各向度之間可能相關，因此後續有multidimensionality IRT)
local independent：局部獨立性，指相同能力的人，答對每個題目之間的機率是彼此獨立；反之，相同難度的題目，不同能力答對的機率也是彼此獨立

P(X1=1, X2=1|theta)=P(X1=1|theta)*P(X2=1|theta) 表彼此為獨立事件，可以相乘

nonspeedness：非速度型的測驗，因速度型測驗恐造成某些題目未被作答，因此隱含速度因素而非單向度
know-correct：假設知道就會答對，不會有錯達上的錯誤
equal discrimination (Rasch)：每個題目的區辨度相同。因Rasch model為1-PL，因此只考慮題目難度與能力。
minimal guessing (Rasch)：猜測率趨近於無，同上原因，只考慮b和theta

Models of IRT

normal ogive models:常態肩形模式

Lord (1952)提出，因ICC看起來像肩膀得名
依照使用的參數，可分為單參數、雙參數與三餐數模型，所有models都包含常態分配的假設，以及累計積分的概念

單參數：僅有題目難度(b)
雙參數：包含題目難度(b)和鑑別度(a)
三餐數：包含題目難度(b)、鑑別度(a)和猜測率(c)

logistic models

Brinbaum(1968)提出，有鑑於常態分配假設不好積分，因此改用logistsic models來估計。同樣有3個參數的差別(這是我們學的)

1-PL代表只考慮題目難度，且鑑別度為常數的模型

如鑑別度剛好為1，則為Rasch model
Rasch familties (都有上述假設)

RSM
PCM
Many0facted mdoel
Ordered partition model
Random coeff. logit model
Multidimensional model

2-PL代表同時考慮題目難度以及鑑別度的模型
3-PL代表同時考慮題目難度、鑑別度與猜測度的模型

nominal response models
graded response models
rating scale models
partial credit models

model selection

model fit data? or data fit model?

依照資料的類型與特質，選擇合適的model進行分析，如重視資料的價值。通常使用多參數模型。如ETS
依照data去測試較好結果的models，如重視理論架構者，多使用單參模型。如Ben Wright

availability of sample

1P：>200
2P：>500
3P：>1000

quality of data：由於使用到猜測度，如能力低者數量不足則不易使用
computer-related factors：由於科技進步，也有許多軟體可供使用

avability of resoureces
the choic of estimation procudure
availability of computer programs
assessment of model fit

Bandwidth paradox： Tradeoff between discrimination and the range of theta for which the item is discriminating (依照目標進行鑑別度選取，而非越大越好)

鑑別度大的題目，僅能g針對特定能力範圍進行鑑別
鑑別度小的題目，可鑑別的能力範圍較大

Information function (所有的函數均以theta為參數)

item information function：個別項目的訊息
test information function：整體測驗的訊息量(為個題目的訊息總和)
measurement error variance：為整體測驗訊息量的倒數
standard error of estimate：即為SE，為整體測驗訊息量的倒數根號
note： no test is reliabile for all examiness：因每個人的能力不同，實際上測量的誤差也會有所不同。IRT models提供每個人不同的測量誤差，但同時也代表每個人的信度並不相同。

Joint Estimation of Parameters (題目參數估計，或者能力參數估計)

Estimation of Ability： conditional estimation (條件化估計)
Likelihood function

使用重複疊代的方式，以估計能力參數(theta)
其實為每個題目的機率連乘

由於連乘不容易計算，因此將之使用logit，改為連加

maximal likelihood 最大概似估計法：依照作答型計算概率，進而找到最合適的能力

IRT V.S. CTT & Guttman

IRT的圖形為單調遞增的ICC，表示不同能力有不同的答對機率(較合理)
CTT的圖形為無論受試者參數，表不同能力的受試者有相同的答對率
Guttman的圖形為項目變化，即不同能力階層有不同的答對率，然非連續變化

留言

橙子2024年8月6日晚上9:25
多謝整理資訊～！！！很清晰
回覆刪除
回覆

張貼留言