2014.10.23 心理測驗(九) 項目反應理論(IRT)
測驗理論:
古典測驗理論(CTT)
- 假設
- X= T + E :測驗的分數為真實分數與隨機誤差的總和
- 觀察分數(X)
- 真實分數(T)
- 誤差分數(E)
- E(X) = E(T+E) = T :觀察分數的期望值,即為真實分數(T)
- 實際上的推導為E(X)=E(T+E)=E(T)+E(E)=E(T)=T
- 期望值"理想上的數值,即經過多次重覆抽取平均之結果,將使隨機誤差正負相消,故最後為真實分數"
- rho (ET)=0 :表示真實分數與誤差之間沒有相關,彼此獨立
- rho (E1E2)=0 :表示二次測驗之間的隨機誤差間沒有相關,彼此獨立
- rho (E1T2)=0 :表示二次測驗之間的隨機誤差與真實值沒有相關,彼此獨立
- 平行測驗(parallel tests):若二個測驗符合前述假設,並且T=T',oE^2=OE'^2(平均相同,變異相等),則為平行測驗
- 主要真實值相等測驗(essentially t -equivalent tests):若二測驗符合假說(1)~5(5),並且T1=T2+C12 (二測驗間的真實分數僅差一個常數)
note:從上述假設中可以推導出信、效度公式 - 概推度理論(generalizability theory, GT):找出測量誤差的來源,並於計算信、效度的時候扣除之
- 如由多個施測者進行前後測驗,並且以RM-ANOVA進行分析,則可得到P、D、O的main effect,以及二二交互和總交互作用
- 個別來源可以計算個別的Expected mean square (EMS)
- 比較EMS與真實值(MS),可以推導出個別項目的變異數
- 再利用這些分離出來的變異,扣除掉隨機誤差的來源,進而使整體信度提高(因相較於CTT,分母少了一些項目)
note:GT相關的書籍會描述,計算不同信度應扣除哪些項目 - 其立意良善,但是ANOVA計算複雜而不易理解、操作
- 項目反應理論(item response theory ,IRT)
- 又稱為Modern test theory, Latent Trait Model, or Item Characteristic Curve Theory (ICC-theory)
- ICC:使用theta作為能量描述,本身屬於一種latent trait
- IRF:以function的方式,同ICC的圖,描述同能力的反應狀況
- Parameters of IRT
- Item parameters
- difficulty parameter (b)':困難度參數
- discrimination parameter (a):鑑別度參數
- guessing parameter (c):猜測率參數,代表即便能力極差仍可答對的狀況。但是未必存在所有類型的題目中,如人格特質等測驗就沒有此問題。
- Person parameters
- ability (theta)
- sample free
- invariance of item parameters:不變性,指項目參數不隨樣本改變(經過校正後,不同團體所得的項目難度參數穩定
- indeterminacy of ability scale:未定性,因其橫軸使用theta(標準分數),因此屬於相對值
- Basic of IRT
- 如果知道每個題目能力與作答機率(橫軸與縱軸)的關係,則各題目的題目參數(a,b,c,)可由數學方式估計取得。
- 藉由每個人的作答形式(pattern),結合ICC可估計每個人的能力。
- 以及估計誤差。
- Assumptions of IRT
- unidimensionality (但是各向度之間可能相關,因此後續有multidimensionality IRT)
- local independent:局部獨立性,指相同能力的人,答對每個題目之間的機率是彼此獨立;反之,相同難度的題目,不同能力答對的機率也是彼此獨立
- P(X1=1, X2=1|theta)=P(X1=1|theta)*P(X2=1|theta) 表彼此為獨立事件,可以相乘
- nonspeedness:非速度型的測驗,因速度型測驗恐造成某些題目未被作答,因此隱含速度因素而非單向度
- know-correct:假設知道就會答對,不會有錯達上的錯誤
- equal discrimination (Rasch):每個題目的區辨度相同。因Rasch model為1-PL,因此只考慮題目難度與能力。
- minimal guessing (Rasch):猜測率趨近於無,同上原因,只考慮b和theta
- Models of IRT
- normal ogive models:常態肩形模式
- Lord (1952)提出,因ICC看起來像肩膀得名
- 依照使用的參數,可分為單參數、雙參數與三餐數模型 ,所有models都包含常態分配的假設,以及累計積分的概念
- 單參數:僅有題目難度(b)
- 雙參數:包含題目難度(b)和鑑別度(a)
- 三餐數:包含題目難度(b)、鑑別度(a)和猜測率(c)
- logistic models
- Brinbaum(1968)提出,有鑑於常態分配假設不好積分,因此改用logistsic models來估計。同樣有3個參數的差別(這是我們學的)
- 1-PL代表只考慮題目難度,且鑑別度為常數的模型
- 如鑑別度剛好為1,則為Rasch model
- Rasch familties (都有上述假設)
- RSM
- PCM
- Many0facted mdoel
- Ordered partition model
- Random coeff. logit model
- Multidimensional model
- 2-PL代表同時考慮題目難度以及鑑別度的模型
- 3-PL代表同時考慮題目難度、鑑別度與猜測度的模型
- nominal response models
- graded response models
- rating scale models
- partial credit models
- model selection
- model fit data? or data fit model?
- 依照資料的類型與特質,選擇合適的model進行分析,如重視資料的價值。通常使用多參數模型。如ETS
- 依照data去測試較好結果的models,如重視理論架構者,多使用單參模型。如Ben Wright
- availability of sample
- 1P:>200
- 2P:>500
- 3P:>1000
- quality of data:由於使用到猜測度,如能力低者數量不足則不易使用
- computer-related factors:由於科技進步,也有許多軟體可供使用
- avability of resoureces
- the choic of estimation procudure
- availability of computer programs
- assessment of model fit
- Bandwidth paradox: Tradeoff between discrimination and the range of theta for which the item is discriminating (依照目標進行鑑別度選取,而非越大越好)
- 鑑別度大的題目,僅能g針對特定能力範圍進行鑑別
- 鑑別度小的題目,可鑑別的能力範圍較大
- Information function (所有的函數均以theta為參數)
- item information function:個別項目的訊息
- test information function:整體測驗的訊息量(為個題目的訊息總和)
- measurement error variance:為整體測驗訊息量的倒數
- standard error of estimate:即為SE,為整體測驗訊息量的倒數根號
note: no test is reliabile for all examiness:因每個人的能力不同,實際上測量的誤差也會有所不同。IRT models提供每個人不同的測量誤差,但同時也代表每個人的信度並不相同。 - Joint Estimation of Parameters (題目參數估計,或者能力參數估計)
- Estimation of Ability: conditional estimation (條件化估計)
- Likelihood function
- 使用重複疊代的方式,以估計能力參數(theta)
- 其實為每個題目的機率連乘
- 由於連乘不容易計算,因此將之使用logit,改為連加
- maximal likelihood 最大概似估計法: 依照作答型計算概率,進而找到最合適的能力
- IRT V.S. CTT & Guttman
- IRT的圖形為單調遞增的ICC,表示不同能力有不同的答對機率(較合理)
- CTT的圖形為無論受試者參數,表不同能力的受試者有相同的答對率
- Guttman的圖形為項目變化,即不同能力階層有不同的答對率,然非連續變化
多謝整理資訊~!!!很清晰
回覆刪除