2014.10.27 心理測驗(十) 項目反應理論 二
回顧:古典測驗理論之假設
- 偵測出造成誤差的來源,並且於估計的時候移除這些來源
- 使用ANOVA的方式,找出造成影響的因素
- 計算信、效度時扣除這些來源,可得到較為真實的數值
回顧:項目反應理論
- 與ICC圖相似,包含三個題目參數(a,b,c)以及一個個人參數(theta)
- 鑑別度(a)
- 題目難度(b)
- 猜測度(c)
- 能力(theta)
- invariance of item paramteres !! 穩定性:不因樣本而改變題目參數
- indeterminacy of ability sclae!! 未定性:theta以標準分數表現,屬於相對概念而非絕對概念
- 若知道每個題目的橫軸與縱軸之關係,則可知其數學關係
- 再依據個人作答型態(pattern),可推測個人之能力
- 可提供個人的測量誤差
- 假設:
- 單向度
- 局部獨立性
- 非速度測驗
- 知道而答對
- 相等區辨度(Rasch)
- 最小猜測度(Rasch)
- model
- 二分項目
- Normal Ogive models:牽扯常態分配,可再分1P,2P,3P。因為計算複雜而較少使用。
- Logistic models:可分為1P,2P,3P,其中1P又稱為Rasch model(a相同、c趨近0),估計結果類似Normal ogive models。
- model selection
- model fit data or data fit model
- sample size
- quality of data:若使用3P,則需估計C。但樣本不能沒有能力差的人,否則無法妥善估計C。
- Bandwidth paradox:區辨度與區辨範圍的取捨。
- 訊息函數
- 個別題目的訊息函數:分子為機率函數的偏微分=斜率
- 整體測驗的訊息函數:為個題目訊息函數的加總
- 定義:測驗的變異為訊息函數的倒數
- 同理,測驗的標準差為訊息函數倒數根號
- No test is reliable for all examinees:由於個人能力不同,因此有不同的作答機率,因此沒有一個信度是所有人共用的(CTT打臉)
- 估計能力
- 條件化估計:given 之下的條件機率
- 若知a,b,c,可估計theta;假定theta為某數值,則可再估計a,b,c之數值
- 上述過程稱為疊代(interaction)
- 疊代終止於二次估計的結果相差不大之時
- 概似函數--概似估計法
- 只能用於事後估計,因需要完整的作答pattern
Applications of IRT
- 電腦化適性測驗(Computerized adaptive testing, CAT)
- 使用電腦施測,依照受試者能力與特性給予題目
- 等化測驗(equating of test scores):
- horizontal:讓不同題目之間可以進行比較
- vertical:讓不同年級的人,可以進行比較
- 避免偏差題目(baised items)
- DIF (differential item functioning)
- 古典稱為biased, 現在稱為DIF
Comparison of CTT and IRT
- CTT的題目參數受限於樣本(sample dependent)
- 如題目難度在A族群測驗為0.6,在B族群測驗為0.8
- IRT具有不變性,只要使用代表性樣本並且經過校正,可不受樣本影響而維持不變
- 受試者須完成整份測驗
- 以CTT的方式統計,受試者須完成所有題目後再進行分析(相同且題數多)
- IRT的CAT可使用不同題目,或者較少的題目,達成相同信度的成果
- CTT仰賴平行測驗
- 過度仰賴平行測驗假設
- IRT與之無關
- CTT中的測量標準誤(S.E.M)均相同
- 假定每個人的S.E.M均相同,僅有一個數值
- IRT中每個人有獨立的S.E.,計算方式為資訊函數的倒數根號
- CTT無法預測下一個題目的表現
- 因此所有人都要完成所有測驗
- IRT如搭配適性測驗,可預測下一提的表現而調整之
- CTT有項目依賴問題(item dependent)
- 因此考不同題目之結果難以比較
- IRT有不變性,可比較不同題目的表現
- ordinal & interval (only for Rasch)
- 若使用Rasch model,原始分數雖為ordinal data,但最後可成為interval data 或者ration data
Limitations of IRT
- 假設不易達成
- 單向度假設
- 可個別次向度做單向度分析,但這假設各向度之間沒有關係
- multidimensionality則可解決這個問題
- 局部獨立性
- 如為連鎖或者題組,則容易破壞此假設
- 非速度測驗
- model選取困難
- Rasch model:假設每個題目的鑑別力相同,並且沒有猜測參數。其中每個題目鑑別度相同是很嚴苛的假設,如不符合則刪除,可能刪除很多題目。
- 2P, 3P model:可較符合的描述題目,但需要大量樣本
- Rasch model可以轉變為interval
- 樣本數的限制
- 1P 200, 2P 500, 3P 10000,需要大量樣本,造成人數不足而難以應用
- 難以與其他專業溝通
差別試題功能(DIF)
- 意義:DIF是指二組能力或者表現相配比(comparable)的團體之答題表現有顯著差異
- 二組程度、能力一致,但是通過某題的比例不同
- 傳統稱為題目偏誤(item biased),現在稱為差別試題功能(DIF)
- DIF是item bias的必要但非充分條件
- DIF是更完整的分析
- 最早出現於國外的城鄉差距、種族與性別比較
DIF的類型
- 焦點組 V.S 參照組
- 焦點組(focus groups):研究者感興趣的受試群體,如女生、黑人
- 參照組(reference group):焦點組的對照組,如男生、白人
- DIF類型
- 無DIF:其ICC圖形應該重疊
- 單向DIF:參照組穩定比焦點組高(低)
- 非單向、交叉DIF:參照組與對照組曲線有交集,造成特定能力以下及以上的狀況不同
- Simpson's paradox (DIF and impact):指沒有依能力分組,以及因能力分組的結果,題目難度將有所不同之現象
- DIF:經過配組程序之後,二組在試題表現上的差異稱為DIF
- impact:未經過配組程序,而出現二組的表現差異
|
配組變項或效標
|
||
觀察分數
|
潛在特質
|
||
描述試題分數和配組變項關係的函數形式
|
母數
|
非IRT
l Logistic regression (LR)法:具有基本模式P=exp(z)/(exp(z)+1),並且有m1,m2和m3,如同回歸一般依序呈現組別差異與交互作用。是個好用的model,並且可以加上其它變項的DIF影響。
|
IRT
l Lord Chi-square考驗法:比較焦點組與對照組的a和b有沒有差距,使用卡方檢驗之,若顯著則有差。
l IRF或者ICC間的差異:計算二組在IRF上的差異面積,如大則代表有DIF。無假設檢定,為純主觀判斷。
l 概似率考驗:比較二個model之間的參數數目差。有假設檢定。
|
無母數
|
非IRT
l Mantel-Haenszel法:以總分為依據,可寫出多個2*2的表格(R,F&1,0)。理論上單一題若沒有DIF,則A*D/B*C=1。加總所有分數的數值仍趨近於1者,可代表其沒有DIF。
l 標準化法:以答對人數百分比來比較有沒有DIF差異。缺點為沒有假設檢定,不易有判斷依據。
|
非IRT
l SIBTEST程序:可檢驗單一題目DIF,或者一組題目DTF。將題目分為好的題目(已確認無DIF),以及待檢驗的題目(不確定有沒有DIF)。令好的題目總分為X,待檢驗的題目總分為Y。Beta為待驗證題目的調整平均數差異總和(調整平均數為回歸校正後的分數,目的在調整二組受試者因能力分配之差異所造成的系統偏差)
|
使用IRT方式的優劣:IRT的優劣即為其優缺點,包含假設不易達成、人數需求高等等。
留言
張貼留言