2014.10.27 心理測驗(十) 項目反應理論二

2014.10.27 心理測驗(十) 項目反應理論二

回顧：古典測驗理論之假設

X=T+E

一個人的測驗分數為X
X當中包含真實分數T，以及測驗誤差E

E(X)=E(T+E)=E(T)=T

若可將一個人重複測驗無限多次，則理論上可消除誤差，得到真實分數

r(ET)=0

測驗與真實分數之間沒有關係

平行測驗

IRT中沒有平行測驗，稍後會說原因

回顧：蓋推度理論

偵測出造成誤差的來源，並且於估計的時候移除這些來源
使用ANOVA的方式，找出造成影響的因素
計算信、效度時扣除這些來源，可得到較為真實的數值

回顧：項目反應理論

與ICC圖相似，包含三個題目參數(a,b,c)以及一個個人參數(theta)

鑑別度(a)
題目難度(b)
猜測度(c)
能力(theta)

invariance of item paramteres !! 穩定性：不因樣本而改變題目參數
indeterminacy of ability sclae!! 未定性：theta以標準分數表現，屬於相對概念而非絕對概念
若知道每個題目的橫軸與縱軸之關係，則可知其數學關係

再依據個人作答型態(pattern)，可推測個人之能力
可提供個人的測量誤差

假設：

單向度
局部獨立性
非速度測驗
知道而答對
相等區辨度(Rasch)
最小猜測度(Rasch)

model

二分項目

Normal Ogive models：牽扯常態分配，可再分1P,2P,3P。因為計算複雜而較少使用。
Logistic models：可分為1P,2P,3P，其中1P又稱為Rasch model(a相同、c趨近0)，估計結果類似Normal ogive models。

model selection

model fit data or data fit model
sample size
quality of data：若使用3P，則需估計C。但樣本不能沒有能力差的人，否則無法妥善估計C。

Bandwidth paradox：區辨度與區辨範圍的取捨。
訊息函數

個別題目的訊息函數：分子為機率函數的偏微分=斜率
整體測驗的訊息函數：為個題目訊息函數的加總
定義：測驗的變異為訊息函數的倒數

同理，測驗的標準差為訊息函數倒數根號

No test is reliable for all examinees：由於個人能力不同，因此有不同的作答機率，因此沒有一個信度是所有人共用的(CTT打臉)

估計能力

條件化估計：given 之下的條件機率

若知a,b,c，可估計theta；假定theta為某數值，則可再估計a,b,c之數值
上述過程稱為疊代(interaction)
疊代終止於二次估計的結果相差不大之時

概似函數--概似估計法

只能用於事後估計，因需要完整的作答pattern

Applications of IRT

電腦化適性測驗(Computerized adaptive testing, CAT)

使用電腦施測，依照受試者能力與特性給予題目
等化測驗(equating of test scores)：

horizontal：讓不同題目之間可以進行比較
vertical：讓不同年級的人，可以進行比較

避免偏差題目(baised items)

DIF (differential item functioning)

古典稱為biased, 現在稱為DIF

Comparison of CTT and IRT

CTT的題目參數受限於樣本(sample dependent)

如題目難度在A族群測驗為0.6，在B族群測驗為0.8
IRT具有不變性，只要使用代表性樣本並且經過校正，可不受樣本影響而維持不變

受試者須完成整份測驗

以CTT的方式統計，受試者須完成所有題目後再進行分析(相同且題數多)
IRT的CAT可使用不同題目，或者較少的題目，達成相同信度的成果

CTT仰賴平行測驗

過度仰賴平行測驗假設
IRT與之無關

CTT中的測量標準誤(S.E.M)均相同

假定每個人的S.E.M均相同，僅有一個數值
IRT中每個人有獨立的S.E.，計算方式為資訊函數的倒數根號

CTT無法預測下一個題目的表現

因此所有人都要完成所有測驗
IRT如搭配適性測驗，可預測下一提的表現而調整之

CTT有項目依賴問題(item dependent)

因此考不同題目之結果難以比較
IRT有不變性，可比較不同題目的表現

ordinal & interval (only for Rasch)

若使用Rasch model，原始分數雖為ordinal data，但最後可成為interval data 或者ration data

Limitations of IRT

假設不易達成

單向度假設

可個別次向度做單向度分析，但這假設各向度之間沒有關係
multidimensionality則可解決這個問題

局部獨立性

如為連鎖或者題組，則容易破壞此假設

非速度測驗

model選取困難

Rasch model：假設每個題目的鑑別力相同，並且沒有猜測參數。其中每個題目鑑別度相同是很嚴苛的假設，如不符合則刪除，可能刪除很多題目。
2P, 3P model：可較符合的描述題目，但需要大量樣本
Rasch model可以轉變為interval

樣本數的限制

1P 200, 2P 500, 3P 10000，需要大量樣本，造成人數不足而難以應用

難以與其他專業溝通

差別試題功能(DIF)

意義：DIF是指二組能力或者表現相配比(comparable)的團體之答題表現有顯著差異

二組程度、能力一致，但是通過某題的比例不同

傳統稱為題目偏誤(item biased)，現在稱為差別試題功能(DIF)
DIF是item bias的必要但非充分條件

DIF是更完整的分析

最早出現於國外的城鄉差距、種族與性別比較

DIF的類型

焦點組 V.S　參照組

焦點組(focus groups)：研究者感興趣的受試群體，如女生、黑人
參照組(reference group)：焦點組的對照組，如男生、白人

DIF類型

無DIF：其ICC圖形應該重疊
單向DIF：參照組穩定比焦點組高（低）
非單向、交叉DIF：參照組與對照組曲線有交集，造成特定能力以下及以上的狀況不同

Simpson's paradox (DIF and impact)：指沒有依能力分組，以及因能力分組的結果，題目難度將有所不同之現象

DIF：經過配組程序之後，二組在試題表現上的差異稱為DIF
impact：未經過配組程序，而出現二組的表現差異

		配組變項或效標
		觀察分數	潛在特質
描述試題分數和配組變項關係的函數形式	母數	非IRT l Logistic regression (LR)法：具有基本模式P=exp(z)/(exp(z)+1)，並且有m1,m2和m3，如同回歸一般依序呈現組別差異與交互作用。是個好用的model，並且可以加上其它變項的DIF影響。	IRT l Lord Chi-square考驗法：比較焦點組與對照組的a和b有沒有差距，使用卡方檢驗之，若顯著則有差。 l IRF或者ICC間的差異：計算二組在IRF上的差異面積，如大則代表有DIF。無假設檢定，為純主觀判斷。 l 概似率考驗：比較二個model之間的參數數目差。有假設檢定。
描述試題分數和配組變項關係的函數形式	無母數	非IRT l Mantel-Haenszel法：以總分為依據，可寫出多個22的表格(R,F&1,0)。理論上單一題若沒有DIF，則AD/B*C=1。加總所有分數的數值仍趨近於1者，可代表其沒有DIF。 l 標準化法：以答對人數百分比來比較有沒有DIF差異。缺點為沒有假設檢定，不易有判斷依據。	非IRT l SIBTEST程序：可檢驗單一題目DIF，或者一組題目DTF。將題目分為好的題目(已確認無DIF)，以及待檢驗的題目(不確定有沒有DIF)。令好的題目總分為X，待檢驗的題目總分為Y。Beta為待驗證題目的調整平均數差異總和(調整平均數為回歸校正後的分數，目的在調整二組受試者因能力分配之差異所造成的系統偏差)

使用IRT方式的優劣：IRT的優劣即為其優缺點，包含假設不易達成、人數需求高等等。

留言