2014.10.27 心理測驗(十) 項目反應理論 二

回顧:古典測驗理論之假設

  • X=T+E
    • 一個人的測驗分數為X
    • X當中包含真實分數T,以及測驗誤差E
  • E(X)=E(T+E)=E(T)=T
    • 若可將一個人重複測驗無限多次,則理論上可消除誤差,得到真實分數
  • r(ET)=0
    • 測驗與真實分數之間沒有關係
  • 平行測驗
    • IRT中沒有平行測驗,稍後會說原因
回顧:蓋推度理論
  • 偵測出造成誤差的來源,並且於估計的時候移除這些來源
  • 使用ANOVA的方式,找出造成影響的因素
  • 計算信、效度時扣除這些來源,可得到較為真實的數值
回顧:項目反應理論
  • 與ICC圖相似,包含三個題目參數(a,b,c)以及一個個人參數(theta)
    • 鑑別度(a)
    • 題目難度(b)
    • 猜測度(c)
    • 能力(theta)
  • invariance of item paramteres !!  穩定性:不因樣本而改變題目參數
  • indeterminacy of ability sclae!! 未定性:theta以標準分數表現,屬於相對概念而非絕對概念
  • 若知道每個題目的橫軸與縱軸之關係,則可知其數學關係
    • 再依據個人作答型態(pattern),可推測個人之能力
    • 可提供個人的測量誤差
  • 假設:
    • 單向度
    • 局部獨立性
    • 非速度測驗
    • 知道而答對
    • 相等區辨度(Rasch)
    • 最小猜測度(Rasch)
  • model
    • 二分項目
      • Normal Ogive models:牽扯常態分配,可再分1P,2P,3P。因為計算複雜而較少使用。
      • Logistic models:可分為1P,2P,3P,其中1P又稱為Rasch model(a相同、c趨近0),估計結果類似Normal ogive models。
  • model selection
    • model fit data or data fit model
    • sample size
    • quality of data:若使用3P,則需估計C。但樣本不能沒有能力差的人,否則無法妥善估計C。
  • Bandwidth paradox:區辨度與區辨範圍的取捨。
  • 訊息函數
    • 個別題目的訊息函數:分子為機率函數的偏微分=斜率
    • 整體測驗的訊息函數:為個題目訊息函數的加總
    • 定義:測驗的變異為訊息函數的倒數
      • 同理,測驗的標準差為訊息函數倒數根號
    • No test is reliable for all examinees:由於個人能力不同,因此有不同的作答機率,因此沒有一個信度是所有人共用的(CTT打臉)
  • 估計能力
    • 條件化估計:given 之下的條件機率
      • 若知a,b,c,可估計theta;假定theta為某數值,則可再估計a,b,c之數值
      • 上述過程稱為疊代(interaction)
      • 疊代終止於二次估計的結果相差不大之時
    • 概似函數--概似估計法
      • 只能用於事後估計,因需要完整的作答pattern
Applications of IRT
  • 電腦化適性測驗(Computerized adaptive testing, CAT)
    • 使用電腦施測,依照受試者能力與特性給予題目
    • 等化測驗(equating of test scores):
      • horizontal:讓不同題目之間可以進行比較
      • vertical:讓不同年級的人,可以進行比較
    • 避免偏差題目(baised items)
      • DIF (differential item functioning)
        • 古典稱為biased, 現在稱為DIF
Comparison of CTT and IRT
  • CTT的題目參數受限於樣本(sample dependent)
    • 如題目難度在A族群測驗為0.6,在B族群測驗為0.8
    • IRT具有不變性,只要使用代表性樣本並且經過校正,可不受樣本影響而維持不變
  • 受試者須完成整份測驗
    • 以CTT的方式統計,受試者須完成所有題目後再進行分析(相同且題數多)
    • IRT的CAT可使用不同題目,或者較少的題目,達成相同信度的成果
  • CTT仰賴平行測驗
    • 過度仰賴平行測驗假設
    • IRT與之無關
  • CTT中的測量標準誤(S.E.M)均相同
    • 假定每個人的S.E.M均相同,僅有一個數值
    • IRT中每個人有獨立的S.E.,計算方式為資訊函數的倒數根號
  • CTT無法預測下一個題目的表現
    • 因此所有人都要完成所有測驗
    • IRT如搭配適性測驗,可預測下一提的表現而調整之
  • CTT有項目依賴問題(item dependent)
    • 因此考不同題目之結果難以比較
    • IRT有不變性,可比較不同題目的表現
  • ordinal & interval (only for Rasch)
    • 若使用Rasch model,原始分數雖為ordinal data,但最後可成為interval data 或者ration data
Limitations of IRT
  • 假設不易達成
    • 單向度假設
      • 可個別次向度做單向度分析,但這假設各向度之間沒有關係
      • multidimensionality則可解決這個問題
    • 局部獨立性
      • 如為連鎖或者題組,則容易破壞此假設
    • 非速度測驗
  • model選取困難
    • Rasch model:假設每個題目的鑑別力相同,並且沒有猜測參數。其中每個題目鑑別度相同是很嚴苛的假設,如不符合則刪除,可能刪除很多題目。
    • 2P, 3P model:可較符合的描述題目,但需要大量樣本
    • Rasch model可以轉變為interval
  • 樣本數的限制
    • 1P 200, 2P 500, 3P 10000,需要大量樣本,造成人數不足而難以應用
  • 難以與其他專業溝通
差別試題功能(DIF)
  • 意義:DIF是指二組能力或者表現相配比(comparable)的團體之答題表現有顯著差異
    • 二組程度、能力一致,但是通過某題的比例不同
  • 傳統稱為題目偏誤(item biased),現在稱為差別試題功能(DIF)
  • DIF是item bias的必要但非充分條件
    • DIF是更完整的分析
  • 最早出現於國外的城鄉差距、種族與性別比較
DIF的類型
  • 焦點組 V.S 參照組
    • 焦點組(focus groups):研究者感興趣的受試群體,如女生、黑人
    • 參照組(reference group):焦點組的對照組,如男生、白人
  • DIF類型
    • 無DIF:其ICC圖形應該重疊
    • 單向DIF:參照組穩定比焦點組高(低)
    • 非單向、交叉DIF:參照組與對照組曲線有交集,造成特定能力以下及以上的狀況不同
  • Simpson's paradox (DIF and impact):指沒有依能力分組,以及因能力分組的結果,題目難度將有所不同之現象
    •  DIF:經過配組程序之後,二組在試題表現上的差異稱為DIF
    • impact:未經過配組程序,而出現二組的表現差異

配組變項或效標
觀察分數
潛在特質
描述試題分數和配組變項關係的函數形式
母數
IRT
l   Logistic regression (LR)法:具有基本模式P=exp(z)/(exp(z)+1),並且有m1,m2m3,如同回歸一般依序呈現組別差異與交互作用。是個好用的model,並且可以加上其它變項的DIF影響。

IRT
l   Lord Chi-square考驗法:比較焦點組與對照組的ab有沒有差距,使用卡方檢驗之,若顯著則有差。
l   IRF或者ICC間的差異:計算二組在IRF上的差異面積,如大則代表有DIF。無假設檢定,為純主觀判斷。
l   概似率考驗:比較二個model之間的參數數目差。有假設檢定。
無母數
IRT
l   Mantel-Haenszel法:以總分為依據,可寫出多個2*2的表格(R,F&1,0)。理論上單一題若沒有DIF,則A*D/B*C=1。加總所有分數的數值仍趨近於1者,可代表其沒有DIF
l   標準化法:以答對人數百分比來比較有沒有DIF差異。缺點為沒有假設檢定,不易有判斷依據。

IRT
l   SIBTEST程序:可檢驗單一題目DIF,或者一組題目DTF。將題目分為好的題目(已確認無DIF),以及待檢驗的題目(不確定有沒有DIF)。令好的題目總分為X,待檢驗的題目總分為YBeta為待驗證題目的調整平均數差異總和(調整平均數為回歸校正後的分數,目的在調整二組受試者因能力分配之差異所造成的系統偏差)
使用IRT方式的優劣:IRT的優劣即為其優缺點,包含假設不易達成、人數需求高等等。

留言

熱門文章