2015.1.9 請教王文中老師之IRT相關問題 & 討論後記錄

討論紀錄

  • 相互比較的根本:擁有相同的基準點
    • 基準點一致:可將多個不同軸的0疊在一起,直接比較其差異
      • 若難以達成,亦可利用「相關」的分析方式,檢驗其趨勢
    • 單位一致:代表每個數字之間的間隔應相同,以及數字範圍包含的範圍(把零放在哪裡?)
      • 意義在於可以跨時間地區的比較,像是磅秤一樣,到哪秤出來的結果都可以對照比較
  • Measure Invariance的問題:為什麼要擔心這個議題?
    • 「具有Invariance的評估工具,可以跨時間、地點、種族進行比較」,這才是擔心此議題背後的原因
      • 時間只是其中一個考量,其它常見的例如文化、性別等都是一種
      • 評估工具是否一定要具備Invariance? 實際上未必,因工具都不完美,唯我們能接受它到甚麼程度(夠用就好)
      • 完美的評估工具可遇不可求,且在現實中難以存在:
        • 若評估工具完美(p),則評估結果穩定不變(q)   [p->q]
        • 若從諸多評估結果中找到一個變異(q'),則代表測量不完美(p')  [q'->p']
    • 任何測驗都可能有變化性,研究者應如何面對這個議題? 
      • 「回歸目的,適可而止」:依目的、成本與效益作考量。
        • 精準評估有甚麼非常重大的利益可圖?
        • 評估失準有甚麼非常嚴重的損傷應防範?
      • 世界級的東西不可能沒有DIF,故應視實際狀況調整
        • 目前遇到不良題目的方法往往是省略不計
        • 更積極的作法是反思其可能之問題
          • 不符合model的題目可能暗示著特別的現象,深入研究之,或可有額外的收穫
            e.g.男女的暴力行為有所差異(男偏好用踹用踢;女偏好用捏)
  • 對於追蹤型的研究?(重複測驗的狀況)
    • 因素因素包含:
      • 記憶效應:因受試者記得題目而去找答案,進而造成能力不變但卻可以答對特定題目的狀況。
      • 能力改變:如受試者在測驗間隔的時間內有明顯的能力改變,則會影響到後測的結果。
      • SEM大小:差異是否有顯著差異?
    • 如不同時間點的題目難度排序不同,如何?
      • 題目難度的變化是否顯著?
        • 審視不同時間點之間的平均難度變化有沒有超過SEM
      • 不同時間點的題目難度之間差異是否不明顯?
        • 如本身差異不大,加上誤差可能造成排序改變
          • 又排序本身能提供的意義有限,再者可能受到誤差影響其排序。故使用排序觀察是不太適當的做法。
      • 應對方式:刪除或者保留?
        • 如果題目數量充足,則影響不大、可刪除之
          • 例如item bank
        • 如果題目數量不足,則可以後續研究的方式補充並修正此問題
          • 例如增加題目,或者針對題目不當之處進行修改
  • 指標的解讀:信度 & 差異
    • 信度指標介於0~1之間,使用者可直接觀察,且易於感受其優劣。
    • 改變量(差異)的指標則無此性質,使用者不易直接判讀而產生感受。此部分可借用傳統的Spearman-Brown formula,將改變量換成原始測驗長度的倍數(假設測驗品質不變),可使得使用者較能感覺到差異的意義。
  • Factor analysis & Rasch:標準不同亦無法比較,且有學理上的差異。故選擇自己可接受的方式檢驗即可,不宜混為一談。
    • 因素分析結果可能與PCA結果不同
      • 此差異可能來自於二者使用的標準嚴格度不同
        • 但二者背後的學理不同,故標準無法比較誰優誰劣
    • CFA的假設過於嚴格,現實的資料可能與其差異甚大
      • 因素分析假定其量尺的範圍無限大,但實際上量尺的分數都有界限,此將使得資料的回歸並非線性,造成估計上的錯誤
    • 建議作法為:
      • 確認論文的立場明確
      • 確認論文撰寫過程中的邏輯正確
      • 確認論文中的論述一致
    • 結論:
      • 不建議在同一篇論文中參雜使用CFA和PCA
      • 標準嚴格程度是造成差異的原因之一
      • 科學以簡單的模型預測複雜的狀況,必不能為真
        • 選擇可接受的結果即可,終究回歸目的
  • Sufficient statistic:只要有總分即可知個體表現之優劣,而不用看其它資訊,這是IRT(Rasch)的良好特性
    • 多參數模型增加鑑別度與猜測度,雖可更細緻的調整模型,但是失去分數一對一的關係
      • 由於IRT的複雜,最好的解釋方式為不解釋(不公布量尺分數)
      • 或者勉強提供一個可區辨的數字,讓沒有相關基礎的人可接受、了解差異
  • 多相與多向度的差別?
    • 多相是針對難度的細緻描述,概念類似ANOVA中的interaction,舉例如下:如2題申論共由5個評分者,如此可得10個數據,等同考生作答10題。此時,將面臨下列問題? 
      • δ的難度如何表示?
        • 或可採用平均法,將相同題目的難度取平均,可得平均難度。但是對於難度的差異仍無法解釋,因為差異可能來自於不同的評分者,而非題目本身
      • 評分者的難度如何表示?
        • 亦可使用平均法,但是也面臨相同的問題,仍無法輕易地用平均難度帶過
      • 概念上類似ANOVA的檢驗: 而facets model假定因子之間無interaction
        • 儘管現實仍可能有interaction,即評分者對題目有不同的期待
    • 概念延展:如瞭解上述model,可延展概念之應用。如今天共有2題、5 個評分者,以及3個施測時間點。

      • df
        A
        2-1=1
        B
        5-1=4
        C
        3-1=2
        AxB
        1*4=4
        AxC
        1*2=2
        BxC
        4*2=8
        AxBxC
        1*4*2=8
        Total
        29
      • 此狀況可以判斷:不同評分者在不同時間對於題目是否有不同的期望。以facet model拓展題目難度的來源,有利於減少這種問題的產生。
    • 如不使用facet model?
      • 如果不將此差異獨立出一個參數,則原本這些來源可能分散在其它參數中,並且以誤差的形式存在!
  • 跨時間的評估結果?
    • 跨時間的評估結果是否穩定,此議題類似invariance(time DIF)
    • 部分因素可能影響,如:練習效應、記憶效應
      • 記憶效應如基於第一次作答之後耿耿於懷,而特別去找答案(或者印象深刻的解答方式讓自己在下一次仍可答對),造成能力相同但結果不同的狀況
    • 如果忽略這個問題,可能造成估計時高估受試者的能力
    • 使用大量題庫可能改善此問題
    • 使用前測或者後測作為anchor?
      • 問題在於估計的結果可能高估受試者的能力,而非估計的過程中出現問題,因此使用哪一次來anchor並沒有太大差異
補充資訊
  • IRT假設不同族群具有相同的因素結構,例如做家事對男生和女生而言都是單因子的結構。故IRT不關心因素結構,而聚焦於因素負荷量。
  • 因素分析的作法會同時關心因素結構以及因素負荷量,而與IRT有所差異。
  • 從ICC看pre/post test的結果
    • 無論重複施測幾次,都會產生parameter。若彼此之間具有高度一致性則還好,但是如果不一致則明顯為DIF的狀況。此時應使用平均處理才有意義。
  • Staging? Bookmark method
    • Cut-off是否需要,以及其應如何設定?
      • 依照需求而定,如有需要就必須要分開。
        • 考試分數需要有cut-off,測驗也有。儘管這是個直觀的問題,但是實際上也問倒很多人
        • 例如國中畢業生的能力如何? 如改用級分制,去描述分級後的結果,那或許可行。
    • Cut-off設定的二難:不給資料太過主觀;給資料又太過操弄
      • 專家的意見難以一致(硬要平均又太主觀)
      • 用考試分數來決定又太過資料導向
    • 實際作法為一套標準流程
      1. 用Rasch決定item,再依item分組
      2. 用Rasch決定item,再用cluster analysis分組
      3. 通常標準會在開始的時候就已經先預設好,而測驗再依照這個標準來設計。依construct map區分其難度
      4. 轉換成interval data
      5. 比較測驗結果和原始預測是否一致(效度驗證的關鍵)
      6. 依原先設定的標準進行資料的分配
  • 樣本代表性:
    • Rasch model有此特性,但是資料是否具有此特性則需要驗證
      • 期望不代表現實,故實際上未必可以類推到其它樣本
        • 經過多次的驗證之後,可較有信心的相信樣本可以類推;但沒有辦法絕對保障之
      • 代表性的議題:
        • 個體的評估與測量
        • 僅對於資料類推和解釋時有所影響
  • 重複測驗的結果是否可以pool起來?
    • 因rasch沒有sample independent的假設,理論上可行。但是需考慮有诶有練習、記憶效應,或者特殊的作答策略,影響其測驗結果
    • 獨立事件是必要的條件(測量是獨立事件)
      • 非獨立事件,則有其它因素干擾
      • 獨立事件例如,知道體重與否,並不影響測量出來的體重多寡
  • Winsteps & Conquest的差別? Winstep估計不出來的東西,Conquest可以的原因是?
    • Winsteps使用平均值和離均差的方式來陳述階難度,故有些數值無法呈現;
    • 有時候無法估計,是因為Winsteps會剔除極端的人(但Conquest不會),因此造成難度參數無法呈現的狀況
    • Winsteps假定輸入的資料極為population;而Conquest則將資料假設為samples(因此要推論母群,使用Conquest較為合適;但是這也包含常態分配的假設)
  •  Disorderings如何解決?
    • 在一個樣本中出現≠下一群樣本也會出現;
    • 且合併選項茲事體大:
      • 可能影響標準化的施測流程
      • 破壞資料的對稱性(如破壞中間選項)
    • 最重要的是, Rasch不會因為disordering而改變其一對一的關係
    • Disorderings若嚴重,則使單一多分題未達原先設計的效能,使其效率打折扣而影響信度;但是其對於分數的排序則不影響
    • 因為一次樣本群的Disoderings而合併選項是危險的,因為這可能造成題目的敏感度下降(且不能確定其它樣本是否會有相仿的結果)
    • Disorderings也和樣本大小有關,因為實際上ICC是一個區間而不只是一條線
      而這樣的狀況下,既然ICC是區間帶,則彼此的錯續也可能只是誤差的部分。
----------------------------------------------------------------------------------------------------------------------
我的提問&答覆
  1. 為什麼多參數模型的原始分數和θ的關係不見得是一對一? 原始分數和θ的名次排序為什麼會不同?
    • 多參數模型的θ不具一對一的關係,是因為其不具有等距的特性嗎? 
    • 儘管原始分數可能不具等距特性,但如具有順序特質,其順序仍應有意義。那為什麼θ的名次可能與原始分數的名次不相同呢?
  2. 符合Rasch model的資料,其因素分析的結果可能包含多個因素嗎?
    • 是否存在Rasch和因素分析結果大相逕庭的情況?
    • 違背等距特性的假設,除理論上不適用,實際執行上會造成甚麼樣的影響呢?
    • 除原始分數不具等距特性可能不適用於因素分析的計算之外,還有其它可能造成影響的方向嗎?
  3. 多相或線性化之後,模式考慮其它影響的因素,但是這樣仍屬於單向度嗎? 
    • 似有將其它影響因素做為多向度的其中一個向度,再比較此項度與欲測量特質的相關是否顯著之作法;以及比較同一個人的進步時,將進步視為另外一個向度的狀況。 這樣不是屬於多向度嗎?
      "Linacre1989)提出的多相模式(facets model):

      其中PnijkPni(j-1)k是受試者n在第i題上被評分者k評為j分和j-1分的機率;ηk是評分者k的嚴苛度。該值越大,表示評分者越嚴苛,受試者就越難得到高分。公式(30)涉及三個相。"
  4. RSM或PCM之多分題模式,因具有多個steps,其效能是否優於二分題呢? 對多分題而言,平均題目難度的意義是甚麼? 以及,RSM或PCM的轉換仍具等距特性嗎(這到底如何判斷)?
    • 一個二分題,可將受試者分為答對與答錯二者;但是一個多分題(假設為4點量尺),似可將受試者分為4個不同的族群? 這樣是多分題優於二分題嗎?
        應優先符合現實上的考量,因通常測驗的題目大多以多分題之方式呈現(如Brunnstrom stage),而不會刻意拆成多個二分題,故在分析與解讀的過程中,仍應以多分題的角度切入解釋。
    • 對多分題而言,單一題目具有多個階難度,則平均難度未必顯現在其中。如此是否對於多分題而言,平均難度意義有限呢?
        呈現平均難度沒有意義,反而可能造成負面影響。如在person-item map上呈現平均難度,則可能所有題目的平均難度都落在相同的尺度上,造成表面上的題目重複、效能不佳的錯覺。
    • RSM & PCM是否仍具有轉換後的等距量尺特性?
        是,二者仍具有等距量尺的特性。可從影響轉換單位的因子切入,如2PL或3PL因有鑑別度與猜測度的關係,造成影響作答反應的因素繁多,故無法等距的對比。
  5. 為什麼Rasch分析的參數估計,可以說題目難度(δ)的估計不會受到受試者能力(θ)影響? δ、θ、作答反應、作答機率和期望值之間的關係又是什麼? (我覺得我難以掌握彼此之間的關係) [查閱公式及討論後,紀錄於此。待續]
    • 最大概似估計法, 依公式可計算不同能力者做出特定作答反應之機率,而估計θ?
    • 在二分題的狀況下,作答機率等於期望值,可比較期望值與觀察值的差異,以判斷作答反應是否符合Rasch model?
    • 作答反應受到諸多因素影響? 在Rasch中,其扮演甚麼樣的角色?
  6. 面對missing data時,CMAR、MAR以及NMAR要怎麼區分? 我仍不太了解其定義,以及對於IRT計算的影響。

留言

熱門文章