2015.1.9 請教王文中老師之IRT相關問題 & 討論後記錄
討論紀錄
我的提問&答覆
- 相互比較的根本:擁有相同的基準點
- 基準點一致:可將多個不同軸的0疊在一起,直接比較其差異
- 若難以達成,亦可利用「相關」的分析方式,檢驗其趨勢
- 單位一致:代表每個數字之間的間隔應相同,以及數字範圍包含的範圍(把零放在哪裡?)
- Measure Invariance的問題:為什麼要擔心這個議題?
- 「具有Invariance的評估工具,可以跨時間、地點、種族進行比較」,這才是擔心此議題背後的原因
- 時間只是其中一個考量,其它常見的例如文化、性別等都是一種
- 評估工具是否一定要具備Invariance? 實際上未必,因工具都不完美,唯我們能接受它到甚麼程度(夠用就好)
- 完美的評估工具可遇不可求,且在現實中難以存在:
- 若評估工具完美(p),則評估結果穩定不變(q) [p->q]
- 若從諸多評估結果中找到一個變異(q'),則代表測量不完美(p') [q'->p']
- 任何測驗都可能有變化性,研究者應如何面對這個議題?
- 「回歸目的,適可而止」:依目的、成本與效益作考量。
- 精準評估有甚麼非常重大的利益可圖?
- 評估失準有甚麼非常嚴重的損傷應防範?
- 世界級的東西不可能沒有DIF,故應視實際狀況調整
- 目前遇到不良題目的方法往往是省略不計
- 更積極的作法是反思其可能之問題
- 不符合model的題目可能暗示著特別的現象,深入研究之,或可有額外的收穫
e.g.男女的暴力行為有所差異(男偏好用踹用踢;女偏好用捏) - 對於追蹤型的研究?(重複測驗的狀況)
- 因素因素包含:
- 記憶效應:因受試者記得題目而去找答案,進而造成能力不變但卻可以答對特定題目的狀況。
- 能力改變:如受試者在測驗間隔的時間內有明顯的能力改變,則會影響到後測的結果。
- SEM大小:差異是否有顯著差異?
- 如不同時間點的題目難度排序不同,如何?
- 題目難度的變化是否顯著?
- 審視不同時間點之間的平均難度變化有沒有超過SEM
- 不同時間點的題目難度之間差異是否不明顯?
- 如本身差異不大,加上誤差可能造成排序改變
- 又排序本身能提供的意義有限,再者可能受到誤差影響其排序。故使用排序觀察是不太適當的做法。
- 應對方式:刪除或者保留?
- 如果題目數量充足,則影響不大、可刪除之
- 例如item bank
- 如果題目數量不足,則可以後續研究的方式補充並修正此問題
- 例如增加題目,或者針對題目不當之處進行修改
- 指標的解讀:信度 & 差異
- 信度指標介於0~1之間,使用者可直接觀察,且易於感受其優劣。
- 改變量(差異)的指標則無此性質,使用者不易直接判讀而產生感受。此部分可借用傳統的Spearman-Brown formula,將改變量換成原始測驗長度的倍數(假設測驗品質不變),可使得使用者較能感覺到差異的意義。
- Factor analysis & Rasch:標準不同亦無法比較,且有學理上的差異。故選擇自己可接受的方式檢驗即可,不宜混為一談。
- 因素分析結果可能與PCA結果不同
- 此差異可能來自於二者使用的標準嚴格度不同
- 但二者背後的學理不同,故標準無法比較誰優誰劣
- CFA的假設過於嚴格,現實的資料可能與其差異甚大
- 因素分析假定其量尺的範圍無限大,但實際上量尺的分數都有界限,此將使得資料的回歸並非線性,造成估計上的錯誤
- 建議作法為:
- 確認論文的立場明確
- 確認論文撰寫過程中的邏輯正確
- 確認論文中的論述一致
- 結論:
- 不建議在同一篇論文中參雜使用CFA和PCA
- 標準嚴格程度是造成差異的原因之一
- 科學以簡單的模型預測複雜的狀況,必不能為真
- 選擇可接受的結果即可,終究回歸目的
- Sufficient statistic:只要有總分即可知個體表現之優劣,而不用看其它資訊,這是IRT(Rasch)的良好特性
- 多參數模型增加鑑別度與猜測度,雖可更細緻的調整模型,但是失去分數一對一的關係
- 由於IRT的複雜,最好的解釋方式為不解釋(不公布量尺分數)
- 或者勉強提供一個可區辨的數字,讓沒有相關基礎的人可接受、了解差異
- 多相與多向度的差別?
- 多相是針對難度的細緻描述,概念類似ANOVA中的interaction,舉例如下:如2題申論共由5個評分者,如此可得10個數據,等同考生作答10題。此時,將面臨下列問題?
- δ的難度如何表示?
- 或可採用平均法,將相同題目的難度取平均,可得平均難度。但是對於難度的差異仍無法解釋,因為差異可能來自於不同的評分者,而非題目本身
- 評分者的難度如何表示?
- 亦可使用平均法,但是也面臨相同的問題,仍無法輕易地用平均難度帶過
- 概念上類似ANOVA的檢驗: 而facets model假定因子之間無interaction
- 儘管現實仍可能有interaction,即評分者對題目有不同的期待
- 概念延展:如瞭解上述model,可延展概念之應用。如今天共有2題、5 個評分者,以及3個施測時間點。
- dfA2-1=1B5-1=4C3-1=2AxB1*4=4AxC1*2=2BxC4*2=8AxBxC1*4*2=8Total29
- 此狀況可以判斷:不同評分者在不同時間對於題目是否有不同的期望。以facet model拓展題目難度的來源,有利於減少這種問題的產生。
- 如不使用facet model?
- 如果不將此差異獨立出一個參數,則原本這些來源可能分散在其它參數中,並且以誤差的形式存在!
- 跨時間的評估結果?
- 跨時間的評估結果是否穩定,此議題類似invariance(time DIF)
- 部分因素可能影響,如:練習效應、記憶效應
- 記憶效應如基於第一次作答之後耿耿於懷,而特別去找答案(或者印象深刻的解答方式讓自己在下一次仍可答對),造成能力相同但結果不同的狀況
- 如果忽略這個問題,可能造成估計時高估受試者的能力
- 使用大量題庫可能改善此問題
- 使用前測或者後測作為anchor?
- 問題在於估計的結果可能高估受試者的能力,而非估計的過程中出現問題,因此使用哪一次來anchor並沒有太大差異
- IRT假設不同族群具有相同的因素結構,例如做家事對男生和女生而言都是單因子的結構。故IRT不關心因素結構,而聚焦於因素負荷量。
- 因素分析的作法會同時關心因素結構以及因素負荷量,而與IRT有所差異。
- 從ICC看pre/post test的結果
- 無論重複施測幾次,都會產生parameter。若彼此之間具有高度一致性則還好,但是如果不一致則明顯為DIF的狀況。此時應使用平均處理才有意義。
- Staging? Bookmark method
- Cut-off是否需要,以及其應如何設定?
- 依照需求而定,如有需要就必須要分開。
- 考試分數需要有cut-off,測驗也有。儘管這是個直觀的問題,但是實際上也問倒很多人
- 例如國中畢業生的能力如何? 如改用級分制,去描述分級後的結果,那或許可行。
- Cut-off設定的二難:不給資料太過主觀;給資料又太過操弄
- 專家的意見難以一致(硬要平均又太主觀)
- 用考試分數來決定又太過資料導向
- 實際作法為一套標準流程
- 用Rasch決定item,再依item分組
- 用Rasch決定item,再用cluster analysis分組
- 通常標準會在開始的時候就已經先預設好,而測驗再依照這個標準來設計。依construct map區分其難度
- 轉換成interval data
- 比較測驗結果和原始預測是否一致(效度驗證的關鍵)
- 依原先設定的標準進行資料的分配
- 樣本代表性:
- Rasch model有此特性,但是資料是否具有此特性則需要驗證
- 期望不代表現實,故實際上未必可以類推到其它樣本
- 經過多次的驗證之後,可較有信心的相信樣本可以類推;但沒有辦法絕對保障之
- 代表性的議題:
- 個體的評估與測量
- 僅對於資料類推和解釋時有所影響
- 重複測驗的結果是否可以pool起來?
- 因rasch沒有sample independent的假設,理論上可行。但是需考慮有诶有練習、記憶效應,或者特殊的作答策略,影響其測驗結果
- 獨立事件是必要的條件(測量是獨立事件)
- 非獨立事件,則有其它因素干擾
- 獨立事件例如,知道體重與否,並不影響測量出來的體重多寡
- Winsteps & Conquest的差別? Winstep估計不出來的東西,Conquest可以的原因是?
- Winsteps使用平均值和離均差的方式來陳述階難度,故有些數值無法呈現;
- 有時候無法估計,是因為Winsteps會剔除極端的人(但Conquest不會),因此造成難度參數無法呈現的狀況
- Winsteps假定輸入的資料極為population;而Conquest則將資料假設為samples(因此要推論母群,使用Conquest較為合適;但是這也包含常態分配的假設)
- Disorderings如何解決?
- 在一個樣本中出現≠下一群樣本也會出現;
- 且合併選項茲事體大:
- 可能影響標準化的施測流程
- 破壞資料的對稱性(如破壞中間選項)
- 最重要的是, Rasch不會因為disordering而改變其一對一的關係
- Disorderings若嚴重,則使單一多分題未達原先設計的效能,使其效率打折扣而影響信度;但是其對於分數的排序則不影響
- 因為一次樣本群的Disoderings而合併選項是危險的,因為這可能造成題目的敏感度下降(且不能確定其它樣本是否會有相仿的結果)
- Disorderings也和樣本大小有關,因為實際上ICC是一個區間而不只是一條線
而這樣的狀況下,既然ICC是區間帶,則彼此的錯續也可能只是誤差的部分。
我的提問&答覆
- 為什麼多參數模型的原始分數和θ的關係不見得是一對一? 原始分數和θ的名次排序為什麼會不同?
- 多參數模型的θ不具一對一的關係,是因為其不具有等距的特性嗎?
- 儘管原始分數可能不具等距特性,但如具有順序特質,其順序仍應有意義。那為什麼θ的名次可能與原始分數的名次不相同呢?
- 符合Rasch model的資料,其因素分析的結果可能包含多個因素嗎?
- 是否存在Rasch和因素分析結果大相逕庭的情況?
- 違背等距特性的假設,除理論上不適用,實際執行上會造成甚麼樣的影響呢?
- 除原始分數不具等距特性可能不適用於因素分析的計算之外,還有其它可能造成影響的方向嗎?
- 多相或線性化之後,模式考慮其它影響的因素,但是這樣仍屬於單向度嗎?
- 似有將其它影響因素做為多向度的其中一個向度,再比較此項度與欲測量特質的相關是否顯著之作法;以及比較同一個人的進步時,將進步視為另外一個向度的狀況。 這樣不是屬於多向度嗎?
"Linacre(1989)提出的多相模式(facets model):其中Pnijk和Pni(j-1)k是受試者n在第i題上被評分者k評為j分和j-1分的機率;ηk是評分者k的嚴苛度。該值越大,表示評分者越嚴苛,受試者就越難得到高分。公式(30)涉及三個相。" - RSM或PCM之多分題模式,因具有多個steps,其效能是否優於二分題呢? 對多分題而言,平均題目難度的意義是甚麼? 以及,RSM或PCM的轉換仍具等距特性嗎(這到底如何判斷)?
- 一個二分題,可將受試者分為答對與答錯二者;但是一個多分題(假設為4點量尺),似可將受試者分為4個不同的族群? 這樣是多分題優於二分題嗎?
應優先符合現實上的考量,因通常測驗的題目大多以多分題之方式呈現(如Brunnstrom stage),而不會刻意拆成多個二分題,故在分析與解讀的過程中,仍應以多分題的角度切入解釋。 - 對多分題而言,單一題目具有多個階難度,則平均難度未必顯現在其中。如此是否對於多分題而言,平均難度意義有限呢?
呈現平均難度沒有意義,反而可能造成負面影響。如在person-item map上呈現平均難度,則可能所有題目的平均難度都落在相同的尺度上,造成表面上的題目重複、效能不佳的錯覺。 - RSM & PCM是否仍具有轉換後的等距量尺特性?
是,二者仍具有等距量尺的特性。可從影響轉換單位的因子切入,如2PL或3PL因有鑑別度與猜測度的關係,造成影響作答反應的因素繁多,故無法等距的對比。 - 為什麼Rasch分析的參數估計,可以說題目難度(δ)的估計不會受到受試者能力(θ)影響? δ、θ、作答反應、作答機率和期望值之間的關係又是什麼? (我覺得我難以掌握彼此之間的關係) [查閱公式及討論後,紀錄於此。待續]
- 最大概似估計法, 依公式可計算不同能力者做出特定作答反應之機率,而估計θ?
- 在二分題的狀況下,作答機率等於期望值,可比較期望值與觀察值的差異,以判斷作答反應是否符合Rasch model?
- 作答反應受到諸多因素影響? 在Rasch中,其扮演甚麼樣的角色?
面對missing data時,CMAR、MAR以及NMAR要怎麼區分? 我仍不太了解其定義,以及對於IRT計算的影響。
留言
張貼留言