2014.11.20 心理測驗(十五) 效度Validity
Review
- 符號區分
- Corr(x,y)=rxy
- Corr(Tx,Ty)=rTxTy
- rxx:[
- 相關弱化(correction for attenuation):任何二個分數之間的相關,會因為測量誤差而縮小
- 概念:二變項之間的相關性,會因為測量誤差而被弱化
- 校正:經過下列公式可取得較高的相關,此相關為假定沒有測量誤差的相關性
- 適用於建構間的相關驗證
- 不適用於評估工具的品質檢驗
- e.g. 校標關聯效度:比較評估工具的測驗結果與黃金校標得測驗結果之相關性
- Corr(Tx,Ty)=Corr(x,y)/(rxx*ryy)^(1/2)
- Corr(x,y)=Corr(Tx,Ty)*(rxx*ryy)^(1/2)
- rxy≦rTxTy
- rxy≦(rxx*ryy)^(1/2) 換言之,其相關上限為"信度"
- 效標參照測驗:以測驗分數判斷受試者是否符合測驗結果
- 關注重點:測驗結果的分類
- 信度檢驗:
- 同意百分率(Percent aggrement, PA)
- Cohen's Kappa (k):校正同意百分率,即扣除隨機評分的影響
效度(validity)
效度檢驗的時機:在測驗編製完成之後
效度的特色:不同於信度有明確數值,可作為指標判斷其意義;然而,並非每個效度研究都可以提供信度,而研究者須經過統整之後,解釋此數據的意義。[效度的研究五花八門,能自圓其說即可]
效度概念
- 定義及議題
- 定義:
- :the extent to which a test measures what it claims to measure, as reflected in test scores"
- "a test is valid to the extent that inferences made from it are appropriate, meaningful, and useful" 測驗所得的分數適當、有意義而且實用
- "the degree to which evidence and theory support the interpretations of test scores entailed by proposed uses of tests"
- 重點:測驗分數的意義為何? (測驗分數衍伸的推論與解釋是否恰當)
- 測驗分數高,是否代表其欲測量的特質高?
- 測驗分數低,是否反應欲測量的特質低?
- 傳統的效度研究(三種角度):技術層面的議題
- 內容效度(content validity):最早用於教育領域中,為教師評量學生的學習成效
- 強調測驗內容是否具代表性,能反應出欲測量的東西
- 須能清楚明確的定義欲測量的內容包含哪些(specification of content domain)
- 是評估內容效度的關鍵依據
- 效標關聯效度(criterion-related validity)
- 後內容效度的概念延伸到商業及企業,目標為預期雇員的工作表現
- 預測效度的概念:測驗是否具有預測力,可預測雇員的工作表現
- 建構效度(construct validity)
- 1950年代之後,開始回歸測量的本質:其是否測驗是否反應欲測量的特質
- 某種程度涵蓋前面二類型的概念,因此部分學者主張建構效度可涵蓋其它效度概念(unifying/hypothesis testing)
- 效度研究的理想
- 涵蓋各效度研究指標,以取得更多的資訊
- 效度研究是持續不斷的過程
- 測驗編制的過程已經包含效度研究的意涵
- 文獻回顧與概念定義的過程中已經包含價值觀的選擇
- 效度研究其實與測驗的編制脫不了關係
- 效度測驗發展中的基礎特性
- 具有信度未必有效度
- 具有效度則信度不會太差
- 額外的效度議題
- 難道效度僅有技術層面的考慮嗎? (測驗的應用應有其情境;但效度的技術只停留在真空靜止的計算)
- 非技術的議題:應用、道德、價值觀、世俗
- 五個效度研究的角度(測驗的使用必有其目的,而須考量使用的意義與優劣)
- Samuel Messick提倡
- 建構效度的概念
- 測驗使用的後果(特別是潛在的負面影響)
- 測驗在情境中,因此測驗使用需考慮情境,不僅止於技術面的考量
- 測驗的使用必有其目的,使用者應衡量其目的是否達成(如欲篩檢閱讀能力不佳的孩子,以提供資源協助提升其能力;此目的為孩子是否得到需要的幫助,即有沒有後續的合適行為)
- 測驗編制有其目的;測驗使用亦有其目的
- 建構效度可涵蓋傳統三大類型,因此測驗解釋應充分解釋其不同面向的價值判斷
- 測驗是否能達成目的?
- 測驗有沒有後續的副作用與社會影響?
- 測驗使用性(test utility):使用此測驗是否對病人有所幫助?
- 相關的研究較少,但是有其重要性(價值)
- 測驗的執行與否,是否對臨床決策、介入計畫擬定、治療成效有所影響?
- 習慣俗成的反思,考慮其必要性、重要性與意義
note:習慣性的不思考 - 內側內容
- 反應過程:並分僅看測驗分數,而是作答反應過程中的歷程
- 受到informative processing model的影響,也是建構效度的概念之一
- 內部結構:內部建構的結構關係
- 與其他變項的相關性:包含與其相關與不相關的變項之相關性
- 例如智力測驗與容貌無關,故相關性應低;與焦慮相關性高,故應高相關
- 測驗使用之後果
note:可提供上述面向之資訊,以提供測驗使用的狀況
note:MMPI二三事
- 臨床發展之人格測驗評估工具,其次量表命名可能駭人(精神科疾病相關名稱等)
- 研究指出特定次量表分數較高,可能與執法人員的合適性相關;而被利用到警員的篩選中
- 篩選員警素質的立意良善
- 是否可能造成其它副作用
- 施測與解釋者應為專業心理師
- 然而取得原始分數的人未必具有充分知識可以解讀
- 如若這些握有權力的人分享這些資訊,可能造成社會性的影響
- 是否有替代方案
- 有無對等的測驗可以使用? 取得相似的結果?
- 替代測驗的量表名稱是否較為和善? 不會有"政治"及"標籤"的爭議?
- 從此可見測驗有沒有非用不可,以及有沒有可取代性
內容效度(content validity)
- 又稱為抽樣效度(sampling validity)或者邏輯效度(logical validity)
- 抽樣效度:題目的抽樣。心理測驗為對行為樣本的收集,表其具有行為母群,並且從中抽取樣本;因此希望題目所選取的內如(行為)具有代表性。
- 邏輯效度:較少人使用,但是反應內容效度的建構方法。大多數內容效度仰賴專家的邏輯判斷,而非使用數據判斷支持,因而得名。
- 方法:需有明確描述說明,做為內容效度的判斷準則
- 定義概念內容
- 邀請專家參與
- 請專家評判題目與概念的相關性(適用單一面向)
- 請專家將題目分配到適當的定義向度中,包含不能歸屬的
- 詢問專家內容是否包含與歸因無關的要素(例如焦慮程度、與特定領域的熟悉程度等,影響答題的過程)
- 比較專家的判斷與原始設計是否相符
- 主要仰賴專家的判斷
- 可使用統計量,但相對少用
- 議題
- 反應測驗的刺激,而非作答反應之歷程
- 但可用其他效度的資料而補充之
- 須有具體明確定義方能使用之
- 尚且可由操作性定義彌補
- 忽略潛在更好的題目
- 內容效度之檢驗無法辨認潛在的更佳選項
- 表面效度(face validity)並非效度,其代表看起來測驗是否與欲測量的概念相關。主要評量者是測驗的受試者(能否接受並且了解題目)
效標關聯效度(Criterion-Related Validity)
- 測驗分數與其它效標的相關性
- 同時效度(concurrent validity):評估工具與效標同時收案
- 預測效度(predictive validity):評估工具測驗之後,效標在未來追蹤時收案
- 上述效度的選用,應與評估工具的應用相關
- 篩檢測驗與深入評估應以同時效度檢驗之
- 評估工具與功能性表現測驗應以預測效度檢驗之
- 效標:a criterion is a measure that test scores are used to predict or estimate
- 常見效標
- 學業測驗:智力測驗
- 訓練之表現:紙筆測驗表現、模擬機表現、實際飛行表現
- 實際表現
- 診斷:完整深入評估、其它評估工具
- 新測驗:原始測驗可作為效標
留言
張貼留言