2014.11.20 心理測驗(十五) 效度Validity

2014.11.20 心理測驗(十五) 效度Validity

Review

結合分數差異的SEM必較單一變項的SEM為大

換言之，其信度將隨之下降(與SEM為一體二面
SEM用來建構信賴區間，進而從差異分數是否超過信賴區間而判斷有無顯著差異

符號區分

Corr(x,y)=rxy
Corr(Tx,Ty)=rTxTy
rxx：[

相關弱化(correction for attenuation)：任何二個分數之間的相關，會因為測量誤差而縮小

概念：二變項之間的相關性，會因為測量誤差而被弱化
校正：經過下列公式可取得較高的相關，此相關為假定沒有測量誤差的相關性

適用於建構間的相關驗證
不適用於評估工具的品質檢驗

e.g. 校標關聯效度：比較評估工具的測驗結果與黃金校標得測驗結果之相關性

Corr(Tx,Ty)=Corr(x,y)/(rxx*ryy)^(1/2)

Corr(x,y)=Corr(Tx,Ty)*(rxx*ryy)^(1/2)

rxy≦rTxTy
rxy≦(rxx*ryy)^(1/2) 換言之，其相關上限為"信度"

效標參照測驗：以測驗分數判斷受試者是否符合測驗結果

關注重點：測驗結果的分類
信度檢驗：

同意百分率(Percent aggrement, PA)
Cohen's Kappa (k)：校正同意百分率，即扣除隨機評分的影響

效度(validity)

效度檢驗的時機：在測驗編製完成之後

效度的特色：不同於信度有明確數值，可作為指標判斷其意義；然而，並非每個效度研究都可以提供信度，而研究者須經過統整之後，解釋此數據的意義。[效度的研究五花八門，能自圓其說即可]

效度概念

定義及議題

定義：

:the extent to which a test measures what it claims to measure, as reflected in test scores"
"a test is valid to the extent that inferences made from it are appropriate, meaningful, and useful" 測驗所得的分數適當、有意義而且實用
"the degree to which evidence and theory support the interpretations of test scores entailed by proposed uses of tests"

重點：測驗分數的意義為何？ (測驗分數衍伸的推論與解釋是否恰當)

測驗分數高，是否代表其欲測量的特質高？
測驗分數低，是否反應欲測量的特質低？

傳統的效度研究(三種角度)：技術層面的議題

內容效度(content validity)：最早用於教育領域中，為教師評量學生的學習成效

強調測驗內容是否具代表性，能反應出欲測量的東西
須能清楚明確的定義欲測量的內容包含哪些(specification of content domain)

是評估內容效度的關鍵依據

效標關聯效度(criterion-related validity)

後內容效度的概念延伸到商業及企業，目標為預期雇員的工作表現

預測效度的概念：測驗是否具有預測力，可預測雇員的工作表現

建構效度(construct validity)

1950年代之後，開始回歸測量的本質：其是否測驗是否反應欲測量的特質
某種程度涵蓋前面二類型的概念，因此部分學者主張建構效度可涵蓋其它效度概念(unifying/hypothesis testing)

效度研究的理想

涵蓋各效度研究指標，以取得更多的資訊
效度研究是持續不斷的過程

測驗編制的過程已經包含效度研究的意涵
文獻回顧與概念定義的過程中已經包含價值觀的選擇
效度研究其實與測驗的編制脫不了關係

效度測驗發展中的基礎特性

具有信度未必有效度
具有效度則信度不會太差

額外的效度議題

難道效度僅有技術層面的考慮嗎？ (測驗的應用應有其情境；但效度的技術只停留在真空靜止的計算)
非技術的議題：應用、道德、價值觀、世俗

五個效度研究的角度(測驗的使用必有其目的，而須考量使用的意義與優劣)

Samuel Messick提倡

建構效度的概念
測驗使用的後果(特別是潛在的負面影響)

測驗在情境中，因此測驗使用需考慮情境，不僅止於技術面的考量
測驗的使用必有其目的，使用者應衡量其目的是否達成(如欲篩檢閱讀能力不佳的孩子，以提供資源協助提升其能力；此目的為孩子是否得到需要的幫助，即有沒有後續的合適行為)

測驗編制有其目的；測驗使用亦有其目的

建構效度可涵蓋傳統三大類型，因此測驗解釋應充分解釋其不同面向的價值判斷

測驗是否能達成目的？
測驗有沒有後續的副作用與社會影響？

測驗使用性(test utility)：使用此測驗是否對病人有所幫助？

相關的研究較少，但是有其重要性(價值)
測驗的執行與否，是否對臨床決策、介入計畫擬定、治療成效有所影響？
習慣俗成的反思，考慮其必要性、重要性與意義
note：習慣性的不思考

內側內容
反應過程：並分僅看測驗分數，而是作答反應過程中的歷程

受到informative processing model的影響，也是建構效度的概念之一

內部結構：內部建構的結構關係
與其他變項的相關性：包含與其相關與不相關的變項之相關性

例如智力測驗與容貌無關，故相關性應低；與焦慮相關性高，故應高相關

測驗使用之後果
note：可提供上述面向之資訊，以提供測驗使用的狀況

note：MMPI二三事

臨床發展之人格測驗評估工具，其次量表命名可能駭人(精神科疾病相關名稱等)
研究指出特定次量表分數較高，可能與執法人員的合適性相關；而被利用到警員的篩選中

篩選員警素質的立意良善
是否可能造成其它副作用

施測與解釋者應為專業心理師
然而取得原始分數的人未必具有充分知識可以解讀
如若這些握有權力的人分享這些資訊，可能造成社會性的影響

是否有替代方案

有無對等的測驗可以使用？取得相似的結果？
替代測驗的量表名稱是否較為和善？不會有"政治"及"標籤"的爭議？
從此可見測驗有沒有非用不可，以及有沒有可取代性

內容效度(content validity)

又稱為抽樣效度(sampling validity)或者邏輯效度(logical validity)

抽樣效度：題目的抽樣。心理測驗為對行為樣本的收集，表其具有行為母群，並且從中抽取樣本；因此希望題目所選取的內如(行為)具有代表性。
邏輯效度：較少人使用，但是反應內容效度的建構方法。大多數內容效度仰賴專家的邏輯判斷，而非使用數據判斷支持，因而得名。

方法：需有明確描述說明，做為內容效度的判斷準則

定義概念內容
邀請專家參與

請專家評判題目與概念的相關性(適用單一面向)
請專家將題目分配到適當的定義向度中，包含不能歸屬的

詢問專家內容是否包含與歸因無關的要素(例如焦慮程度、與特定領域的熟悉程度等，影響答題的過程)

比較專家的判斷與原始設計是否相符

主要仰賴專家的判斷
可使用統計量，但相對少用

議題

反應測驗的刺激，而非作答反應之歷程

但可用其他效度的資料而補充之

須有具體明確定義方能使用之

尚且可由操作性定義彌補

忽略潛在更好的題目

內容效度之檢驗無法辨認潛在的更佳選項

表面效度(face validity)並非效度，其代表看起來測驗是否與欲測量的概念相關。主要評量者是測驗的受試者(能否接受並且了解題目)

效標關聯效度(Criterion-Related Validity)

測驗分數與其它效標的相關性

同時效度(concurrent validity)：評估工具與效標同時收案
預測效度(predictive validity)：評估工具測驗之後，效標在未來追蹤時收案
上述效度的選用，應與評估工具的應用相關

篩檢測驗與深入評估應以同時效度檢驗之
評估工具與功能性表現測驗應以預測效度檢驗之

效標：a criterion is a measure that test scores are used to predict or estimate

常見效標

學業測驗：智力測驗
訓練之表現：紙筆測驗表現、模擬機表現、實際飛行表現
實際表現
診斷：完整深入評估、其它評估工具
新測驗：原始測驗可作為效標

留言