2014.11.27 心理測驗(十七) 效度validity

2014.11.27 心理測驗(十七) 效度validity

Preview

效度的三大類

內容效度(content validity)
建構效度(construct validity)
效標關聯效度(criterion validity)

效標關聯效度

依測驗與效標收案時間，可分為：

同時效度(concurrent validity)：測驗與效標同時收案，表施測者重視測驗結果目前與效標之關聯。
預測效度(predictive validity)：測驗與效標不同時收案，表施測者重視測驗結果與不同時間點之效標的關聯。

選擇同時效度 OR 預測效度？

依測驗目的而定
不同的收案方式，可提供不同意義的解釋。以IQ及學業表現為例：

同時效度：IQ和受試者目前表現的相關
預測效度：IQ和受試者未來表現的相關

優劣比較：沒有絕對完美的研究設計，因此應在討論中充分說明限制

同時收案

可在短時間內收集大量資料
測驗情境較為一致，減少時間造成的影響
測驗與效標之間可能互相影響、汙染

不同時收案

可預測測驗結果與受試者未來在效標之表現的關係
可能受到時間因素影響
個案可能隨時間流失

理想的效標

相關弱化：因測量誤差造成測驗之間的相關性下降之狀況。可以藉由校正公式取得較精確的相關係數。

Corr(X,Y)≦Corr(Tx,Ty)
Spearman-Brown formula可以校正相關弱化之影響，得到「二個沒有測量誤差的評估工具，其測驗分數之間的相關」

可用於理論或者概念間相關驗證之用
不適用於評估工具之心理計量特性驗證，因評估工具的測驗結果伴隨工具之測量誤差(若校正之，則會高估測驗分數之相關性)
不可能存在沒有誤差之評估工具，因此在現實方面的可用性不足
此公式可應用於其它方面，如：

折半信度之計算
估計特定信度指標所需之測驗長度

合適的效標：具充分理由說明效標和測驗工具欲測量之建構的關係。例如：

IQ和學業成績表現是有意義的比較
IQ和鼻毛長度是沒有意義的比較(除非找到證據支持他們可能有關)

避免效標汙染(criterion contamination)

效標分數與測驗分數具高度相關：如效標與測驗具有相同或者極度相似的題目，可能造成高估相關性的狀況。
測驗(或者效標)的評分結果會受到彼此影響之狀況：如以教授對學生之評語作為入學測驗分數之效標，則教授在給予評語之前不應看過學生之入學分數，以免造成教授主觀判斷上的影響(此為測驗影響效標之狀況)

反之，也存在效標影響測驗的可能性，故在研究設計上須格外小心

效標關聯效度係數(a criterion validity coefficient)：通常使用相關統計

影響因素

樣本大小(sample size)
全距限制(restriction of range)
不穩定的測驗(unreliability of tests & criteria)

效度概化(validity generalization)： evidence from meta-analysis

效度的檢驗方式與意義至今沒有統一的定論，只要能有充分理由說明即可
比較不同受試對象、測驗情境、樣本特性等等之效度差異，可用來判斷測驗之效度的穩定程度

效度解釋(interpretation of validity coefficients)

通常的研究難產生很高的相關性

太高的相關性(＞0.9)又造成重複，即沒有區分的必要

目前效度指標的解讀大多依賴研究者的主觀判斷(以及充分的理由說明)
從決定係數(R-square)的角度切入：效標的變異有多少百分比可被測驗所解釋

R-square= Corr(Tx,Ty)*Corr(Tx,TY)

代表效標有多少比例的變異可被測驗的變異所解釋

然而不易獲得良好的結果，如

欲達成決定係數0.6，則至少需要有0.7~0.8以上的相關性，難度甚高

估計標準誤(standard error of estimate, SEest)

SEest = SDy*(1-Corr(X,Y)^2)^(1/2)
用以描述估計的誤差程度

Talyor-Russell tables

增益效度(incremental validity)：為測驗效度以及錄取人數的變化對於正確錄取率的影響，常用於人事篩選的測驗選擇中。

本圖x軸為測驗分數，y軸為效標分數，由此可見測驗與效標之關係為正相關。設定特定的效標分數為切截分數(cut-off)，如受試者表現優於切截分數則屬於「良好」，低於切截分數則為「不良」，藉此可比較其正確錄取率(錄取人數與良好的比例關係)。

名詞解釋

base rate (BR)：代表不使用測驗工具時的正確錄取率，即錄取人數中被判定為良好的比率。
selection ratio：代表該次人事選用的錄取比率，計算方式為錄取人數/總報名人數。
hit rate(HR)：正確錄取率，即為錄取人數中判定為良好的比率。

應用

Talyor等人依不同的BR計算而製表，使用者可依照BR及selection ratio判斷是否使用篩選工具，或者使用哪一種篩選工具
基本概念為

測驗效度提升，則HR提升
錄取比率下降，則HR提升

應用考量：是否納入測驗作為人事篩選的門檻？

是否目前錄取的人品質確有不足？
目前的BR數值為何？

BR很高也不需使用了，已經夠有效了

欲錄取的人數百分比為多少？

通通錄取就別用了，正確率不會提升

哪一個工具可以有較高的提升率？

Tradeoff between criterion-related validity & internal consistency reliability

我們通常希望測驗的內在一致性越高越好

一份測驗如具有良好的內在一致性係數(例如alpha)，則可以代表題目與其它題目和總分之間具有高相關。

但是內在一致性係數高則會影響測驗與效標間的相關性

如以回歸的角度解釋，並且將同一份測驗中的二個題目視為不同變項，則：

內在一致性係數高=二個變項之間的相關性高
回歸中，二個變項之相關性高則產生共線性問題，進而造成回歸的解釋不甚穩定

又或者可以訊息量不足以至於無法得到有效的資訊

建構效度：利用測驗分數對概念的推測是否合適？

建構效度的驗證目前沒有標準SOP，因此以研究者主觀解釋為主

並非所有的評估工具都需要因素分析，而看研究目的與測驗性質決定最佳的分析方法

建構：理論上的概念或者特質，通常無法直接測量，需透過系列代表性行為間接測量。例如IQ即唯一個建構的例子，又如紅色也是一種概念，但是可以直接觀察的建構(少數例子)
驗證方法：建構效度驗證方法可分為二個方向

相關法：與公認黃金效標之間的關係
理論檢驗：檢驗該建構是否如理論所描述的關係群。

例如IQ應與學業表現相關，但不與身高體重相關，則測量IQ的結果亦應呈現類似的關係

重要關鍵：

建構為何？
與其它建構相關？

留言