2014.11.27 心理測驗(十七) 效度validity
Preview
效度的三大類
效標關聯效度
- 依測驗與效標收案時間,可分為:
- 同時效度(concurrent validity):測驗與效標同時收案,表施測者重視測驗結果目前與效標之關聯。
- 預測效度(predictive validity):測驗與效標不同時收案,表施測者重視測驗結果與不同時間點之效標的關聯。
- 選擇同時效度 OR 預測效度?
- 依測驗目的而定
- 不同的收案方式,可提供不同意義的解釋。 以IQ及學業表現為例:
- 同時效度:IQ和受試者目前表現的相關
- 預測效度:IQ和受試者未來表現的相關
- 優劣比較: 沒有絕對完美的研究設計,因此應在討論中充分說明限制
- 同時收案
- 可在短時間內收集大量資料
- 測驗情境較為一致,減少時間造成的影響
- 測驗與效標之間可能互相影響、汙染
- 不同時收案
- 可預測測驗結果與受試者未來在效標之表現的關係
- 可能受到時間因素影響
- 個案可能隨時間流失
- 理想的效標
- 相關弱化:因測量誤差造成測驗之間的相關性下降之狀況。可以藉由校正公式取得較精確的相關係數。
- Corr(X,Y)≦Corr(Tx,Ty)
- Spearman-Brown formula可以校正相關弱化之影響,得到「二個沒有測量誤差的評估工具,其測驗分數之間的相關」
- 可用於理論或者概念間相關驗證之用
- 不適用於評估工具之心理計量特性驗證,因評估工具的測驗結果伴隨工具之測量誤差(若校正之,則會高估測驗分數之相關性)
- 不可能存在沒有誤差之評估工具,因此在現實方面的可用性不足
- 此公式可應用於其它方面,如:
- 折半信度之計算
- 估計特定信度指標所需之測驗長度
- 合適的效標:具充分理由說明效標和測驗工具欲測量之建構的關係。例如:
- IQ和學業成績表現是有意義的比較
- IQ和鼻毛長度是沒有意義的比較(除非找到證據支持他們可能有關)
- 避免效標汙染(criterion contamination)
- 效標分數與測驗分數具高度相關:如效標與測驗具有相同或者極度相似的題目,可能造成高估相關性的狀況。
- 測驗(或者效標)的評分結果會受到彼此影響之狀況:如以教授對學生之評語作為入學測驗分數之效標,則教授在給予評語之前不應看過學生之入學分數,以免造成教授主觀判斷上的影響(此為測驗影響效標之狀況)
- 反之,也存在效標影響測驗的可能性,故在研究設計上須格外小心
- 效標關聯效度係數(a criterion validity coefficient):通常使用相關統計
- 影響因素
- 樣本大小(sample size)
- 全距限制(restriction of range)
- 不穩定的測驗(unreliability of tests & criteria)
效度概化(validity generalization): evidence from meta-analysis
- 效度的檢驗方式與意義至今沒有統一的定論,只要能有充分理由說明即可
- 比較不同受試對象、測驗情境、樣本特性等等之效度差異,可用來判斷測驗之效度的穩定程度
效度解釋(interpretation of validity coefficients)
- 通常的研究難產生很高的相關性
- 太高的相關性(>0.9)又造成重複,即沒有區分的必要
- 目前效度指標的解讀大多依賴研究者的主觀判斷(以及充分的理由說明)
- 從決定係數(R-square)的角度切入: 效標的變異有多少百分比可被測驗所解釋
- R-square= Corr(Tx,Ty)*Corr(Tx,TY)
- 代表效標有多少比例的變異可被測驗的變異所解釋
- 然而不易獲得良好的結果,如
- 欲達成決定係數0.6,則至少需要有0.7~0.8以上的相關性,難度甚高
- 估計標準誤(standard error of estimate, SEest)
- SEest = SDy*(1-Corr(X,Y)^2)^(1/2)
- 用以描述估計的誤差程度
Talyor-Russell tables
- 增益效度(incremental validity):為測驗效度以及錄取人數的變化對於正確錄取率的影響,常用於人事篩選的測驗選擇中。
- 本圖x軸為測驗分數,y軸為效標分數,由此可見測驗與效標之關係為正相關。設定特定的效標分數為切截分數(cut-off),如受試者表現優於切截分數則屬於「良好」,低於切截分數則為「不良」,藉此可比較其正確錄取率(錄取人數與良好的比例關係)。
- 名詞解釋
- base rate (BR):代表不使用測驗工具時的正確錄取率,即錄取人數中被判定為良好的比率。
- selection ratio:代表該次人事選用的錄取比率,計算方式為錄取人數/總報名人數。
- hit rate(HR):正確錄取率,即為錄取人數中判定為良好的比率。
- 應用
- Talyor等人依不同的BR計算而製表,使用者可依照BR及selection ratio判斷是否使用篩選工具,或者使用哪一種篩選工具
- 基本概念為
- 測驗效度提升,則HR提升
- 錄取比率下降,則HR提升
- 應用考量:是否納入測驗作為人事篩選的門檻?
- 是否目前錄取的人品質確有不足?
- 目前的BR數值為何?
- BR很高也不需使用了,已經夠有效了
- 欲錄取的人數百分比為多少?
- 通通錄取就別用了,正確率不會提升
- 哪一個工具可以有較高的提升率?
Tradeoff between criterion-related validity & internal consistency reliability
- 我們通常希望測驗的內在一致性越高越好
- 一份測驗如具有良好的內在一致性係數(例如alpha),則可以代表題目與其它題目和總分之間具有高相關。
- 但是內在一致性係數高則會影響測驗與效標間的相關性
- 如以回歸的角度解釋,並且將同一份測驗中的二個題目視為不同變項,則:
- 內在一致性係數高=二個變項之間的相關性高
- 回歸中,二個變項之相關性高則產生共線性問題,進而造成回歸的解釋不甚穩定
- 又或者可以訊息量不足以至於無法得到有效的資訊
建構效度:利用測驗分數對概念的推測是否合適?
- 建構效度的驗證目前沒有標準SOP,因此以研究者主觀解釋為主
- 並非所有的評估工具都需要因素分析,而看研究目的與測驗性質決定最佳的分析方法
- 建構:理論上的概念或者特質,通常無法直接測量,需透過系列代表性行為間接測量。例如IQ即唯一個建構的例子,又如紅色也是一種概念,但是可以直接觀察的建構(少數例子)
- 驗證方法:建構效度驗證方法可分為二個方向
- 相關法:與公認黃金效標之間的關係
- 理論檢驗:檢驗該建構是否如理論所描述的關係群。
- 例如IQ應與學業表現相關,但不與身高體重相關,則測量IQ的結果亦應呈現類似的關係
- 重要關鍵:
- 建構為何?
- 與其它建構相關?
留言
張貼留言