2014.11.27 心理測驗(十七) 效度validity

Preview


效度的三大類
  • 內容效度(content validity)
  • 建構效度(construct validity)
  • 效標關聯效度(criterion validity)

效標關聯效度
  • 依測驗與效標收案時間,可分為:
    • 同時效度(concurrent validity):測驗與效標同時收案,表施測者重視測驗結果目前與效標之關聯。
    • 預測效度(predictive validity):測驗與效標不同時收案,表施測者重視測驗結果與不同時間點之效標的關聯。
  • 選擇同時效度 OR 預測效度? 
    • 依測驗目的而定
    • 不同的收案方式,可提供不同意義的解釋。 以IQ及學業表現為例:
      • 同時效度:IQ和受試者目前表現的相關
      • 預測效度:IQ和受試者未來表現的相關
  • 優劣比較: 沒有絕對完美的研究設計,因此應在討論中充分說明限制
    • 同時收案
      • 可在短時間內收集大量資料
      • 測驗情境較為一致,減少時間造成的影響
      • 測驗與效標之間可能互相影響、汙染
    • 不同時收案
      • 可預測測驗結果與受試者未來在效標之表現的關係
      • 可能受到時間因素影響
      • 個案可能隨時間流失
  • 理想的效標
    • 相關弱化:因測量誤差造成測驗之間的相關性下降之狀況。可以藉由校正公式取得較精確的相關係數。
      • Corr(X,Y)≦Corr(Tx,Ty)
      • Spearman-Brown formula可以校正相關弱化之影響,得到「二個沒有測量誤差的評估工具,其測驗分數之間的相關」
        • 可用於理論或者概念間相關驗證之用
        • 不適用於評估工具之心理計量特性驗證,因評估工具的測驗結果伴隨工具之測量誤差(若校正之,則會高估測驗分數之相關性)
        • 不可能存在沒有誤差之評估工具,因此在現實方面的可用性不足
        • 此公式可應用於其它方面,如:
          • 折半信度之計算
          • 估計特定信度指標所需之測驗長度
    • 合適的效標:具充分理由說明效標和測驗工具欲測量之建構的關係。例如:
      • IQ和學業成績表現是有意義的比較
      • IQ和鼻毛長度是沒有意義的比較(除非找到證據支持他們可能有關)
    • 避免效標汙染(criterion contamination)
      1. 效標分數與測驗分數具高度相關:如效標與測驗具有相同或者極度相似的題目,可能造成高估相關性的狀況。
      2. 測驗(或者效標)的評分結果會受到彼此影響之狀況:如以教授對學生之評語作為入學測驗分數之效標,則教授在給予評語之前不應看過學生之入學分數,以免造成教授主觀判斷上的影響(此為測驗影響效標之狀況)
        • 反之,也存在效標影響測驗的可能性,故在研究設計上須格外小心
  • 效標關聯效度係數(a criterion validity coefficient):通常使用相關統計
    • 影響因素
      • 樣本大小(sample size)
      • 全距限制(restriction of range)
      • 不穩定的測驗(unreliability of tests & criteria)
效度概化(validity generalization): evidence from meta-analysis
  • 效度的檢驗方式與意義至今沒有統一的定論,只要能有充分理由說明即可
  • 比較不同受試對象、測驗情境、樣本特性等等之效度差異,可用來判斷測驗之效度的穩定程度
效度解釋(interpretation of validity coefficients)
  • 通常的研究難產生很高的相關性
    • 太高的相關性(>0.9)又造成重複,即沒有區分的必要
  • 目前效度指標的解讀大多依賴研究者的主觀判斷(以及充分的理由說明)
  • 從決定係數(R-square)的角度切入:  效標的變異有多少百分比可被測驗所解釋
    • R-square= Corr(Tx,Ty)*Corr(Tx,TY)
      • 代表效標有多少比例的變異可被測驗的變異所解釋
    • 然而不易獲得良好的結果,如
      • 欲達成決定係數0.6,則至少需要有0.7~0.8以上的相關性,難度甚高
  • 估計標準誤(standard error of estimate, SEest)
    • SEest = SDy*(1-Corr(X,Y)^2)^(1/2)
    • 用以描述估計的誤差程度
Talyor-Russell tables
  • 增益效度(incremental validity):為測驗效度以及錄取人數的變化對於正確錄取率的影響,常用於人事篩選的測驗選擇中。
    • 本圖x軸為測驗分數,y軸為效標分數,由此可見測驗與效標之關係為正相關。設定特定的效標分數為切截分數(cut-off),如受試者表現優於切截分數則屬於「良好」,低於切截分數則為「不良」,藉此可比較其正確錄取率(錄取人數與良好的比例關係)。
  • 名詞解釋
    • base rate (BR):代表不使用測驗工具時的正確錄取率,即錄取人數中被判定為良好的比率。
    • selection ratio:代表該次人事選用的錄取比率,計算方式為錄取人數/總報名人數。
    • hit rate(HR):正確錄取率,即為錄取人數中判定為良好的比率。
  • 應用
    • Talyor等人依不同的BR計算而製表,使用者可依照BR及selection ratio判斷是否使用篩選工具,或者使用哪一種篩選工具
    • 基本概念為
      • 測驗效度提升,則HR提升
      • 錄取比率下降,則HR提升
  • 應用考量:是否納入測驗作為人事篩選的門檻?
    • 是否目前錄取的人品質確有不足?
    • 目前的BR數值為何?
      • BR很高也不需使用了,已經夠有效了
    • 欲錄取的人數百分比為多少?
      • 通通錄取就別用了,正確率不會提升
    • 哪一個工具可以有較高的提升率?
Tradeoff between criterion-related validity & internal consistency reliability
  • 我們通常希望測驗的內在一致性越高越好
    • 一份測驗如具有良好的內在一致性係數(例如alpha),則可以代表題目與其它題目和總分之間具有高相關。
  • 但是內在一致性係數高則會影響測驗與效標間的相關性
    • 如以回歸的角度解釋,並且將同一份測驗中的二個題目視為不同變項,則:
      • 內在一致性係數高=二個變項之間的相關性高
      • 回歸中,二個變項之相關性高則產生共線性問題,進而造成回歸的解釋不甚穩定
        • 又或者可以訊息量不足以至於無法得到有效的資訊
建構效度:利用測驗分數對概念的推測是否合適?
  • 建構效度的驗證目前沒有標準SOP,因此以研究者主觀解釋為主
    • 並非所有的評估工具都需要因素分析,而看研究目的與測驗性質決定最佳的分析方法
  • 建構:理論上的概念或者特質,通常無法直接測量,需透過系列代表性行為間接測量。例如IQ即唯一個建構的例子,又如紅色也是一種概念,但是可以直接觀察的建構(少數例子)
  • 驗證方法:建構效度驗證方法可分為二個方向
    • 相關法:與公認黃金效標之間的關係
    • 理論檢驗:檢驗該建構是否如理論所描述的關係群。
      • 例如IQ應與學業表現相關,但不與身高體重相關,則測量IQ的結果亦應呈現類似的關係
  • 重要關鍵:
    • 建構為何?
    • 與其它建構相關?




留言

熱門文章