2014.11.20 心理測驗(十五) 效度Validity

Review
  • 結合分數差異的SEM必較單一變項的SEM為大
    • 換言之,其信度將隨之下降(與SEM為一體二面
    • SEM用來建構信賴區間,進而從差異分數是否超過信賴區間而判斷有無顯著差異
  • 符號區分
    • Corr(x,y)=rxy
    • Corr(Tx,Ty)=rTxTy
    • rxx:[
  • 相關弱化(correction for attenuation):任何二個分數之間的相關,會因為測量誤差而縮小
    • 概念:二變項之間的相關性,會因為測量誤差而被弱化
    • 校正:經過下列公式可取得較高的相關,此相關為假定沒有測量誤差的相關性
      • 適用於建構間的相關驗證
      • 不適用於評估工具的品質檢驗
        • e.g. 校標關聯效度:比較評估工具的測驗結果與黃金校標得測驗結果之相關性
    • Corr(Tx,Ty)=Corr(x,y)/(rxx*ryy)^(1/2)
      • Corr(x,y)=Corr(Tx,Ty)*(rxx*ryy)^(1/2)
        • rxy≦rTxTy
        • rxy≦(rxx*ryy)^(1/2)  換言之,其相關上限為"信度"
  • 效標參照測驗:以測驗分數判斷受試者是否符合測驗結果
    • 關注重點:測驗結果的分類
    • 信度檢驗:
      • 同意百分率(Percent aggrement, PA)
      • Cohen's Kappa (k):校正同意百分率,即扣除隨機評分的影響
效度(validity)
效度檢驗的時機:在測驗編製完成之後
效度的特色:不同於信度有明確數值,可作為指標判斷其意義;然而,並非每個效度研究都可以提供信度,而研究者須經過統整之後,解釋此數據的意義。[效度的研究五花八門,能自圓其說即可]

效度概念
  • 定義及議題
    • 定義:
      • :the extent to which a test measures what it claims to measure, as reflected in test scores"
      • "a test is valid to the extent that inferences made from it are appropriate, meaningful, and useful" 測驗所得的分數適當、有意義而且實用
      • "the degree to which evidence and theory support the interpretations of test scores entailed by proposed uses of tests"
    • 重點:測驗分數的意義為何? (測驗分數衍伸的推論與解釋是否恰當)
      • 測驗分數高,是否代表其欲測量的特質高? 
      • 測驗分數低,是否反應欲測量的特質低?
  • 傳統的效度研究(三種角度):技術層面的議題
    • 內容效度(content validity):最早用於教育領域中,為教師評量學生的學習成效
      • 強調測驗內容是否具代表性,能反應出欲測量的東西
      • 須能清楚明確的定義欲測量的內容包含哪些(specification of content domain)
        • 是評估內容效度的關鍵依據
    • 效標關聯效度(criterion-related validity)
      • 後內容效度的概念延伸到商業及企業,目標為預期雇員的工作表現
        • 預測效度的概念:測驗是否具有預測力,可預測雇員的工作表現
    • 建構效度(construct validity)
      • 1950年代之後,開始回歸測量的本質:其是否測驗是否反應欲測量的特質
      • 某種程度涵蓋前面二類型的概念,因此部分學者主張建構效度可涵蓋其它效度概念(unifying/hypothesis testing)
  • 效度研究的理想
    • 涵蓋各效度研究指標,以取得更多的資訊
    • 效度研究是持續不斷的過程
      • 測驗編制的過程已經包含效度研究的意涵
      • 文獻回顧與概念定義的過程中已經包含價值觀的選擇
      • 效度研究其實與測驗的編制脫不了關係
    • 效度測驗發展中的基礎特性
      • 具有信度未必有效度
      • 具有效度則信度不會太差
  • 額外的效度議題
    • 難道效度僅有技術層面的考慮嗎? (測驗的應用應有其情境;但效度的技術只停留在真空靜止的計算)
    • 非技術的議題:應用、道德、價值觀、世俗
  • 五個效度研究的角度(測驗的使用必有其目的,而須考量使用的意義與優劣)
    • Samuel Messick提倡
      • 建構效度的概念
      • 測驗使用的後果(特別是潛在的負面影響)
        • 測驗在情境中,因此測驗使用需考慮情境,不僅止於技術面的考量
        • 測驗的使用必有其目的,使用者應衡量其目的是否達成(如欲篩檢閱讀能力不佳的孩子,以提供資源協助提升其能力;此目的為孩子是否得到需要的幫助,即有沒有後續的合適行為)
          • 測驗編制有其目的;測驗使用亦有其目的
        • 建構效度可涵蓋傳統三大類型,因此測驗解釋應充分解釋其不同面向的價值判斷
          • 測驗是否能達成目的?
          • 測驗有沒有後續的副作用與社會影響?
        • 測驗使用性(test utility):使用此測驗是否對病人有所幫助?
          • 相關的研究較少,但是有其重要性(價值)
          • 測驗的執行與否,是否對臨床決策、介入計畫擬定、治療成效有所影響? 
          • 習慣俗成的反思,考慮其必要性、重要性與意義
            note:習慣性的不思考
    • 內側內容
    • 反應過程:並分僅看測驗分數,而是作答反應過程中的歷程
      • 受到informative processing model的影響,也是建構效度的概念之一
    • 內部結構:內部建構的結構關係
    • 與其他變項的相關性:包含與其相關與不相關的變項之相關性
      • 例如智力測驗與容貌無關,故相關性應低;與焦慮相關性高,故應高相關
    • 測驗使用之後果
      note:可提供上述面向之資訊,以提供測驗使用的狀況
note:MMPI二三事
  • 臨床發展之人格測驗評估工具,其次量表命名可能駭人(精神科疾病相關名稱等)
  • 研究指出特定次量表分數較高,可能與執法人員的合適性相關;而被利用到警員的篩選中
    • 篩選員警素質的立意良善
    • 是否可能造成其它副作用
      • 施測與解釋者應為專業心理師
      • 然而取得原始分數的人未必具有充分知識可以解讀
      • 如若這些握有權力的人分享這些資訊,可能造成社會性的影響
    • 是否有替代方案
      • 有無對等的測驗可以使用? 取得相似的結果?
      • 替代測驗的量表名稱是否較為和善? 不會有"政治"及"標籤"的爭議?
      • 從此可見測驗有沒有非用不可,以及有沒有可取代性
內容效度(content validity)
  • 又稱為抽樣效度(sampling validity)或者邏輯效度(logical validity)
    • 抽樣效度:題目的抽樣。心理測驗為對行為樣本的收集,表其具有行為母群,並且從中抽取樣本;因此希望題目所選取的內如(行為)具有代表性。
    • 邏輯效度:較少人使用,但是反應內容效度的建構方法。大多數內容效度仰賴專家的邏輯判斷,而非使用數據判斷支持,因而得名。
  • 方法:需有明確描述說明,做為內容效度的判斷準則
    • 定義概念內容
    • 邀請專家參與
      • 請專家評判題目與概念的相關性(適用單一面向)
      • 請專家將題目分配到適當的定義向度中,包含不能歸屬的
        • 詢問專家內容是否包含與歸因無關的要素(例如焦慮程度、與特定領域的熟悉程度等,影響答題的過程)
      • 比較專家的判斷與原始設計是否相符
        • 主要仰賴專家的判斷
        • 可使用統計量,但相對少用
  • 議題
    • 反應測驗的刺激,而非作答反應之歷程
      • 但可用其他效度的資料而補充之
    • 須有具體明確定義方能使用之
      • 尚且可由操作性定義彌補
    • 忽略潛在更好的題目
      • 內容效度之檢驗無法辨認潛在的更佳選項
    • 表面效度(face validity)並非效度,其代表看起來測驗是否與欲測量的概念相關。主要評量者是測驗的受試者(能否接受並且了解題目)
效標關聯效度(Criterion-Related Validity)
  • 測驗分數與其它效標的相關性
    • 同時效度(concurrent validity):評估工具與效標同時收案
    • 預測效度(predictive validity):評估工具測驗之後,效標在未來追蹤時收案
    • 上述效度的選用,應與評估工具的應用相關
      • 篩檢測驗與深入評估應以同時效度檢驗之
      • 評估工具與功能性表現測驗應以預測效度檢驗之
  • 效標:a criterion is a measure that test scores are used to predict or estimate
    • 常見效標
      • 學業測驗:智力測驗
      • 訓練之表現:紙筆測驗表現、模擬機表現、實際飛行表現
      • 實際表現
      • 診斷:完整深入評估、其它評估工具
      • 新測驗:原始測驗可作為效標



留言

熱門文章