2014.10.06 心理測驗(六) 度量化方法

測量

  • Stevens (1946)
    • 測量(measurement):依據法則而分派數字於物體或事件上
    • 類型:
      • 直接測量:多用於物理特質,使用正確工具方法,則施測者間結果一致性高
      • 間接測量:多用於潛在特質、建構,需有理論依據支持,故操作定義重要
歷史
  • 心理物理學測量:給予物理刺激,測量心理之感受
    • e.g. Weber's law, Fecher's law, Steven's power function
    • Signal detection theory (tanner & Swets, 1954):認知層面也影響感覺的測量
    • Thurstone's scaling(1927):未必要有物理刺激,也可測量心理感受
      • 在此之前使用的量尺多為單向度量尺,如Likert scale, Guttman scale等
    • Multimensional Scaling(Togerson, 1952; 1958年後)
評量工具編製的標準化過程
  • 確定研究範圍
    • e.g. QOL至少可分為生理、心理及社會三個向度
    • 這些向度可藉由文獻回顧、焦點團體、個案訪談或者專家會議等方式形成
  • 分析行為特質構成因素
  • 編製方法
    • 擬定分向表明稱(dimension)
        • e.g. 2:2:1,確認建構之間的題數關係
      • 施測方式
        • e.g. 電腦化問卷、電話訪談等
      • 題目型態(item format)
      • 度量化方法(Scaling)
        • e.g. Likert scale等計分方式
    • 編擬題目(或修改)
    • 審題
    • 預試
    • 題目分析(item analysis)
      • 質的分析
      • 量的分析
    • 選題
  • 信度研究
  • 效度研究
  • 其他研究
  • 交叉驗證
    • 找另外一批具有代表性的樣本,並比較二組代表性樣本的結果一致程度
  • 建立常模
  • 撰寫指導手冊
度量化方法(Scaling)
  • 概念
    • 類別資料 V.S連續資料
  • 單向度
    • 類別資料:Y/N, True/False等選項
      • 若適用於六點的問題,應用二點計分方式,如何?
        1. 每個人對於轉換的想法不同,如前三與後三,以及前二與後四
          note:選項數與信度的關係,在九點量尺之前為正相關,即量尺數量越多信度越高
          note2:五點量尺上升到可接受的水準;九點之後則不再增加,並且可能造成受試者的解讀困難與混淆
        2. Suissa(1991)比較二點與六點量尺欲達相同信度水平所需的樣本數,發現六點所需的樣本數為二點的67%(代表效率較佳)
    • 連續資料
      • Direct estimation techniques:普遍應用在各領域中
        • Visual analogue scales(VAS):視覺類比量尺,使用10cm的水平線,讓受試者從中標記出特質強烈的程度
          • 早期即發展,用於疼痛評估等功能
          • 頭尾語詞固定,可不需中間語詞
            note:有無中間語詞間具高相關,顯示有無差異不大
          • 具有年齡效應(age effect),不適用於年長者
            note:但是換成縱軸,則年長者可作答(與生活經驗相符)
          • 優點:簡單易用
          • 缺點:通常題數少,造成信度不佳
        • Adjectival scales:形容詞量尺
          • 可能是連續,或者是分點的量尺
        • Likert scale(1952) & Likert-typed scale
          • Likert scale:早期發展的量尺,用於同意度的測量,為橫軸連續方格之量尺
          • Likert-typed scale:型態類似李克量尺,可詢問其它如頻率、強度等
        • Semantic differential scale (Osgood et al. , 1957)
          • 7~9點量尺
          • 數組成對的形容詞(如好/壞、美/醜、痛/不痛等)
          • 已有發展完成之形容詞對,可參考手冊使用
        • Q&A
          • 幾點量尺為佳?
            • 常用5-7點量尺
            • 考量統計信度因素
            • 對年長者與小孩,量尺過多不利作答 =>二階段問法
          • 最大點數?
            • 7±2個集叢
            • 建議在5~9之間
          • 奇數或偶數點為佳?
            • 沒有一致答案
            • 依測量對象特質與議題而定(是否需有中間點)
          • 是否需有中間語詞?
            • 頭尾語詞最為重要
              note:非常同意/非常不同意, 極同意/極不同意的不同
              note2:避免使用時間副詞,易有個體解讀差異
            • 頭尾語詞與中間語詞相關性甚高(可有可無)
          • 數字排列造成的作答影響?
            • 線性轉換可能造成作答的差異
              note: (1,2,3,4,5) vs (-2,-1,0,1,2),前者所有數字均可能勾選,但後者則負數可能乏人問津(作答傾向)
          • 題目編排順序要正負交叉?
            • 實際上,應是正向題與反向題交叉排列
            • 作答者傾向固定的作答量尺(正負端固定),否則容易答錯
          • 是否能假定資料為interval data?特別是Likert data
            • 為求方便,大多假設資料具有等距性質
            • 為驗證其是否可假設為等距資料,故以描述統計(特別是偏態、峰度)以了解作答者的分配狀態
          • Likert scale的假設
            • 個體與他人的選擇可相互比較(我的2分=他人的2分)
            • 個體與自己的選擇可互相比較(第一題2分=第二題2分)
            • 等距假設(equal interval)
            • 無特殊反應傾向(no response set)
          • Likert scale的弊病
            • 特殊反應傾向:受試者在作答時有特殊作答傾向,如受試者不瞭解題目所問何物時,傾向選擇中間
            • 社會期許影響(social desirability):受試者可直接理解題目所問為何物,因此容易作假選擇符合社會期望的選項
        • 總結:
          • 優點:易於設計、無須大量樣本測試、易於瞭解
          • 缺點:作答反應傾向、社會期許影響等等
      • Comparative methods:已事先了解各題目背後的量尺分數,再讓受試者選擇符合特質的選項
        • Thurstone's method of equal-appearing interval:期望找到具有等距量尺特質的測驗題目
          • 程序
            1. 找人撰寫狀態描述i項
            2. 找受試者n人進行測驗,以1~11分評估之
            3. 分析n人進行此i項的結果,以中數(mdn)為集中趨勢指標,並以SIQO為離散趨勢指標
            4. 以所需題數,決定間隔大小,再依題庫單題的中數來選擇合適的題目
            5. 如中數相似,則以四分衛數判斷離散程度,選擇一致性較高的題目
            6. 最後將題目隨機排列,依受試者所選題目的中數作為其得分
        • Paired comparison techniques:配對比較法,一次給予成對的選擇,讓受試者選擇符合他的描述
          • 程序
            1. 給予成對的描述(如安撫VS打她)
            2. 以縱軸比橫軸的方式計算頻率百分比
            3. 再將頻率百分比換成Z分數(具有常態分配假設)
            4. 再將所有選項的Z分數加總平均
            5. 必要時。可線性轉換到最小值為0的分數
            6. 可藉由縣性的方式呈現不同選項之間的Z分數差(藉此轉變成等距量尺)
        • Guttman methods(Scalogram/Cumulative scale)
          • Likert scale雖宣稱單向度,但實際上總分相同但作答型態相反者,無法呈現其差異(一向度用以呈現差異)
          • Guttman則傾向找到一量尺,符合單向度(可用總分比較能力高低)
          • 程序
            1. 設計題目選項及收取資料
            2. 挪動資料以呈現三角對分(permutation)
            3. 如有不符合作三角對分型態的作答則稱為錯誤(error)
            4. 計算Coeff. of reproducibility=1- n/(I*N) > .9,以篩選題目
            5. 將剩餘資料的人與題目列於橫軸上,代表(人會他左手邊的題目,但不會右手邊的題目)
            6. 此狀況則可保障資料的單向度特質之ordinal scale
          • 特色
            1. 單向度測驗(確保同分者能力相當)
            2. 排序題目難度與受試者能力
            3. 適用於具有清楚程度差異階層概念的題目(如兒童發展的爬、站、走、跑);而不是用於主觀判斷的價值觀等
            4. 作為項目反應理論的基礎(IRT)
        • 總結:
          • 優點:有機會找到interval scale
          • 缺點:發展不易
      • Econometric methods:根源於經濟學,是分派數字到特定的狀態(如健康、生活品質)上之方法
        • Standard gamble (Von Meumann-Morgenstem, 1953):標準賭博法
          • 假定處於一個疾病狀態,而有一手術有p的機率致死(但成功則可康復),詢問受試者願意執行手術的機率切截分數為何?
          • 當取得受試者可接受的切截分數p後,則以1-p的方式代表其健康狀態
          • 然而可能受到教育程度影響,如不易理解機率,或者好賭成性者
        • Time trade-off (Torrance, 1972):時間交易法
          • 假定處於一個疾病狀態,且還剩下40年的壽命。受試者須回答其願意犧牲多少壽命以改善疾病狀態(康復)?
        • 總結:
          • 優點:經濟學的方法均可欲於病人及健康人身上
          • 缺點:需訓練訪員以完成評估、建立在「人是理性思考的」前提下(但實際上未必為真)、假定死亡是最差的狀況(不適合極端狀態者,如植物人或者生不如死者)
  • 多向度(multidimensional scaling, MDS)
    • 相似相異矩陣(similarity matrix):任何合理的方式取得,都可
    • 繪製座標圖:將各項目依相似相異矩陣繪製在二度空間的座標上。在此圖形中,點的關係靠近則表示關係靠近(反之亦然)
    • 藉由觀察這些項目的特質,以歸納出雙軸上的向度名稱
      note:只能使用二個?
    • 可用以協助設計測量問卷

留言

熱門文章