2014.10.06 心理測驗(六) 度量化方法
測量
- Stevens (1946)
- 測量(measurement):依據法則而分派數字於物體或事件上
- 類型:
- 直接測量:多用於物理特質,使用正確工具方法,則施測者間結果一致性高
- 間接測量:多用於潛在特質、建構,需有理論依據支持,故操作定義重要
歷史
- 心理物理學測量:給予物理刺激,測量心理之感受
評量工具編製的標準化過程
- 確定研究範圍
- e.g. QOL至少可分為生理、心理及社會三個向度
- 這些向度可藉由文獻回顧、焦點團體、個案訪談或者專家會議等方式形成
- 分析行為特質構成因素
- 編製方法
- 擬定分向表明稱(dimension)
- e.g. 2:2:1,確認建構之間的題數關係
- 施測方式
- e.g. 電腦化問卷、電話訪談等
- 題目型態(item format)
- 度量化方法(Scaling)
- e.g. Likert scale等計分方式
- 編擬題目(或修改)
- 審題
- 預試
- 題目分析(item analysis)
- 質的分析
- 量的分析
- 選題
- 信度研究
- 效度研究
- 其他研究
- 交叉驗證
- 找另外一批具有代表性的樣本,並比較二組代表性樣本的結果一致程度
- 建立常模
- 撰寫指導手冊
度量化方法(Scaling)
- 概念
- 類別資料 V.S連續資料
- 單向度
- 類別資料:Y/N, True/False等選項
- 若適用於六點的問題,應用二點計分方式,如何?
- 每個人對於轉換的想法不同,如前三與後三,以及前二與後四
note:選項數與信度的關係,在九點量尺之前為正相關,即量尺數量越多信度越高
note2:五點量尺上升到可接受的水準;九點之後則不再增加,並且可能造成受試者的解讀困難與混淆 - Suissa(1991)比較二點與六點量尺欲達相同信度水平所需的樣本數,發現六點所需的樣本數為二點的67%(代表效率較佳)
- 連續資料
- Direct estimation techniques:普遍應用在各領域中
- Visual analogue scales(VAS):視覺類比量尺,使用10cm的水平線,讓受試者從中標記出特質強烈的程度
- 早期即發展,用於疼痛評估等功能
- 頭尾語詞固定,可不需中間語詞
note:有無中間語詞間具高相關,顯示有無差異不大 - 具有年齡效應(age effect),不適用於年長者
note:但是換成縱軸,則年長者可作答(與生活經驗相符) - 優點:簡單易用
- 缺點:通常題數少,造成信度不佳
- Adjectival scales:形容詞量尺
- 可能是連續,或者是分點的量尺
- Likert scale(1952) & Likert-typed scale
- Likert scale:早期發展的量尺,用於同意度的測量,為橫軸連續方格之量尺
- Likert-typed scale:型態類似李克量尺,可詢問其它如頻率、強度等
- Semantic differential scale (Osgood et al. , 1957)
- 7~9點量尺
- 數組成對的形容詞(如好/壞、美/醜、痛/不痛等)
- 已有發展完成之形容詞對,可參考手冊使用
- Q&A
- 幾點量尺為佳?
- 常用5-7點量尺
- 考量統計信度因素
- 對年長者與小孩,量尺過多不利作答 =>二階段問法
- 最大點數?
- 7±2個集叢
- 建議在5~9之間
- 奇數或偶數點為佳?
- 沒有一致答案
- 依測量對象特質與議題而定(是否需有中間點)
- 是否需有中間語詞?
- 頭尾語詞最為重要
note:非常同意/非常不同意, 極同意/極不同意的不同
note2:避免使用時間副詞,易有個體解讀差異 - 頭尾語詞與中間語詞相關性甚高(可有可無)
- 數字排列造成的作答影響?
- 線性轉換可能造成作答的差異
note: (1,2,3,4,5) vs (-2,-1,0,1,2),前者所有數字均可能勾選,但後者則負數可能乏人問津(作答傾向) - 題目編排順序要正負交叉?
- 實際上,應是正向題與反向題交叉排列
- 作答者傾向固定的作答量尺(正負端固定),否則容易答錯
- 是否能假定資料為interval data?特別是Likert data
- 為求方便,大多假設資料具有等距性質
- 為驗證其是否可假設為等距資料,故以描述統計(特別是偏態、峰度)以了解作答者的分配狀態
- Likert scale的假設
- 個體與他人的選擇可相互比較(我的2分=他人的2分)
- 個體與自己的選擇可互相比較(第一題2分=第二題2分)
- 等距假設(equal interval)
- 無特殊反應傾向(no response set)
- Likert scale的弊病
- 特殊反應傾向:受試者在作答時有特殊作答傾向,如受試者不瞭解題目所問何物時,傾向選擇中間
- 社會期許影響(social desirability):受試者可直接理解題目所問為何物,因此容易作假選擇符合社會期望的選項
- 總結:
- 優點:易於設計、無須大量樣本測試、易於瞭解
- 缺點:作答反應傾向、社會期許影響等等
- Comparative methods:已事先了解各題目背後的量尺分數,再讓受試者選擇符合特質的選項
- Thurstone's method of equal-appearing interval:期望找到具有等距量尺特質的測驗題目
- 程序
- 找人撰寫狀態描述i項
- 找受試者n人進行測驗,以1~11分評估之
- 分析n人進行此i項的結果,以中數(mdn)為集中趨勢指標,並以SIQO為離散趨勢指標
- 以所需題數,決定間隔大小,再依題庫單題的中數來選擇合適的題目
- 如中數相似,則以四分衛數判斷離散程度,選擇一致性較高的題目
- 最後將題目隨機排列,依受試者所選題目的中數作為其得分
- Paired comparison techniques:配對比較法,一次給予成對的選擇,讓受試者選擇符合他的描述
- 程序
- 給予成對的描述(如安撫VS打她)
- 以縱軸比橫軸的方式計算頻率百分比
- 再將頻率百分比換成Z分數(具有常態分配假設)
- 再將所有選項的Z分數加總平均
- 必要時。可線性轉換到最小值為0的分數
- 可藉由縣性的方式呈現不同選項之間的Z分數差(藉此轉變成等距量尺)
- Guttman methods(Scalogram/Cumulative scale)
- Likert scale雖宣稱單向度,但實際上總分相同但作答型態相反者,無法呈現其差異(一向度用以呈現差異)
- Guttman則傾向找到一量尺,符合單向度(可用總分比較能力高低)
- 程序
- 設計題目選項及收取資料
- 挪動資料以呈現三角對分(permutation)
- 如有不符合作三角對分型態的作答則稱為錯誤(error)
- 計算Coeff. of reproducibility=1- n/(I*N) > .9,以篩選題目
- 將剩餘資料的人與題目列於橫軸上,代表(人會他左手邊的題目,但不會右手邊的題目)
- 此狀況則可保障資料的單向度特質之ordinal scale
- 特色
- 單向度測驗(確保同分者能力相當)
- 排序題目難度與受試者能力
- 適用於具有清楚程度差異階層概念的題目(如兒童發展的爬、站、走、跑);而不是用於主觀判斷的價值觀等
- 作為項目反應理論的基礎(IRT)
- 總結:
- 優點:有機會找到interval scale
- 缺點:發展不易
- Econometric methods:根源於經濟學,是分派數字到特定的狀態(如健康、生活品質)上之方法
- Standard gamble (Von Meumann-Morgenstem, 1953):標準賭博法
- 假定處於一個疾病狀態,而有一手術有p的機率致死(但成功則可康復),詢問受試者願意執行手術的機率切截分數為何?
- 當取得受試者可接受的切截分數p後,則以1-p的方式代表其健康狀態
- 然而可能受到教育程度影響,如不易理解機率,或者好賭成性者
- Time trade-off (Torrance, 1972):時間交易法
- 假定處於一個疾病狀態,且還剩下40年的壽命。受試者須回答其願意犧牲多少壽命以改善疾病狀態(康復)?
- 總結:
- 優點:經濟學的方法均可欲於病人及健康人身上
- 缺點:需訓練訪員以完成評估、建立在「人是理性思考的」前提下(但實際上未必為真)、假定死亡是最差的狀況(不適合極端狀態者,如植物人或者生不如死者)
- 多向度(multidimensional scaling, MDS)
- 相似相異矩陣(similarity matrix):任何合理的方式取得,都可
- 繪製座標圖:將各項目依相似相異矩陣繪製在二度空間的座標上。在此圖形中,點的關係靠近則表示關係靠近(反之亦然)
- 藉由觀察這些項目的特質,以歸納出雙軸上的向度名稱
note:只能使用二個? - 可用以協助設計測量問卷
留言
張貼留言