2014.10.06 心理測驗(六) 度量化方法

2014.10.06 心理測驗(六) 度量化方法

測量

Stevens (1946)

測量(measurement)：依據法則而分派數字於物體或事件上
類型：

直接測量：多用於物理特質，使用正確工具方法，則施測者間結果一致性高
間接測量：多用於潛在特質、建構，需有理論依據支持，故操作定義重要

歷史

心理物理學測量：給予物理刺激，測量心理之感受

e.g. Weber's law, Fecher's law, Steven's power function
Signal detection theory (tanner & Swets, 1954)：認知層面也影響感覺的測量
Thurstone's scaling(1927)：未必要有物理刺激，也可測量心理感受

在此之前使用的量尺多為單向度量尺，如Likert scale, Guttman scale等

Multimensional Scaling(Togerson, 1952; 1958年後)

評量工具編製的標準化過程

確定研究範圍

e.g. QOL至少可分為生理、心理及社會三個向度
這些向度可藉由文獻回顧、焦點團體、個案訪談或者專家會議等方式形成

分析行為特質構成因素
編製方法

擬定分向表明稱(dimension)

e.g. 2:2:1，確認建構之間的題數關係

施測方式

e.g. 電腦化問卷、電話訪談等

題目型態(item format)
度量化方法(Scaling)

e.g. Likert scale等計分方式

編擬題目(或修改)
審題
預試
題目分析(item analysis)

質的分析
量的分析

選題

信度研究
效度研究
其他研究
交叉驗證

找另外一批具有代表性的樣本，並比較二組代表性樣本的結果一致程度

建立常模
撰寫指導手冊

度量化方法（Scaling)

概念

類別資料 V.S連續資料

單向度

類別資料：Y/N, True/False等選項

若適用於六點的問題，應用二點計分方式，如何？

每個人對於轉換的想法不同，如前三與後三，以及前二與後四
note：選項數與信度的關係，在九點量尺之前為正相關，即量尺數量越多信度越高
note2：五點量尺上升到可接受的水準；九點之後則不再增加，並且可能造成受試者的解讀困難與混淆
Suissa(1991)比較二點與六點量尺欲達相同信度水平所需的樣本數，發現六點所需的樣本數為二點的67%(代表效率較佳)

連續資料

Direct estimation techniques：普遍應用在各領域中

Visual analogue scales(VAS)：視覺類比量尺，使用10cm的水平線，讓受試者從中標記出特質強烈的程度

早期即發展，用於疼痛評估等功能
頭尾語詞固定，可不需中間語詞
note：有無中間語詞間具高相關，顯示有無差異不大
具有年齡效應(age effect)，不適用於年長者
note：但是換成縱軸，則年長者可作答(與生活經驗相符)
優點：簡單易用
缺點：通常題數少，造成信度不佳

Adjectival scales：形容詞量尺

可能是連續，或者是分點的量尺

Likert scale(1952) & Likert-typed scale

Likert scale：早期發展的量尺，用於同意度的測量，為橫軸連續方格之量尺
Likert-typed scale：型態類似李克量尺，可詢問其它如頻率、強度等

Semantic differential scale (Osgood et al. , 1957)

7~9點量尺
數組成對的形容詞(如好/壞、美/醜、痛/不痛等)
已有發展完成之形容詞對，可參考手冊使用

Q&A

幾點量尺為佳？

常用5-7點量尺
考量統計信度因素
對年長者與小孩，量尺過多不利作答 =>二階段問法

最大點數？

7±2個集叢
建議在5~9之間

奇數或偶數點為佳？

沒有一致答案
依測量對象特質與議題而定(是否需有中間點)

是否需有中間語詞？

頭尾語詞最為重要
note：非常同意/非常不同意, 極同意/極不同意的不同
note2：避免使用時間副詞，易有個體解讀差異
頭尾語詞與中間語詞相關性甚高(可有可無)

數字排列造成的作答影響？

線性轉換可能造成作答的差異
note： (1,2,3,4,5) vs (-2,-1,0,1,2)，前者所有數字均可能勾選，但後者則負數可能乏人問津(作答傾向)

題目編排順序要正負交叉？

實際上，應是正向題與反向題交叉排列
作答者傾向固定的作答量尺(正負端固定)，否則容易答錯

是否能假定資料為interval data？特別是Likert data

為求方便，大多假設資料具有等距性質
為驗證其是否可假設為等距資料，故以描述統計(特別是偏態、峰度)以了解作答者的分配狀態

Likert scale的假設

個體與他人的選擇可相互比較(我的2分=他人的2分)
個體與自己的選擇可互相比較(第一題2分=第二題2分)
等距假設(equal interval)
無特殊反應傾向(no response set)

Likert scale的弊病

特殊反應傾向：受試者在作答時有特殊作答傾向，如受試者不瞭解題目所問何物時，傾向選擇中間
社會期許影響(social desirability)：受試者可直接理解題目所問為何物，因此容易作假選擇符合社會期望的選項

總結：

優點：易於設計、無須大量樣本測試、易於瞭解
缺點：作答反應傾向、社會期許影響等等

Comparative methods：已事先了解各題目背後的量尺分數，再讓受試者選擇符合特質的選項

Thurstone's method of equal-appearing interval：期望找到具有等距量尺特質的測驗題目

程序

找人撰寫狀態描述i項
找受試者n人進行測驗，以1~11分評估之
分析n人進行此i項的結果，以中數(mdn)為集中趨勢指標，並以SIQO為離散趨勢指標
以所需題數，決定間隔大小，再依題庫單題的中數來選擇合適的題目
如中數相似，則以四分衛數判斷離散程度，選擇一致性較高的題目
最後將題目隨機排列，依受試者所選題目的中數作為其得分

Paired comparison techniques：配對比較法，一次給予成對的選擇，讓受試者選擇符合他的描述

程序

給予成對的描述(如安撫VS打她)
以縱軸比橫軸的方式計算頻率百分比
再將頻率百分比換成Z分數(具有常態分配假設)
再將所有選項的Z分數加總平均
必要時。可線性轉換到最小值為0的分數
可藉由縣性的方式呈現不同選項之間的Z分數差(藉此轉變成等距量尺)

Guttman methods(Scalogram/Cumulative scale)

Likert scale雖宣稱單向度，但實際上總分相同但作答型態相反者，無法呈現其差異(一向度用以呈現差異)
Guttman則傾向找到一量尺，符合單向度(可用總分比較能力高低)
程序

設計題目選項及收取資料
挪動資料以呈現三角對分(permutation)
如有不符合作三角對分型態的作答則稱為錯誤(error)
計算Coeff. of reproducibility=1- n/(I*N) > .9，以篩選題目
將剩餘資料的人與題目列於橫軸上，代表(人會他左手邊的題目，但不會右手邊的題目)
此狀況則可保障資料的單向度特質之ordinal scale

特色

單向度測驗(確保同分者能力相當)
排序題目難度與受試者能力
適用於具有清楚程度差異階層概念的題目(如兒童發展的爬、站、走、跑)；而不是用於主觀判斷的價值觀等
作為項目反應理論的基礎(IRT)

總結：

優點：有機會找到interval scale
缺點：發展不易

Econometric methods：根源於經濟學，是分派數字到特定的狀態(如健康、生活品質)上之方法

Standard gamble (Von Meumann-Morgenstem, 1953)：標準賭博法

假定處於一個疾病狀態，而有一手術有p的機率致死(但成功則可康復)，詢問受試者願意執行手術的機率切截分數為何？
當取得受試者可接受的切截分數p後，則以1-p的方式代表其健康狀態
然而可能受到教育程度影響，如不易理解機率，或者好賭成性者

Time trade-off (Torrance, 1972)：時間交易法

假定處於一個疾病狀態，且還剩下40年的壽命。受試者須回答其願意犧牲多少壽命以改善疾病狀態(康復)？

總結：

優點：經濟學的方法均可欲於病人及健康人身上
缺點：需訓練訪員以完成評估、建立在「人是理性思考的」前提下(但實際上未必為真)、假定死亡是最差的狀況(不適合極端狀態者，如植物人或者生不如死者)

多向度(multidimensional scaling, MDS)

相似相異矩陣(similarity matrix)：任何合理的方式取得，都可
繪製座標圖：將各項目依相似相異矩陣繪製在二度空間的座標上。在此圖形中，點的關係靠近則表示關係靠近(反之亦然)
藉由觀察這些項目的特質，以歸納出雙軸上的向度名稱
note：只能使用二個？
可用以協助設計測量問卷

留言