2014.11.06 心理測驗(十一) 常模參照測驗

2014.11.06 心理測驗(十一) 常模參照測驗

What's a NORM?

Norm:屬於常模樣本的人，其操作測驗之結果，用以解釋測驗結果。

標準化過程包含建立常模
Performance of (the distribution of scores from) a norm group on the test

Norm group: (Normative sample, Standardization sample): A representative sample of the population for whom the test is intended to use.

Why do we need norm?

用以協助解釋測驗結果(原始分數)

提供參照基準，讓施測者得以解釋測驗結果
因原始分數在沒有參照基準時，沒有意義

Norm is necessary? 未必需要

校標參照測驗：符合特定標準者即可通過，無須和他人比較之測驗，如駕照、執照。

國中基本學力測驗：測驗學生是否符合國中之基本學力，然而PR分法卻是使用常模參照之概念進行
學期意見調查：常模參照 or 校標參照？

maybe the ceiling or floor effect
maybe the criterion-referenced would be better

校標參照：看學生是否習得基本能力
常模參照：試探學生之最佳能力

故看待一個測驗，應：

充分思考測驗目的：判斷其適用於常模參照，或者校標參照
充分思考測驗之應用：判斷其應用過程中是否合宜

常模參照(NRT) & 校標參照(CRT)：依測驗目標而定

題目特性

校標參照：絕對特質，標準較為限縮嚴謹
常模參照：相對特質，標準較為廣闊寬鬆

難度

校標參照：題目難度較為集中，
期望區分特定能力範圍的受試者
常模參照：題目難度較為廣泛，並且較無鑑別度的要求

Criterion-Referenced Tests：判斷受試者是否具備特定能力

由Glaser (1963)提出

受試者可以做什麼？
受試者知道些什麼？

架構

測驗內容有哪些向度(curriculum)
設定通過之標準(cut-off scores)
＊小六英文能力測驗：

納入大學英文老師、小學英文老師、心理計量老師，並且分為三組(每組均有一名以上之大學英文老師、小學英文老師及心裡計量專家

大學英文老師：大多從理論分析英文結構、語句之難度(如umbrella是個困難的字)
小學英文老師：最接近教學現場，最熟悉教材(如umbrella是個簡單的字，因字母u的舉例即為umbrella)

均使用IRT分析之結果，並將結果分配給上述三組

Questions on CRT?

"to learn" OR "to be taught"

主動性與被動性的差別，重點在於"有無主動參與生活"

Construction of Norms

常模

常模有助於測驗解釋，但不是解釋唯一方式
蒐集具代表性之常模樣本，其測驗結果所形成之分配稱為常模

常模樣本

具有代表性(考慮不同抽樣方法，常用如分層隨機抽樣)
樣本數應充足(但沒有具體標準，因考量時間、人數、資源；但樣本數量太少會受到抽樣誤差影響)
時間差異(time of measurement)：比較測驗結果是否隨著時間改變

若不隨時間改變，則久遠的資料尚有可用性
若隨時間改變，則常模之更新有其重要性
理論上常模應不定期更新，但實務層面上有其難度
使用者應考量常模建立時間於當下使用的合適性

適用性(appropriateness)：使用者亦須考慮常模對照的合適性

如徵招特定專業之人才，但該能力有性別差異，故若為女性之高PR但仍未達錄取門檻，仍可能有其合理性：依循徵招規定及目的而定

Type of norm

線性轉換：轉換前後，原始分數與引導分數呈現線性相關

特色是保留原始的分配特性

標準化是一個線性轉換，因此具有偏態的資料轉換後仍具有偏態

非線性轉換：雖非線性相關，但具有方向性(即原本A>B，轉換後可接受a≧b，但不會出現a<b)

階梯式的轉換：分成數個categories，如原始分數1~3分轉換成A，4~6分轉換成B，像是級分數

百分等級(percentiles ranks)：有多少百分比率的常模樣本低於受試者的表現

極端百分等級

百分等級一百：比常模樣本所有人的分數都高
百分等級零：比常模樣本有所人的分數都低
極端百分等級會使用小數點表示，因其差異甚微

優點

容易計算
被廣泛使用，因其容易理解

相較於標準分數難以理解(Z=3.5代表？)

缺點

每個單位的意義不同
無法進行計算、比較 (50~59的區間，和90~99的區間差異甚大)

百分等級的不等距

在中間分數區域，能力些微變化會造成PR顯著改變(測量誤差影響

百分等級之計算：

PR(X)=((CF<X + fx/2)/N)*100，採用無條件捨去

CF表累進頻率
fx表人數

百分位數(percentiles)：實際上為一個分數，與百分位數具有對應關係。例如PR=76的百分位數為23分，代表得到23分意味著有76%的人低於這個分數。

標準分數

標準z分數：與平均數差異為標準差倍數的指標，通常介於±3之間，數值有正、負之差，並且可能有小數點
標準Z分數：將z分數進行線性轉換，以利讀者理解(避免負分)

將z分數乘以預期的標準差，並且加上一平均數，以利線性轉換
通常平均數≧5倍SD
T分數(平均數50,標準差10)

WAIS/SB (100,15)

WAIS之100分 = T分數之50分 (V)
WAIS之100分 ≠ PR50(因為不知道其實際分配狀態如何) (X)

Deviation IQ = standardized scores
Ration IQ = (MA/CA)* 100%
P.s) MA=mental age; 原為mental level，代表其測驗表現相當於幾歲的孩童。然此數據不易理解，因此將之除以生理年齡，因而得到商數關係。然而，由於年紀小的孩子智力商數變異數較大；年紀較大的孩子其標準差下降，因此造成相同的PR而有不同ration IQ之狀況。故現今的IQ大多使用deviation IQ，即標準分數IQ。

測驗分數之比較，必須考慮分配(因同為標準分數，其分配型態影響人數比率

常態化標準分數：藉由非線性轉換，將分數轉換為常態分配之特質，欲使看到標準分數即可得知其百分等級

常態分配之優勢：在知平均數與標準差的前提下(如70, 10)

易於了解得分與平均數的關係
易於了解推測其百分等級的關係(因常態分配有人數比例的關係)

計算方法

PR => z => Z：先算百分等級，將之轉換為百分等級所對應的標準常態分配之z分數，再將此z分數轉換成易於理解之標準Z分數
e.g) 原始分數40=PR92=1.41z=100+1.41*10=114.1Z

前提

樣本數量夠大
樣本需有代表性
不可過度偏離常態分配(mild non-normal)，且非測驗設計失誤所致(due to test defects)

此時理想做法為重新編寫題目
若僅有些許差距，不轉換影響亦不大；若有顯著差距而不能轉，則意義何在？

標準九(stanines)：將所有分數分為1~9個等級，發展於WWII，因打卡空間限制而發展之策略

具常態分配基礎，以0,5個標準差作為分配依據

平均數為5，標準差約為2的分配
應為非線性轉換，因累積到一定比例後才提升數值

僅能用於分配型態相同的狀況

留言