2014.11.06 心理測驗(十一) 常模參照測驗

What's a NORM?
  • Norm:屬於常模樣本的人,其操作測驗之結果,用以解釋測驗結果。
    • 標準化過程包含建立常模
    • Performance of (the distribution of scores from) a norm group on the test
  • Norm group: (Normative sample, Standardization sample): A representative sample of the population for whom the test is intended to use.
Why do we need norm?
  • 用以協助解釋測驗結果(原始分數)
    • 提供參照基準,讓施測者得以解釋測驗結果
    • 因原始分數在沒有參照基準時,沒有意義
Norm is necessary?  未必需要
  • 校標參照測驗:符合特定標準者即可通過,無須和他人比較之測驗,如駕照、執照。
    • 國中基本學力測驗:測驗學生是否符合國中之基本學力,然而PR分法卻是使用常模參照之概念進行
    • 學期意見調查:常模參照 or 校標參照?
      • maybe the ceiling or floor effect
      • maybe the criterion-referenced would be better 
        • 校標參照:看學生是否習得基本能力
        • 常模參照:試探學生之最佳能力
  • 故看待一個測驗,應:
    • 充分思考測驗目的:判斷其適用於常模參照,或者校標參照
    • 充分思考測驗之應用:判斷其應用過程中是否合宜
常模參照(NRT) & 校標參照(CRT): 依測驗目標而定
  • 題目特性
    • 校標參照:絕對特質,標準較為限縮嚴謹
    • 常模參照:相對特質,標準較為廣闊寬鬆
  • 難度
    • 校標參照:題目難度較為集中,
    • 期望區分特定能力範圍的受試者
    • 常模參照:題目難度較為廣泛,並且較無鑑別度的要求
Criterion-Referenced Tests:判斷受試者是否具備特定能力
  • 由Glaser (1963)提出
    • 受試者可以做什麼?
    • 受試者知道些什麼?
  • 架構
    • 測驗內容有哪些向度(curriculum)
    • 設定通過之標準(cut-off scores)
      *小六英文能力測驗:
      • 納入大學英文老師、小學英文老師、心理計量老師,並且分為三組(每組均有一名以上之大學英文老師、小學英文老師及心裡計量專家
        • 大學英文老師:大多從理論分析英文結構、語句之難度(如umbrella是個困難的字)
        • 小學英文老師:最接近教學現場,最熟悉教材(如umbrella是個簡單的字,因字母u的舉例即為umbrella)
      • 均使用IRT分析之結果,並將結果分配給上述三組
  • Questions on CRT?
    • "to learn" OR "to be taught"
      • 主動性與被動性的差別,重點在於"有無主動參與生活"
Construction of Norms
  • 常模 
    • 常模有助於測驗解釋,但不是解釋唯一方式
    • 蒐集具代表性之常模樣本,其測驗結果所形成之分配稱為常模
  • 常模樣本
    • 具有代表性(考慮不同抽樣方法,常用如分層隨機抽樣)
    • 樣本數應充足(但沒有具體標準,因考量時間、人數、資源;但樣本數量太少會受到抽樣誤差影響)
    • 時間差異(time of measurement):比較測驗結果是否隨著時間改變
      • 若不隨時間改變,則久遠的資料尚有可用性
      • 若隨時間改變,則常模之更新有其重要性
      • 理論上常模應不定期更新,但實務層面上有其難度
      • 使用者應考量常模建立時間於當下使用的合適性
    • 適用性(appropriateness):使用者亦須考慮常模對照的合適性
      • 如徵招特定專業之人才,但該能力有性別差異,故若為女性之高PR但仍未達錄取門檻,仍可能有其合理性:依循徵招規定及目的而定
Type of norm
  • 線性轉換:轉換前後,原始分數與引導分數呈現線性相關
    • 特色是保留原始的分配特性
      • 標準化是一個線性轉換,因此具有偏態的資料轉換後仍具有偏態
  • 非線性轉換:雖非線性相關,但具有方向性(即原本A>B,轉換後可接受a≧b,但不會出現a<b)
    • 階梯式的轉換:分成數個categories,如原始分數1~3分轉換成A,4~6分轉換成B,像是級分數
  • 百分等級(percentiles ranks):有多少百分比率的常模樣本低於受試者的表現
    • 極端百分等級
      • 百分等級一百:比常模樣本所有人的分數都高
      • 百分等級零:比常模樣本有所人的分數都低
      • 極端百分等級會使用小數點表示,因其差異甚微
    • 優點
      • 容易計算
      • 被廣泛使用,因其容易理解
        • 相較於標準分數難以理解(Z=3.5代表?)
    • 缺點
      • 每個單位的意義不同
      • 無法進行計算、比較 (50~59的區間,和90~99的區間差異甚大)
    • 百分等級的不等距
      • 在中間分數區域,能力些微變化會造成PR顯著改變(測量誤差影響
    • 百分等級之計算:
      • PR(X)=((CF<X + fx/2)/N)*100,採用無條件捨去
        • CF表累進頻率
        • fx表人數
    • 百分位數(percentiles):實際上為一個分數,與百分位數具有對應關係。例如PR=76的百分位數為23分,代表得到23分意味著有76%的人低於這個分數。

標準分數
  • 標準z分數:與平均數差異為標準差倍數的指標,通常介於±3之間,數值有正、負之差,並且可能有小數點
  • 標準Z分數:將z分數進行線性轉換,以利讀者理解(避免負分)
    • 將z分數乘以預期的標準差,並且加上一平均數,以利線性轉換
    • 通常平均數≧5倍SD
    • T分數(平均數50,標準差10)
      • WAIS/SB (100,15)
        • WAIS之100分 = T分數之50分 (V)
        • WAIS之100分 ≠ PR50(因為不知道其實際分配狀態如何) (X)
      • Deviation IQ = standardized scores
      • Ration IQ = (MA/CA)* 100%
        P.s) MA=mental age; 原為mental level,代表其測驗表現相當於幾歲的孩童。然此數據不易理解,因此將之除以生理年齡,因而得到商數關係。然而,由於年紀小的孩子智力商數變異數較大;年紀較大的孩子其標準差下降,因此造成相同的PR而有不同ration IQ之狀況。故現今的IQ大多使用deviation IQ,即標準分數IQ。
    • 測驗分數之比較,必須考慮分配(因同為標準分數,其分配型態影響人數比率
  • 常態化標準分數:藉由非線性轉換,將分數轉換為常態分配之特質,欲使看到標準分數即可得知其百分等級
    • 常態分配之優勢:在知平均數與標準差的前提下(如70, 10)
      • 易於了解得分與平均數的關係
      • 易於了解推測其百分等級的關係(因常態分配有人數比例的關係)
    • 計算方法
      • PR => z => Z:先算百分等級,將之轉換為百分等級所對應的標準常態分配之z分數,再將此z分數轉換成易於理解之標準Z分數
        e.g) 原始分數40=PR92=1.41z=100+1.41*10=114.1Z
    • 前提
      • 樣本數量夠大
      • 樣本需有代表性
      • 不可過度偏離常態分配(mild non-normal),且非測驗設計失誤所致(due to test defects)
        • 此時理想做法為重新編寫題目
        • 若僅有些許差距,不轉換影響亦不大;若有顯著差距而不能轉,則意義何在?
  • 標準九(stanines):將所有分數分為1~9個等級,發展於WWII,因打卡空間限制而發展之策略
    • 具常態分配基礎,以0,5個標準差作為分配依據
      • 平均數為5,標準差約為2的分配
      • 應為非線性轉換,因累積到一定比例後才提升數值
    • 僅能用於分配型態相同的狀況

留言

熱門文章