2014.11.10 心理測驗(十二) Norm and measure reliability

Age & Grade Norms

  • 非線性轉換
  • 可用來解釋測驗結果(受試者的測驗表現相當於幾歲/年級受試者的表現)
  • 年齡當量的建立
    • 使用的尺度依發展階段而有所差異(例如年紀較小時大多採用月;較大則採用歲)
    • 通常使用平均數(或中位數),代表特定年齡層的測驗表現
      • 通常使用在學校系統中,易於與家長溝通
    • 測量單位是測驗表現,不能完全類推其它狀況
Expected table
  • 比較測驗分數與其它相關成效表現之相關性
    • 重點是用以前得到的資料,預測未來新樣本的變化
  • 注意事項
    • 政策與制度的轉變:如社會制度、情境改變,將造成樣本不具有代表性,影響其預測效果
    • 樣本人數不可以太少:樣本數需足夠,預測結果才能穩定
    • 相關的程度:變項間的相關程度應夠強,否則難有預測意義
Local & subgroup Norms
  • 區域性常模 & 全國常模:全國常模與區域常模差異甚大,唯使用哪一個常模進行測驗結果之解釋
    • Local norms:若區域(次族群)與整體的差異較大的時候,較適合使用區域(次族群)常模,較能精緻的區分人的能力;如若二者相似,則使用區域與整體差異較小。
    • National norms
  • 常模選取:考量目的、樣本來源
    • 目的:如為全國性徵才,應用全國性常模;若為地方性徵才,應用地方性常模
Computer Use in Test Score Interpretation
  • 紙本測驗與電腦測驗的差距?
    • 可能造成測驗情境與常模建立情境的不同,因而有額外的影響
    • 謹慎的作法應有研究支持紙本測驗與電腦測驗間沒有差別
  • 電腦測驗有設備要求(電腦、網路)
  • 測驗內容的適用性
    • 興趣測驗等或可由電腦執行
    • 人格、成就測驗等,應謹慎評估之
      • 無害原則:避免心理測驗造成受試者意料之外的傷害
        • 因好動、自卑等等可能間接加強其自我印象
        • 團體解釋可能造成的影響(缺乏個別化的資訊傳達)
        • 個別化的結果解釋、專業諮詢仍有其必要性
Summary
  • 心理測驗之常模的功能為解釋測驗結果
Q&A
  • 測驗是否可以同時為常模參照及效標參照?
  • 人生是常模參照或者效標參照?

測驗分數的信度 (Reliability of Test Scores)

信度(reliability)
  • 測驗分數之結果的穩定性、一致性、可重複性
    • 僅著重於測驗結果的穩定性,而非測驗之內容是否測到欲測量的東西(效度)
    • 包含時間、地點、測驗形式、題目等等的變化
  • 換言之,測驗受誤差影響的程度有多少?
  • reliability of CTT & IRT
    • CTT假設SEM均一致,而IRT提供個人估計的SE
    • SE與信度相關
    • 在ICC的圖上,斜率較大的部分SE較小;反之斜率較小處SE大
    • 假設重複進行無限多次測驗,測驗之間彼此獨立,所呈現的測驗結果分配即為SE
誤差(error)
  • 在CTT中,X=T+E
    • X:觀察分數
    • T:真實分數,假設可進行無限多次的施測,所得平均數即為此真分數
    • E:誤差,每次測驗結果與真實分數的差異即為誤差
  • 換言之,觀察分數的變異=真實分數的變異+誤差的變異
    • 然而,個體的真實分數應為單一數值,而沒有變異
    • 如X為多人的分數總合,則真實分數可有變異,來自於許多個人的真實分數分配
  • 系統性誤差與非系統性誤差
    • 系統性誤差:系統性誤差仍是誤差,但是會一致性的影響測驗結果,屬於一種穩定存在的特質,但非欲測驗的內容
      • 例如英文出題的心理測驗考試、題型偏好或者作答偏好
        • 題型偏好:有些人是選擇題殺手
        • 作答偏好:有些人就是不會選擇極端選項
      • CTT中假設這個項目不存在,否則信度估計會出問題
    • 非系統性誤差(隨機誤差):無法事先知道且預測的誤差來源,例如題目選擇、施側過程(含環境、施測者、受測者等)、計分方式。
      • 施測者:個別施測容易發生,包含口誤、面有難色、無意識的動作暗示結果等等,另也包含對受試者的性別、種族等等的差異,也可能影響受試者的表現。
      • 受試者:個人的緊張、焦慮,或者其它受環境的影響程度等等。
      • 評分:例如大考中心的作文,評分者均需受過訓練
信度
  • 如真實分數的變異數與觀察分數的變異數相似,則代表誤差的變異數小,因此信度高
  • 信度= Var (T) / Var (X),而假設Var (IR)不存在
    • X=T+IR+E
    • Var (X) = Var (T) + Var (IR) + Var (E) 假定彼此無相關
      • 假定Var (IR)不存在,因為信度估計方法大多使用相關,而系統誤差會影響到此相關的結果
  • rxx=Var (T)/Var (X)
    • 1-(Var(E)/Var (X))
    • rxT^2 (rxT: index of reliability,為真分數與真實分數的相關)
  • 測量誤差與信度是一體二面
    • 當測量誤差大,則信度低
    • 當測量誤差小,則信度高
信度估計方法:考慮穩定度問題,分為二大類
  • 時間(temporal stability):不同測量的時間點造成的誤差。
    • 再測信度(test-retest reliability)
    • 複本信度(alternate forms reliability):同一批人,不同時間測量(主要是題目,但引入時間差異)
  • 內部一致性(internal consistency):主要指因為題目造成的誤差。
    • 內部一致性(internal consistency)
    • 複本信度(alternate forms reliability):二套題目進行比較
  • 施測者(raters):主要是施測者的因素造成
    • 施測者間信度
    • 施測者內信度
古典測驗理論(真分數與誤差分數理論,由Spearman提出,其也提出因素分析)
  • CTT中的誤差僅有E一個項目,包含太多東西
  • X=T+E / X'=T'+E'
    • Parallel tests:T=T' & Var(E) = Var(E')
      • 假設在二個測驗中的真實分數一樣,並且誤差也一樣(高強度假設)
    • Essentially tau equivlent tests:T=T'+c ,二個測驗之間差一個常數
    • Alternate test forms:二測驗之間有相似的平均數、變異數,並且與其它測驗的相關也相似
概推度理論
  • Cronbach發展之理論,試圖釐清誤差來源而移除之
    • 計算出G ,可減少誤差來源
    • 較常應用在performance-based的測驗上
      • 例如跳水之誤差來源可能包含:評審、場地等
        • 找出那些誤差來源可影響結果
        • 依序上述結果安排測驗設計


留言

熱門文章