2014.11.10 心理測驗(十二) Norm and measure reliability

2014.11.10 心理測驗(十二) Norm and measure reliability

Age & Grade Norms

非線性轉換
可用來解釋測驗結果(受試者的測驗表現相當於幾歲/年級受試者的表現)
年齡當量的建立

使用的尺度依發展階段而有所差異(例如年紀較小時大多採用月；較大則採用歲)
通常使用平均數(或中位數)，代表特定年齡層的測驗表現

通常使用在學校系統中，易於與家長溝通

測量單位是測驗表現，不能完全類推其它狀況

Expected table

比較測驗分數與其它相關成效表現之相關性

重點是用以前得到的資料，預測未來新樣本的變化

注意事項

政策與制度的轉變：如社會制度、情境改變，將造成樣本不具有代表性，影響其預測效果
樣本人數不可以太少：樣本數需足夠，預測結果才能穩定
相關的程度：變項間的相關程度應夠強，否則難有預測意義

Local & subgroup Norms

區域性常模 & 全國常模：全國常模與區域常模差異甚大，唯使用哪一個常模進行測驗結果之解釋

Local norms：若區域(次族群)與整體的差異較大的時候，較適合使用區域(次族群)常模，較能精緻的區分人的能力；如若二者相似，則使用區域與整體差異較小。
National norms

常模選取：考量目的、樣本來源

目的：如為全國性徵才，應用全國性常模；若為地方性徵才，應用地方性常模

Computer Use in Test Score Interpretation

紙本測驗與電腦測驗的差距？

可能造成測驗情境與常模建立情境的不同，因而有額外的影響
謹慎的作法應有研究支持紙本測驗與電腦測驗間沒有差別

電腦測驗有設備要求(電腦、網路)
測驗內容的適用性

興趣測驗等或可由電腦執行
人格、成就測驗等，應謹慎評估之

無害原則：避免心理測驗造成受試者意料之外的傷害

因好動、自卑等等可能間接加強其自我印象
團體解釋可能造成的影響(缺乏個別化的資訊傳達)
個別化的結果解釋、專業諮詢仍有其必要性

Summary

心理測驗之常模的功能為解釋測驗結果

Q&A

測驗是否可以同時為常模參照及效標參照？
人生是常模參照或者效標參照？

測驗分數的信度 (Reliability of Test Scores)

信度(reliability)

測驗分數之結果的穩定性、一致性、可重複性

僅著重於測驗結果的穩定性，而非測驗之內容是否測到欲測量的東西(效度)
包含時間、地點、測驗形式、題目等等的變化

換言之，測驗受誤差影響的程度有多少？
reliability of CTT & IRT

CTT假設SEM均一致，而IRT提供個人估計的SE
SE與信度相關
在ICC的圖上，斜率較大的部分SE較小；反之斜率較小處SE大
假設重複進行無限多次測驗，測驗之間彼此獨立，所呈現的測驗結果分配即為SE

誤差(error)

在CTT中，X=T+E

X：觀察分數
T：真實分數，假設可進行無限多次的施測，所得平均數即為此真分數
E：誤差，每次測驗結果與真實分數的差異即為誤差

換言之，觀察分數的變異=真實分數的變異+誤差的變異

然而，個體的真實分數應為單一數值，而沒有變異
如X為多人的分數總合，則真實分數可有變異，來自於許多個人的真實分數分配

系統性誤差與非系統性誤差

系統性誤差：系統性誤差仍是誤差，但是會一致性的影響測驗結果，屬於一種穩定存在的特質，但非欲測驗的內容

例如英文出題的心理測驗考試、題型偏好或者作答偏好

題型偏好：有些人是選擇題殺手
作答偏好：有些人就是不會選擇極端選項

CTT中假設這個項目不存在，否則信度估計會出問題

非系統性誤差(隨機誤差)：無法事先知道且預測的誤差來源，例如題目選擇、施側過程(含環境、施測者、受測者等)、計分方式。

施測者：個別施測容易發生，包含口誤、面有難色、無意識的動作暗示結果等等，另也包含對受試者的性別、種族等等的差異，也可能影響受試者的表現。
受試者：個人的緊張、焦慮，或者其它受環境的影響程度等等。
評分：例如大考中心的作文，評分者均需受過訓練

信度

如真實分數的變異數與觀察分數的變異數相似，則代表誤差的變異數小，因此信度高
信度= Var (T) / Var (X)，而假設Var (IR)不存在

X=T+IR+E
Var (X) = Var (T) + Var (IR) + Var (E) 假定彼此無相關

假定Var (IR)不存在，因為信度估計方法大多使用相關，而系統誤差會影響到此相關的結果

rxx=Var (T)/Var (X)

1-(Var(E)/Var (X))
rxT^2 (rxT: index of reliability，為真分數與真實分數的相關)

測量誤差與信度是一體二面

當測量誤差大，則信度低
當測量誤差小，則信度高

信度估計方法：考慮穩定度問題，分為二大類

時間(temporal stability)：不同測量的時間點造成的誤差。

再測信度(test-retest reliability)
複本信度(alternate forms reliability)：同一批人，不同時間測量(主要是題目，但引入時間差異)

內部一致性(internal consistency)：主要指因為題目造成的誤差。

內部一致性(internal consistency)
複本信度(alternate forms reliability)：二套題目進行比較

施測者(raters)：主要是施測者的因素造成

施測者間信度
施測者內信度

古典測驗理論(真分數與誤差分數理論，由Spearman提出，其也提出因素分析)

CTT中的誤差僅有E一個項目，包含太多東西
X=T+E / X'=T'+E'

Parallel tests：T=T' & Var(E) = Var(E')

假設在二個測驗中的真實分數一樣，並且誤差也一樣(高強度假設)

Essentially tau equivlent tests：T=T'+c ，二個測驗之間差一個常數
Alternate test forms：二測驗之間有相似的平均數、變異數，並且與其它測驗的相關也相似

概推度理論

Cronbach發展之理論，試圖釐清誤差來源而移除之

計算出G ，可減少誤差來源
較常應用在performance-based的測驗上

例如跳水之誤差來源可能包含：評審、場地等

找出那些誤差來源可影響結果
依序上述結果安排測驗設計

留言