2014.11.10 心理測驗(十二) Norm and measure reliability
Age & Grade Norms
- 非線性轉換
- 可用來解釋測驗結果(受試者的測驗表現相當於幾歲/年級受試者的表現)
- 年齡當量的建立
Expected table
- 比較測驗分數與其它相關成效表現之相關性
- 重點是用以前得到的資料,預測未來新樣本的變化
- 注意事項
- 政策與制度的轉變:如社會制度、情境改變,將造成樣本不具有代表性,影響其預測效果
- 樣本人數不可以太少:樣本數需足夠,預測結果才能穩定
- 相關的程度:變項間的相關程度應夠強,否則難有預測意義
Local & subgroup Norms
- 區域性常模 & 全國常模:全國常模與區域常模差異甚大,唯使用哪一個常模進行測驗結果之解釋
- Local norms:若區域(次族群)與整體的差異較大的時候,較適合使用區域(次族群)常模,較能精緻的區分人的能力;如若二者相似,則使用區域與整體差異較小。
- National norms
- 常模選取:考量目的、樣本來源
- 目的:如為全國性徵才,應用全國性常模;若為地方性徵才,應用地方性常模
Computer Use in Test Score Interpretation
- 紙本測驗與電腦測驗的差距?
- 可能造成測驗情境與常模建立情境的不同,因而有額外的影響
- 謹慎的作法應有研究支持紙本測驗與電腦測驗間沒有差別
- 電腦測驗有設備要求(電腦、網路)
- 測驗內容的適用性
- 興趣測驗等或可由電腦執行
- 人格、成就測驗等,應謹慎評估之
- 無害原則:避免心理測驗造成受試者意料之外的傷害
- 因好動、自卑等等可能間接加強其自我印象
- 團體解釋可能造成的影響(缺乏個別化的資訊傳達)
- 個別化的結果解釋、專業諮詢仍有其必要性
Summary
- 心理測驗之常模的功能為解釋測驗結果
Q&A
- 測驗是否可以同時為常模參照及效標參照?
- 人生是常模參照或者效標參照?
測驗分數的信度 (Reliability of Test Scores)
信度(reliability)
- 測驗分數之結果的穩定性、一致性、可重複性
- 僅著重於測驗結果的穩定性,而非測驗之內容是否測到欲測量的東西(效度)
- 包含時間、地點、測驗形式、題目等等的變化
- 換言之,測驗受誤差影響的程度有多少?
- reliability of CTT & IRT
- CTT假設SEM均一致,而IRT提供個人估計的SE
- SE與信度相關
- 在ICC的圖上,斜率較大的部分SE較小;反之斜率較小處SE大
- 假設重複進行無限多次測驗,測驗之間彼此獨立,所呈現的測驗結果分配即為SE
誤差(error)
- 在CTT中,X=T+E
- X:觀察分數
- T:真實分數,假設可進行無限多次的施測,所得平均數即為此真分數
- E:誤差,每次測驗結果與真實分數的差異即為誤差
- 換言之,觀察分數的變異=真實分數的變異+誤差的變異
- 然而,個體的真實分數應為單一數值,而沒有變異
- 如X為多人的分數總合,則真實分數可有變異,來自於許多個人的真實分數分配
- 系統性誤差與非系統性誤差
- 系統性誤差:系統性誤差仍是誤差,但是會一致性的影響測驗結果,屬於一種穩定存在的特質,但非欲測驗的內容
- 例如英文出題的心理測驗考試、題型偏好或者作答偏好
- 題型偏好:有些人是選擇題殺手
- 作答偏好:有些人就是不會選擇極端選項
- CTT中假設這個項目不存在,否則信度估計會出問題
- 非系統性誤差(隨機誤差):無法事先知道且預測的誤差來源,例如題目選擇、施側過程(含環境、施測者、受測者等)、計分方式。
- 施測者:個別施測容易發生,包含口誤、面有難色、無意識的動作暗示結果等等,另也包含對受試者的性別、種族等等的差異,也可能影響受試者的表現。
- 受試者:個人的緊張、焦慮,或者其它受環境的影響程度等等。
- 評分:例如大考中心的作文,評分者均需受過訓練
信度
- 如真實分數的變異數與觀察分數的變異數相似,則代表誤差的變異數小,因此信度高
- 信度= Var (T) / Var (X),而假設Var (IR)不存在
- X=T+IR+E
- Var (X) = Var (T) + Var (IR) + Var (E) 假定彼此無相關
- 假定Var (IR)不存在,因為信度估計方法大多使用相關,而系統誤差會影響到此相關的結果
- rxx=Var (T)/Var (X)
- 1-(Var(E)/Var (X))
- rxT^2 (rxT: index of reliability,為真分數與真實分數的相關)
- 測量誤差與信度是一體二面
- 當測量誤差大,則信度低
- 當測量誤差小,則信度高
信度估計方法:考慮穩定度問題,分為二大類
- 時間(temporal stability):不同測量的時間點造成的誤差。
- 再測信度(test-retest reliability)
- 複本信度(alternate forms reliability):同一批人,不同時間測量(主要是題目,但引入時間差異)
- 內部一致性(internal consistency):主要指因為題目造成的誤差。
- 內部一致性(internal consistency)
- 複本信度(alternate forms reliability):二套題目進行比較
- 施測者(raters):主要是施測者的因素造成
- 施測者間信度
- 施測者內信度
古典測驗理論(真分數與誤差分數理論,由Spearman提出,其也提出因素分析)
- CTT中的誤差僅有E一個項目,包含太多東西
- X=T+E / X'=T'+E'
- Parallel tests:T=T' & Var(E) = Var(E')
- 假設在二個測驗中的真實分數一樣,並且誤差也一樣(高強度假設)
- Essentially tau equivlent tests:T=T'+c ,二個測驗之間差一個常數
- Alternate test forms:二測驗之間有相似的平均數、變異數,並且與其它測驗的相關也相似
概推度理論
- Cronbach發展之理論,試圖釐清誤差來源而移除之
- 計算出G ,可減少誤差來源
- 較常應用在performance-based的測驗上
- 例如跳水之誤差來源可能包含:評審、場地等
- 找出那些誤差來源可影響結果
- 依序上述結果安排測驗設計
留言
張貼留言