2014.10.09 心理測驗(七) 取樣 & 題目分析

2014.10.09 心理測驗(七) 取樣 & 題目分析

取樣(sampling)

名詞

Sampling frame: a concrete listing of the elements in a population (指實際上可以掌握名單的樣本來源)

抽樣方式

等機率抽樣(probability sampling)

簡易隨機抽樣(simple random sampling)：給予每個個體一個標號，個體均有同等機率被抽取。
系統隨機抽樣(systematic random sampling)：將樣本隨機編排，後依照系統性規則取樣(如每10個個體中抽取一個)。重點在於隨機排序。

Simple trends：排序過程中帶有某些特質，造成排序非隨機的狀況(如依照姓氏、班級等)
Periodic trends：排序過程中包含循環式的特質重複，造成排序非隨機的狀況(如每100人中的第一個為最重者，而以每10個人抽取一次)

分層隨機抽樣(stratified random sampling)：如已知欲測量的特質受到其它特質影響而有分層的狀況，則依母群組成比例而從不同層中抽樣(如英文能力受到就學地有想)

其層內的抽樣可由上述二者之一

部落隨機抽樣(cluster sampling)：考量經濟原則，並且通常帶有階層性(如欲抽取國小孩童，則先將學校編碼後抽取學校，再從學校中班級或小更小單位

其部落抽樣的方法可由上述二者之一
此作法最後抽取的是一個集團(如班級、家庭)，抽取效率較佳

連續取樣(sequential sampling)：以隨機方式分派個案之組別，但不預設收案總人數，而以統計結果是否符合標準而定

非等機率抽樣(non-probability sampling)：每個個體被抽取的機率不同，但不是理想的形式

Accidental sampling (AS)：可用/方便樣本
Purposive sampling (PS)：指定取樣(如以醫學中心的病人為例)
Quota sampling (QS)：分層隨機取樣的非隨機版本，指在分層取樣的過程中並非隨機取樣的方式進行
Volunteer sampling：自願抽樣，以受試者自願參加為前提。研究顯示，自願參與者通常具有某些特質，因此抽樣結果可能是用於特定特質的母群。

題目分析(item analysis)

題目分析：

質的分析：詢問受試者對於題目與測驗的主觀感受
量的分析：參考受試結果進行分析後，判斷題目之優劣

非二分變項(nondichotomous variables)

個題平均數：計算個別題目作答者的分數平均
個題變異數：計算個別題目作答者的分數的變異
個題相關：計算個別題目間的相關性

二分變項(dichotomous variabels)

個題平均數：計算個別題目作答者的分數平均

題目難度(Pi)：實際上是題目的容易度，指受試者通過本題數量的比率。只是通常仍稱為題目的困難度

個題變異數：計算個別題目作答者的分數的變異

計算方式為pq

個題相關：計算個別題目間的相關性

Phi相關(二個二分變項間的同意度)

平均題目困難度(difficulty of average item)：取所有Pi的平均所得
平均測驗的變異數(total test score variance)：個別題目的變異，加上二題間的共變

整體測驗(variance of a composite)

平均數：個別題目平均加總

如有2題，則為第一題的平均+第二題的平均
如有m題，則為第一題、第二題到第m題的平均總合

變異數：個別題目的變異，加上2倍題目間的共變之總和(如題目間無相關則為零)

如有2題，則為第一題的變異+第二題的變異+二倍的第一題與第二題之共變
如有m題，則為第一題、第二題到第m題的變異總和，加上二倍的任二題共變數

如果是二分變項，則其變異數以0.5為佳，因pq最大出現在p=q時
note：測驗的理想為變異數大，因變異大代表可以區分受試者的能力

內效標(internal criterion)：與自己工具內的其它題的比較
外效標(external criterion)：與其它工具之相關性比較，通常是已發展完備的黃金效標。如結果相關性高，可間接支持自己的測驗結果

如發展短測驗之結果與原版高度相似，則可使用短版測驗

題目分析：量的變項

描述統計：如平均數、標準差、偏態、峰度、相關等

平均數：分數的在量尺的位置，可猜測受試者的作答反應(越靠近極端，代表題目效能差，因無法區辨不同程度的個案)。平均數靠近中間越好
標準差：可判斷作答型態的分散程度(是否所有選項都有人作答)，因此標準差越大越好
偏態與峰度：理想在±1之間，部分研究可接受較寬的標準(如3)。此指標代表資料的對稱性，是假設interval data的必要條件
相關性：高相關代表題目太過相似，可能重複

難度(item difficulty)分析：理想困難度為中等，使測驗變異數上升(除特定目的之測驗)

二分變項 (可接受範圍介於0.3~0.7，但可依目標而定)
note：但如果屬於選擇題，具有基本猜測機率，則以猜測機率與最高機率之平均值作為基本門檻，此時則不受0.3~0.7的限制，也不以0.5為目標

如100人中有80人答對，則其通過率為0.8
將受試者依總分進行排列，將高分與低分受試者答對機率取平均而來
note：過去研究顯示，取極端的27%效果較好(即27%以下和63%以上)

連續變項(可接受範圍介於1.5~4.5，但可依目標而定)

檢視題目得分平均數(是否落於中間)
再檢驗題目的變異數(是否夠離散)

鑑別度(discrimination)

指標法：

二分變項

將高低分組(27%)通過比率的差值

≧ satisfactory
0.3~0.39 little or no revision
0.2~0.29 marginal & need revision
≦ 0.1 eliminate or completely revise

連續變項

對高分組的平均，與低分組的平均進行獨立樣本t檢定

相關法(二分與連續都可)

計算題目與總分之相關(如point biserial or biserial correlated)，如題目區辨力夠好，則該題與總分相關性高，代表答對這題與能力佳(總分高)是相關的

也有一種相關計算方式為i(X-i)，代表該題的分數，與其它題目之分數加總的相關

Summary

	二分變項	連續變項
描述統計	平均(P, 理想0.5) 變異(Pq) 偏態峰度	平均(X-bar) 變異(Si) 偏態峰度
困難度	(1) Pi (2) Pi = (Pl+Ph)/2	平均(X-bar)
區辨度	Di = Ph-Pl (>0.4) 相關法	t test 相關法

題目之信度與效度(item reliability and item validity indices)

題目信度(item reliability)：題目標準差(o)*與總分相關(r)

若為二分變項，則為根號p*(1-p)*r

測驗變異(reliability) = 信度總和之平方

內在一致性：Cronbach's alpha

題目效度(item validity)：題目標準差(o)*與效標相關(r)
測驗效度(validity) = 項目效度總和/項目信度總和

應用：

計算個別題目的信度與效度(假設有i題)
預設所需的最小測驗變異數值，回推所需的最小題數
預設所需的Cronbach's alpha數值，找尋合理使用的題目
預設所需的測驗效度數值，找尋合理使用的題目
note：題目的變異，影響題目之信度、效度以及整份測驗的品質

Summary

項目難度=平均數=pi
項目分數變異=pq
項目信度指標=項目分數變異*項目總分相關性
項目效度指標=項目分數變異*項目效標相關性
目標以合適的題目，得到良好信、效度之測驗

留言