2013.10.04 心理及教育統計(三)
心理及教育統計 (三)
Review :描述統計,將數據整理後,用以解釋數據、呈現數據之方式。
Review :描述統計,將數據整理後,用以解釋數據、呈現數據之方式。
- 表:常用如次數分配表,可列出單一分數,亦可使用分組方式表示,作法為將全距除以理想分組數(通常為5~15),且開頭數字可被組距所整除。
- 圖:
- 長條圖:連續變項,則常條圖間直接相連;若為間斷變項,則為分開間隔。
- 莖葉圖:特點可看大致看出整理趨勢,並且可以看到個別分數細項,並容易觀察到界外值(兩個組距外之數值)。(特色為考題)
- 資料分配形狀:其中正偏、負偏依其尾巴所在而命名之。
- 數值
Today:
- 離散趨勢指標,可粗分為兩大類:
- 與範圍(range statistics)有關:
- 全距(range)
- 容易計算。
- 易受極端值影響。
- 若有界外值存在,容易誤導離散情況。
- 可用於順序、等距、比例資料。
- sample size大,其range也大。
- 沒有使用所有的資料(只使用最大最小值)。
- 不能用來作統計推論(因容易受極端值影響,並且只使用最大最小值)。
- 不是用於open-ended categories 以及undeterminalbe scores。
- 四分位距(interquartile range,IQR):分別將資料切成四等分(25%,50%,75%),其中50%即為中數(Mdn)。
- 唯一不受極端值影響的指標(其他都受影響,因其納入平均值)。
- 唯一可用於open-ended categories和undeterminable scores之離散趨勢指標。
- 可用於序列、等距與比例資料。
- 丟棄太多資料(省略太多資料)。
- H0spread為Q3-Q1之範圍。
- 半四分衛差(semi-IQR)為(Q3-Q1)/2,有25%之資料量。
- 與集中趨勢指標相關(center-based):需先知道集中趨勢,方能計算。
- 平均差(似是而非):概念為取得各別分數與平均數之差值,進而平均以描述分數分散之狀況,然而平均數之取得實際上為與所有分數最小距離總和之點,因此操作結果將使正負抵銷而必為0,故完全沒有功能可言。
- 平均絕對差:帶入距離之觀念,使用絕對值表達之。
- 特質:
- 容易了解。
- 使用所有資料。
- 不可用於open-ended categories and undeterminable scores(因平均數無法處理此狀態,且此項目與平均數相關,因而連帶無法處理)。
- 運算中有絕對值,過程複雜,不受青睞。
- 相較於標準差(standard deviation),對極端值較不敏感(因SD經過平方與根號處理,仍放大了其差異)。
- 平均絕對差與中數絕對差:
- 變異數(variance):概念上是個別分數與平均差值平方之總和,
- 母群:其內部數據稱為參數,描述統計資料已知,因而不採用估計,自由度為N。
- 樣本:其內部數據稱為統計量、估計值,描述統計資料未知,需估計,故自由度為N-1,可視為花一個自由度估計平均數,換言之,一旦進行推論母群體之行為,即使用N-1為分母。S22則為使用樣本推論母群之變異數,而前者使用N,後者使用N-1。其中,
S2是較少使用的類型。 - 自由度(degree of freedom, df):以樣本推論母群時,樣本中可獨立或自由變化之個數,稱為自由度。
- 概念上,若計算n個項目之平均數,因有n個數字可能改變,因而自由度為n。
- 然而,假設已知平均數,當知道n-1個項目之數值時,最後一個變數已被固定(fixed),所以自由度為n-1。
- 因推論時使用樣本平均值替代母群體平均值,因而母群體之影響數受限,故以N-1方式作為分母計算,此僅發生於推論時方出現。
- E(s2)=σ2,樣本變異數是母群變異數的不偏估計,概念上為反覆抽取樣本(抽後放回,稱為with replacement)並計算其平均數,結果與母群之變異數相等,然而如果使用S^2則不同。
- 標準差(standard deviation):即為變異數取根號之結果。
- 使用所有數值,因需計算平均數。
- 易受極端值影響(因平均數特性)。
- 不可用於open-ended/undeterminable scores,因平均數無法。
- 可用於推論統計,因樣本變異數為母群變異數之不偏估計。
- 相較於平均絕對差,對極端值較為敏感(如有極端值存在,將造成標準差較大)。
- 樣本變異數為母群變異數之不偏估計。
P.s) 計算公式:簡化之後,可使用手上型計算機完成之公式,然而其形態可能與原本的理念不同,因此解讀仍以原始的公式為主。 - 標準差特質:Xss2X±Css2CXs*CC2*s2
- 變異係數(coefficient of variation, CV):因其常用於兩族群之間的比較,因而又可稱為相對差異係數(coefficient of relative variation)。
- 表示標準差之大小站平均數之百分比。
- 通常使用於兩族群間的比較。
- 理論上而言,標準差越大者,其測驗之區分力應較佳,然而此受N之影響因而影響結果判讀,因此改以百分比方式可去除單位,從而有利於比較兩族群之能力。
- 轉換(transformation):
- 加減:對集中趨勢指標而言,隨之加減;分散趨勢指標不變,分布型態不變(平移)。
- 乘以常數:集中趨勢指標乘以常數;分散趨勢指標乘以常數(注意變異數之平方);分布型態相似(縮放)。
- 常數與加減(線性轉換):資料點之間的相對位置不變。XàX±bXàaXXàaX±b集中趨勢指標C±baCaC±b離散趨勢指標no changea*rangevariance*a2a*rangevariance*a2分布型態形狀尺寸不改變(平移)輪廓相似(縮放)輪廓相似(平移&縮放)
- 箱形圖(boxplot/box-and-whiskers plot):常見如政府之統計資料,其必然存有一個箱子本體之結構,而旁邊之線段有如貓鬚(whiskers)而得名。
- Q1,Q2,Q3 and H-spread(Q3-Q1)。
- Inner fense:
- upper fense=Q3+1.5 H-spread
- lower fense=Q1-1.5 H-spread
- 構成:
- 取得Q1.Q2.Q3,並且計算H。
- 取得Q1-1.5H;Q3+1.5H之範圍。
- 取得實際存在數值之最小數值(但不低於左極限),此數值與Q1之距離為左鬍鬚。
- 取得實際存在數值之最大數值(但不高於右極限),此數值與Q3之距離為右鬍鬚。
- 若超過極限者,視為極端值。
- 解釋:
- Q2與Q1和Q3之相對位置,可判斷資料對稱特性。
- 從左、右鬍鬚的長短,可看出其偏向趨勢。
- 亦可加上平均數,協助判斷之。
- 偏態(skewness):三次方,計算公式以判斷其偏態。
- r=0為對稱,r>0為正偏,r<0為負偏。
- 手算公式:Skp=3(X-Mdn)/S
- -0.5 ≦S≦0.5
- S≧0.5正偏
- S≦0.5負偏
- 峰度(kurtosis):四次方。
- r=0為常態,r>0為高峽,r<0為低闊。
- 公式中的-3,為校正標準值為0之原因。
Note:爭議之一為,眾數是否可用於open-ended categories /undeterminable scores的數據?
如結果出現於非此類別者,尚且無妨;然如果出現於該組,則可能引起爭議。
描述統計:相對地位指標/一個好的估計值之特色
相對地位指標(measure of relative position):
- 目標:
- 想了解個體在團體中所佔之相對地位,或者程度為何。
- 比較來自不同兩個分配之分數。
- 相對地位指標:
- 百分等級(percentile rank,PR)
- 標準分數(standard score)
- 百分等級(PR):
- 較適用於ordinal data,有三種方式計算之。
- 方法一:將分數排序,以及位置排序計算之,如共有15個數據,排序第六者為63%。
15, 17, 22, 23, 27, 33(40%,6/15), 38, 41, 42, 43, 52, 58, 60, 66, 71 - 方法二:PR of (X=x)=100-(100*R-50)/N,其中R為高分排列至低分之名次,N則代表樣本尺寸,使用條件為知R與N,如若計算結果不是整數,則無條件捨去小數。此公式之假設,為將團體分為100等級,由N個人共同平分,並且將個人視為該分數群之中點,因而計算方式第R名應為100/N*R-100/2N個等級,但傾向分數高者排名前面,因而以100-上述內容所得。
- 方法三:PR=(100/N)*[F+(X-L)/h*f],其中N為樣本尺寸,h為組距,X為任意分數,L為該分數所在組別之真正下限,f表該分數組別之次數,而F表L以下之累積。因需要較多資訊取得。可應用於組群分數,當不知道詳細數據之時使用之。
- 百分位數(percentile):概念為,需要多少分數,方能落在特定百分等級內。
- Pth%=L+[(p/100)*N-F]*(1/f),公式參數與上述相同。
- 與百分等級之比較,百分等級代表的是等第,而百分位數代表的是對應分數族群,為一體兩面之概念。
- 標準分數:當比較單位不同,或者來自不同測驗之分數,無法直接以分數大小比較結果,因此可轉換為Z分數比較之。
- Z Score:代表與平均數相差多少個標準差,Z=(X-Xbar)/Sx
- 以考試分數為舉例,如將所有科別分數加總,假設為各科別之單一分數等值,然而如使用Z score之加總,則可去除上述假設,可能呈現不同之結果。
- Sx與Sz的差別在於,其以誰為原始分數計算標準差。
- Z分數的特性為:
- Z分數之平均數必為0。
- Z分數之變異數與標準差必為1。
- Z分數的線性轉換:其實z本身之轉變,也為一種線性轉變(符合ax+b)。
- 平移、縮放,但型態不變。
- 應用:當轉換到不同團體時,需多少分數才能維持相同地位。
- 原團體:Xbar=75, S=15,X=93,Z=1.2。
- 新團體:Xbar=100,S=20,Z=1.2,X=124。
- 百分等級VS Z分數:
- 百分等級:
- 只使用ordinal 性質,不需計算平均數,因此門檻較低。
- 不複雜、相對容易了解。
- 用以描述個體在團體中相對位置。
- 用以比較兩組來自不同分配資料的相對地位。
- 指特定分數之分布百分比,無論實際分數大小。
- 只管其分部百分比,而不需知道其真實分數。
- Z分數:
- 只可用等距或者等比之數值。
- 較不容易了解,但具有科學性。
- 較精細的方式比較不同分配之資料。
- 屬於一種線性轉換,不會改變資料間的關係。
- 轉換之後,不會得到常態分配。
- 總表整理(必讀)
XàX±b
|
Xàa*X
|
Xàa*X±b
|
|
Mean(平均)
|
X-bar±b
|
a*X-bar
|
(a*X-bar)±b
|
Mdn(中數)
|
Mdn±b
|
a*Mdn
|
(a*Mdn)±b
|
Mo
(眾數)
|
Mo±b
|
a*Mo
|
(a*Mo)±b
|
Range(全距)
|
R
|
a*R
|
a*R
|
IQR(四分位距)
|
IQR
|
a*IQR
|
a*IQR
|
Q1
|
Q1±b
|
a*Q1
|
(a*Q1)±b
|
MAD(平均絕對差)
|
MAD
|
a*MAD
|
a*MAD
|
S2(變異數)
|
S2
|
a2* S2
|
a2* S2
|
SD(標準差)
|
SD
|
a*SD
|
a*SD
|
百分等級
|
no change
|
no change
|
no change
|
偏態
|
no change
|
no change
|
no change
|
峰度
|
no change
|
no change
|
no change
|
分布圖形
|
no change
|
no change
|
no change
|
留言
張貼留言