2013.10.04 心理及教育統計(三)

10月 04, 2013

2013.10.04 心理及教育統計(三)

心理及教育統計 (三)
Review ：描述統計，將數據整理後，用以解釋數據、呈現數據之方式。

表：常用如次數分配表，可列出單一分數，亦可使用分組方式表示，作法為將全距除以理想分組數(通常為5~15)，且開頭數字可被組距所整除。
圖：

長條圖：連續變項，則常條圖間直接相連；若為間斷變項，則為分開間隔。
莖葉圖：特點可看大致看出整理趨勢，並且可以看到個別分數細項，並容易觀察到界外值(兩個組距外之數值)。(特色為考題)
資料分配形狀：其中正偏、負偏依其尾巴所在而命名之。

數值

集中趨勢指標(理解個別特質)

中數
眾數
平均數

離散趨勢指標(最小平方特質，兩個minimal)

範圍相關(range)
平均數相關(center-based)

Today：

離散趨勢指標，可粗分為兩大類：

與範圍(range statistics)有關：

全距(range)

容易計算。
易受極端值影響。
若有界外值存在，容易誤導離散情況。
可用於順序、等距、比例資料。
sample size大，其range也大。
沒有使用所有的資料(只使用最大最小值)。
不能用來作統計推論(因容易受極端值影響，並且只使用最大最小值)。
不是用於open-ended categories 以及undeterminalbe scores。

四分位距(interquartile range,IQR)：分別將資料切成四等分(25%,50%,75%)，其中50%即為中數(Mdn)。

唯一不受極端值影響的指標(其他都受影響，因其納入平均值)。
唯一可用於open-ended categories和undeterminable scores之離散趨勢指標。
可用於序列、等距與比例資料。
丟棄太多資料(省略太多資料)。
H0spread為Q3-Q1之範圍。
半四分衛差(semi-IQR)為(Q3-Q1)/2，有25%之資料量。

與集中趨勢指標相關(center-based)：需先知道集中趨勢，方能計算。

平均差(似是而非)：概念為取得各別分數與平均數之差值，進而平均以描述分數分散之狀況，然而平均數之取得實際上為與所有分數最小距離總和之點，因此操作結果將使正負抵銷而必為0，故完全沒有功能可言。
平均絕對差：帶入距離之觀念，使用絕對值表達之。

特質：

容易了解。
使用所有資料。
不可用於open-ended categories and undeterminable scores(因平均數無法處理此狀態，且此項目與平均數相關，因而連帶無法處理)。
運算中有絕對值，過程複雜，不受青睞。
相較於標準差(standard deviation)，對極端值較不敏感(因SD經過平方與根號處理，仍放大了其差異)。

平均絕對差與中數絕對差：

平均絕對差：與平均數比較，取絕對值並加總平均而來。
中數絕對差：與中數比較，取絕對值並取中數而來(中數的中數)，可能誤解為對中數取平均數，因此須特別注意。

變異數(variance)：概念上是個別分數與平均差值平方之總和，

母群：其內部數據稱為參數，描述統計資料已知，因而不採用估計，自由度為N。
樣本：其內部數據稱為統計量、估計值，描述統計資料未知，需估計，故自由度為N-1，可視為花一個自由度估計平均數，換言之，一旦進行推論母群體之行為，即使用N-1為分母。

P.s) 注意，
S²

使用於將樣本資料視為母群時，s
²則為使用樣本推論母群之變異數，而前者使用N，後者使用N-1。其中，

S²

是較少使用的類型。

自由度(degree of freedom, df)：以樣本推論母群時，樣本中可獨立或自由變化之個數，稱為自由度。

概念上，若計算n個項目之平均數，因有n個數字可能改變，因而自由度為n。
然而，假設已知平均數，當知道n-1個項目之數值時，最後一個變數已被固定(fixed)，所以自由度為n-1。
因推論時使用樣本平均值替代母群體平均值，因而母群體之影響數受限，故以N-1方式作為分母計算，此僅發生於推論時方出現。

E(s2)=σ²，樣本變異數是母群變異數的不偏估計，概念上為反覆抽取樣本(抽後放回，稱為with replacement)並計算其平均數，結果與母群之變異數相等，然而如果使用S^2則不同。

標準差(standard deviation)：即為變異數取根號之結果。

使用所有數值，因需計算平均數。
易受極端值影響(因平均數特性)。
不可用於open-ended/undeterminable scores，因平均數無法。
可用於推論統計，因樣本變異數為母群變異數之不偏估計。
相較於平均絕對差，對極端值較為敏感(如有極端值存在，將造成標準差較大)。
樣本變異數為母群變異數之不偏估計。
P.s) 計算公式：簡化之後，可使用手上型計算機完成之公式，然而其形態可能與原本的理念不同，因此解讀仍以原始的公式為主。
標準差特質：

X

s

s²

X±C

s

s²

CX

s*C

C²*s²

變異係數(coefficient of variation, CV)：因其常用於兩族群之間的比較，因而又可稱為相對差異係數(coefficient of relative variation)。

表示標準差之大小站平均數之百分比。
通常使用於兩族群間的比較。
理論上而言，標準差越大者，其測驗之區分力應較佳，然而此受N之影響因而影響結果判讀，因此改以百分比方式可去除單位，從而有利於比較兩族群之能力。

轉換(transformation)：

加減：對集中趨勢指標而言，隨之加減；分散趨勢指標不變，分布型態不變(平移)。
乘以常數：集中趨勢指標乘以常數；分散趨勢指標乘以常數(注意變異數之平方)；分布型態相似(縮放)。

常數與加減(線性轉換)：資料點之間的相對位置不變。

	XàX±b	XàaX	XàaX±b
集中趨勢指標	C±b	aC	aC±b
離散趨勢指標	no change	arange variancea²	arange variancea²
分布型態	形狀尺寸不改變 (平移)	輪廓相似(縮放)	輪廓相似(平移&縮放)

箱形圖(boxplot/box-and-whiskers plot)：常見如政府之統計資料，其必然存有一個箱子本體之結構，而旁邊之線段有如貓鬚(whiskers)而得名。

Q1,Q2,Q3 and H-spread(Q3-Q1)。
Inner fense:

upper fense=Q3+1.5 H-spread
lower fense=Q1-1.5 H-spread

構成：

取得Q1.Q2.Q3，並且計算H。
取得Q1-1.5H；Q3+1.5H之範圍。
取得實際存在數值之最小數值(但不低於左極限)，此數值與Q1之距離為左鬍鬚。
取得實際存在數值之最大數值(但不高於右極限)，此數值與Q3之距離為右鬍鬚。
若超過極限者，視為極端值。

解釋：

Q2與Q1和Q3之相對位置，可判斷資料對稱特性。
從左、右鬍鬚的長短，可看出其偏向趨勢。
亦可加上平均數，協助判斷之。

偏態(skewness)：三次方，計算公式以判斷其偏態。

r=0為對稱，r>0為正偏，r<0為負偏。
手算公式：Skp=3(X-Mdn)/S

-0.5 ≦S≦0.5
S≧0.5正偏
S≦0.5負偏

峰度(kurtosis)：四次方。

r=0為常態，r>0為高峽，r<0為低闊。
公式中的-3，為校正標準值為0之原因。

Note：爭議之一為，眾數是否可用於open-ended categories /undeterminable scores的數據？

如結果出現於非此類別者，尚且無妨；然如果出現於該組，則可能引起爭議。

描述統計：相對地位指標/一個好的估計值之特色

相對地位指標(measure of relative position)：

目標：

想了解個體在團體中所佔之相對地位，或者程度為何。
比較來自不同兩個分配之分數。

相對地位指標：

百分等級(percentile rank,PR)
標準分數(standard score)

百分等級(PR)：

較適用於ordinal data，有三種方式計算之。

方法一：將分數排序，以及位置排序計算之，如共有15個數據，排序第六者為63%。
15, 17, 22, 23, 27, 33(40%,6/15), 38, 41, 42, 43, 52, 58, 60, 66, 71
方法二：PR of (X=x)=100-(100*R-50)/N，其中R為高分排列至低分之名次，N則代表樣本尺寸，使用條件為知R與N，如若計算結果不是整數，則無條件捨去小數。此公式之假設，為將團體分為100等級，由N個人共同平分，並且將個人視為該分數群之中點，因而計算方式第R名應為100/N*R-100/2N個等級，但傾向分數高者排名前面，因而以100-上述內容所得。
方法三：PR=(100/N)*[F+(X-L)/h*f]，其中N為樣本尺寸，h為組距，X為任意分數，L為該分數所在組別之真正下限，f表該分數組別之次數，而F表L以下之累積。因需要較多資訊取得。可應用於組群分數，當不知道詳細數據之時使用之。

百分位數(percentile)：概念為，需要多少分數，方能落在特定百分等級內。

Pth%=L+[(p/100)*N-F]*(1/f)，公式參數與上述相同。
與百分等級之比較，百分等級代表的是等第，而百分位數代表的是對應分數族群，為一體兩面之概念。

標準分數：當比較單位不同，或者來自不同測驗之分數，無法直接以分數大小比較結果，因此可轉換為Z分數比較之。

Z Score：代表與平均數相差多少個標準差，Z=(X-Xbar)/Sx

以考試分數為舉例，如將所有科別分數加總，假設為各科別之單一分數等值，然而如使用Z score之加總，則可去除上述假設，可能呈現不同之結果。
Sx與Sz的差別在於，其以誰為原始分數計算標準差。
Z分數的特性為：

Z分數之平均數必為0。
Z分數之變異數與標準差必為1。

Z分數的線性轉換：其實z本身之轉變，也為一種線性轉變(符合ax+b)。

平移、縮放，但型態不變。

應用：當轉換到不同團體時，需多少分數才能維持相同地位。

原團體：Xbar=75, S=15，X=93，Z=1.2。
新團體：Xbar=100,S=20,Z=1.2，X=124。

百分等級VS Z分數：

百分等級：

只使用ordinal 性質，不需計算平均數，因此門檻較低。
不複雜、相對容易了解。
用以描述個體在團體中相對位置。
用以比較兩組來自不同分配資料的相對地位。
指特定分數之分布百分比，無論實際分數大小。
只管其分部百分比，而不需知道其真實分數。

Z分數：

只可用等距或者等比之數值。
較不容易了解，但具有科學性。
較精細的方式比較不同分配之資料。
屬於一種線性轉換，不會改變資料間的關係。
轉換之後，不會得到常態分配。

總表整理(必讀)

	XàX±b	Xàa*X	Xàa*X±b
Mean(平均)	X-bar±b	a*X-bar	(a*X-bar)±b
Mdn(中數)	Mdn±b	a*Mdn	(a*Mdn)±b
Mo (眾數)	Mo±b	a*Mo	(a*Mo)±b
Range(全距)	R	a*R	a*R
IQR(四分位距)	IQR	a*IQR	a*IQR
Q1	Q1±b	a*Q1	(a*Q1)±b
MAD(平均絕對差)	MAD	a*MAD	a*MAD
S²(變異數)	S²	a²* S²	a²* S²
SD(標準差)	SD	a*SD	a*SD
百分等級	no change	no change	no change
偏態	no change	no change	no change
峰度	no change	no change	no change
分布圖形	no change	no change	no change

搜尋此網誌

404 Not Found

2013.10.04 心理及教育統計(三)

描述統計：相對地位指標/一個好的估計值之特色

相對地位指標(measure of relative position)：

留言

張貼留言

X	s	s²
X±C	s	s²
CX	s*C	C²*s²