2013.10.04 心理及教育統計(三)

心理及教育統計 (三)
Review :描述統計,將數據整理後,用以解釋數據、呈現數據之方式。
  • 表:常用如次數分配表,可列出單一分數,亦可使用分組方式表示,作法為將全距除以理想分組數(通常為5~15),且開頭數字可被組距所整除。
  • 圖:
    • 長條圖:連續變項,則常條圖間直接相連;若為間斷變項,則為分開間隔。
    • 莖葉圖:特點可看大致看出整理趨勢,並且可以看到個別分數細項,並容易觀察到界外值(兩個組距外之數值)。(特色為考題)
    • 資料分配形狀:其中正偏、負偏依其尾巴所在而命名之。
  • 數值
    • 集中趨勢指標(理解個別特質)
      • 中數
      • 眾數
      • 平均數
    • 離散趨勢指標(最小平方特質,兩個minimal)
      • 範圍相關(range)
      • 平均數相關(center-based)
Today:

  • 離散趨勢指標,可粗分為兩大類:
    • 範圍(range statistics)有關:
      • 全距(range)
        • 容易計算。
        • 易受極端值影響。
        • 若有界外值存在,容易誤導離散情況。
        • 可用於順序、等距、比例資料。
        • sample size大,其range也大。
        • 沒有使用所有的資料(只使用最大最小值)。
        • 不能用來作統計推論(因容易受極端值影響,並且只使用最大最小值)。
        • 不是用於open-ended categories 以及undeterminalbe scores。
      • 四分位距(interquartile range,IQR):分別將資料切成四等分(25%,50%,75%),其中50%即為中數(Mdn)。
        • 唯一不受極端值影響的指標(其他都受影響,因其納入平均值)。
        • 唯一可用於open-ended categories和undeterminable scores之離散趨勢指標。
        • 可用於序列、等距與比例資料。
        • 丟棄太多資料(省略太多資料)。
        • H0spread為Q3-Q1之範圍。
        • 半四分衛差(semi-IQR)為(Q3-Q1)/2,有25%之資料量。
    • 與集中趨勢指標相關(center-based):需先知道集中趨勢,方能計算。
      • 平均差(似是而非):概念為取得各別分數與平均數之差值,進而平均以描述分數分散之狀況,然而平均數之取得實際上為與所有分數最小距離總和之點,因此操作結果將使正負抵銷而必為0,故完全沒有功能可言。
      • 平均絕對差:帶入距離之觀念,使用絕對值表達之。
        • 特質:
          • 容易了解
          • 使用所有資料。
          • 不可用於open-ended categories and undeterminable scores(因平均數無法處理此狀態,且此項目與平均數相關,因而連帶無法處理)。
          • 運算中有絕對值,過程複雜,不受青睞。
          • 相較於標準差(standard deviation),對極端值較不敏感(因SD經過平方與根號處理,仍放大了其差異)。
        • 平均絕對差與中數絕對差:
          • 平均絕對差:與平均數比較,取絕對值並加總平均而來。
          • 中數絕對差:與中數比較,取絕對值並取中數而來(中數的中數),可能誤解為對中數取平均數,因此須特別注意
      • 變異數(variance):概念上是個別分數與平均差值平方之總和
        • 母群:其內部數據稱為參數,描述統計資料已知,因而不採用估計,自由度為N
        • 樣本:其內部數據稱為統計量、估計值,描述統計資料未知需估計,故自由度為N-1可視為花一個自由度估計平均數,換言之,一旦進行推論母群體之行為,即使用N-1為分母。
          P.s) 注意,
          S2
          使用於將樣本資料視為母群時,s
          2則為使用樣本推論母群之變異數,而前者使用N,後者使用N-1。其中,
          S2
          是較少使用的類型。
          • 自由度(degree of freedom, df):以樣本推論母群時,樣本中可獨立或自由變化之個數,稱為自由度
            • 概念上,若計算n個項目之平均數,因有n個數字可能改變,因而自由度為n。
            • 然而,假設已知平均數,當知道n-1個項目之數值時,最後一個變數已被固定(fixed),所以自由度為n-1。
            • 因推論時使用樣本平均值替代母群體平均值,因而母群體之影響數受限,故以N-1方式作為分母計算,此僅發生於推論時方出現。
          • E(s2)=σ2,樣本變異數是母群變異數的不偏估計,概念上為反覆抽取樣本(抽後放回,稱為with replacement)並計算其平均數,結果與母群之變異數相等,然而如果使用S^2則不同。
      • 標準差(standard deviation):即為變異數取根號之結果
        • 使用所有數值,因需計算平均數
        • 受極端值影響(因平均數特性)。
        • 不可用於open-ended/undeterminable scores,因平均數無法。
        • 可用於推論統計,因樣本變異數為母群變異數之不偏估計
        • 相較於平均絕對差,對極端值較為敏感(如有極端值存在,將造成標準差較大)。
        • 樣本變異數為母群變異數之不偏估計。
          P.s) 計算公式:簡化之後,可使用手上型計算機完成之公式,然而其形態可能與原本的理念不同,因此解讀仍以原始的公式為主。
        • 標準差特質:
          X
          s
          s2
          X±C
          s
          s2
          CX
          s*C
          C2*s2
      • 變異係數(coefficient of variation, CV):因其常用於兩族群之間的比較,因而又可稱為相對差異係數(coefficient of relative variation)
        • 表示標準差之大小站平均數之百分比
        • 通常使用於兩族群間的比較
        • 理論上而言,標準差越大者,其測驗之區分力應較佳,然而此受N之影響因而影響結果判讀,因此改以百分比方式可去除單位,從而有利於比較兩族群之能力
    • 轉換(transformation)
      • 加減:對集中趨勢指標而言,隨之加減;分散趨勢指標不變,分布型態不變(平移)。
      • 乘以常數:集中趨勢指標乘以常數;分散趨勢指標乘以常數(注意變異數之平方);分布型態相似(縮放)。
      • 常數與加減(線性轉換):資料點之間的相對位置不變

        XàX±b
        XàaX
        XàaX±b
        集中趨勢指標
        C±b
        aC
        aC±b
        離散趨勢指標
        no change
        a*range
        variance*a2
        a*range
        variance*a2
        分布型態
        形狀尺寸不改變
        (平移)
        輪廓相似(縮放)
        輪廓相似(平移&縮放)
    • 箱形圖(boxplot/box-and-whiskers plot):常見如政府之統計資料,其必然存有一個箱子本體之結構,而旁邊之線段有如貓鬚(whiskers)而得名。
      • Q1,Q2,Q3 and H-spread(Q3-Q1)
      • Inner fense:
        • upper fense=Q3+1.5 H-spread
        • lower fense=Q1-1.5 H-spread
      •  構成:
        • 取得Q1.Q2.Q3,並且計算H。
        • 取得Q1-1.5H;Q3+1.5H之範圍。
        • 取得實際存在數值之最小數值(但不低於左極限),此數值與Q1之距離為左鬍鬚。
        • 取得實際存在數值之最大數值(但不高於右極限),此數值與Q3之距離為右鬍鬚。
        • 若超過極限者,視為極端值。
      • 解釋:
        • Q2與Q1和Q3之相對位置,可判斷資料對稱特性
        • 左、右鬍鬚的長短,可看出其偏向趨勢
        • 亦可加上平均數,協助判斷之。
    • 偏態(skewness):三次方,計算公式以判斷其偏態。
      • r=0為對稱,r>0為正偏,r<0為負偏。
      • 手算公式:Skp=3(X-Mdn)/S
        • -0.5 ≦S≦0.5
        • S≧0.5正偏
        • S≦0.5負偏
    • 峰度(kurtosis):四次方。
      • r=0為常態,r>0為高峽,r<0為低闊。
      • 公式中的-3,為校正標準值為0之原因。
Note:爭議之一為,眾數是否可用於open-ended categories /undeterminable scores的數據?
如結果出現於非此類別者,尚且無妨;然如果出現於該組,則可能引起爭議。

描述統計:相對地位指標/一個好的估計值之特色

相對地位指標(measure of relative position):

  • 目標:
    • 想了解個體在團體中所佔之相對地位,或者程度為何。
    • 比較來自不同兩個分配之分數。
  • 相對地位指標:
    • 百分等級(percentile rank,PR)
    • 標準分數(standard score)
  • 百分等級(PR):
    • 較適用於ordinal data,有三種方式計算之。
      • 方法一:將分數排序,以及位置排序計算之,如共有15個數據,排序第六者為63%。
        15, 17, 22, 23, 27, 33(40%,6/15), 38, 41, 42, 43, 52, 58, 60, 66, 71
      • 方法二PR of (X=x)=100-(100*R-50)/N,其中R為高分排列至低分之名次N則代表樣本尺寸使用條件為知R與N,如若計算結果不是整數,則無條件捨去小數此公式之假設,為將團體分為100等級,由N個人共同平分,並且將個人視為該分數群之中點,因而計算方式第R名應為100/N*R-100/2N個等級,但傾向分數高者排名前面,因而以100-上述內容所得。
      • 方法三:PR=(100/N)*[F+(X-L)/h*f],其中N為樣本尺寸,h為組距,X為任意分數,L為該分數所在組別之真正下限,f表該分數組別之次數,而F表L以下之累積。因需要較多資訊取得。可應用於組群分數,當不知道詳細數據之時使用之。
    • 百分位數(percentile):概念為,需要多少分數,方能落在特定百分等級內。
      • Pth%=L+[(p/100)*N-F]*(1/f),公式參數與上述相同。
      • 與百分等級之比較,百分等級代表的是等第,而百分位數代表的是對應分數族群,為一體兩面之概念。
  • 標準分數:當比較單位不同,或者來自不同測驗之分數,無法直接以分數大小比較結果,因此可轉換為Z分數比較之。
    • Z Score代表與平均數相差多少個標準差,Z=(X-Xbar)/Sx
      • 以考試分數為舉例,如將所有科別分數加總,假設為各科別之單一分數等值,然而如使用Z score之加總,則可去除上述假設,可能呈現不同之結果。
      • Sx與Sz的差別在於,其以誰為原始分數計算標準差
      • Z分數的特性為:
        • Z分數之平均數必為0。
        • Z分數之變異數與標準差必為1。
      • Z分數的線性轉換:其實z本身之轉變,也為一種線性轉變(符合ax+b)。
        • 平移、縮放,但型態不變。
      • 應用:當轉換到不同團體時,需多少分數才能維持相同地位。
        • 原團體:Xbar=75, S=15,X=93,Z=1.2。
        • 新團體:Xbar=100,S=20,Z=1.2,X=124。
  • 百分等級VS Z分數:
    • 百分等級
      • 只使用ordinal 性質,不需計算平均數,因此門檻較低。
      • 不複雜、相對容易了解。
      • 用以描述個體在團體中相對位置。
      • 用以比較兩組來自不同分配資料的相對地位。
      • 指特定分數之分布百分比,無論實際分數大小。
      • 只管其分部百分比,而不需知道其真實分數。
    • Z分數
      • 只可用等距或者等比之數值。
      • 較不容易了解,但具有科學性。
      • 較精細的方式比較不同分配之資料。
      • 屬於一種線性轉換,不會改變資料間的關係。
      • 轉換之後,不會得到常態分配。
  • 總表整理(必讀)

XàX±b
Xàa*X
Xàa*X±b
Mean(平均)
X-bar±b
a*X-bar
(a*X-bar)±b
Mdn(中數)
Mdn±b
a*Mdn
(a*Mdn)±b
Mo (眾數)
Mo±b
a*Mo
(a*Mo)±b
Range(全距)
R
a*R
a*R
IQR(四分位距)
IQR
a*IQR
a*IQR
Q1
Q1±b
a*Q1
(a*Q1)±b
MAD(平均絕對差)
MAD
a*MAD
a*MAD
S2(變異數)
S2
a2* S2
a2* S2
SD(標準差)
SD
a*SD
a*SD
百分等級
no change
no change
no change
偏態
no change
no change
no change
峰度
no change
no change
no change
分布圖形
no change
no change
no change

留言

熱門文章