2014.03.07 教育及心理統計 (二) One-way ANOVA

  • 單一樣本的情況,依是否知道母群變異分z and t test 
  • 雙重樣本的情況,依是否對資料存有假設分為母數統計法及無母數統計法
    • 再依相依與獨立各有不同的作法。
  • ANOVA=Analyisi of Variance,儘管為變異數分析,主要目的仍為檢驗平均數之不同。
  • 單一因子ANOVA比較之範例:
    • 設A-D四組,此變項為居住地區(東南西北),此單一變項則為one-way ANOVA。
    • 其前提假設同t-test,包含獨立性、常態分配及變異數同質。
    • 實質上,t test為ANOVA的一個例子,表處於二個變項的條件下。
ANOVA的差異來源
  • 變異的來源有四:[誤差來源有二大類,一種是誤差,一種是變項影響差]
    • 誤差
      • 測量差異
      • 控制差異(無法控制的本質產生)
      • 個體差異
    • 獨立因子影響差異
  • t test 與ANOVA  
    • 二組都在比較組內與組間的差異,概念上如果組間的差異較母內差異超過臨界值,則可推論組間(此變項之影響差異)達顯著。
    • 二者的差異別在於,t test直接以分數方式呈現組間差異/組內差異的比值;ANOVA則使用(組間+組內)/組內的比值,然由於組內/組內可化為1提出,因此雖呈現方式不同,但概念相似。
    • "H=(within+between)/within=1+between/within=1+t"
    • 不將各變項以二二配對方式進行t test之原因有三:  [不好做且誤差大]
      • 各別Cn取2的t test 組合,其alpha將彼此疊加使結果不可信。
      • ANOVA的power較強,表其正確拒絕虛無假設的能力較佳。
      • ANOVA可處理三個變項以上的狀況。
  • one-way ANOVA因子分類:  [ANOVA的三種模式:分析、推論、綜合]
    • fixed effect:單純分析樣本資料並比較差異,不對母群進行推論。
    • random effect:隨機抽取樣本,目的為推論母群狀態。
    • mixed effect:綜合上述二者的作法。
ANOVA的假設與堅韌性
  • assumption of ANOVA  *同對t test的理解,因t test為ANOVA之一種變形。
    • 獨立(independent observations):資料點間須彼此獨立、不可重複。
    • 變異數同質(homogenitiy of variance)
    • 常態分配(nromality distribution of scores within each population):變項內之項目皆為常態分配,唯其平均數與變異數有所不同。(故須討論其變異數同質,以利比較)
  • robustness of ANOVA
    • 獨立性不可違背
    • 變異數同質:簡易做法四倍誤差內可接受;或採正規方式檢定是否同質。
    • 常態分配:近似常態、對稱即可。
統計假設與描述
  • model of one-way ANOVA:假設統計   
    • cell means model    [著眼於各組平均數相等]
      • H0:四組平均數相同,u1=u2=u3=u4。
      • H1:至少一組平均數與其他組不同。
    • factor effects model  [著眼於各組變異數相等]
      • H0:四組單項影響效果皆為0。
      • H1:至少一組單項影響效果不為0。
    • F-test (one-way ANOVA)對整體而言的檢定(overall test ,omnibus test),其僅能告知整體中有不同,但無法指出何者不同及不同程度。
      • 因應cell mean model and factor effects model而有不同的計算方式
        • cell mean model:直接計算F statistic
          • MSB=mean of S^2*n
            • mean of S^2=組平均與總平均之變異加總/df
          • MSW=各組S^2加總除以組數(平均概念)
        • factor effects model:使用ANOVA table協助計算
統計執行與計算
  • 操作概念:
    • s2(sum of square, SS);與平均數差值平方之總和
    • SSw(due to error variance, within)=SSB(due to independent factor effect, between)
      • SStotal:所有資料點與整體平均數差值平方之總和。
      • SSw:組內資料點與組平均數差值平方之總和,表組內變異。
      • SSB:各組平均數與整體平均數差值平方之總和,表組間差異。
    • SStotal=SSw+SSB,表整體差異為組內差異與組間差異加總。
  • 分配形式:
    • Z^2之分配形式為卡方分配。
    • 如為母群平均值,則不需扣除自由度1。
    • 如為樣本平均屋是,則須扣除自由度1。
    • 因此,sum of square是一種卡方分配。
  • 自由度:卡方分配用
    • SSw:N-J,表組內狀況,操作上表個組資料與各組平均數之差值平方,由於估計組數個平均數(J),且所有資料點都會參與計算,因此自由度為N-J。
    • SSB:J-1,表組間狀態,操作上表個組平均數與總平均數之差值平方,由於估計整體平均數扣除一個自由度,且共有J個組平均數(J組),故自由度為J-1。
    • SStotal:N-1,可視為上述二者的整合,操作上表所有資料點與總平均數之差值平方,由於估計總平均數,故扣除一個自由度而得N-1。
  • F-distribution
    • Fv1,v2=(X^2v1.v1)/(X^2v2/v2)
    • 分配型態由自由度決定。
    • 單峰
    • E(Fv1,v2)=v2/(v2-2) (for v2>2)
    • 正偏
  • 操作:
    • 依F-distribution的定義,如將SSB/J-1及SSw/N-J,則符合F分配,其中:
      • SSB/J-1=Mean square of between(MSB)
      • SSw/N-J=Mean square of within (MSW)
    • 此MSB/MSW的比值稱為F ration,可與F(J-1,N-J)的分配比較。
  • 期望值:
    • E(MSW)=oe^2
    • E(MSB)=oe^2+nsum(uj-u)^2/J-1=oe^2+n S aj^2/J-1
      note:如果虛無假設成立,表E(MSB)後續的那串(表單一因子影響)為零,因此二者比值近似於1。
      note2:如果二者比值非近似於1,而E(MSB)明顯較大,則表單一因子影響效果大,則可達顯著差異。
      note3
  • 操作總結:
    • F=(within+between)/within=MSB/MSW
    • 簡易解釋版:假定
      • E(MSW)=a
      • E(MSB)=a+b
      • F=(within+between)/within=MSB/MSW=a+(a+b)/a
      • 依據上述條件,b代表單一因子影響的效果,基於虛無假設其無影響,因此b=0,則F比值為1。
      • 依據上述條件,如b影響大,則此比值將大於1,則視為顯著。
  • 計算公式:[X]-[T]
    • 所有資料點的平方總和-(所有資料點的總和平方/資料總數)
    • SSt=SSB+SSw
      • SSt=[X]-[T]
      • SSB=[A]-[T]
      • SSw=[X]-[A]
    • 由這些內容可建構ANOVA table,以利計算。
      note:對應SS有其簡短計算方式,熟練並參考之。
  • F方配的查表:
    • 必然有二個自由度方可查詢。
    • 依序在橫、縱軸找到對應自由度,以取得該分配臨界值。
    • 此作法僅能知道其整體而言是否有差異,但不知道哪一組差異,欲知此結果須進行後續分析。
      note:當F計算的時候自由度呈現1,V2的狀況下,則t檢定數值的平方同F,且其對應臨界值也具有這樣的關係。
  • Magnitude of experimental effect (effect size)
    • 當樣本數很大的時候,結果容易拒絕虛無假設,但此拒絕虛無假設是否有意義,則需其它指標參考佐證。
    • 有鑑於人數影響檢定的準確性,故納入樣本數重新考量而得到效果值(effect size),以了解其差異程度。
    • n^2=(SSto-SSw)/SSt=SStreat/SSto
    • w^2=SStreat-(J-1)MSW/(SSto+MSW)
  • Power Analysis
    • 應用:
      • 設定效果值,決定樣本數。
      • 已知樣本數,決定效果值。
    • 取得:
      • power=1-表中數值(dfB,dfw; ψ)
      • ψ=根號n*ψ'
      • ψ'=各資料點與總平均差值之平方總和
        假定表定值F=0.14,則其power=1-0.14=0.86。

多重比較 (Multiple Comparison)
  • 當F檢定發現其中任一組呈現顯著差異時,進襲多重比較以取得更進一步的資訊。
  • error rate : PC≦FW≦a。
    • Error rate per comparison (PC): a' (每一個單一比較的錯誤率)
    • Family error rate (FW): 1-(1-a')^c,表至少犯一個type I error的機率
  • 事前比較與事後比較
    • 事前比較(Planned comparisons; Priori comparisons; Contrasts):因經驗與目標,只對某些變項有興趣。
    • 事後比較(Post-Hoc comparisons; Posteriori comparisons):分析後依結果進行更進一步的分析。
  • 事前比較:
    • multiple t tests (最簡易)
      • 變異數同質:計算方式同t檢定值,然以MSE取代變異數(因不偏估計)。
        • n相等:分母為根號之2MSE/n,對照自由度同MSE。
        • n不相等:分母為根號之MSE除以n1,n2分母分之一加總
      • 變異數不同質
        • n相等
        • n不相等
      • 此作法的限制在於,未控制整體alpha,故執行多次使type I error過大。
    • Linear contrasts (線性對比)
      • Linear combination(線性組合):每組平均數搭配其係數之總和。
      • 若C之總和為1,則L是平均數之總和。
      • 若C之總和為1/J,則L是平均數之平均數。
      • 若C之總和=0,此時L又被稱為線性對比(linear contrasts)。
      • L之變異數由C與S之加總而來,且L本身在變異數同質的前提下,符合平均數為零的常態分配。
        note:似存在一個,細數總和為0稱為線性對比的概念。
        note2:似以係數是否呈現比例關係,決定其屬於哪一種SSL。

ANOVA概念補充
ANOVA名為變異數分析,實為藉由變異數推論整體差異之方法。
「Total=between + within」:表示整體差異為組內差異與組間差異之和,以數學方式描述為「Xij-X..」=「X.j-X..」+「Xij-X.j」,其中i代表所在組別的編號,而j代表組別編碼,Xij代表所有可能出現的數值、X.j代表組平均、X..代表總平均。
線性效果不影響組內,因此其差異僅存在於組間。

Sum of square (SS)為(Xij-X..)^2之總和,此平方加總的優點為不需考慮正負號問題。

經數理驗證,確立「SStotal=SSwithin+SSbetween」為可用條件。

由於n影響其數值大小,因此套用標準化的概念,引入自由度(df)作為抗衡。
自由度(df)代表使用統計量估計參數時,其獨立且可自由變化之數值個數。



ANOVA概念整理

  • ANOVA為變異數分析,藉由分析變異數達判斷組間平均數差異之統計方法。
  • 其對照分配為F分配
    • 此分配為二個卡方分配之比值
    • 自由度影響其分配形狀
    • 單峰不對稱正偏
  • 其假設檢定之設定,依cell mean 及 factors effect描述
    • 虛無假設(H0):各組間平均數沒有不同(組間變異差與組內變異差無顯著差異)
    • 對立假設(H1):至少一組平均數與其它組不同(組間變異差與組內變異差顯著差異)
  • 檢定概念
    • 假定:總變異由組間變異與組內變異構成,即
      「總變異=組間變異(between)+組內變異(within)」
      • 組間變異又稱為效果影響,因特定的介入程序僅對該組別產生影響,從而造成組間差距增加。
      • 組內變異又稱為誤差,因個體與平均差異之狀況普遍存在各組內,故各組內應無顯著差異。
    • 檢定:故F檢定乃以組間差異/組內差異方式呈現,如此檢定數值超過臨界值則可拒絕虛無假設,因組間差異明顯可能顯示有特定因素造成。
    • 限制:F檢定結果僅回答整體組間是否一致,無法標記差異之組別,需進行後續分析(多重比較)方能得知。
  • 計算
    • F檢定之統計值所需各參數可由ANOVA table取得
      • ANOVA table包含要素為
        • SS (Sum of square) 手算策略*
          • 組間:[組,方均,和]-[總方均]
          • 組內:[各方和]-[組,方均,和]
          • 整體:[各方和]-[總方均]
        • df (Degree of freedom)
          • 組間:組數少一
          • 組內:總數扣組數
          • 整體:總數少一
        • MS (Mean square)
          • 組間:SSB/df 或 SSB/組數
          • 組內:SSW/df
        • F statistics =MSB/MSW~ F (df1,df2,alpha)
    • MSW vs MSB
      • MSW的計算方式為[各方和]-[組,方均,和]再除以df或組數,此計算方式為個別數值與組平均之變異加總後平均,屬自樣本估計變異之方式。
      • MSB的計算方式為[組,方均,和]-[總方均]再除以df,此計算方式為組平均與總平均之比較,屬自整體樣本抽樣方式估計母群平均之方式。



留言

熱門文章