2013.12.13 心理及教育統計(九) 平均數的假設檢定

2013.12.13 心理及教育統計(九) 平均數的假設檢定

Review：

推論統計：藉樣本資料推論母群特質的方法。

自母群抽樣取得樣本資料，樣本數據稱為統計量，相對於母群數據稱為參數。

抽樣分配：自母群抽取樣本，紀錄樣本統計量的分配方式，稱為抽樣分配。

每次只抽1個：重複無限次抽取，平均數分配近似於母群分配。
每次抽n個：重複無限次抽取，則當n接近無限大時，基於中央極限定理，樣本平均數之抽樣分配趨近於常態分配。

母群平均數=樣本平均數。
母群變異數/n=樣本變異數。

推論統計：又分為假設考驗與估計。

估計：再分點估計與區間估計，前者為單一數值的描述，後者為範圍(區間)形式的描述。
假設考驗：又分為研究假設與統計假設，前者為研究時以描述句的方式描述研究問題，後者則將研究假設轉換成統計計算時的數據。

虛無假設Vs.對立假設：此二假設都使用母群的符號，基於使用樣本推論母群之狀況。

二者須互相獨立，並且包含所有可能。
通常會將不希望得到的結果列為虛無假設，將期望看到的結果列為對立假設，換言之，期望得到的結果是「成功拒絕虛無假設」。
假設檢定乃一個不得以的變通方法，基於無法直接證明對立假設為真，故透過假設讓問題僅有二種答案，並藉由否證虛無假設之方式以考驗對立假設是否成立。

單側考驗Vs.雙側考驗：前者具有方向性，後者沒有方向性。

雙尾考驗：通常虛無假設是u1=u2，而對立假設為u1≠u2。
單尾考驗：概念上虛無假設是沒有轉變者，因此會戴上等號，如u1≦u2，而對立假設則為u1>u2。

就考驗的嚴格程度而言，雙尾檢定的嚴謹程度優於單尾檢定，可理解為雙尾檢驗將拒絕區分散於二邊所致，其臨界值勢必較大，因此存在一個條件關係：「如果雙尾檢定否決虛無假設，單尾檢定必然否決虛無假設」。

Z-test標準差的使用：

如果抽樣只抽取一個樣本時，可直接使用母群的標準差。
如果抽樣之樣本為一個以上(假定為n)之平均，則依據中央極限而將母群標準差除以根號n，作為樣本平均數之抽樣分配的標準差。這是比較常見且合理的狀況。

alpha、拒絕區、臨界值：

alpha乃資料分析之前設定之標準，意義為容錯之百分率，故可決定臨界值與拒絕區的大小，可理解為容許第一型錯誤的發生率。
拒絕區：統計臨界值以及更極端的區域稱為拒絕區，視單、雙尾而決定其區域分配的位置，當結果落於此區域時可拒絕虛無假設。
臨界值：依循alpha對應之對照分配上的數值，如0.05的標準對單尾而言是1.64，而對雙尾是1.96。
P-value：為觀察結果與其極端之機率總和，也就是拒絕區的總面積，因此對照分配為機率模型故可直接解釋為發生機率之大小。

平均數的假設檢定：z-test & t-test，二者的差別在於是否需要估計母群的變異數。

一個樣本的例子：

已知母群變異數：使用z-test，因不需估計母群變異數。

依據中央極限定理可得二條件：

平均數抽樣分配之平均值=母群平均值。
樣本平均數之變異數=母群變異數除以n。

基於上二條件，得以計算z分數而進行檢定。

區間估計（ＣＩ）與假設檢定為一體二面，可用樣本結果建立區間，檢視是否包含虛無假設之平均數，決定接受或者拒絕虛無假設。

不知母群變異數：t-test，儘管依據中央極限定理可取得平均值的估計，但因缺乏變異數而須使用s^2估計之。

同樣建立在中央極限定理，唯不知道變異數為多少，因而無法使用。
因樣本變異數為母群變異數的不偏估計，此狀況則使用s^2 估計母群變異數；然而因數學上容易低估s^2的數值，致使計算出來的統計值偏大，故須不適合與常態分配比較，而使用自由度少1的t分配。
此檢驗方式比較之臨界值來自於t分配，且若為一個樣本的時候，其自由度為n-1，其中n代表一次抽取的時候抽取之樣本數。
同z-test方式，也可建立一信賴區間。

二個樣本的例子：再將樣本分為相依與獨立。

相依樣本：代表此二次的樣本之間有一個以上相同的受試者(但二樣本之內本身不可重複)，稱為相依相本，常見如前後測，又可分為單尾與雙尾。

名稱：within-subjects(repeated measure data), dependent samples, matched samples, and paired data。
D(delta)：表示前後側的差，計算方式為前測-後測(X1-X2)。

H0:D=0; H1:D≠0 or H0:D≦0; H1:D>0。
D之抽樣分配~N(ud,od^2/n)，ud=u1-u2。
t=D-u/S，但因S未知，因而須另外計算。
若有二變異數，另為x,y，則xy變異數為x變異數加上y變異數，加上2倍xy共變(二變項間的關係)。
比較對象為自由度-1的t分配。
雙尾可建立信賴區間。

獨立：二樣本之間受試者不重複，或者彼此為對立之關係，稱為獨立。如跨班、男女，也可分為單尾與雙尾。

名稱：independent groups/samples, between-group design.。
假定：男生為族群1,女生為族群2，則x1-x2~N(u1-u2, o1^2/n1+o2^2/n2)
E(x1-x2)=u1-u2；Var (x1-x2)=var(x1)+var (x2)-2cov(x1,x2)=o1^2/n1+o2^2/n2，因為獨立變項因此cov(x1,x2)=0。
同理，如已知道變異數則可以使用z-test，如果不知母群變異數，則需判別二變異數是否同質(經驗法則為4倍之內)，如為同質可建立pool後使用t-test，若不同質則使用其他方式處理。

假定同質，則先運用自由度加權計算出pool，計算方式為(自由度-1)S1^2+(自由度-1)S2^2/(n1-1)+(n2-1)。
若為不同質，採用另外一種檢定方式。

t 檢定：基於不知母群變異數，而使用樣本變異數估計的檢定方法，但因容易低估變異數造成t統計值較大，故需與自由度減1的t分配比較。

樣本變異數的抽樣分配，為一正偏之分配方式(chi-distribution)。
原則上將眾多數值加總後平均，可削弱誤差使平均結果接近於母群之平均值，因此樣本變異數是群變異數的不偏估計，為不偏性。
但使用s估計的時候，因分配方式為正偏，且平均受極端值影響，因此s往往比平均值小，造成統計值與z test不適直接比較，因此另設t分配檢定之。
student's t distribution：

受自由度影響，當自由度夠大的時候趨近常態分配。
為對稱分配，性質矮胖。

t分配：基於定義產生的分配方式，與Z及X^2相關。

定義：Z/根號(x^2/k)，將Z分配除以根號卡方分配除以自由度，且Z分配與卡方分配互相獨立。
特性：

受自由度影響(牽扯卡方）。
對稱，有一個mode，偏態=0。
平均數=0。
相較於常態分配更為矮胖。
當k>30，則趨近常態分配。

應用：視單雙尾，透過查表取得臨界值。

t-test 的假設：整體而言，雖其有假設，但也有部分通融性，將於下描述之。

獨立性(independent)：個體間(資料點間)要互相獨立，此為絕對必要條件。
常態分配(normality)：各組別有自己的常態分配，但可假定某些分配趨近於常態。
變異數同質(homoscedasticity of variance)：通常使用經驗法則判斷其變異數差異不超過四倍，代表差異在四倍之內仍有容忍度。
強韌性(robustness)：檢定不受到偏離假設而影響的特性。

獨立性：不容許違背。
常態分配：不偏離太多尚可。
變異數同質：若樣本人數相近，雖違反原則但可接受，但如果人數差太多則未必，原則為差距為四倍之內。
note：雖有其假設，但有多少彈性可接受差異，此為強韌性的概念。

Summary：

推論統計的目標，是透過自母群中抽樣所得的樣本，推論母群之特質。
假設檢定乃利用二分法，設定標準並且將樣本與某一分配比較，以判斷是否拒絕虛無假設。

中央極限定理：若母群之平均數為u、變異數為o，每次抽取之樣本數為n，並且經過無限多次抽取放回之程序，所得的平均數抽樣分配，其平均數為u而變異數為o/根號n。[利用母群的平均數與變異數建構此平均數抽樣分配]
因此，z-test實質上是比較本次所抽取的樣本，與眾多可能抽取樣本之平均數抽樣分配進行比較，從而判斷此樣本從此抽樣分配出來的機率為多少，此時平均數抽樣分配用以代表母群。[比較樣本與所建構平均數抽樣分配之相似程度]

母群的特質可從過往研究或者紀錄的資訊取得，但如果缺乏變異數時，使用抽樣之變異數估計母群變異數是可行的策略之一，此種檢定的方式稱為t-test。[使用樣本變異數s估計母群變異數，但仍需知道母群的平均數]

t-test可處能遇到的狀況為：

單一樣本t檢定：抽取一個樣本並且不知母群變異數的狀況。
相關性t檢定：二相依樣本比較其關聯性。
同質性t檢定：二獨立樣本比較其同質性。

t檢定的前提假設包含：

獨立性：樣本內個體須獨立不重複，並且無容錯空間。
常態分配：所抽取之樣本來自於各自的常態分配。
同質性：雙重樣本之變異數差異不大。

留言