2013.11.01 心理及教育統計(六) 機率及二項分配

Today: 二項分配是第二的所學的分配(第一個是常態分配)

機率(probability):某事件發生的可能率。
  • 介於0~1之間,不可能為負值。
  • 所有的機率總和為1。
事件(event):可觀察到的狀況,包含一種或者多種結果(outcome)。
  • 當抽取機率對等公平時:將事件為分子,所有狀況為分母。
  • 當抽取機率不對等不公平時:將個別機率加總分類,或者使用其他方式判讀(往往這種類別,會自行提供機率)。
樣本空間(sample space):所有可能事件的集合,包含有所可能發生的事件。
  • 以骰子為例,投擲一次骰子,樣本空間則為一次骰子的結果,點數1~6。
互斥事件(mutually exclusive events):當兩事件彼此互斥,則一事件發生時另外一事件不可發生。使用相加律(additive law)。
  • 代表兩件事情的交集為空交集,也就是互不包含彼此。
  • 如果A、B互斥,P(AUB)=P(A)P(B),表其機率無交集。
  • 如果A、B不互斥。P(AUB)=P(A)+P(B)-P(AnB)。
獨立事件(independent events):兩事件獨立,則一事件的發生不影響另一事件的發生。使用相乘律(multiplicative law)。
  • 代表兩件事情交集的部分,為個別機率之乘積,因其彼此互不影響。
  • 如果A、B獨立,則P(AnB)=P(A)*P(B)。
  • 如果A、B不獨立,則牽扯條件機率。
完全事件(exhaustive events):包含所有可能的事件。
  • 獨立一個事件,包含所有結果的意思,同選擇題之以上皆是。
  • 如小學,存在一個事件包含1~6年級;如大學,存在一個包含1~4年級的事件。
聯合機率(joint probability):兩事件同時發生的機率,可以A&B的概念理解。
  • 考慮兩事件本質是否獨立,如果為獨立,則將機率彼此相乘即可;如若不獨立,則以條件機率處理之。
條件機率(conditional probability):P(A|B)表在B的條件之下,A發生的機率為多少,以given描述之。
  • 定義:P(B|A)=P(AnB)/P(A),也就是事件A成立的情況下,B事件出現的機率。
  • 通常條件機率的數值較大,因其縮小了分母的大小(如男生&大一男生的比率)。
邊際機率(marginal probability):同時考量兩個以上的向度,聚焦於某一向度的機率。
  • 以collapse(壓縮),描述聚焦於特定向度發生的機率。
貝氏定理(Bayes Theorem):當知道P(A|B)的情況下,推論P(B|A)的狀況。
  • P(A|B)=P(B|A)*P(A)/P(B),推倒過程簡述如下,自條件機率起始。
    • P(A|B)=P(A&B)/P(B)
    • P(B|A)=P(B&A)/P(A)
    • 結合上二:P(A|B)*P(B)=P(A&B)=P(B|A)*P(A)
    • 同除P(B):P(A|B)=P(A&B)/P(B)=P(B|A)*P(A)/P(B)
  • 可利用條件機率進行調整,應用其定義公式。
  • 雖其只討論A、B兩事件,但可以再將其中的A分為A1~A3。
    • 概念上,P(A|B)=P(B|A)*P(A)/P(B),也可以使用複雜公式無妨。
    • 如果再將A切為A1,A2以及A3,則狀況會變成:
      • P(A1|B)=P(B|A1)*P(A1)/P(A1)*P(B|A1)+P(A2)*P(B|A2)+P(A3)*P(B|A3)。
    • 反向操作可以將 B切為B1和B2,則狀況會變成:
      • P(B1|A)=P(A|B1)*P(B1)/P(A|B1)*P(B1)+P(A|B2)*P(B2)。
機率分配(probability distribution):各事件機率的分配圖表。
  • 若資料為連續變項,所出現的分配會呈現曲線樣式(參考之前對於分布的指標、描述),且特定點的機率實質不存在,因其連續可再細分(3=2.95~3.05)。
  • 若資料為間斷變項,其分配是長條狀描述,可描述特定點的機率(因為斷點而非範圍。
排列組合(permutation&combination):
  • 排列:以P為代號,計算方式為Pa取b=a!/(a-b)!,意義為自a個元素中抽取b個進行排列之可能性,換言之,從a個元素中抽取b個,然後將此b個元素進行排列之所有可能數。
    • 如在A,B,C,D四個元素中,抽取兩個元素進行排列:
      • 此為P4取2之情況,計算方式4!/2!=4*3=12。
      • 自4個元素中抽取兩個,再任意排列:C4取2*2!=4!*2!/2!*2!=12。
  • 組合(C):以C為代號,計算方式為Ca取b=a!/b!*(a-b)!,意義為自a個元素中抽取b個元素,共有多少種配對方式。
    • 如在A,B,C,D四個元素中抽取兩個元素之組合:
      • C4取2=4!/2!2!=6。
      • AB,AC,AD,BC,BD,CD,此六種可能。
  • 因此,P與C之間,實際上差異在於有沒有順序(重複)之問題,也就是有沒有除去r!的狀況。
Bernoulli Trials :建立於隨機變數的模型上,提出一個Yes/No question的試驗方式,其結果僅為兩互斥事件的試驗。
(P.s) 舉例而言,如硬幣掉落後是人頭朝上嗎? 剛出生的小孩是女生嗎? 一個人的雙眼是綠色的嗎?
  • 定義事件的成功率為p,則失敗率為1-p=q。
  • E(X)=p;變異數為p*q。
  • 以X~B(N,P)的方式描述,其中N代表執行次數,P代表平均值或稱成功率。
二項分配(binomial distribution):間斷型的分配,以間隔長條的分配方式呈現,建立於僅二結果的試驗中。
  • 二種結果:如正/反、通過/不通過、人頭/數字(銅板)...etc。
  • 透過一連串的Bernoulli Trials所得的結果。
  • 重複執行Bernoulli trials N次,則E(X)=NP,平均數為Npq。
  • 特色:
    • P=0.5的情況下,呈現對稱分配。
    • 如果P>0.5會呈現負偏;P<0.5呈現正偏。 
  • 應用:
    • X~B(N,P),其中E(X)=P,Var.=NPq。
    • 將之Z化,計算其Z與alpha之比較是否能拒絕H0(Z檢定)。
    • 常態逼近法(normal apporx.):當N很大的時候,直接使之成為Np/Npq...
      • X~B(30,0.6)==N(Np,Npq)==N(18,7.2),平均數為18、變異數為7.2之常態分配,因此可與之比較。
      • 概念上,當N夠多的時候Bernoulli trials可視為常態分配之前提,以常態分配方式去計算結果。
        note:Z定義有兩種,一種是數值與母群比較,另外一種是樣本平均數與母群平均數之比較,兩者個SD描述不同。
  • 附註:normal approximation的判斷條件。
    • 當p=0.5時,n>20或者25可視為常態分配。
    • 當p=0.1 (0.9,正負偏),n>100以上方能呈現常態。
    • 通則(general rule):當p不接近0.5,Npq(Var.)>9,方可使用常態分配假設。
  • 附錄2:校正公式
    • Z=(|X-Np|-0.5)/根號Npq。
    • 其目標為縮小非連續的差異,實質上可做可不做。








留言

熱門文章