卡方分布是gamma函數生成,θ則為1/λ時卜式機率,其源頭是排列組合的二項分布機率,引導的常態分佈機率。
回顧一下變異數=σ^2,及標準誤差=σx ̄,Z^2=(x ̄ - μ)^2 / σ^2。Z ε%= x ̄ - μ / σx ̄。
假若由群體中抽n個樣本,並把每一個樣本xi帶入,求其總和:
[nΣi=1] Zi^2 =[nΣi] (x - μ)^2 /σ^2 。= [Σ (xi - μ)^2 )] / σ^2=標準常態的Z值的平方。
上式若用卡方分布 χ2 (n)= (Σ (xi - μ)^2 )/σ^2=以自由度為n的標準常態的Z值的平方。或χ2 (n-1)= ΣZi^2 = [Σ (xi - x ̄)^2 )] / σ^2
https://zhuanlan.zhihu.com/p/268756365
當α=v/2,β=2,帶入Garment分配的期望值E(x)=自由度V,變異數Var(x)=2自由度V
變異數(自由度)愈多,看卡方分配機率圖自由度=30,則越趨近於常態分布:
(一)所有的變項為類別變項(categorical variable)
(二)樣本須為獨立變項(Independent variable)→第一組的樣本不影響第二組的樣本;第二組的樣本也不影響第一組。
(三)每一檢定分組項目內的數據應該設為頻率或計數數目,而不是百分比或是經過轉換之數據。
(四)至少有80%以上的分組項目,其樣本數大於5,亦即樣本數目至少要為細格數目的五倍,避免產生計算式分母的誤判。
Σxij ^2 (變異值)=χ2 =(O-E)^2 / E ,E=群體,O=樣本。χ2 =n {[rΣi=1][cΣj=1] aij^2 /Ri Cj}-1
關心的是fo(x)-fe(x)=H0,來評判H1差異多少顯著性。
其自由度為:(r −1)× (c −1),行列分組數目。
自由度Φ=(COUNTA(r_cell:r_cell)-1)*(COUNTA(c_cell:c_cell)-1)
求卡方分配的右尾顯著性機率%P值=CHISQ.DIST.RT(卡方值,自由度),
求卡方分配的左尾顯著性機率%P值,從0~+∞P值=CHISQ.DIST(卡方值,自由度,1跟0的差別可參考前面章節常態分布機率的講解)。
或反求卡方分配的左尾機率反傳卡方值=CHISQ.INV(1-α%機率一般是用0.95,自由度)
或反求卡方分配的右尾機率反傳卡方值=CHISQ.INV.RT(α%機率一般是用0.05,自由度)
表示自觀察值與期望之差異之總和,若差異越大則表示兩變數之間越有關聯性,越容易顯著。
χ2 為0:H0, χ2 不為0:H1。χ2 越趨近0即H0愈顯著。
卡方值差異愈大表示:由在H0的證真假設下,計算卡方值的計算公式可知,卡方值χ2值愈小,O觀察值與多個E期望值間差異愈小,即是表示互相間變異數差異越小,當兩個互減=0時,O為觀察值與E為期望值完全一致時,χ2值為0。
反之,當χ2當大時,其累積分布函數機率越趨近1.00,即表明O觀察值與多個E期望值間有明顯差異,遠離H0初始主張假設。
以數學式:χ2 =0≡H0, χ2 ≠0≡H1。χ2 →0即H0愈顯著 ,χ2 與χα^ 2差愈大,χ2 →1則H1愈顯著。
如果χ2值“小”,研究者就傾向於不拒絕H0;如果χ2值大,就傾向於拒絕H0。
適用性檢定:
χ2 (n-1)=[nΣi=1] (Oi - Ei)^2 / Ei,上式中,實測值為Oi,期望次數為Ei ,自由度為(n −1)之卡方分布。
例題:有三種治療某病症的藥劑,分別給受試者使用後如下表,請問這三種治療某病症的藥劑,有無差異。
┌───┬─┬─┬─┬──┐
│藥劑名│ A│ B│ C│總和│
│有改善│48│56│34│138 │
│無改善│32│30│58│120 │
│總和數│80│86│92│258 │
計算E期望值:
期望值的計算是以行與列交乘值除以總數(Total),
例如:[(A+B+C)*(有改善+無改善)]/Total為A Cell之期望值。
藥劑A有改善的期望:E=(138*80)/258=42.7906
藥劑B有改善的期望:E=(138*86)/258=46.0000
藥劑C有改善的期望:E=(138*92)/258=49.2093
藥劑A無改善的期望:E=(120*80)/258=37.2093
藥劑B無改善的期望:E=(120*86)/258=40.0000
藥劑C無改善的期望:E=(120*92)/258=42.7906
計算卡方值:
χ2為每一分組項目之卡方值,O為觀察值,E為期望值,使用χ2 = Σ (O-E)^2 / E ,計算變異值。
(48-42.7906)^2/42.7906=0.6341+
(56-46.0000)^2/46.0000=2.1739+
(34-49.2093)^2/49.2093=4.7007+
(32-37.2093)^2/37.2093=0.7293+
(30-40.0000)^2/40.0000=2.5000+
(58-42.7906)^2/42.7906=5.4059+
上述用SUM()加總=16.144 =χ2變異值。
這次檢定的自由度Φ=(3-1)X(2-1)=2=自由度Φ
或反求卡方分配的左尾機率反傳卡方值=
=CHISQ.INV(顯著性機率一般是用0.95,自由度),卡方值愈小,相似性愈高
1-α% |
自由度 |
卡方值 |
α% |
0.04877 |
2 |
0.1000 |
0.9512 |
0.94999 |
2 |
5.9910 |
0.0500 |
0.99969 |
2 |
16.1441 |
0.0003 |
0.99999 |
2 |
24.0000 |
0.0000 |
0.15 |
2 |
0.3250 |
0.8500 |
0.2 |
2 |
0.4463 |
0.8000 |
0.25 |
2 |
0.5754 |
0.7500 |
0.3 |
2 |
0.7133 |
0.7000 |
或反求卡方分配的右尾機率反傳卡方值=
=CHISQ.INV.RT(相似性機率一般是用0.05,自由度),卡方值愈小,相似性愈高
α% |
自由度 |
卡方值 |
1-α% |
0.95123 |
2 |
0.1000 |
0.0488 |
0.05001 |
2 |
5.9910 |
0.9500 |
0.00031 |
2 |
16.1441 |
0.9997 |
0.00001 |
2 |
24.0000 |
1.0000 |
0.85000 |
2 |
0.3250 |
0.1500 |
0.80000 |
2 |
0.4463 |
0.2000 |
0.75000 |
2 |
0.5754 |
0.2500 |
0.70000 |
2 |
0.7133 |
0.3000 |
由結果可知,當自由度為2,其設置α顯著性為1-0.05=0.95,卡方值為5.991,
χ2 >χα^ 2 →16.144 > 5.991 ,H0初始主張:三種治療骨質酥鬆症的藥劑沒有差異,H1拒絕初始主張:三種治療骨質酥鬆症的藥劑有差異。
因χ2 >χα^ 2 →16.144 > 5.991,所以此次檢定χ2 其變異差異性大於χα^ 2時設置的檢定直值:拒絕H0,接受 H1,所以三種治療骨質酥鬆症的藥劑有差異的,但因α設置0.05,故是犯第一類型錯誤(type I error)的機率可能有5%。
關心的是fo(x)-fe(x)=H0,來評判H1差異多少顯著性。
求顯著性機率%:卡方分配的左尾機率值從0~+∞
=CHISQ.DIST(卡方值,自由度,1跟0的差別可參考前面章節常態分布機率的講解)
卡方值 |
自由度 |
P值 |
1-α% |
α% |
0.1 |
2 |
0.04877 |
4.877% |
95.123% |
5.991 |
2 |
0.94999 |
94.999% |
5.001% |
16.144 |
2 |
0.99969 |
99.969% |
0.031% |
24 |
2 |
0.99999 |
99.999% |
0.001% |
Σ[fo-fe^2]/fe=χ2 =0.1=變異為0.1=1-α%4.877%=α%為95.123%
Σ[fo-fe^2]/fe=χ2 =5.991=變異為5.991=1-α%94.999%=α%為5.001%
Σ[fo-fe^2]/fe=χ2 =16.144=變異為16.144=1-α%99.969%=α%為0.031%
Σ[fo-fe^2]/fe=χ2 =24=變異為24=1-α%=99.999%=α%為0.001%
統計推算後的差異性99.969%是否有大於預設主張的94.999%,若有,則表示統計推算後,其此次檢定是有差異性的。
那看來是有大於4.97%的情況,所以,可以用數學推導檢定的依據方式:表明三種治療某病症的藥劑有差異的。
留言列表