作者: Kinght (�▽�) 看板: Statistics
標題: [問題] 卡方獨立性檢定 細格有0
時間: Tue Aug 30 15:31:07 2011
拜託不要看到標題就先推Yate's Correction for Continuity或
Fisher's exact probability test
說來慚愧 接觸統計將近8年…
最近才聽說卡方檢定中細格不能有零這件事Orz
上網google 「卡方 0」也只有看到一筆資料有提到
而且只剩庫存頁面…
資料有幾個變項 有很多的變數 雖然樣本有超過2000
但是因為資料的特性 往往有一個變項很大 但是其他細格都是0
例如
甲 乙 丙 丁 戊 己 庚
A 280 1 10 0 0 0 2
B 12 5 0 380 5 3 1
C 0 181 3 1 0 2 5
D 1 3 0 21 89 40 20
E 9 20 18 50 150 0 0
類似這樣的狀況
如果併項到沒有0
1.會讓特徵消失 2.變項太少失去解釋意義 3.Cramers'V變小
請問有什麼方法解決嗎?
謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 163.29.135.126
[1;37m推 [33mgsuper[m[33m:我也想問這問題 我的資料是上千筆 3*2 table , 一旦部分資 [m 08/31 02:00
[1;31m→ [33mgsuper[m[33m:料併項 整體的算法就不統一..很苦惱 [m 08/31 02:01
[1;31m→ [33mbmka[m[33m:那為什麼不用Fisher's exact test? [m 08/31 09:44
[1;31m→ [33mbmka[m[33m:你知道為什麼要避免small cells嗎? [m 08/31 09:46
[1;31m→ [33mKinght[m[33m:Fisher's是"期望值"小於5 因為會讓檢定值變高 [m 08/31 12:30
[1;37m推 [33mlaba1014[m[33m:請問有甚麼ref.提到細格"觀察值"不能為0的限制? [m 08/31 14:20
[1;31m→ [33mlaba1014[m[33m:大部分書提到的只有對"期望值"的限制不是嗎 [m 08/31 14:21
[1;31m→ [33mbmka[m[33m:Kinght大你記錯了,那不是Fisher exact的限制 [m 08/31 19:13
[1;31m→ [33mbmka[m[33m:主要原因也不是檢定值(mistaken for power?) 的問題 [m 08/31 19:14
[1;31m→ [33mbmka[m[33m:引一段 R. A. Fisher在書裡講的話 [m 08/31 19:22
[1;31m→ [33mbmka[m[33m:"The treatment of frequencies by means of chi-square is [m 08/31 19:23
[1;31m→ [33mbmka[m[33m:an approximation, which is useful for the comparative [m 08/31 19:23
[1;31m→ [33mbmka[m[33m:simplicity of the calculations. The exact treatment is [m 08/31 19:23
[1;31m→ [33mbmka[m[33m:somewhat more laborious, though necessary in cases of [m 08/31 19:24
[1;31m→ [33mbmka[m[33m:doubt." -- Statistical Methods for Research Workers [m 08/31 19:24
[1;31m→ [33mbmka[m[33m:他這裡指的statement of doubt就是"期望值"小於五 [m 08/31 19:26
[1;31m→ [33mbmka[m[33m:這種情況下chi-square test statistic"很可能"不是卡方分佈 [m 08/31 19:27
[1;31m→ [33mbmka[m[33m:(修正,"很可能"長得不像卡方分佈, chi-sq test 只是 [m 08/31 19:29
[1;31m→ [33mbmka[m[33m:approximation test) [m 08/31 19:29
[1;31m→ [33mbmka[m[33m:所以,不好意思,還是請你用Fisher exact test吧 [m 08/31 19:42
[1;31m→ [33myhliu[m[33m:5×7 table, 要做 exact test? 不知多少時間能算出來? [m 08/31 21:20
[1;31m→ [33myhliu[m[33m:卡方檢定是近似檢定方法, 是基於多變量中央極限定理而來的. [m 08/31 21:20
[1;31m→ [33myhliu[m[33m:因此, 有 "cell 期望次數至少為 5" 的要求. 但有兩個方向的 [m 08/31 21:21
[1;31m→ [33myhliu[m[33m:數值研究結論: 一是說對於大型的表, 只要期望值小於5的 cell [m 08/31 21:22
[1;31m→ [33myhliu[m[33m:數比例不太高, 而所有 cell 期望值都在 1 以上, 馬馬虎虎啦! [m 08/31 21:23
[1;31m→ [33myhliu[m[33m:另一結論說: 即使各細格期望值都在5以上, 但若各細格期望值 [m 08/31 21:24
[1;31m→ [33myhliu[m[33m:相差太懸殊, 卡方近似還是有疑問的. [m 08/31 21:25
[1;31m→ [33myhliu[m[33m:至於 cell observations 是 0 的問題, 很久很久以前看過一篇 [m 08/31 21:26
[1;31m→ [33myhliu[m[33m:文章, 大意上是說 cell observation 為 0, 則 "殘差" 只能是 [m 08/31 21:27
[1;31m→ [33myhliu[m[33m:負的, 不能是正的. 好像因此作者建議調整自由度吧?....不過, [m 08/31 21:28
[1;31m→ [33myhliu[m[33m:事隔太久記憶不一定真實, 也就是作者是否以調整自由度的方法 [m 08/31 21:29
[1;31m→ [33myhliu[m[33m:對付, 我無法肯定. 原文出處也沒有印象了. [m 08/31 21:30
[1;31m→ [33mbmka[m[33m:y大第一點指的是這篇 Koehler and Larntz (1980). An [m 08/31 21:48
[1;31m→ [33mbmka[m[33m:An empirical investigation of goodness-of-fit statistics [m 08/31 21:49
[1;31m→ [33mbmka[m[33m:for sparse multinomials. JASA, 75, 336-344. [m 08/31 21:49
[1;31m→ [33mbmka[m[33m:至於5X7的fisher exact 對現在的電腦來說算是小case啦 [m 08/31 21:50
[1;31m→ [33mbmka[m[33m:如果是更大的table,R的function裡面還有用simulation來 [m 08/31 21:53
[1;31m→ [33mbmka[m[33m:得到p-value這個選項(真的想省時間的話) [m 08/31 21:53
[1;37m推 [33mgsuper[m[33m:推一個 [m 09/01 02:54
[1;31m→ [33mKinght[m[33m:所以bmka大認為"即使細格有0 只要期望值<5的格數少於20% [m 09/01 08:48
[1;31m→ [33mKinght[m[33m:仍不用做Fisher exact test"? [m 09/01 08:49
[1;31m→ [33mbmka[m[33m:我的中文有那麼差嗎....請多愛用Fisher's exact test. [m 09/01 11:11
[1;31m→ [33mKinght[m[33m:所以你只是來推廣Fisher exact test? [m 09/01 15:41
[1;31m→ [33mADORIAN[m[33m:b 大是說放心使用 Fisher's exact test [m 09/01 19:38
[1;31m→ [33mbmka[m[33m:謝謝A大翻譯 :) [m 09/01 19:57