2011年9月1日 星期四

[自動轉寄] [問題] 卡方獨立性檢定 細格有0

作者: Kinght (�▽�) 看板: Statistics
標題: [問題] 卡方獨立性檢定 細格有0
時間: Tue Aug 30 15:31:07 2011

拜託不要看到標題就先推Yate's Correction for Continuity或

Fisher's exact probability test


說來慚愧 接觸統計將近8年…

最近才聽說卡方檢定中細格不能有零這件事Orz

上網google 「卡方 0」也只有看到一筆資料有提到

而且只剩庫存頁面…

資料有幾個變項 有很多的變數 雖然樣本有超過2000

但是因為資料的特性 往往有一個變項很大 但是其他細格都是0

例如
甲 乙 丙 丁 戊 己 庚
A 280 1 10 0 0 0 2
B 12 5 0 380 5 3 1
C 0 181 3 1 0 2 5
D 1 3 0 21 89 40 20
E 9 20 18 50 150 0 0

類似這樣的狀況

如果併項到沒有0
1.會讓特徵消失 2.變項太少失去解釋意義 3.Cramers'V變小

請問有什麼方法解決嗎?

謝謝

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 163.29.135.126
推 gsuper:我也想問這問題 我的資料是上千筆 3*2 table , 一旦部分資  08/31 02:00
→ gsuper:料併項 整體的算法就不統一..很苦惱  08/31 02:01
→ bmka:那為什麼不用Fisher's exact test?  08/31 09:44
→ bmka:你知道為什麼要避免small cells嗎?  08/31 09:46
→ Kinght:Fisher's是"期望值"小於5 因為會讓檢定值變高  08/31 12:30
推 laba1014:請問有甚麼ref.提到細格"觀察值"不能為0的限制?  08/31 14:20
→ laba1014:大部分書提到的只有對"期望值"的限制不是嗎  08/31 14:21
→ bmka:Kinght大你記錯了,那不是Fisher exact的限制  08/31 19:13
→ bmka:主要原因也不是檢定值(mistaken for power?) 的問題  08/31 19:14
→ bmka:引一段 R. A. Fisher在書裡講的話  08/31 19:22
→ bmka:"The treatment of frequencies by means of chi-square is  08/31 19:23
→ bmka:an approximation, which is useful for the comparative  08/31 19:23
→ bmka:simplicity of the calculations. The exact treatment is  08/31 19:23
→ bmka:somewhat more laborious, though necessary in cases of  08/31 19:24
→ bmka:doubt." -- Statistical Methods for Research Workers  08/31 19:24
→ bmka:他這裡指的statement of doubt就是"期望值"小於五  08/31 19:26
→ bmka:這種情況下chi-square test statistic"很可能"不是卡方分佈  08/31 19:27
→ bmka:(修正,"很可能"長得不像卡方分佈, chi-sq test 只是  08/31 19:29
→ bmka:approximation test)  08/31 19:29
→ bmka:所以,不好意思,還是請你用Fisher exact test吧  08/31 19:42
→ yhliu:5×7 table, 要做 exact test? 不知多少時間能算出來?  08/31 21:20
→ yhliu:卡方檢定是近似檢定方法, 是基於多變量中央極限定理而來的.  08/31 21:20
→ yhliu:因此, 有 "cell 期望次數至少為 5" 的要求. 但有兩個方向的  08/31 21:21
→ yhliu:數值研究結論: 一是說對於大型的表, 只要期望值小於5的 cell  08/31 21:22
→ yhliu:數比例不太高, 而所有 cell 期望值都在 1 以上, 馬馬虎虎啦!  08/31 21:23
→ yhliu:另一結論說: 即使各細格期望值都在5以上, 但若各細格期望值  08/31 21:24
→ yhliu:相差太懸殊, 卡方近似還是有疑問的.  08/31 21:25
→ yhliu:至於 cell observations 是 0 的問題, 很久很久以前看過一篇  08/31 21:26
→ yhliu:文章, 大意上是說 cell observation 為 0, 則 "殘差" 只能是  08/31 21:27
→ yhliu:負的, 不能是正的. 好像因此作者建議調整自由度吧?....不過,  08/31 21:28
→ yhliu:事隔太久記憶不一定真實, 也就是作者是否以調整自由度的方法  08/31 21:29
→ yhliu:對付, 我無法肯定. 原文出處也沒有印象了.  08/31 21:30
→ bmka:y大第一點指的是這篇 Koehler and Larntz (1980). An  08/31 21:48
→ bmka:An empirical investigation of goodness-of-fit statistics  08/31 21:49
→ bmka:for sparse multinomials. JASA, 75, 336-344.  08/31 21:49
→ bmka:至於5X7的fisher exact 對現在的電腦來說算是小case啦  08/31 21:50
→ bmka:如果是更大的table,R的function裡面還有用simulation來  08/31 21:53
→ bmka:得到p-value這個選項(真的想省時間的話)  08/31 21:53
推 gsuper:推一個  09/01 02:54
→ Kinght:所以bmka大認為"即使細格有0 只要期望值<5的格數少於20%  09/01 08:48
→ Kinght:仍不用做Fisher exact test"?  09/01 08:49
→ bmka:我的中文有那麼差嗎....請多愛用Fisher's exact test.  09/01 11:11
→ Kinght:所以你只是來推廣Fisher exact test?  09/01 15:41
→ ADORIAN:b 大是說放心使用 Fisher's exact test  09/01 19:38
→ bmka:謝謝A大翻譯 :)  09/01 19:57

沒有留言:

張貼留言