渔民 '在R:小样本的Instexence测试中进行了精确测试

Antoine Soetewey 2020-01-28 5 minute read

介绍

介绍之后 Chi-Square手工独立测试在R.这篇文章侧重于Fisher的确切测试。

独立测试用于确定两个分类变量之间是否存在显着关系。存在两种不同类型的独立测试:

  • Chi-Square测试(最常见)
  • 费舍尔的确切测试

一方面,当样品足够大时使用Chi-Square测试(在这种情况下 \(p \)-Value是当样品变为无限时精确的近似值,这是许多统计测试的情况)。另一方面,当样品很小时使用Fisher的确切测试(在这种情况下 \(p \)-Value是精确的,不是近似值)。

文献表明,常规规则决定是否 \(\ chi ^ 2 \) 近似足够好,即Chi-Square测试是不合适的 预期的 应急表的一个单元中的值小于5,在这种情况下,Fisher的确切测试是优选的 (McCrum-Gardner 2008;贝尔 2003).

假设

渔民 精确测试的假设比Chi-Square测试相同,即:

  • \(h_0 \) :变量是独立的,有 两个分类变量之间的关系。知道一个变量的值没有帮助预测其他变量的值
  • \(H_1) :变量是依赖的,两个分类变量之间存在关系。了解一个变量的值有助于预测其他变量的值

例子

数据

对于我们的示例,我们希望确定吸烟和专业运动员之间是否存在统计上重大关联。吸烟只能是“是”或“否”,是专业运动员只能是“是”或“否”。感兴趣的两个变量是定性变量,我们收集了14人的数据。1

观察到的频率

我们的数据总结在下面的差价表中,报告每个子组中的人数:

  非吸烟者 吸烟者
运动员 7 2
非运动员 0 5

预期频率

Remember that 费舍尔的确切测试 is used when there is at least one cell in the contingency table of the expected frequencies below 5. To retrieve the expected frequencies, use the chisq.test() function together with $expected:

chisq.test(dat)$expected
## Warning in chisq.test(dat): Chi-squared approximation may be incorrect
##             Non-smoker Smoker
## Athlete            4.5    4.5
## Non-athlete        2.5    2.5

上面的差价表确认我们应该使用Fisher的确切测试而不是Chi-Square测试,因为至少有一个细胞下降5。

小费:虽然检查预期频率是一个很好的做法 deciding between the Chi-square and the Fisher test, it is not a big issue if you forget. As you can see above, when doing the Chi-square test in R (with chisq.test()), a warning such as “Chi-squared approximation may be incorrect” will appear. This warning means that the smallest expected frequencies is lower than 5. Therefore, do not worry if you forgot to check the expected frequencies before applying the appropriate test to your data, R will warn you that you should use 费舍尔的确切测试 instead of the Chi-square test if that is the case.

渔民 ’s exact test in R

To perform the Fisher在R的确切测试, use the fisher.test() function as you would do for the Chi-square test:2

test <- fisher.test(dat)
test
## 
##  Fisher's Exact Test for Count Data
## 
## data:  dat
## p-value = 0.02098
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.449481      Inf
## sample estimates:
## odds ratio 
##        Inf

输出中最重要的是 \(p \)-价值。你也可以检索 \(p \) - 与:

test$p.value
## [1] 0.02097902

结论和解释

From the output and from test$p.value we see that the \(p \) - 价值小于5%的意义水平。就像任何其他统计测试一样,如果是 \(p \)-Value小于显着性水平,我们可以拒绝零假设。如果你不熟悉 \(p \)-Values,我邀请你读这个 部分.

\(\右箭头\) 在我们的背景下,拒绝归属于Fisher对独立性的零假设意味着两个分类变量(吸烟习惯和运动员)之间存在重大关系。因此,知道一个变量的值有助于预测其他变量的值。

谢谢阅读。我希望这篇文章有助于让您在r中执行Fisher对独立性的确切测试,并解释其结果。了解有关独立性的Chi-Square测试 用手 或者 在R..

一如既往,如果您有问题或与本文所涵盖的主题相关的建议,请将其添加为评论,以便其他读者可以从讨论中受益。

参考

Bower,Keith M. 2003.“何时使用Fisher的确切测试。”在 美国质量学会,六西格玛论坛杂志,2:35-37。 4。

麦克鲁姆 - 加德纳,伊维伊。 “这是使用的正确统计测试?” 英国口腔颌面外科杂志 46 (1): 38–41.


  1. 数据与覆盖物的物品相同 Chi-Square用手测试,除了已经去除了一些观察以降低样本大小。↩︎

  2. Use fisher.test(table(dat$variable1, dat$variable2)) if dat represents the raw data and is not already presented as a contingency table.↩︎



喜欢这篇文章?

获取更新 每次发布新文章。
任何垃圾邮件都没有任何垃圾邮件。
分享: