学生'在R和手头进行T检验:如何在不同场景下比较两组

Antoine Soetewey 2020-02-28 42 minute read

介绍

在推理统计数据分支中最重要的齐鲁风采群英会之一是 学生’s t-test.1 学生的两个样品的T检验用于 齐鲁风采群英会两组(两个人群)是否有所不同 就定量变量而言, 基于两个样品的比较 从这两组绘制。换句话说,两个样本的学生的T检验允许判断两个样本的两个群体是否不同(两个样本在a上测量 定量连续 variable).2

这种统计齐鲁风采群英会背后的推理是,如果你的两个样品彼此明显不同,则可以假设样品被绘制的两个群体不同。相反,如果两个样本相当相似,我们不能拒绝两个人群相似的假设,因此在手头的数据中没有足够的证据来得出结论,样品被拉出的两个人群不同。请注意,此统计工具属于推理统计的分支,因为从研究样本的研究得出的结论是概括为人口,即使我们没有整个人口的数据。

为了比较两个样本,通常比较为每个样本计算的中央趋势的量度。在学生的T检验的情况下, 意思是 用于比较两个样本。但是,在某些情况下,平均值不适合比较两个样本所以 中位数 用于通过通过的比较它们 Wilcoxon齐鲁风采群英会。本文已经相当长,完整,Wilcoxon齐鲁风采群英会被覆盖在一个单独的 文章以及一些插图一起使用一个齐鲁风采群英会或另一个齐鲁风采群英会。

这两个齐鲁风采群英会(学生的T-Test和Wilcoxon齐鲁风采群英会)具有相同的最终目标,即比较两个样本,以便确定它们被吸引的两个人群是否不同。请注意,学生的T-Test比Wilcoxon齐鲁风采群英会更强大(即,如果存在真实差异,则往往会检测到显着差异,因此可以通过学生的T-Test检测较小的差异),但学生的T-齐鲁风采群英会对 异常值 和数据不对称。此外,在这两个齐鲁风采群英会中的每一个中,存在多个版本,每个版本都使用不同的公式到达最终结果。因此,有必要了解两个齐鲁风采群英会之间的差异以及使用哪个版本来执行适当的分析,具体取决于提出的问题和数据。

在本文中,我将首先通过手工执行独立和配对样本的学生T检验的所有版本。为了说明和容易,分析将在一小一小一段观察中完成。然后,我将展示如何用完全相同的数据在r中执行此齐鲁风采群英会,以便验证手动找到的结果。提醒关于背后的推理 假设检验,解释 p-Value和结果,也将出现该齐鲁风采群英会的假设。

请注意,本文的目标是展示如何用手和r计算学生的t检验,因此我们避免齐鲁风采群英会假设,我们假设所有这些练习都满足所有这些。对于完整性,我们仍然提到假设,如何齐鲁风采群英会它们以及如果不符合一个问题,则存在哪些其他齐鲁风采群英会。有兴趣的读者被邀请看看 本文结束 有关这些假设的更多信息。

null和替代假设

在潜入学生的T-Test的计算之前,让我们回顾这个齐鲁风采群英会的NULL和替代假设:

  • \(h_0 \): \(\ mu_1 = \ mu_2 \)
  • \(H_1): \(\ mu_1 \ ne \ mu_2 \)

在哪里 \(\ mu_1 \)\(\ mu_2 \) 是绘制样品的两种群体的手段。

如引言中所述,虽然从技术上学生的T检验是基于两个样本的手段的比较,但该齐鲁风采群英会的最终目标实际上是齐鲁风采群英会以下假设:

  • \(h_0 \):这两个人口相似
  • \(H_1):这两个人口不同

这是在一般的情况下,我们只是想确定这两个人群是否是 不同的 或不(根据从属变量而言)。从这个意义上讲,我们对特定人群更大或更小于另一个的人没有先前的信念。这种类型的齐鲁风采群英会称为一个 双面 或者 bilateral test.

如果我们有一些关于一个人的人数更大或更小于另一个人口,则学生的T-Test还允许齐鲁风采群英会以下假设:

  • \(h_0 \): \(\ mu_1 = \ mu_2 \)
  • \(H_1): \(\ mu_1> \mu_2\)

或者

  • \(h_0 \): \(\ mu_1 = \ mu_2 \)
  • \(H_1): \(\ mu_1< \mu_2\)

在第一种情况下,我们想齐鲁风采群英会第一个人口是否大于第二个群体,而在后一种情况下,我们想齐鲁风采群英会第一个人群是否明显小于第二个。这种类型的齐鲁风采群英会称为一个 片面 或者 unilateral test.

一些作者认为,不应该在实践中使用单面齐鲁风采群英会,因为研究人员如此需要比另一个人数更大(更小),并且永远不会比其他人更小(更大),为什么她是否需要齐鲁风采群英会意义?这是一个相当哲学的问题,它超出了本文的范围。邀请感兴趣的读者查看部分讨论 Rowntree(2000).

假设检验

在统计数据中,许多统计齐鲁风采群英会是一种形式 假设试验。假设试验用于确定某种信念是否可以基于手头的数据(即样本)的数据被认为是真实(可粘合的)。大多数假设试验沸腾到以下4个步骤: 3

  1. 说明零和替代假设。
  2. 计算齐鲁风采群英会统计信息,表示T-Stat。计算齐鲁风采群英会统计的公式在学生的T-Test的不同版本中不同,但它们具有相同的结构。请参阅下面的方案1至5查看不同的公式。
  3. 找到临界值,给出了齐鲁风采群英会的理论统计分布,分布的参数和显着性水平 \(\α\)。对于学生的T检验及其扩展版本,它是正常或学生的T分发(t 表示学生分配和 z 表示正态分布)。
  4. 通过比较T-STAT(在步骤2中发现)与临界值(在步骤中找到)。如果T-Stat在于拒绝区域(由于临界值和齐鲁风采群英会方向确定),则我们拒绝零假设,否则我们不会拒绝零假设。这两个替代方案(拒绝或不拒绝零假设)是唯一一个可能的解决方案,我们从不“接受”一个假设。始终在初始问题的条款中始终解释决定也是一个很好的做法。

对于感兴趣的读者,请参阅这四个假设齐鲁风采群英会的步骤更详细信息 文章.

学生的T-Test的不同版本

对于两个样本有几个版本的学生T检验,具体取决于样品是否是独立的或配对的,并且取决于人群的差异:

一方面, 独立的 样品意味着收集两个样品 不同的 例如,实验单位或不同的个人,例如当我们分开致力于妇女和男性,或者在随机分配给对照和治疗组的患者上(以及患者只属于一个组)。另一方面,我们面对 配对 收集测量时的样品 相同的 实验单位,同一个人。这通常是这种情况,例如在医学研究中,当在两次不同时间齐鲁风采群英会治疗的效率时。在治疗之前和之后测量相同的患者两次,并且必须在通过处理齐鲁风采群英会统计数据计算中考虑两个样品之间的依赖性 差异 每个受试者的测量值。配对样本通常是两次测量的结果,但不排他性。假设我们想齐鲁风采群英会50名运动员的左眼和右眼之间的视野之间的差异。虽然测量不是在两个不同的时间(前后)进行的,但很明显,两只眼睛都依赖于每个受试者。因此,学生的配对样本的T检验应用于考虑两个样本之间的依赖,而不是对独立样本的标准学生的T检验。

选择学生T检验的适当版本的另一个标准是人群的差异(不是样本的差异!)是已知的还是未知的和等于或不平等的。这个标准非常简单,我们要么了解人群的差异,要么我们没有。无法计算群体的差异,因为如果可以计算人口的方差,这意味着您拥有整个人口的数据,那么无需再做一个假设齐鲁风采群英会......所以人群的差异也是如此在声明中(在这种情况下使用它们),或者没有关于这些差异的信息,并且在这种情况下,假设差异未知。在实践中,群体的差异是大多数时间未知,唯一要做的是选择适当的齐鲁风采群英会版本是检查方差是否相等。但是,我们仍然说明了如何在假设检测的4个步骤后,在下一节中使用手工和r在r中进行所有版本。

如何手动计算学生的T检验?

请注意,数据是人为的,并且不代表任何真实变量。此外,提醒假设可能或可能不满足。文章的重点是详细介绍如何用手和r计算不同版本的齐鲁风采群英会,因此假设所有假设都会满足。此外,假设意义程度 \(\ alpha = 5 \)所有齐鲁风采群英会的百分比。

如果您有兴趣通过手动应用这些齐鲁风采群英会,而无需自己进行计算,这是一个 闪亮的应用程序 这对你来说。您只需输入数据并选择侧栏菜单选择适当的齐鲁风采群英会版本。还有一个图形表示,有助于您可视化齐鲁风采群英会统计和拒绝区域。我希望你能发现它很有用!

场景1:具有2个已知差异的独立样本

对于第一个场景,假设以下数据。此外,假设两个样本是独立的,差异 \(\ sigma ^ 2 = 1 \) 在两个人口中,我们想齐鲁风采群英会这两个人群是否有所不同。

价值 样本
0.9 1
-0.8 1
0.1 1
-0.3 1
0.2 1
0.8 2
-0.9 2
-0.1 2
0.4 2
0.1 2

所以我们有:

  • 5个样本中的5个观察结果: \(n_1 = n_2 = 5 \)
  • 样品1的平均值: \(\ bar {x} _1 = 0.02 \)
  • 样本2的平均值: \(\ bar {x} _2 = 0.06 \)
  • 两个人口的差异: \(\ sigma ^ 2_1 = \ sigma ^ 2_2 = 1 \)

以下假设检测步骤:

  1. \(h_0:\ mu_1 = \ mu_2 \)\(h_1:\ mu_1 - \ mu_2 \ ne 0 \)。 (\(\ ne \) 因为我们想要齐鲁风采群英会两种方法是否不同,所以我们在齐鲁风采群英会中没有强加一个方向。)
  2. 齐鲁风采群英会统计: \ [z_ {obs} = \ frac {(\ bar {x} _1 - \ bar {x} _2) - (\ mu_1 - \ mu_2)} {\ sqrt {\ frac {\ sigma ^ 2_1} {n_1} + \ frac {\ sigma ^ 2_2} {n_2}}}} \] \ [= \ FRAC {0.02-0.06-0} {0.632} = -0.063 \]
  3. 临界值: \(\ PM Z _ {\ alpha / 2} = \ PM Z_ {0.025} = \ PM 1.96 \) (见指南 如何阅读统计表 如果你努力找到临界价值)
  4. 结论:抑制区是从 \( - \ infty \) 到-1.96和1.96到 \(+ \ infty \)。齐鲁风采群英会统计在拒绝区域之外,因此我们不会拒绝零假设 \(h_0 \)。就初始问题而言:在5%的意义水平下,我们不拒绝这两个人口的假设是相同的,或者数据中没有足够的证据表明,认为这两个人群被认为是不同的。

场景2:具有2等于但未知的差异的独立样本

对于第二种情况,假设以下数据。此外,假设两个样本是独立的,这两个人群中的差异都是未知的,但是\(\ sigma ^ 2_1 = \ sigma ^ 2_1))我们想齐鲁风采群英会人口1是否大于人口2。

价值 样本
1.78 1
1.5 1
0.9 1
0.6 1
0.8 1
1.9 1
0.8 2
-0.7 2
-0.1 2
0.4 2
0.1 2

所以我们有:

  • 6样品1的观察结果: \(n_1 = 6 \)
  • 5样品2中的观察结果: \(n_2 = 5 \)
  • 样品1的平均值: \(\ bar {x} _1 = 1.247 \)
  • 样本2的平均值: \(\ bar {x} _2 = 0.1 \)
  • 样品的差异1: \(s ^ 2_1 = 0.303 \)
  • 样本2的差异: \(s ^ 2_1 = 0.315 \)

以下假设检测步骤:

  1. \(h_0:\ mu_1 = \ mu_2 \)\(h_1:\ mu_1 - \ mu_2> 0\)。 (>因为我们想要齐鲁风采群英会第一个人群的平均值是否大于第二人口的平均值。)
  2. 齐鲁风采群英会统计: \ [t_ {obs} = \ frac {(\ bar {x} _1 - \ bar {x} _2) - (\ mu_1 - \ mu_2)} {s_p \ sqrt {\ frac {1} {n_1} + \ frac {1} {n_2}}}} \] 在哪里 \ [s_p = \ sqrt {\ frac {(n_1-1)s ^ 2_1 +(n_2 - 1)s ^ 2_2} {n_1 + n_2 - 2}} = 0.555}} = 0.555 \] 所以 \ [t_ {obs} = \ frac {1.247-0.1-0} {0.555 * 0.606} = 3.411 \] (注意,由于假设两个群体的差异相等,所汇集(常见)方差,表示 \(S_P \),计算。)
  3. 临界值: \(t _ {\ alpha,n_1 + n_2 - 2} = t_ {0.05,9} = 1.833 \)
  4. 结论:抑制区为1.833至 \(+ \ infty \) (只有一个拒绝区域,因为它是单面齐鲁风采群英会)。齐鲁风采群英会统计形式位于抑制区域内,因此我们拒绝零假设 \(h_0 \)。就初次问题而言:在5%的意义水平下,我们得出结论,人口1大于人口2。

场景3:具有2个不平等和未知差异的独立样品

对于第三种情况,假设下面的数据。此外,假设两个样本是独立的,这两个人群中的差异都是未知的并且不平等(\(\ sigma ^ 2_1 \ ne \ sigma ^ 2_1 \) )我们想齐鲁风采群英会人口1是否小于人口2。

价值 样本
0.8 1
0.7 1
0.1 1
0.4 1
0.1 1
1.78 2
1.5 2
0.9 2
0.6 2
0.8 2
1.9 2

所以我们有:

  • 5样品1的观察结果: \(n_1 = 5 \)
  • 6样品2的观察结果: \(n_2 = 6 \)
  • 样品1的平均值: \(\ bar {x} _1 = 0.42 \)
  • 样本2的平均值: \(\ bar {x} _2 = 1.247 \)
  • 样品的差异1: \(s ^ 2_1 = 0.107 \)
  • 样本2的差异: \(s ^ 2_1 = 0.303 \)

以下假设检测步骤:

  1. \(h_0:\ mu_1 = \ mu_2 \)\(h_1:\ mu_1 - \ mu_2< 0\)。 (<因为我们想要齐鲁风采群英会第一人群的平均值小于第二人口的平均值。)
  2. 齐鲁风采群英会统计: \ [t_ {obs} = \ frac {(\ bar {x} _1 - \ bar {x} _2) - (\ mu_1 - \ mu_2)} {\ sqrt {\ frac {s ^ 2_1} {n_1} + FRAC {s ^ 2_2} {n_2}}}} \] \ [= \ FRAC {0.42-1.247-0} {0.268} = -3.084 \]
  3. 临界值: \( - t _ {\ alpha,\ upsilon} \) 在哪里 \ [\ upsilon = \ frac {\ bigg(\ frac {s ^ 2_1} {n_1} + \ frac {s ^ 2_2} {n_2} \ bigg)^ 2} {\ frac {\ bigg(\ frac {s ^ 2_1} {n_1} \ bigg)^ 2} {n_1 - 1} + \ frac {\ bigg(\ frac {s ^ 2_2} {n_2} \ bigg)^ 2} {n_2 - 1}} = 8.28 \] 所以 \ [ - t_ {0.05,8.28} = -1.851 \] 这 degrees of freedom 8.28 does not exist in the standard Student distribution table, so simply take 8, or compute it in R with qt(p = 0.05, df = 8.28).
  4. 结论:拒绝区域是从 \( - \ infty \) 到-1.851。齐鲁风采群英会统计形式位于抑制区域内,因此我们拒绝零假设 \(h_0 \)。就初次问题而言:在5%的意义水平下,我们得出结论,人口1小于人口2。

场景4:已知差异方差的配对样本

与配对样本的学生的T检验比与独立样本不同,它们实际上更类似于 一个样本学生的T检验。下面是它的工作原理。我们实际上计算了每对观测的两个样本之间的差异,然后我们致力于这些差异,就像我们通过计算这些差异的齐鲁风采群英会统计数据正在进行一个样本学生的T检验。

如果目前尚不清楚,这里是第四场景作为图示。假设下面的数据。此外,假设两个样本是依赖的(匹配的),所以群体差异的变化是已知的并且等于1(\(\ sigma ^ 2_d = 1 \))并且我们想齐鲁风采群英会人口的差异是否与0不同。

0.9 0.8
-0.8 -0.9
0.1 -0.1
-0.3 0.4
0.2 0.1

首先要做的是计算所有观测成对的差异:

区别
0.9 0.8 -0.1
-0.8 -0.9 -0.1
0.1 -0.1 -0.2
-0.3 0.4 0.7
0.2 0.1 -0.1

所以我们有:

  • 对数: (N.= 5\)
  • 差异的含义: \(\ bar {d} = 0.04 \)
  • 人口差异的变化: \(\ sigma ^ 2_d = 1 \)
  • 人口差异的标准偏差: \(\ sigma_d = 1 \)

以下假设检测步骤:

  1. \(h_0:\ mu_d = 0 \)\(h_1:\ mu_d \ ne 0 \)
  2. 齐鲁风采群英会统计: \ [z_ {obs} = \ frac {\ bar {d} - \ mu_0} {\ frac {\ sigma_d} {\ sqrt {\ sigma_d}} = \ frac {0.04-0} {0.447} = 0.089 \] (此公式与一个具有已知方差的一个样本学生的T检验完全相同,除了我们对差异的平均值工作。)
  3. 临界值: \(\ PM Z _ {\ alpha / 2} = \ PM Z_ {0.025} = \ PM 1.96 \)
  4. 结论:抑制区是从 \( - \ infty \) 到-1.96和1.96到 \(+ \ infty \)。齐鲁风采群英会统计在拒绝区域之外,因此我们不会拒绝零假设 \(h_0 \)。就初始问题而言:在5%的意义水平下,我们不拒绝假设,即两个人群的差异等于0。

场景5:配对样本,差异的方差未知

对于第五个和最终情景,假设以下数据。此外,假设这两个样本依赖于(匹配),因此人口差异的变化是未知的,并且我们想齐鲁风采群英会治疗是否有效地在越来越多的运行能力(越高的价值,而越好运行能力)。

9 16
8 11
1 15
3 12
2 9

首先要做的是计算所有观测成对的差异:

区别
9 16 7
8 11 3
1 15 14
3 12 9
2 9 7

所以我们有:

  • 对数: (N.= 5\)
  • 差异的含义: \(\ bar {d} = 8 \)
  • 样本差异的方差: \(s ^ 2_d = 16 \)
  • 样本差异的标准偏差: \(s_d = 4 \)

以下假设检测步骤:

  1. \(h_0:\ mu_d = 0 \)(h_1:\ mu_d> 0\) (>因为我们想齐鲁风采群英会治疗是否有效,因此治疗是否对运行能力产生了积极的影响。)
  2. 齐鲁风采群英会统计: \ [t_ {obs} = \ frac {\ bar {d} - \ mu_0} {\ frac {s_d} {\ sqrt {n}}} = \ frac {8-0} {1.789} {1.789} = 4.472 \] (此公式与一个具有未知方差的样本学生的T检验完全相同,除了我们遵守差异的平均值。)
  3. 临界值: (t _ {\ alpha,n-1} = t_ {0.05,4} = 2.132 \) (n 是成对的数量,而不是观察数!)
  4. 结论:抑制区从2.132到 \(+ \ infty \)。齐鲁风采群英会统计形式位于抑制区域内,因此我们拒绝零假设 \(h_0 \)。就初始问题而言:在5%的意义水平下,我们得出结论,治疗对运行能力产生了积极影响。

这结论是如何用手执行两个样本的学生T检验的不同版本。在下一节中,我们详细介绍了如何在R中进行完全相同的齐鲁风采群英会。

如何在r中计算学生的t检验?

在r中进行T-tests之前的良好做法是通过boxplot(或a)通过组可视化数据 密度图,或最终都是两者)。具有彼此重叠的两个盒子的盒子盒子给出了两个样本相似的第一指示,因此,可能不会被拒绝的零假设。相反,如果两个盒子没有重叠,则表示两个样本是不相似的,因此群体可能不同。然而,即使Boxpots或密度图在显示两组之间的比较方面,也只有声音统计齐鲁风采群英会将确认我们的第一印象。

按组进行可视化数据后,我们通过手动找到的结果进行复制。我们将看到,对于某些版本的T检验,R中没有内置的默认功能(至少在我的知识中,请不要犹豫,如果我错误地告诉我)。在这些情况下,写入函数以用手复制结果。

请注意,我们使用相同的数据,相同的假设和相同的问题,以便为所有5个方案提供促进手动和R的齐鲁风采群英会之间的比较。

场景1:具有2个已知差异的独立样本

对于第一个场景,假设以下数据。此外,假设两个样本是独立的,差异 \(\ sigma ^ 2 = 1 \) 在两个人口中,我们想齐鲁风采群英会这两个人群是否有所不同。

dat1 <- data.frame(
  sample1 = c(0.9, -0.8, 0.1, -0.3, 0.2),
  sample2 = c(0.8, -0.9, -0.1, 0.4, 0.1)
)
dat1
##   sample1 sample2
## 1     0.9     0.8
## 2    -0.8    -0.9
## 3     0.1    -0.1
## 4    -0.3     0.4
## 5     0.2     0.1
dat_ggplot <- data.frame(
  value = c(0.9, -0.8, 0.1, -0.3, 0.2, 0.8, -0.9, -0.1, 0.4, 0.1),
  sample = c(rep("1", 5), rep("2", 5))
)

library(ggplot2)

ggplot(dat_ggplot) +
  aes(x = sample, y = value) +
  geom_boxplot() +
  theme_minimal()

请注意,您可以使用 {esquisse} RStudio addin 如果你想用它绘制一个盒子 包裹 {ggplot2} without writing the code yourself. If you prefer the default graphics, use the 箱形图() function:

箱形图(value ~ sample,
  data = dat_ggplot
)

这两个盒子似乎重叠,说明这两个样本非常相似,因此我们倾向于相信我们将无法拒绝两个人群的零假设。但是,只有正式的统计齐鲁风采群英会将确认这种信念。

Since there is no function in R to perform a t-test with known variances, here is one with arguments accepting the two samples (xy), the two variances of the populations (V1V2), the difference in means under the null hypothesis (m0, default is 0), the significance level (alpha, default is 0.05) and the alternative (alternative, one of "two.sided" (default), "less" 或者 "greater"):

t.test_knownvar <- function(x, y, V1, V2, m0 = 0, alpha = 0.05, alternative = "two.sided") {
  M1 <- mean(x)
  M2 <- mean(y)
  n1 <- length(x)
  n2 <- length(y)
  sigma1 <- sqrt(V1)
  sigma2 <- sqrt(V2)
  S <- sqrt((V1 / n1) + (V2 / n2))
  statistic <- (M1 - M2 - m0) / S
  p <- if (alternative == "two.sided") {
    2 * pnorm(abs(statistic), lower.tail = FALSE)
  } else if (alternative == "less") {
    pnorm(statistic, lower.tail = TRUE)
  } else {
    pnorm(statistic, lower.tail = FALSE)
  }
  LCL <- (M1 - M2 - S * qnorm(1 - alpha / 2))
  UCL <- (M1 - M2 + S * qnorm(1 - alpha / 2))
  value <- list(mean1 = M1, mean2 = M2, m0 = m0, sigma1 = sigma1, sigma2 = sigma2, S = S, statistic = statistic, p.value = p, LCL = LCL, UCL = UCL, alternative = alternative)
  # print(sprintf("P-value = %g",p))
  # print(sprintf("Lower %.2f%% Confidence Limit = %g",
  #               alpha, LCL))
  # print(sprintf("Upper %.2f%% Confidence Limit = %g",
  #               alpha, UCL))
  return(value)
}

test <- t.test_knownvar(dat1$sample1, dat1$sample2,
  V1 = 1, V2 = 1
)
test
## $mean1
## [1] 0.02
## 
## $mean2
## [1] 0.06
## 
## $m0
## [1] 0
## 
## $sigma1
## [1] 1
## 
## $sigma2
## [1] 1
## 
## $S
## [1] 0.6324555
## 
## $statistic
## [1] -0.06324555
## 
## $p.value
## [1] 0.949571
## 
## $LCL
## [1] -1.27959
## 
## $UCL
## [1] 1.19959
## 
## $alternative
## [1] "two.sided"

上面的输出回收执行齐鲁风采群英会所需的所有信息:齐鲁风采群英会统计数据 p-Value,所使用的替代方案,两个样本手段和群体的两个差异(比较r用手发现的结果中找到的结果)。

p-Value可以像往常一样提取:

test$p.value
## [1] 0.949571

p-Value是0.95,所以在5%的意义水平下,我们不会拒绝相等手段的零假设。数据中没有足够的证据来拒绝群体中两种手段的假设是相似的。此结果证实了我们用手发现的东西。

一份注释 p - 价值和意义水平 \(\α\)

对于那些不熟悉的概念的人 p - value,这 p-价值is a 可能性 以及任何概率从0到1。 p-Value是如果零假设是真实的,则在测量的那个(通过样本)的观察的概率至少是极端的。换句话说,考虑到NULL假设是真的,它具有至少与我们计算的那个的齐鲁风采群英会统计的概率。在某种意义上,它会给你一个迹象 你的零假设有多可能。它也被定义为数据表明拒绝空假设的最小级别。

如果观察结果不是那么极端 - 如果零假设是真的,那么我们不会拒绝这个空假设,因为它被认为是真实的。如果观察结果被认为太极端 - 不太可能在零假设下发生 - 我们拒绝零假设,因为它被认为是真的难以实现的。请注意,它并不意味着我们100%确定它太不可能,有时会拒绝零假设虽然是真的(见显着级别) \(\α\) later on).

在上面的示例中,观察结果并不是非常极端的,两种方式之间的差异不是极端,因此齐鲁风采群英会统计不是极端的(因为齐鲁风采群英会统计是基于两个样本的装置的差异)。没有极端的齐鲁风采群英会统计不是不可能的,这就是为什么的原因 p - value非常高。这 p - 0.95的价值实际上告诉我们,鉴于群体中的手段差异为0(零假设),具有差异的两个样品的概率均为-0.04(= 0.02-0.06),等于95%。概率为95%绝对被认为是合理的,因此我们不会拒绝在人口中拒绝相同手段的零假设。

然后一个人可能会想到,“齐鲁风采群英会统计数据太极端了?”大多数时候,我们认为,当鉴于空假设的概率为真的,试验统计量太极端,偶然是偶然发生的,因为缺少假设是真实的,但误认为是零假设的概率低于5%。 5%的阈值(\(\ alpha = 0.05 \))您经常在统计课程或教科书中看到的是许多领域中使用的阈值。与A. p-Value在该阈值下5%,我们认为观察(以及齐鲁风采群英会统计)是 太不可能 如果零假设为真,则偶然发生,因此禁止零假设。与A. p - 高于该阈值5%的阈值,我们认为,如果零假设是真的,我们认为我们的观点并不是难以妨碍,因此我们不会拒绝零假设。

请注意,我写道“我们不拒绝零假设”,而不是“我们接受零假设”。这是因为它可能是零假设的情况是错误的,但我们未能向样品证明它。假设被嫌疑人被指控谋杀的比喻,我们不知道真相。一方面,如果我们收集了足够的证据表明嫌疑人犯下了谋杀,他被认为有罪:我们拒绝他是无辜的零假设。另一方面,如果我们有 不是 收集了足够的证据,反对嫌疑人,他被认为是无辜的,尽管他实际上可能犯了罪行:我们未能拒绝他是无辜的零假设。我们绝不确定他也没有犯下犯罪,即使他被释放,我们才没有发现足够的证据对嫌疑人无罪的零假设。这就是为什么我们不拒绝空假设而不是接受它的原因,以及为什么你经常读取“数据中没有足够的证据来拒绝拒绝空假设”或“我们无法拒绝的样本”零假设“。

意义程度 \(\α\),源自前面提到的5%的阈值, 当实际上拒绝零假设的可能性是真实的。从这个意义上讲,它是我们接受处理的错误(5%),以便能够得出结论。如果我们不会接受任何错误(0%的错误),我们将无法得出任何关于人口的结论,因为我们只能通过样本访问有限的人口部分(S) 。因此,在解释假设检验结果时,我们永远不会100%肯定,除非我们可以访问整个人口的数据,而且没有理由再次进行假设齐鲁风采群英会,因为我们可以简单地比较这两个人口。我们通常允许此错误(称为I错误)为5%,但是在结论时,我们拒绝零假设时更具肯定,则alpha水平也可以设置为1%(甚至0.1%在一些罕见的病例中)。

总结一下 你需要记住什么 p - 价值和意义水平 \(\α\):

  • 如果是 p-Value小于预定意义水平 \(\α\) (通常为5%)所以如果 p-价值< 0.05 \(\ lightarrow h_0 \) 不太可能 \(\右箭头\) 我们拒绝零假设
  • 如果是 p-Value大于或等于预定的意义水平 \(\α\) (通常为5%)所以如果 p-价值\(\ ge \)0.05 \(\ lightarrow h_0 \) 可能 \(\右箭头\) 我们的确是 不拒绝 the null hypothesis

这适用于所有统计齐鲁风采群英会而无需异常。当然,根据齐鲁风采群英会,空和替代假设更改。

拇指规则是,对于大多数假设齐鲁风采群英会,替代假设是您想要齐鲁风采群英会的,并且NULL假设是状态QUO。谨慎地谨慎(!),因为,即使它适用于学生的所有版本的T-test,它也不适用于所有统计齐鲁风采群英会。例如,在齐鲁风采群英会正常性时,通常需要齐鲁风采群英会您的分发是否遵循正常分布。在这件建议之后,你会写出替代假设 \(h_1:\) 分布遵循正态分布。尽管如此,对于 常规齐鲁风采群英会 如Shapiro-Wilk或Kolmogorov-Smirnov齐鲁风采群英会,它是相反的;替代假设是 \(h_1:\) 分布不遵循正态分布。因此,对于每个齐鲁风采群英会,确保使用正确的假设,否则对齐鲁风采群英会的结论和解释将是错误的。

场景2:具有2等于但未知的差异的独立样本

对于第二种情况,假设以下数据。此外,假设两个样本是独立的,这两个人群中的差异都是未知的,但是\(\ sigma ^ 2_1 = \ sigma ^ 2_1))我们想齐鲁风采群英会人口1是否大于人口2。

dat2 <- data.frame(
  sample1 = c(1.78, 1.5, 0.9, 0.6, 0.8, 1.9),
  sample2 = c(0.8, -0.7, -0.1, 0.4, 0.1, NA)
)
dat2
##   sample1 sample2
## 1    1.78     0.8
## 2    1.50    -0.7
## 3    0.90    -0.1
## 4    0.60     0.4
## 5    0.80     0.1
## 6    1.90      NA
dat_ggplot <- data.frame(
  value = c(1.78, 1.5, 0.9, 0.6, 0.8, 1.9, 0.8, -0.7, -0.1, 0.4, 0.1),
  sample = c(rep("1", 6), rep("2", 5))
)

ggplot(dat_ggplot) +
  aes(x = sample, y = value) +
  geom_boxplot() +
  theme_minimal()

与前一场景不同,这两个盒子不重叠,这示出了两个样本彼此不同。从这个Boxplot来看,我们可以预期齐鲁风采群英会拒绝群体中平等手段的空假设。尽管如此,只有正式的统计齐鲁风采群英会将确认这一期望。

这re is a function in R, and it is simply the t.test() function. This version of the test is actually the “standard” Student’s t-test for two samples. Note that it is assumed that the variances of the two populations are equal so we need to specify it in the function with the argument var.equal = TRUE (the default is FALSE) and the alternative hypothesis is \(h_1:\ mu_1 - \ mu_2> 0\) 所以 we need to add the argument alternative = "greater" as well:

test <- t.test(dat2$sample1, dat2$sample2,
  var.equal = TRUE, alternative = "greater"
)
test
## 
##  Two Sample t-test
## 
## data:  dat2$sample1 and dat2$sample2
## t = 3.4113, df = 9, p-value = 0.003867
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  0.5304908       Inf
## sample estimates:
## mean of x mean of y 
##  1.246667  0.100000

上面的输出回收执行齐鲁风采群英会所需的所有信息:齐鲁风采群英会的名称,齐鲁风采群英会统计,自由度,自由度 p-Value,所使用的替代方案和两个样本装置(比较r中的结果发现的结果)。

p-Value可以像往常一样提取:

test$p.value
## [1] 0.003866756

p-Value是0.004所以在5%的意义水平下,我们拒绝了相等手段的零假设。此结果证实了我们用手发现的东西。

与第一场景不同 p - 这种情况下的值低于5%,所以我们拒绝零假设。在5%的意义水平下,我们可以得出结论,人口1大于人口2。

A nice and easy way to report results of a Student’s t-test in R is with the report() function from the {report} package:

# install.packages("remotes")
# remotes::install_github("easystats/report") # You only need to do that once
library("report") # Load the package every time you start R

report(test)
## Effect sizes were labelled following Cohen's (1988) recommendations.
## 
## The Two Sample t-test testing the difference between dat2$sample1 and dat2$sample2 (mean of x = 1.25, mean of y = 0.10) suggests that the effect is positive, significant and large (difference = 1.15, 95% CI [0.53, Inf], t(9) = 3.41, p < .01; Cohen's d = 2.07, 95% CI [0.52, 3.55])

如您所见,该功能会解释齐鲁风采群英会(以及一起 p - 为您服务。

Note that the report() function can be used for other analyses. See more r的提示和技巧 如果你发现这个有用。

If your data is formatted in the long format (which is even better), simply use the ~. For instance, imagine the exact same data presented like this:

dat2bis <- data.frame(
  value = c(1.78, 1.5, 0.9, 0.6, 0.8, 1.9, 0.8, -0.7, -0.1, 0.4, 0.1),
  sample = c(rep("1", 6), rep("2", 5))
)
dat2bis
##    value sample
## 1   1.78      1
## 2   1.50      1
## 3   0.90      1
## 4   0.60      1
## 5   0.80      1
## 6   1.90      1
## 7   0.80      2
## 8  -0.70      2
## 9  -0.10      2
## 10  0.40      2
## 11  0.10      2

以下是如何在L长数据中执行学生的T检验:

test <- t.test(value ~ sample,
  data = dat2bis,
  var.equal = TRUE,
  alternative = "greater"
)
test
## 
##  Two Sample t-test
## 
## data:  value by sample
## t = 3.4113, df = 9, p-value = 0.003867
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  0.5304908       Inf
## sample estimates:
## mean in group 1 mean in group 2 
##        1.246667        0.100000
test$p.value
## [1] 0.003866756

结果完全相同。

场景3:具有2个不平等和未知差异的独立样品

对于第三种情况,假设下面的数据。此外,假设两个样本是独立的,这两个人群中的差异都是未知的并且不平等(\(\ sigma ^ 2_1 \ ne \ sigma ^ 2_1 \) )我们想齐鲁风采群英会人口1是否小于人口2。

dat3 <- data.frame(
  value = c(0.8, 0.7, 0.1, 0.4, 0.1, 1.78, 1.5, 0.9, 0.6, 0.8, 1.9),
  sample = c(rep("1", 5), rep("2", 6))
)
dat3
##    value sample
## 1   0.80      1
## 2   0.70      1
## 3   0.10      1
## 4   0.40      1
## 5   0.10      1
## 6   1.78      2
## 7   1.50      2
## 8   0.90      2
## 9   0.60      2
## 10  0.80      2
## 11  1.90      2
ggplot(dat3) +
  aes(x = sample, y = value) +
  geom_boxplot() +
  theme_minimal()

这re is a function in R for this version of the test as well, and it is simply the t.test() function with the var.equal = FALSE argument. FALSE is the default option for the var.equal argument so you actually do not need to specify it. This version of the test is actually the Welch test, used when the variances of the populations are unknown and unequal. To test if two variances are equal, you can use the Levene’s test (leveneTest(dat3$value, dat3$sample) from the {car} package). Note that the alternative hypothesis is \(h_1:\ mu_1 - \ mu_2< 0\) 所以 we need to add the argument alternative = "less" as well:

test <- t.test(value ~ sample,
  data = dat3,
  var.equal = FALSE,
  alternative = "less"
)
test
## 
##  Welch Two Sample t-test
## 
## data:  value by sample
## t = -3.0841, df = 8.2796, p-value = 0.007206
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##        -Inf -0.3304098
## sample estimates:
## mean in group 1 mean in group 2 
##        0.420000        1.246667

上面的输出回复了执行齐鲁风采群英会所需的所有信息(比较r中的结果中找到的结果)。

p-Value可以像往常一样提取:

test$p.value
## [1] 0.00720603

p-Value是0.007所以在5%的意义水平中,我们拒绝了相同的方式的零假设,这意味着我们可以得出结论,人口1小于人口2.此结果证实了我们用手发现的东西。

场景4:已知差异方差的配对样本

对于第四种情况,假设以下数据。此外,假设两个样本是依赖的(匹配的),所以群体差异的变化是已知的并且等于1(\(\ sigma ^ 2_d = 1 \))并且我们想齐鲁风采群英会人口的差异是否与0不同。

dat4 <- data.frame(
  before = c(0.9, -0.8, 0.1, -0.3, 0.2),
  after = c(0.8, -0.9, -0.1, 0.4, 0.1)
)
dat4
##   before after
## 1    0.9   0.8
## 2   -0.8  -0.9
## 3    0.1  -0.1
## 4   -0.3   0.4
## 5    0.2   0.1
dat4$difference <- dat4$after - dat4$before

ggplot(dat4) +
  aes(y = difference) +
  geom_boxplot() +
  theme_minimal()

Since there is no function in R to perform a t-test with paired samples where the variance of the differences is known, here is one with arguments accepting the differences between the two samples (x), the variance of the differences in the population (V), the mean of the differences under the null hypothesis (m0, default is 0), the significance level (alpha, default is 0.05) and the alternative (alternative, one of "two.sided" (default), "less" 或者 "greater"):

t.test_pairedknownvar <- function(x, V, m0 = 0, alpha = 0.05, alternative = "two.sided") {
  M <- mean(x)
  n <- length(x)
  sigma <- sqrt(V)
  S <- sqrt(V / n)
  statistic <- (M - m0) / S
  p <- if (alternative == "two.sided") {
    2 * pnorm(abs(statistic), lower.tail = FALSE)
  } else if (alternative == "less") {
    pnorm(statistic, lower.tail = TRUE)
  } else {
    pnorm(statistic, lower.tail = FALSE)
  }
  LCL <- (M - S * qnorm(1 - alpha / 2))
  UCL <- (M + S * qnorm(1 - alpha / 2))
  value <- list(mean = M, m0 = m0, sigma = sigma, statistic = statistic, p.value = p, LCL = LCL, UCL = UCL, alternative = alternative)
  # print(sprintf("P-value = %g",p))
  # print(sprintf("Lower %.2f%% Confidence Limit = %g",
  #               alpha, LCL))
  # print(sprintf("Upper %.2f%% Confidence Limit = %g",
  #               alpha, UCL))
  return(value)
}

test <- t.test_pairedknownvar(dat4$after - dat4$before,
  V = 1
)
test
## $mean
## [1] 0.04
## 
## $m0
## [1] 0
## 
## $sigma
## [1] 1
## 
## $statistic
## [1] 0.08944272
## 
## $p.value
## [1] 0.9287301
## 
## $LCL
## [1] -0.8365225
## 
## $UCL
## [1] 0.9165225
## 
## $alternative
## [1] "two.sided"

上面的输出回复了执行齐鲁风采群英会所需的所有信息(比较r中的结果中找到的结果)。

p-Value可以像往常一样提取:

test$p.value
## [1] 0.9287301

p-Value是0.929所以在5%的意义水平下,我们不拒绝差异的差异等于0的差异。数据中没有足够的证据来拒绝两个人群的差异相等的假设到0.这个结果证实了我们用手发现的东西。

场景5:配对样本,差异的方差未知

对于第五个和最终情景,假设以下数据。此外,假设这两个样本依赖于(匹配),因此人口差异的变化是未知的,并且我们想齐鲁风采群英会治疗是否有效地在越来越多的运行能力(越高的价值,而越好运行能力)。

dat5 <- data.frame(
  before = c(9, 8, 1, 3, 2),
  after = c(16, 11, 15, 12, 9)
)
dat5
##   before after
## 1      9    16
## 2      8    11
## 3      1    15
## 4      3    12
## 5      2     9
dat5$difference <- dat5$after - dat5$before

ggplot(dat5) +
  aes(y = difference) +
  geom_boxplot() +
  theme_minimal()

这re is a function in R for this version of the test, and it is simply the t.test() function with the 配对 = TRUE argument. This version of the test is actually the standard version of the Student’s t-test with paired samples. Note that the alternative hypothesis is (h_1:\ mu_d> 0\) 所以 we need to add the argument alternative = "greater" as well:

test <- t.test(dat5$after, dat5$before,
  alternative = "greater",
  paired = TRUE
)
test
## 
##  Paired t-test
## 
## data:  dat5$after and dat5$before
## t = 4.4721, df = 4, p-value = 0.005528
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  4.186437      Inf
## sample estimates:
## mean of the differences 
##                       8

Note that we wrote 和 then in this order. If you write 和 then , make sure to change the alternative to alternative = "less".

If your data is in the long format, use the ~:

dat5 <- data.frame(
  value = c(9, 8, 1, 3, 2, 16, 11, 15, 12, 9),
  time = c(rep("before", 5), rep("after", 5))
)
dat5
##    value   time
## 1      9 before
## 2      8 before
## 3      1 before
## 4      3 before
## 5      2 before
## 6     16  after
## 7     11  after
## 8     15  after
## 9     12  after
## 10     9  after
test <- t.test(value ~ time,
  data = dat5,
  alternative = "greater",
  paired = TRUE
)
test
## 
##  Paired t-test
## 
## data:  value by time
## t = 4.4721, df = 4, p-value = 0.005528
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  4.186437      Inf
## sample estimates:
## mean of the differences 
##                       8

上面的输出回复了执行齐鲁风采群英会所需的所有信息(比较r中的结果中找到的结果)。

p-Value可以像往常一样提取:

test$p.value
## [1] 0.005528247

p-Value是0.006所以在5%的意义水平下,我们拒绝差异等于0的差异的零假设,这意味着我们可以得出结论,治疗在增加运行能力方面是有效的。此结果证实了我们用手发现的东西。

假设

至于许多统计齐鲁风采群英会,有一些假设需要满足,以便能够解释结果。当他们中的一个或多个没有满足时,虽然技术上可以执行这些齐鲁风采群英会,但解释结果或信任结论是不正确的。

以下是学生T检验的假设两个样本,如何齐鲁风采群英会它们以及如果不符合假设,则存在其它齐鲁风采群英会:

  • 变量类型:学生的T-Test需要一个混合 定量 依赖变量(对应于问题所关联的测量)和一个 定性的 独立变量(具有恰好2级,它将确定要比较的组)。
  • 独立:从代表和随机选择的部分收集的数据 人口,应在组之间和每个组内独立。独立的假设是基于实验的设计和对实验条件的良好控制而不是通过正式齐鲁风采群英会来验证。如果您仍然不确定基于实验设计的独立性,请向自己询问一个观察与另一个观察(如果一个观察对每个组内的影响有关),或者本身之间存在影响。如果没有,很可能你有独立的 样本。如果样品之间的观察(形成待比较的不同组)是依赖性的(例如,如果已经收集了两次测量 同一个人 由于在治疗后测量度量(i)的医学研究通常是在治疗后的(ii))中的情况下,学生T检验的配对版本称为对配对样本的学生的T-test,为了考虑要比较的两组之间的依赖性。
  • 常态:
    • 用小样品(通常 (N.< 30\)),当两个样本是独立的时,观察 样品都是样品 应该关注A. 正常分布。在使用学生的配对样本的T检验时,这是两个应遵循正态分布的两个样本的观察结果之间的差异。常常可以通过a视觉齐鲁风采群英会正常性假设 直方图 A. QQ图,和/或通过a正式 正常齐鲁风采群英会 如Shapiro-Wilk或Kolmogorov-Smirnov齐鲁风采群英会。如果,即使在转换之后(例如,对数转换,平方根等),您的数据仍然不遵循正态分布, Wilcoxon齐鲁风采群英会 (wilcox.test(variable1 ~ variable2, data = dat in R) can be applied. This non-parametric test, robust to non normal distributions, compares the medians instead of the means in order to compare the two populations.
    • 有大型样品(\(n \ ge 30 \)), 不需要数据的正常性 (这是一个普遍的误解!)。由这件事 中心极限定理,即使数据通常不分布,大型样品的样本装置通常通过正常分布近似地近似。因此,当每组/样品的观察数大时,不需要齐鲁风采群英会正常性假设。
  • 差异的平等:当两个样本是独立的,两组的差异应该在群体中相等(一个称为假设 差异的均匀性,甚至有时称为同性恋,而不是异源性,如果差异跨组不同)。可以以图形方式齐鲁风采群英会此假设(通过比较A中的色散 箱形图 或者 dotplot. for instance), or more formally via the Levene’s test (leveneTest(variable ~ group) from the {car} package) or via a F test (var.test(variable ~ group)). If the hypothesis of equal variances is rejected, another version of the Student’s t-test can be used: the Welch test (t.test(variable ~ group, var.equal = FALSE)). Note that the Welch test does not require 差异的均匀性, but the distributions should still follow a normal distribution in case of small sample sizes. If your distributions are not normally distributed or the variances are unequal, the Wilcoxon齐鲁风采群英会 应该使用。该齐鲁风采群英会不需要正常性的假设和差异的同性化。

这结束了相对较长的文章。谢谢你读它。我希望这篇文章有助于您了解学生的不同版本的两个样品的T检验方式以及如何用手和R.如果您有兴趣,这是一个 闪亮的应用程序 要轻松地使用手动执行这些齐鲁风采群英会(您只需输入您的数据并通过侧栏菜单选择适当的齐鲁风采群英会版本)。

此外,我邀请您阅读:

  • 文章 如果您想知道如何计算学生的T-Test但这次,对于一个样本,
  • 文章 如果您想在非正常假设下比较2组,或者
  • 文章 如果您想使用ANOVA来比较3个或更多组。

一如既往,如果您有问题或与本文所涵盖的主题相关的建议,请将其添加为评论,以便其他读者可以从讨论中受益。

参考

Rowntree,Derek。 2000年。 没有眼泪的统计数据.


  1. 提醒那个推理统计数据,而不是 描述性统计,是统计数据的分支,被定义为绘制关于从该人口代表性样本所作的观察的人口的结论的科学。看看 人口和样本之间的差异.↩︎

  2. 对于本文的其余部分,当我们写学生的T检验时,我们指的是2个样本的情况。看 一个样品T检验 如果您想仅比较一个样本。↩︎

  3. 参数假设齐鲁风采群英会是最不可能的。参数齐鲁风采群英会意味着它基于理论统计分布,这取决于一些定义的参数。在学生对两个样本的T检验的情况下,它基于学生的T分布,单一参数,自由度(\(df = n_1 + n_2 - 2 \) 在哪里 \(n_1 \)\(n_2 \) 是两个样本尺寸)或正态分布。↩︎



喜欢这篇文章?

获取更新 每次发布新文章。
任何垃圾邮件都没有任何垃圾邮件。
分享: