手工齐鲁风采群英会试验

描述性与推动统计数据

请记住 描述性统计 是瞄准统计数据的分支 描述和总结一组数据 以最好的方式,即,通过将其减少到几个有意义的关键措施和可视化 - 随着尽可能少的信息损失。换句话说,分支 描述性统计 由于摘要统计和图形,有助于了解一组观测的更好的理解和清晰的图像。通过描述性统计数据,没有不确定性,因为我们只描述了我们决定努力的观察组,并且没有尝试将观察到的特征概括为另一组或更大的观察。

推论统计另一方面,另一方面,使用从人口中取出的随机数据样本来制造推断,即, 得出结论 人口 of interest (见 人口和样本之间的差异 如果您需要两个概念的刷新)。换句话说,来自样本的信息用于对人口中兴趣参数进行概括。

推断统计域中使用的两个最重要的工具是:

  • 齐鲁风采群英会试验(这是本文的主要主题),
  • 置信区间(简要讨论过这个 部分 )

动机和局限性

通过我的 教学 任务,我意识到许多学生(特别是在介绍统计学课程中)努力执行齐鲁风采群英会测试并解释结果。在我看来,这些学生经常遇到困难,主要是齐鲁风采群英会测试对他们来说是不明确的。它看起来摘要的原因之一是因为他们不了解齐鲁风采群英会测试的最终目标 - 这个工具后面的“为什么”。他们经常在不了解它背后的推理的情况下进行推断统计,好像他们正在追随烹饪食谱,这不需要任何思考。但是,一旦他们了解了基本的齐鲁风采群英会测试的原则,他们就可以更容易地应用概念并解决练习。

出于这个原因,我虽然写一篇关于齐鲁风采群英会测试的目标(“为什么?”)是有用的,在哪个上下文中应该使用它们(“何时?”),他们如何工作(“如何?“)以及如何解释结果(”那么呢?“)。就像统计数据中的任何其他东西一样,当我们理解我们正在测试或我们试图事先证明的情况时,更容易应用概念。

在本文中,我尽可能地呈现 - 不同的 手工执行并结束齐鲁风采群英会试验所需的步骤。这些步骤用基本示例说明。这将建立齐鲁风采群英会检测的理论基础,这反过来又有助于了解大多数统计测试。

齐鲁风采群英会测试有多种形式,可用于许多参数或研究问题。我在本文中的步骤不适用于 全部 齐鲁风采群英会试验,不幸的是。但是,它们适合 至少 最常见的齐鲁风采群英会测试 - 测试:

  1. 一个意思是: \(\亩\)
  2. 两种方式:
    • 独立样本: \(\ mu_1 \) \(\ mu_2 \)
    • 配对样本: \(\泥\)
  3. 一比例: \(p \)
  4. 两个比例: \(p_1 \) \(p_2 \)
  5. 一个方差: \(\ sigma ^ 2 \)
  6. 两个差异: \(\ sigma ^ 2_1 \)\(\ sigma ^ 2_2 \)

好消息是,这6个统计测试背后的原则(等等)完全相同。所以,如果你了解其中一个的直觉和过程,那么所有其他人都几乎跟随。

齐鲁风采群英会试验

为什么?

不像 描述性统计 我们只描述手头的数据, 齐鲁风采群英会试验使用观察的子集,称为一个 样本 , 得出关于人口的结论.

人们可能会想知道为什么我们会尝试“猜测”或基于样本的人口参数推断,而不是简单地收集整个人口的数据,计算我们感兴趣的统计数据并根据此提出决策。我们实际使用样本而不是整个人口的主要原因是因为,大多数情况下,收集整个人口的数据实际上是不可能的,太复杂,太贵了,它会花费太长,或者这些都是如此。 1

所以 齐鲁风采群英会检验的总体目标是得出结论,以确认或反驳对人口的信念 ,基于较小的观察组。

在实践中,我们考虑了一些兴趣的变量的测量 - 以及我们检查我们的测量是否可能或未给出我们的齐鲁风采群英会(我们的信仰)。基于这一点 可能性 观察我们有的样本,我们决定是否可以信任我们的信仰。

什么时候?

齐鲁风采群英会试验有许多实际应用。以下是示出了上述6个测试的不同情况:

  1. 一个意思是:齐鲁风采群英会健康专业人士想测试比利时成年人的平均重量是否与80公斤(176.4磅)不同。
  2. 两种方式:
    • 独立样品:齐鲁风采群英会物理治疗师希望通过测量对照组和治疗组中的患者的患者的平均响应时间(以秒为单位)来测试新治疗的有效性,两组患者不同。
    • 配对样本:齐鲁风采群英会物理治疗师希望通过测量治疗前后的平均响应时间(以秒为单位)来测试新治疗的有效性,其中患者在治疗前后测量患者,因此患者相同2个样品。
  3. 一个比例:齐鲁风采群英会政治专家要考验要投票的公民是否规模小于30%。
  4. 两种比例:齐鲁风采群英会医生想测试专业和业余运动员之间吸烟者的比例是否与众不同。
  5. 一个方差:齐鲁风采群英会工程师想测试电压表是否具有比安全标准所施加的可变性较低。
  6. 两个差异:齐鲁风采群英会在工厂,两条生产线彼此独立工作。财务经理希望测试这两台机器每周维护的成本是否具有相同的方差。请注意,还经常执行对两个差异的测试以验证若干其他统计测试所需的等方差异的齐鲁风采群英会,例如 学生的t检验 for instance.

当然,这是一个非详尽的潜在应用程序列表,并且由于齐鲁风采群英会试验,可以回答许多研究问题。

要记住的一个重要点是在齐鲁风采群英会检验中,我们总是对人口而不是在样本中感兴趣。该样本用于绘制关于人口的结论,因此我们总是在人口方面进行测试。

通常, 齐鲁风采群英会试验用于回答确认分析中的研究问题。确认分析是指统计分析,其中从理论中扣除齐鲁风采群英会 - 预先定义(最好在数据收集之前)。在这种方法中,研究人员对所考虑的变量有一个具体的想法,她试图看出她的想法,指定为齐鲁风采群英会,是由数据支持的。

另一方面,齐鲁风采群英会试验很少用于探索性分析。2 探索性分析旨在揭示调查下变量之间的可能关系。在这种方法中,研究人员在数据收集之前没有任何明确的理论驱动的齐鲁风采群英会或想法。这是探索性分析有时被称为齐鲁风采群英会生成分析 - 它们用于产生一些齐鲁风采群英会,这是可以通过后期的确认分析测试。

如何?

我的知识有3种不同的方法来执行齐鲁风采群英会测试:

虽然这3种方法的过程可能会略有不同,但它们都会导致完全相同的结论。因此,使用一种方法是,更频繁地不是个人选择或上下文问题。看到这一点 部分 要知道我根据上下文使用的方法。

我在以下几个部分中介绍了3种方法,从我看来,当涉及手头进行时最全面的部分:将测试统计数据与临界值进行比较。

对于这三种方法,我将解释从一般角度执行齐鲁风采群英会测试的所需步骤,并用以下情况说明它们:3

齐鲁风采群英会健康专业人士想测试比利时成年人的平均重量是否与80公斤不同。

请注意,至于大多数齐鲁风采群英会测试,我们将使用的测试如下示例需要一些齐鲁风采群英会。由于本文的目的是解释齐鲁风采群英会测试,我们齐鲁风采群英会满足所有齐鲁风采群英会。对于感兴趣的读者,请参阅本文中的本文齐鲁风采群英会测试的齐鲁风采群英会(以及如何验证它们) 一个样本T检验.

方法A:将测试统计与临界值进行比较

方法A,其中包括将测试统计数据与临界值进行比较,归结为以下4个步骤:

  1. 陈述 null和替代齐鲁风采群英会
  2. 计算 测试统计信息
  3. 找到 临界价值
  4. 结论 并解释结果

每个步骤都详细说明。

步骤1:说明零和替代齐鲁风采群英会

如前所述,齐鲁风采群英会测试首先需要一个想法,即关于现象的齐鲁风采群英会。这种齐鲁风采群英会,称为齐鲁风采群英会,来自理论和/或研究问题。

由于齐鲁风采群英会试验用于确认或反驳现有信念,因此我们需要 制定我们的信仰,以便有零点和替代齐鲁风采群英会。那些齐鲁风采群英会必须是 互相排他性,这意味着它们同时不能真实。这是步骤#1。

因此,在我们的场景的背景下,零和替代齐鲁风采群英会是:

  • 零齐鲁风采群英会 \(h_0:\ mu = 80 \)
  • 替代齐鲁风采群英会 \(h_1:\ mu \ ne 80 \)

陈述零和替代齐鲁风采群英会时,请记住以下三点:

  1. 我们总是对人口感兴趣,而不是在样本中感兴趣。 这就是原因 \(h_0 \) \(H_1) 将始终根据人口而非样本(在这种情况下, \(\亩\) 并不是 \(\ bar {x}) )。
  2. 我们想测试的齐鲁风采群英会往往是替代齐鲁风采群英会。 如果研究人员想要测试比利时成年人的平均重量是否不到80公斤,她会陈述 \(h_0:\ mu = 80 \) (或等效, \(h_0:\ mu \ ge 80 \) ) 和 \(h_1:\ mu< 80\).4 不要将零点混合在替代齐鲁风采群英会中,或者结论将是截然不同的!
  3. NULL齐鲁风采群英会通常是现状。 例如,齐鲁风采群英会医生想要测试新的治疗方法是否比旧治疗更效率B.现状是新的和旧治疗同样有效。齐鲁风采群英会价值更大,她会写的 (h_0:\ mu_a = \ mu_b \) (或等效, \(h_0:\ mu_a - \ mu_b = 0 \) ) 和 \(h_1:\ mu_a> \mu_B\) (或等效, (h_0:\ mu_a - \ mu_b> 0\))。在相反的是,如果较低的,她会写的 (h_0:\ mu_a = \ mu_b \) (或等效, \(h_0:\ mu_a - \ mu_b = 0 \) ) 和 \(h_1:\ mu_a< \mu_B\) (或等效, (h_0:\ mu_a - \ mu_b< 0\) )。

步骤#2:计算测试统计

测试统计信息 (通常被称为 T-Stat. )在某种意义上是指指示的指标 将观察结果与空齐鲁风采群英会进行了比较。 T-STAT(绝对值)越高,观察越多。

有几种公式来计算T-stat,每种类型的齐鲁风采群英会试验测试 - 一个或两个方式,一个或两个比例,一个或两个差异。这意味着有一个公式来计算一个平均值的齐鲁风采群英会试验的T-stat,另一个用于试验的另一个公式,另一个用于试验的一个比例等。5 第二步中唯一的困难是选择适当的公式。一旦您知道基于测试类型使用的公式,您只需将其应用于数据。对于感兴趣的读者,请参阅不同的公式以计算T-Stat以获得最常见的测试 闪亮的应用程序 .

幸运的是,齐鲁风采群英会试验的公式,以及一个和两个比例遵循相同的结构。计算这些测试的测试统计是相似的 缩放 随机变量(一个过程也知道为“标准化”或“归一化”),其包括从该随机变量中减去平均值,并将结果除以标准偏差:

\ [z = \ frac {x - \ mu} {\ sigma} \]

对于这4个假说测试(一个/二种方式和一个/二比例),计算测试统计器就像将与感兴趣的参数(在群体中的样本)相对应的估计器(从样本计算)。因此,我们基本上从点估计器中减去目标参数,然后将结果除以标准误差(其等同于标准差,而是用于估计器)。

如果尚不清楚,这里是测试统计学的方式(表示 \(t_ {obs} \) )在我们的场景中计算(齐鲁风采群英会人口的方差未知):

\ [t_ {obs} = \ frac {\ bar {x} - \ mu} {\ frac {s} {\ sqrt {n}}} \]

在哪里:

  • \(\ bar {x}) 样本是指(即,估计器)
  • \(\亩\) 是零齐鲁风采群英会下的均值(即目标参数)
  • \(s \) 样本标准偏差是
  • \(n \) 是个 sample size
  • (\(\ frac {s} {\ sqrt {n}} \) 是标准错误)

注意本测试统计的公式和用于标准化随机变量的公式之间的相似性。对于两种方式的测试,该结构是相同的,除了估计器,参数和标准误差之外,其中一个比例和两个比例当然是对每种类型的测试略有不同。

齐鲁风采群英会在我们的情况下,我们的示例均值为71公斤(\(\ bar {x}) = 71),样品标准偏差为13千克( \(s \) = 13)和10个成年人的样本大小( \(n \) = 10)。请记住,人口意味着(零齐鲁风采群英会下的均值)是80公斤( \(\亩\) = 80).

因此,T-stat是:

\ [t_ {obs} = \ frac {\ bar {x} - \ mu} {\ frac {n}} = \ sqrt {n}}} = \ frac {71 - 80} {\ frac {71 - 80} {\ frac {13} {\ sqrt {10}}} = -2.189 \]

虽然Formulas根据您正在测试的参数而不同,但是测试统计的值为我们的观察结果提供了迹象。

我们将此值保持在-2.189的内容,因为它将在步骤#4中再次使用。

步骤#3:找到关键值

虽然T-stat让我们有一种指示我们的观察结果如何,但我们无法判断这种“极端的得分”是 极端或不是基于其价值。所以,此时,我们还无法判断我们的数据是否太极端。为此,我们需要将T-stat与阈值转录为 临界价值 - 由此 概率分布 当然,表格(也可以用r找到)。

以相同的方式使得计算T-Stat的公式对于每个感兴趣的参数不同,底层概率分布 - 因此对于每个目标参数而言,临界值的统计表也是不同的。这意味着,除了选择适当的公式来计算T-stat,我们还需要根据我们正在测试的参数选择适当的概率分布。

幸运的是,本文中涵盖的6个假说试验只有4种不同的概率分布(一个/二种方式,一个/二比例和一个/二差异):

  1. 标准正态分布:
    • 用已知人口方差的一两种方式测试(S)
    • 测试两个配对样本,其中2个样本之间的差异的变化 \(\ sigma ^ 2_d \) 是 known
    • 测试一个和两个比例(鉴于满足某些齐鲁风采群英会)
  2. 学生分配:
    • 测试一个和两个手段 联合国 已知人口方差
    • 测试两个配对样本,其中2个样本之间的差异的变化 \(\ sigma ^ 2_d \) 联合国 众所周知
  3. Chi-Square分布:
    • 对一个方差进行测试
  4. Fisher分销:
    • 测试两个差异

每个概率分布还具有其自己的参数(最多两个参数用于这里考虑的4个分布),定义其形状和/或位置。概率分布的参数可以被视为其DNA;意思是分布完全由其参数定义。

采取我们的初步情景 - 卫生专业人员,他们想测试比利时成年人的平均重量是否与80公斤不同 - 为例。一个平均值的潜在概率分布是标准正常或学生分配,具体取决于是否是 人口 (不是示例方差!)是已知的或未知的:6

  • 如果人口方差是已知的 \(\右箭头\) 使用标准的正态分布
  • 如果人口方差是 联合国 众所周知 \(\右箭头\) 学生分发是使用

如果没有明确授予群数方差,则可以齐鲁风采群英会它是未知的,因为您无法根据示例计算它。如果您可以计算它,这意味着您可以访问整个人口,在这种情况下,在执行齐鲁风采群英会测试时没有任何意义(您可以简单地使用一些 描述性统计 确认或反驳您的信仰)。在我们的示例中,没有指定群体方差,因此齐鲁风采群英会是未知的。因此,我们使用学生分配。

学生分发有一个定义它的一个参数;自由度的数量。自由度的数量取决于齐鲁风采群英会试验的类型。例如,一个平均值的测试自由度的数量等于观察的数量减去一个( \(n \) - 1)。在没有进入细节的情况下, - 1来自估计的一个数量(即,平均值)。7 在我们的示例中,样本量等于10,自由度等于 \(n \) - 1 = 10 - 1 = 9.

只有一个最后一个元素缺少找到关键值: 意义程度 。 这 意义程度 ,表示 \(\α\) ,是错误拒绝零齐鲁风采群英会的概率,所以 拒绝零齐鲁风采群英会的概率虽然它是真实的。从这个意义上讲,它是一个错误(I型错误,而不是II型错误8)我们接受处理,以便能够基于它的子集得出关于人口的结论。

正如您在许多统计教科书中所阅读的那样,显着性水平通常被设置为5%。9 在某些领域(例如药物或工程等),显着性水平有时也设定为1%以降低误差率。最好指定意义程度 执行齐鲁风采群英会试验,以避免诱惑根据结果设定意义水平(当结果在很大的边缘时诱惑甚至更大)。正如我总是告诉我的学生,你不能“猜测”也不能计算意义水平。因此,如果没有明确指定,您可以安全地齐鲁风采群英会它是5%。在我们的情况下,我们没有表明它,所以我们拿走 \(\α\) = 5% = 0.05.

此外,在我们的示例中,我们希望测试比利时成年人的平均重量是 不同的 超过80公斤。由于我们没有指定测试的方向,因此它是一个 双面测试。如果我们想测试平均重量小于80千克( \(h_1:\ mu<\) 80)或大于80千克(\(h_1:\ mu>\) 80),我们会做出单面测试。确保执行正确的测试(双面或单面),因为它对如何找到关键值产生影响(请参阅以下段落中的更多内容)。

所以现在我们知道适当的分销(学生分发),其参数(自由度(DF)= 9),重要性水平( \(\α\) = 0.05)和方向(双面),我们有我们需要找到临界价值 统计表:

通过查看行df = 9和列 \(t_.025 \) 在学生的分销表中,我们找到了临界值:

\ [t_ {n-1; \ alpha / 2} = t_ {9; 0.025} = 2.262 \]

人们可能想知道为什么我们拿 \(t _ {\ alpha / 2} = t_.025 \) 并不是 \(t_ \ alpha = t_.05 \) 由于显着性水平为0.05。原因是我们正在做双面测试(\(h_1:\ mu\ne\) 80),因此必须在2中划分0.05的错误率以找到分布右侧的临界值。由于学生的分发是对称的,分配左侧的临界值简单:-2.262。

在视觉上,0.05的错误率分为两部分:

  • 0.025到-2.262的左侧和
  • 2.262的右边0.025

我们要记住第四步和最后一步的这些临界值-2.262和2.262。

请注意,先前绘图中的红色阴影区域也称为拒绝区域。更多关于以下部分。

这 se critical values can also be found in R, thanks to the qt() function:

qt(0.025, df = 9, lower.tail = TRUE)
## [1] -2.262157
qt(0.025, df = 9, lower.tail = FALSE)
## [1] 2.262157

qt() function is used for the Student’s distribution (q stands for quantile and t for Student). There are other functions accompanying the different distributions:

  • qnorm() 对于正态分布
  • qchisq() 用于Chi-Square分布
  • qf() 对于fisher分配

步骤#4:结论和解释结果

在第四个和最后一步,我们所要做的就是 比较测试统计 (在步骤#2中计算) 带有临界值 (在步骤#3中找到)以便 结束齐鲁风采群英会试验.

结论齐鲁风采群英会试验时唯一的可能性是:

  1. 拒绝零齐鲁风采群英会
  2. 不排斥零齐鲁风采群英会

在我们的成人体重的例子中,请记住:

  • T-Stat. 是-2.189
  • 临界值是-2.262和2.262

还要记住:

  • T-Stat. 对我们的样本有多极端的指示 与零齐鲁风采群英会相比
  • 临界值是T-Stat被视为的阈值 extreme

要将T-Stat与关键值进行比较,我总是建议绘制它们:

这两个临界值形成拒绝区域(红色阴影区域):

  • \( - \ infty \) to -2.262, and
  • 从2.262到 \(\ infty \)

如果是 T-Stat在于其中一个抑制区域,我们拒绝了零齐鲁风采群英会。相反,如果 t-stat做 不是 躺在任何拒绝地区内,我们这样做 不是 拒绝零齐鲁风采群英会.

正如我们从上图所看到的那样,T-STAT比临界值不太极端,因此不在任何抑制区域内。总之,我们不拒绝零齐鲁风采群英会 \(\ mu = 80 \).

这是统计术语的结论,但如果没有适当的解释,它们就会毫无意义。因此,在问题的背景下解释结果是一个很好的做法:

在5%的意义程度上,我们不会拒绝比利时成年人的平均重量为80公斤的齐鲁风采群英会。

为什么我们不接受 \(h_0 \) ?

从更哲学(但仍然非常重要)的角度来看,请注意我们写道“我们 不要拒绝 null齐鲁风采群英会“和”我们 不要拒绝 比利时成年人平均重量等于80公斤的齐鲁风采群英会“。我们没有写“我们 接受 空齐鲁风采群英会“比利时成年人的平均重量为80公斤”。

原因是由于在齐鲁风采群英会检测中,我们基于样本得出关于人口的一些事情。因此,总是有一些不确定性,我们不能100%确定我们的结论是正确的。

也许是比利时成年人的平均重量与80公斤不同的情况,但是 我们未能证明它 基于手头的数据。可能是这种情况,如果我们有更多的观察,我们将拒绝零齐鲁风采群英会(因为一切都是平等的,更大的样本大小意味着更极端的T-stat)。或者,可能是这种情况,即使有更多的观察结果,我们不会拒绝零齐鲁风采群英会,因为比利时成年人的平均重量在现实接近80公斤。我们无法区分两者。所以我们只能说我们没有发现足够的证据表明比利时成年人的平均重量为80公斤,但我们并没有得出结论,平均值等于80公斤。

如果差异仍然不清楚,以下示例可能会有所帮助。齐鲁风采群英会一个人被怀疑犯下犯罪。这个人是无辜的 - 零齐鲁风采群英会或犯罪 - 替代齐鲁风采群英会。在试图知道嫌疑人是否犯下了罪行,警方尽可能多地收集信息和证据。这类似于研究人员收集数据以形成样本。然后根据收集的证据,决定嫌疑人是否被视为无辜或内疚。如果有足够的证据表明嫌疑人犯下了罪行,法官将得出结论,嫌疑人有罪。换句话说,她将拒绝嫌疑人的零齐鲁风采群英会是无辜的,因为有足够的证据表明嫌疑人犯下了罪行。这类似于T-stat比临界值更为极端:我们有足够的信息(基于样本)来说,如果零齐鲁风采群英会是真的,我们的数据将太极端,因为我们的数据太极端了。由于样本不能“错误”(它对应于收集的数据),因此唯一的剩余可能性是NULL齐鲁风采群英会实际上是错误的。这就是我们写的原因“我们拒绝零齐鲁风采群英会”。

另一方面,如果没有足够的证据表明嫌疑人犯下了罪行(或根本没有证据),法官将得出结论,嫌疑人被认为是无辜的。换句话说,她不会拒绝嫌疑人的无效齐鲁风采群英会是无辜的。但即使她得出结论认为,嫌疑人被视为无辜,她永远不会100%肯定他真的是无辜的。可能是这样的:

  1. 嫌疑人没有犯罪,或者
  2. 嫌疑人犯了犯罪,但警方无法收集足够的信息反对嫌疑人。

在前一种情况下,嫌疑人真的是无辜的,而在后一种情况下,嫌疑人有罪,但警察和法官未能证明这一点,因为他们没有找到足够的证据。类似于齐鲁风采群英会检验,法官通过考虑嫌疑人无罪,必须结束这种情况,而不能够区分两者。

这是我们写的主要原因“我们不拒绝零齐鲁风采群英会”或“我们无法拒绝零齐鲁风采群英会”(你甚至可以在一些教科书中读取的结论,例如“数据中没有足够的证据来拒绝空缺齐鲁风采群英会“),我们不写”我们接受零齐鲁风采群英会“。

我希望这个隐喻有助于你理解我们拒绝零齐鲁风采群英会而不是接受它的原因。

在以下部分中,我们介绍了在齐鲁风采群英会检测中使用的另外两种方法。这些方法将导致完全相同的结论:非拒绝零齐鲁风采群英会,即,我们不拒绝比利时成年人的平均重量为80公斤的齐鲁风采群英会。因此,只有在第一个上使用这些方法时才呈现它。

方法B:比较 p-价值具有重要性水平 \(\α\)

方法B,包括计算 p-价值and comparing this p-价值具有重要性水平 \(\α\) ,归结为以下4个步骤:

  1. 陈述 null和替代齐鲁风采群英会
  2. 计算 测试统计信息
  3. 计算 p -价值
  4. 结论 并解释结果

在使用该方法的第二种方法中 p-Value,第一步和第二步是类似于第一种方法。

步骤1:说明零和替代齐鲁风采群英会

null和替代齐鲁风采群英会仍然是相同的:

  • \(h_0:\ mu = 80 \)
  • \(h_1:\ mu \ ne 80 \)

步骤#2:计算测试统计

请记住,T-Stat的公式取决于齐鲁风采群英会检验的类型(一两种方式,一个或两个比例,一个或两个差异)。在我们的一个平均值的情况下,我们有:

\ [t_ {obs} = \ frac {\ bar {x} - \ mu} {\ frac {n}} = \ sqrt {n}}} = \ frac {71 - 80} {\ frac {71 - 80} {\ frac {13} {\ sqrt {10}}} = -2.189 \]

第3步:计算 p -价值

p -价值 是个 可能性 (所以它从0到1开始)观察样品,至少与我们所观察到的那样,如果零齐鲁风采群英会是真的。在某种意义上,它 为您提供零齐鲁风采群英会的可能性的指示。它也被定义为数据表明拒绝空齐鲁风采群英会的最小级别。

有关的更多信息 p-Value,我建议读这个 注意有关 p-价值and the significance level \(\α\) .

正式,这 p-Value是超出测试统计的地区。由于我们正在做双面测试,因此 p-价值is thus the sum of the area above 2.189 and below -2.189.

视觉上,这 p-价值is the sum of the two blue shaded areas in the following plot:

p-价值can computed with precision in R with the pt() function:

p_val <- pt(-2.189, df = 9, lower.tail = TRUE) + pt(2.189, df = 9, lower.tail = FALSE)
p_val
## [1] 0.05634202
# which is equivalent than:
p_val <- 2 * pt(2.189, df = 9, lower.tail = FALSE)
p_val
## [1] 0.05634202

p-Value是0.0563,表明如果零齐鲁风采群英会是真实的,则观察至少与观察到的样本至少是极端的5.63%的几率。这已经让我们提示是我们的t-stat是否过于极端(以及我们的零齐鲁风采群英会是否可能是不是),但我们在步骤#4中正式得出结论。

Like the qt() function to find the critical value, we use pt() to find the p-价值because the underlying distribution is the Student’s distribution. Use pnorm(), pchisq()pf() for the Normal, Chi-square and Fisher distribution, respectively. See also this 闪亮的应用程序 计算 p-价值given a certain t-stat for most 概率分布s.

如果您无权访问计算机(例如在考试期间),您将无法计算 p-Value精确,但您可以使用统计表指的是您的测试。在我们的情况下,我们使用学生分发,我们看一行df = 9(因为df = n - 1):

  1. 临界值是-2.189
  2. 我们采取绝对值,给出2.189
  3. 值2.189在2.132和2.776之间(上表中的蓝色矩形)
  4. 从列名称 \(t _ {。50} \) \(t _ {。025} \) 与2.132和2.776相关,我们知道:
    • 2.132右侧的区域为0.05
    • 2.776右侧的区域为0.025
  5. 所以我们知道2.189右侧的区域必须在0.025和0.05之间
  6. 由于学生分发是对称的,我们知道-2.189的左侧的区域也必须在0.025和0.05之间
  7. 因此,两个区域的总和必须在0.05和0.10之间
  8. 换句话说, p-价值is between 0.05 and 0.10 (i.e., 0.05 < p-价值< 0.10)

虽然我们无法准确地计算它,但足以在最后一步结束我们的齐鲁风采群英会测试。

步骤#4:结论和解释结果

最后一步现在只是简单地比较 p-价值(computed in step #3) 具有重要性水平 \(\α\) 。至于所有统计测试:

  • 如果是 p-价值is smaller \(\α\) (p-价值< 0.05) \(\ lightarrow h_0 \) 不太可能 \(\右箭头\) 我们 拒绝 这 null hypothesis
  • 如果是 p-价值is greater 而不是或等于 \(\α\) (p-价值 \(\ ge \) 0.05) \(\ lightarrow h_0 \) 可能 \(\右箭头\) 我们的确是 不拒绝 这 null hypothesis

无论我们如何考虑到确切的 p-价值(i.e., 0.0563) or the bounded one (0.05 < p-价值<0.10),它大于0.05,所以我们不拒绝零齐鲁风采群英会。10 在问题的背景下,我们不拒绝零齐鲁风采群英会,即比利时成年人的平均重量为80公斤。

请记住,在重要性水平下拒绝(或不拒绝)零齐鲁风采群英会 \(\α\) 使用临界值方法(方法a)等同于拒绝(或不拒绝)零齐鲁风采群英会 p-价值is lower (equal or greater) than \(\α\) (方法b)。这是我们找到与方法A完全相同的结论的原因,如果您在同一数据上使用两种方法以及具有相同意义级别的方法,您也应该也应该也应该也应该也应该也应该。

方法C:将目标参数与置信区间进行比较

方法C,其包括计算置信区间并将这种置信区间与目标参数进行比较(NULL齐鲁风采群英会下的参数),归掉至以下3个步骤:

  1. 陈述 null和替代齐鲁风采群英会
  2. 计算 置信区间
  3. 结论 并解释结果

在使用置信区间的最后一个方法中,第一步比前两种方法类似。

步骤1:说明零和替代齐鲁风采群英会

null和替代齐鲁风采群英会仍然是相同的:

  • \(h_0:\ mu = 80 \)
  • \(h_1:\ mu \ ne 80 \)

步骤#2:计算置信区间

如齐鲁风采群英会检测,置信区间是推论统计中的众所周知的工具。

置信区间是 产生的估算程序 间隔 (即,一系列值) 包含特定的真实参数 - 恒高 - 可能性 .

以相同的方式:在计算测试统计时存在每种类型的齐鲁风采群英会测试的公式,存在用于每种类型的置信区间的公式。可以在此找到不同类型置信区间的公式 闪亮的应用程序 .

这是一个平均值的置信区间的公式 \(\亩\) (人口方差未知):

\ [ (1- \ alpha)\文本{%ci for} \ mu = \ bar {x} \ pm t _ {\ alpha / 2,n - 1} \ frac {s} {\ sqrt {n}} \]

在哪里 (t _ {\ alpha / 2,n - 1} \) 在学生分发表中找到(并且类似于方法a的步骤#3中的临界值))。

鉴于我们的数据和 \(\α\) = 0.05, we have:

\ [ \begin{aligned} 95 \ text {%ci for} \ mu&= \ bar {x} \ pm t _ {\ alpha / 2,n - 1} \ frac {s} {\ sqrt {n}} \\ &= 71 \ PM 2.262 \ FRAC {13} {\ SQRT {10}} \\ &= [61.70; 80.30] \end{aligned} \]

95%的置信区间 \(\亩\) 是[61.70; 80.30] kg。但 95%的置信区间是什么意思?

我们知道,该估算程序具有95%的概率,产生了一个含有真实均值的间隔 \(\亩\) 。换一种说法, 如果我们构建许多置信区间 (具有相同尺寸的不同样本), 95%的人将会, 一般, 包括人口的平均值 (真实参数)。因此,平均而言,这些置信区间的5%不会涵盖真正的平均值。

如果您希望减少最后一个百分比,可以降低意义级别(集 \(\α\) 例如)= 0.01或0.02)。所有其他相同,这将增加置信区间的范围,从而增加它包括真实参数的概率。

第3步:结论和解释结果

最后一步只是将置信区间(在步骤#2中构造)与目标参数的值进行比较(在零齐鲁风采群英会下的值下,在步骤#1中提到):

  • 如果是 置信区间不包括 齐鲁风采群英会值 \(\ lightarrow h_0 \) 不太可能 \(\右箭头\) 我们 拒绝 这 null hypothesis
  • 如果是 置信区间包括 齐鲁风采群英会值 \(\ lightarrow h_0 \) 可能 \(\右箭头\) 我们的确是 不拒绝 这 null hypothesis

在我们的示例中:

  • 齐鲁风采群英会值为80(自从 \(h_0:\ mu \) = 80)
  • 80包括在95%置信区间中,因为它从61.70到80.30千克
  • 所以我们不拒绝零齐鲁风采群英会

在问题的条件下,我们不拒绝比利时成年人的平均重量为80公斤的齐鲁风采群英会。

正如您所见,结论是等同于临界值方法(方法A)和 p-Value方法(方法b)。再次,这一定是这种情况,因为我们使用相同的数据和相同的意义级别 \(\α\) 对于所有三种方法。

哪种方法选择?

所有三种方法都提供了相同的结论。 但是,每个方法都有自己的优势,因此我通常根据情况选择最方便的优势:

  • 方法A(将测试统计与临界值进行比较):
    • 在我看来,它是 最简单,最简单的方法 当我无法访问R时,这三者。
  • 方法B(比较 p-价值具有重要性水平 \(\α\) ):
    • 除了能够知道是否被拒绝零齐鲁风采群英会,计算 精确的 p-价值can be very convenient 因此,如果我访问R.,我倾向于使用这种方法。
  • 方法C(将目标参数与置信区间进行比较):
    • 如果我需要测试 几个齐鲁风采群英会值,我倾向于选择这种方法,因为我可以构建一个单一的置信区间,并将其与我想要的值进行比较。例如,我们的95%置信区间[61.70; 80.30],我知道任何低于61.70千克和80.30千克的值都将被拒绝,而不为每个值测试它。

概括

在本文中,我们审查了 目标 什么时候 使用齐鲁风采群英会测试。然后我们展示了 如何用手做齐鲁风采群英会试验 通过三种不同的方法(A. 临界价值 ,B. p -价值 和C. 置信区间)。我们也展示了如何 解释结果 在初始问题的上下文中。

虽然所有三种方法在使用相同的数据和相同的重要性水平时提供完全相同的结论(否则在某个地方存在错误),但我也提出了我的个人 优先 当它在另一个方法选择一种方法时。

谢谢阅读。我希望这篇文章帮助您通过手动理解齐鲁风采群英会的结构。我提醒您,至少对于本文所涵盖的6个假说测试,公式是不同的,但结构和后面的原因保持不变。因此,您基本上必须知道要使用哪种公式,并且只需按照本文提到的步骤。

对于感兴趣的读者,我创建了两个伴随的闪亮应用程序:

  1. 齐鲁风采群英会测试和置信区间:输入数据后,应用程序说明了所有步骤,以便结束测试并计算置信区间。查看更多信息 文章 .
  2. 如何阅读统计表:该应用程序可帮助您计算 p - 对于大多数概率分布给出了t-stat。查看更多信息 文章 .

一如既往,如果您有问题或与本文所涵盖的主题相关的建议,请将其添加为评论,以便其他读者可以从讨论中受益。


  1. 齐鲁风采群英会研究人员想要测试比利时女性是否高于法国女性。齐鲁风采群英会健康专业人士想知道运动员和非运动员之间的吸烟者比例是否不同。衡量所有比利时和法国女性的高度,并询问所有运动员和非运动员的吸烟习惯会这样做太长时间。因此,大多数时候,决策都是基于人口的代表性样本而不是整个人口。如果我们可以在合理的时间范围内衡量整个人口,我们不会做任何推动统计数据。 ↩︎

  2. 不要给我错了,这并不意味着齐鲁风采群英会测试是 绝不 用于探索性分析。在探索性研究中,它比在验证性研究中频繁少得多。 ↩︎

  3. 您可以在其他文章或教科书中查看更多或更少步骤,具体取决于这些步骤是否详细或简明。然而,齐鲁风采群英会测试应遵循相同的过程,无论步数如何。 ↩︎

  4. 用于单面测试,写作 \(h_0:\ mu = 80 \) 或者 \(h_0:\ mu \ ge 80 \) 都是正确的。关键是,空和替代齐鲁风采群英会必须是互斥的,因为您正在测试一个齐鲁风采群英会,因此两者同时都不能真实。 ↩︎

  5. 要完成,每种类型的测试中甚至存在不同的公式,具体取决于是否满足了某些齐鲁风采群英会。对于感兴趣的读者,请参阅所有不同的场景,从而查看不同的公式进行测试 一个意思 和上 两种方式 . ↩︎

  6. 如果人口方差未知,则会有更不确定性,并且通过使用学生分发而不是标准的正态分布考虑这种更大的不确定性。另请注意,随着样本大小的增加,学生分布的自由度增加,两个分布变得越来越相似。用于大样本大小(通常来自 (N. >\) 30),学生分布变得如此接近标准正态分布,即使人口方差未知,也可以使用标准的正态分布。 ↩︎

  7. 对于两个独立样本的测试,自由度是 \(n_1 + n_2 - 2 \) , 在哪里 \(n_1 \) \(n_2 \) 分别是第一和第二样本的大小。注意 - 2由于在这种情况下,估计两种数量。 ↩︎

  8. II型错误是不拒绝NULL齐鲁风采群英会的概率,尽管它处于现实错误。 ↩︎

  9. 这是否是一个好的或坏标准是一个经常出现的问题,并且是值得争议的。然而,这超出了文章的范围。 ↩︎

  10. 再次, p - 通过统计表或VIA r找到的值必须是连贯的。 ↩︎



喜欢这篇文章?

获取更新 每次发布新文章。
任何垃圾邮件都没有任何垃圾邮件。
分享: