可变类型和示例

Antoine Soetewey 2019-12-30 8 minute read

本文从统计角度显示不同的变量类型。要了解R中的不同数据类型,请阅读“ r的数据类型 “。

大局

在统计信息中,变量分为4种不同类型:

定量

A 定量 变量是反映概念的变量 震级 ,即,如果它可以采取的值是 数字 。因此,定量变量表示一个度量并且是数值的。

定量变量分为两种类型: 离散的 连续的 。以下两个部分解释了差异。

离散的

定量离散 变量是可以采取的值的变量 可数 并有一个 有限的可能性。值通常是(但不是总是)整数。以下是离散变量的一些示例:

  • 每个家庭的孩子数量
  • 课堂上的学生人数
  • 一个国家的公民人数

即使计算一个大国的公民需要很长时间,它仍然可以在技术上是可行的。此外,对于所有示例,可能性的数量是 有限 。无论一个家庭中的孩子数量如何,它永远不会是3.58或7.912,因此可能性的数量是有限的数字,因此可数。

连续的

另一方面, 定量连续 变量是值的变量 不可算 并有一个 无限的可能性 。 例如:

  • 年龄
  • 重量
  • 高度

为简单起见,我们通常分别提及年龄,体重和高度的岁月,千克(或磅)和厘米(或脚和英寸)。然而,一名28岁的男人实际上可能是28岁,7个月,16天,3小时,4分钟,5秒,31毫秒,9纳秒旧。

对于所有测量,我们通常停止在标准的粒度水平,但没有(我们的测量工具除外)阻止我们进入更深,导致了 无限数量的潜在价值。价值可以采用无限数量的事实使得它不可数。

定性的

在反对量化变量中, 定性的 变量(也称为分类变量或 因素 在r)是有变量 不是数值 和哪个 值适合类别.

换句话说,一个 定性的 变量是一个作为其值模式的变量, 类别 与此相比,甚至水平 定量 测量a的变量 数量 on each individual.

定性变量分为两种类型: 义务 序单 .

义务

A 定性的名义 变量是一个定性变量 没有订购 可以在水平中暗示或暗示。例如,可变性别是标称性的,因为在女性/男性中没有任何顺序。眼睛颜色是标称变量的另一个例子,因为蓝色,棕色或绿色眼睛没有订单。

标称变量可以在两个级别之间有两个(例如,你吸烟吗?是/否或你的性别?女性/男性)以及大量的级别(你的大学专业是什么?每个主要是这种情况) 。

序单

另一方面,一个 定性序单 变量是一个定性变量 订单暗示了水平。例如,如果在诸如光,中等和致命事故的规模上测量了道路事故的严重程度,则该变量是一个定性的序数变量,因为水平中有明确的顺序。

另一个很好的例子是健康,这可以采取差价,合理,好的或优秀的价值观。同样,在这些层次中有明确的顺序,因此健康状况在这种情况下是定性的序数变量。

可变变换

有两个主要的变量变换:

  1. 从一个连续的离散变量
  2. 从定性变量的定量

从连续的离散

让我们说我们对婴儿的年龄感兴趣。收集的数据是婴儿的年龄,因此定量连续变量。但是,我们只能在出生以来的几周内工作,从而将年龄转化为离散变量。变量年龄仍然是定量连续变量,但我们正在研究的变量(即,自出生以来的数周数)是定量离散变量。

从定量定量

让我们说我们对体重指数(BMI)感兴趣。为此,研究人员收集有关个人身高和体重的数据,并计算BMI。 BMI是定量连续变量,但研究人员可能希望通过将单个阈值分类为低于重量的单个阈值,以上的单个阈值以超重和其余重量的特定阈值来将其变为定性变量。 RAW BMI是定量连续变量,但BMI的分类使变换变量成为定性(序数)变量,在这种情况下,水平的级别< normal < overweighted.

当年龄转变为与未成年人,成年人和老年人等水平的定性序数变量相同。通常情况下,可变薪水(定量连续)转化为不同的薪水范围(例如,<1000€,1000 - 2000€,> 2000€).

附加条款

不同类型的不同类型的不同类型的统计分析

我们经常阶级变量进入不同类型的原因是因为并非所有统计分析都可以对所有可变类型进行。例如,不可能计算 意思是 变量“头发颜色”,因为你不能释放棕色和金发。

另一方面,找到 模式 一个连续变量并没有真正做出任何意义,因为大多数时间都没有两个完全相同的值,所以没有模式。即使在存在模式下,也会有很少的观察结果。例如,尝试在课堂上找到学生的高度的模式。如果你很幸运,那么几个学生将具有相同的大小。然而,大多数时候,每个学生都会具有不同的大小(特别是如果高度以毫米测量),因此没有模式。要查看每种类型的变量可以进行哪种分析,请参阅文章中的更多详细信息“手工描述性统计 “ 和 ” r的描述性统计 “。

类似地,只能在某些类型的变量上执行一些统计测试。例如,一个 相关性 只能在定量变量上计算,而a Chi-Square独立性测试 是用定性变量完成的, 学生t检验 或者 Anova. 需要混合定量和定性变量。

误导数据编码

最后但并非最不重要的是,在数据集中,通常是数字用于定性变量的情况。例如,研究人员可以将数字“1”分配给女性和数字“2”到男性(或“0”到答案“No”和“1”到答案“是”)。尽管数值分类,但变量性别仍然是一个定性变量,而不是它可能看的离散变量。数值分类仅用于促进数据收集和数据管理。写下数字“1”或“2”而不是“女性”或“男性”确实更容易,从而不太容易编码错误。

如果你面对这种设置,请不要忘记 变形 在执行任何统计分析之前,您的变量进入正确的类型。通常是一个基本的 描述性分析 (以及关于主要统计分析之前已经测量的变量的知识足以检查所有可变类型是否正确。

谢谢阅读。我希望这篇文章有助于您了解不同类型的变量。如果您想了解有关R中的不同数据类型的更多信息,请阅读文章“ r的数据类型 “。

一如既往,如果您有问题或与本文所涵盖的主题相关的建议,请将其添加为评论,以便其他读者可以从讨论中受益。



喜欢这篇文章?

获取更新 每次发布新文章。
任何垃圾邮件都没有任何垃圾邮件。
分享: