每个数据科学家应该知道的概率的9个概念和公式

Antoine Soetewey 2020-03-03 13 minute read

什么是概率?

概率是反映的数字 将发生特定事件的机会。换句话说,它量化(从0到1的等级,或从0%到100%) 事件发生的可能性有多可能.

概率是数学的分支,提供模型来描述随机过程。这些数学工具允许建立随机现象的理论模型,并使用它们进行预测。与每个模型一样,概率模型是世界的简化。但是,一旦捕获基本功能,该模型很有用。

在本文中,我们提出了9个基本公式和概念,概率,每个数据科学家都应该理解和掌握,以便适当处理概率的任何项目。

1.概率始终在0到1之间

事件的概率始终在0到1之间(或0%和100%)之间,

\ [0 \ Le P(a)\ le 1 \]

  • 如果事件是不可能的: \(p(a)= 0 \)
  • 如果事件确定: (p(a)= 1\)

例如,用标准的六面骰子抛出7(具有1〜6的面部),因此其概率等于0.抛出头部或尾部,因此其概率等于1。

2.计算概率

如果示例空间的元素(随机实验的所有可能结果的集合)是设备(=所有元素具有相同概率),则事件发生的概率等于有利情况的数量(方式数量它可能发生)除以可能的情况(结果总数):

\ [p(a)= \ frac {\ text {优惠案例的数量}} {\ text {可能的情况}}}} \]

例如,六面掷骰子的所有数量都是设备,因为它们都具有相同的发生概率。因此,用骰子滚动3的概率是

\ [p(3)= \ frac {\ text {有利的案例数}} {\ text {可能的情况}} = \ frac {1} {6}}

因为只有一个有利的案例(它只有一个脸部有3个),并且有6个可能的情况(因为共有6个面孔)。

3.补充活动

活动的补充(或相反)的概率是:

\ [p(\ text {not a})= p(\ bar {a})= 1 - p(a)\]

例如,没有掷骰子的概率丢弃3是:

\ [p(\ bar {a})= 1 - p(a)= 1 - \ frac {1} {6} = \ frac {5} {6} \]

4.两个事件的联盟

两个事件结合的概率是出现的概率:

\ [p(\ text {a或b)} = p(a \ cap b)= p(a)+ p(b) - p(a \ cap b)\]

假设在给定年份的两个房屋中爆发的火灾概率是:

  • 在房子A:60%,所以 \(p(a)= 0.6)
  • 在房子B:45%,所以 \(p(b)= 0.45 \)
  • 在两个房屋中的至少一个:80%,所以 \(p(a \ cap b)= 0.8 \)

图形方式我们有

在房子里爆发的火灾概率 或者 house B is

\ [p(a \ cap b)= p(a)+ p(b) - p(a \ cap b)\] \ [= 0.6 + 0.45 - 0.25 = 0.8 \]

通过求和 \(p(a)\)\(p(b)\),A和B的交叉点,即 (p(a \ cap b)\),被计算了两次。这是我们减去它仅计算一次的原因。

如果两个事件是相互排斥的(即,两个无法同时发生的事件),则两种事件发生的概率等于0,因此上述公式变为

\ [p(a \ cap b)= p(a)+ p(b)\]

例如,六面骰子上的事件“滚动A 3”和“滚动6”的事件是两个相互排斥的事件,因为它们不能同时发生。由于它们的关节概率等于0,因此在六面骰子上滚动3或6的概率是

\ [p(3 \ cup 6)= p(3)+ p(6)= \ frac {1} {6} + \ frac {1} {6} = \ frac {1} {3}}

5.两个事件的交叉点

如果两个事件是独立的,则两个事件(即,联合概率)的交叉点的概率是发生的两个事件的概率:

\ [p(\ text {a和b)} = p(a \ cap b)= p(a)\ cdot p(b)\]

例如,如果翻转两个硬币,则两个硬币是尾部的概率是

\ [p(t_1 \ cap t_2)= p(t_1)\ cdot p(t_2)= \ frac {1} {2} \ cdot \ frac {1} {2} = \ frac {1} {4}} 注意 (p(a \ cap b)= p(b \ cap a)\).

如果两个事件是互斥的,它们的联合概率等于0:

\ [p(a \ cap b)= 0 \]

6.两个事件的独立性

由于上述公式,可以验证两个事件的独立性。如果平等持有,则据说这两个事件是独立的,否则说两个事件据说是依赖的。正式,事件A和B是独立的,如果只有

\ [p(a \ cap b)= p(a)\ cdot p(b)\]

  • 在两个硬币的例子中:

\ [p(t_1 \ cap t_2)= \ frac {1} {4} \]

\ [p(t_1)\ cdot p(t_2)= \ frac {1} {2} \ cdot \ frac {1} {2} = \ frac {1} {4} \]

所以以下平等持有

\ [p(t_1 \ cap t_2)= p(t_1)\ cdot p(t_2)= \ frac {1} {4} \]

因此,这两个事件是独立的,表示 \(t_1 {\ perp \!\!\!\ \ perp} t_2 \).

  • 在爆炸在两个房子里的榜样中(见 第4节):

\ [p(a \ cap b)= 0.25 \]

\ [p(a)\ cdot p(b)= 0.6 \ cdot 0.45 = 0.27 \]

所以以下平等不持有

\ [p(a \ cap b)\ ne p(a)\ cdot p(b)\]

因此,这两个事件依赖于(或不是独立的),表示 \(a \ not \!\ perp \!\!\!\ perp b \).

7.有条件的概率

假设两个事件a和b和b (p(b)> 0\)。给定(知道)B的条件概率是给定事件B发生的事件A的可能性:

\ [p(a | b)= \ frac {p(a \ cap b)} {p(b)}} \ [= \ frac {p(b \ cap a)} {p(b)} \ text {(由于} p(a \ cap b)= p(b \ cap a))\]

注意,通常,给定B的概率不等于B给定A的概率,即, (p(a | b)\ ne p(b | a)\).

从条件概率的公式中,我们可以得出乘法法:

\ [p(a | b)= \ frac {p(a \ cap b)} {p(b)} \ text {(eq.1)} \] \ [p(a | b)\ cdot p(b)= \ frac {p(a \ cap b)} {p(b)} \ cdot p(b)\] \ [p(a | b)\ cdot p(b)= p(a \ cap b)\ text {(乘法法)} \]

如果两个事件是独立的, \(p(a \ cap b)= p(a)\ cdot p(b)\), 和:

  • (p(b)> 0\),条件概率变为

\ [p(a | b)= \ frac {p(a \ cap b)} {p(b)}} \ [p(a | b)= \ frac {p(a)\ cdot p(b)} {p(b)} \] \ [p(a | b)= p(a)\ text {(eq.2)} \]

  • (p(a)> 0\),条件概率变为

\ [p(b | a)= \ frac {p(b \ cap a)} {p(a)}} \ [p(b | a)= \ frac {p(b)\ cdot p(a)} {p(a)}} \ [p(b | a)= p(b)\ text {(eq.3)} \] 等式2和3意味着知道发生了一个事件不会影响其他事件结果的概率。事实上,这实际上是独立的定义:如果知道发生了一个事件没有有助于预测(不影响)其他事件的结果,这两个事件是由本质独立的。

贝叶斯的定理

从条件概率和乘法法的公式中,我们可以派生贝叶斯定理:

\ [p(b | a)= \ frac {p(b \ cap a)} {p(a)} \ text {(来自条件概率)} \] \ [p(b | a)= \ frac {p(a \ cap b)} {p(a)} \ text {(由于} p(a \ cap b)= p(b \ cap a))\] \ [p(b | a)= \ frac {p(a | b)\ cdot p(b)} {p(a)} \ text {(来自乘法法)} \]

这相当于

\ [p(a | b)= \ frac {p(b | a)\ cdot p(a)} {p(b)} \ text {(贝叶斯' theorem)}\]

例子

为了说明条件概率和贝叶斯定理,假设以下问题:

为了确定一个人的疾病存在,进行血液测试。当一个人有这种疾病时,测试可以在80%的病例中揭示疾病。当疾病不存在时,在90%的病例中测试是负的。经验表明,存在的疾病的可能性是10%。研究人员想知道,鉴于测试结果是阳性的,该疾病的概率是阳性的。

要回答此问题,定义了以下事件:

  • P:测试结果是积极的
  • D:这个人有疾病

此外,我们使用树图来说明语句:

(所有4个方案的总和必须等于1,因为这4个方案包括所有可能的情况。)

我们正在寻找个体具有疾病的概率,因为考虑到测试结果是积极的, \(p(d | p)\)。在条件概率(EQ.1)的公式之后我们有:

\ [p(a | b)= \ frac {p(a \ cap b)} {p(b)}}

在我们的问题方面:

\ [p(d | p)= \ frac {p(d \ cap p)} {p(p)} \] \ [p(d | p)= \ frac {0.08} {p(p)} \ text {(eq.4)} \]

从树图中可以看出,在两种情况下,可以看到正面测试结果:(i)当一个人有疾病时,或(ii)当该人实际上没有疾病时(因为测试并不总是正确的)。为了找到正面测试结果的概率, \(p(p)\),我们需要总结两种情况:

\ [p(p)= p(d \ cap p)+ p(\ bar {d} \ cap p)= 0.08 + 0.09 = 0.17 \]

eq。 4然后成为

\ [p(d | p)= \ frac {0.08} {0.17} = 0.4706 \]

鉴于试验结果阳性的疾病的可能性仅为47.06%。这意味着在这个特定的情况下(具有相同的百分比),一个人在具有疾病的情况下有不到1的机会,知道他的测试是积极的!

这种相对较小的百分比是由于这种疾病相当罕见的事实(只有10%的人口受到影响)并且测试并不总是正确的(有时它会发现这种疾病,虽然它不存在,但有时它没有虽然存在)检测它)。因此,与具有阳性结果的人的百分比和实际疾病的人(8%)相比,更高百分比的健康人的结果(9%)。这解释了为什么在宣布测试结果之前通常进行若干诊断测试,特别是对于罕见疾病。

8.准确度措施

基于疾病和上述诊断测试的基础,我们解释了最常见的准确度措施:

  • 假阴性
  • 误报
  • 灵敏度
  • 特异性
  • 阳性预测值
  • 负预测值

在潜入这些准确度措施的细节之前,这里概述了为4个方案中的每一个添加的标签的措施和树图:

改编自维基百科

假阴性

错误的否定(FN)是错误标记为的人数 不是 患有疾病或病症,当实际上存在它。这就像告诉一个怀孕7个月的女性,她没有怀孕。

从树图中,我们有:

\ [fn = p(d \ cap \ bar {p})= 0.02 \]

误报

假阳性(FP)是错误标记为具有疾病或条件的人数,当实际上是 不是 当下。这就像告诉一个男人他怀孕了。

从树图中,我们有:

\ [fp = p(\ bar {d} \ cap p)= 0.09 \]

灵敏度

测试的敏感性,也称为召回,测量试验检测状态的能力,当存在条件时(正确识别为具有疾病的病人的百分比):

\ [sensitivity = \ frac {tp} {tp + fn} \]

在哪里 TP. 是真正的积极因素。

从树图中,我们有:

\ [Sensitivity = \ FRAC {TP} {TP + FN} = P(P | D)= 0.8 \]

特异性

测试测量测试衡量测试能力正确排除条件的能力(当不存在条件(正确识别出没有疾病的健康人的百分比):

\ [特异性= \ frac {tn} {tn + fp} \]

在哪里 TN. 是真正的否定。

从树图中,我们有:

\ [特异性= \ frac {tn} {tn + fp} = p(\ bar {p} | \ bar {d})= 0.9 \]

阳性预测值

阳性预测值,也称为精度,是对应于条件存在的阳性比例,因此阳性结果的比例是真正的阳性结果:

\ [ppv = \ frac {tp} {tp + fp} \]

从树图中,我们有:

\ [ppv = \ frac {tp} {tp + fp} = p(d | p)= \ frac {p(d \ cap p)} {p(p)}} \ [= \ FRAC {0.08} {0.08 + 0.09} = 0.4706 \]

负预测值

否定预测值是对应于缺乏情况的负面的比例,因此对真正的负面结果的负面结果的比例是如此:

\ [npv = \ frac {tn} {tn + fn} \]

从树图中,我们有:

\ [npv = \ frac {tn} {tn + fn} = p(\ bar {d} | \ bar {p})= \ frac {p(\ bar {d} \ cap \ bar {p})}} { p(\ bar {p})} \] \ [= \ frac {0.81} {0.81 + 0.02} = 0.9759 \]

9.计算技术

为了使用公式 第2节,必须知道如何计算可能元素的数量。

概率有3种主要计数技术:

  1. 乘法
  2. 排列
  3. 组合

请参阅下面如何计算设备的可能元素的数量。

乘法

乘法规则如下:

\ [\#(a \ times b)=(\ #a)\ times(\ #b)\]

在哪里 \(\#\) 是元素的数量。

例子

在一家餐厅,客户必须选择起动器,主菜和甜点。餐厅提供2个起动器,3个主要课程和2个甜点。有可能有多少不同选择?

有12种不同的选择(即, \(2 \ CDOT 3 \ CDOT 2 \))。

排列

排列数量如下:

\ [p ^ r_n = n \ times(n - 1)\ times \ cdots \ times(n - r + 1)= \ frac {n!n!} {(n - r)!} \]

\(r \) 长度, \(n \) 元素数量和 \(r \ le n \)。注意 \(0!= 1 \)\(k!= k \ times(k - 1)\ times(k - 2)\ times \ cdots \ times 2 \ times 1 \) 如果 \(k = 1,2,\ dots \)

订单在排列中很重要!

例子

计算集合的长度2的排列 (a = \ {a,b,c,d \} \),没有被重复的信件。你找到了多少个排列?

用手

\ [p ^ 4_2 = \ frac {4!} {(4-2)!} = \ frac {4 \ cdot3 \ cdot2 \ cdot1} {2 \ cdot1} = 12 \]

在R.

library(gtools)

x <- c("a", "b", "c", "d")

# See all different permutations
perms <- permutations(
  n = 4, r = 2, v = x,
  repeats.allowed = FALSE
)
perms
##       [,1] [,2]
##  [1,] "a"  "b" 
##  [2,] "a"  "c" 
##  [3,] "a"  "d" 
##  [4,] "b"  "a" 
##  [5,] "b"  "c" 
##  [6,] "b"  "d" 
##  [7,] "c"  "a" 
##  [8,] "c"  "b" 
##  [9,] "c"  "d" 
## [10,] "d"  "a" 
## [11,] "d"  "b" 
## [12,] "d"  "c"
# Count the number of permutations
nrow(perms)
## [1] 12

组合

组合数量如下:

\ [c ^ r_n = \ frac {p ^ r_n} {r!} = \ frac {n!n!} {r!(n - r)!} = {n \选择r} \] \ [= \ \ frac {n} {r} \ times \ frac {n - 1} {r - 1} \ times \ dats \ times \ frac {n - r + 1} {1} \]

\(r \) 长度, \(n \) 元素数量和 \(r \ le n \).

订单是 不是 在组合中重要!

例子

在一个5个孩子的家庭中,有3个女孩和2个男孩的可能性是什么?假设生育女孩和男孩的概率是平等的。

用手

  • 占3个女孩和2个男孩(有利的案例): (c ^ 3_5 = {5 \选择3} = \ FRAC {5!} {3!(5-3)!} = 10 \)
  • 可能案例的计数: \(2 ^ 5 = 32 \)

\(\ lightarrow p(3 \ text {girls and 2 boys})= \ frac {\ text {#的有利情况}} {\ text {可能的情况}}} \ [= \ frac {10} {32} = 0.3125 \]

在R.

  • 3个女孩和2个男孩的数量:
choose(n = 5, k = 3)
## [1] 10
  • 可能案例的计数:
2^5
## [1] 32

3个女孩和2个男孩的概率:

choose(n = 5, k = 3) / 2^5
## [1] 0.3125

谢谢阅读。我希望这篇文章帮助您了解概率理论中最重要的公式和概念。

一如既往,如果您有问题或与本文所涵盖的主题相关的建议,请将其添加为评论,以便其他读者可以从讨论中受益。



喜欢这篇文章?

获取更新 每次发布新文章。
任何垃圾邮件都没有任何垃圾邮件。
分享: