二项分布

"二项" 在这里的意思是关于有""个 ……
…… 结果或部分的事物(像自行车)。

自行车
   
正反硬币

 

抛硬币:

  • 结果是正面(H),还是
  • 反面(T)

我们说:硬币正面向上(H)的概率是 ½
反面向上(T)的概率是 ½

骰子

掷骰子:

  • 结果是四 ……
  • …… 吗?
我们说: 的概率是 1/6 (六面里有一面是四)。
不是四的概率是 5/6 (六面里有五面不是四)

来抛硬币!

抛一个公平的硬币三次 …… 结果是两个正面的概率是多少?

抛一个公平的硬币三次(H 是正面, T 是反面)可以有 8 个结果

HHH   硬币正面硬币正面硬币正面
HHT   硬币正面硬币正面硬币反面
HTH   硬币正面硬币反面硬币正面
HTT   硬币正面硬币反面硬币反面
THH   硬币反面硬币正面硬币正面
THT   硬币反面硬币正面硬币反面
TTH   硬币反面硬币反面硬币正面
TTT   硬币反面硬币反面硬币反面

我们想要的是哪些结果?

"两个正面" 可以是任何次序: "HHT"、"THH" 和 "HTH" 都有两个正面(和一个反面)。

所以 3个结果有 "两个正面"。

每个结果的概率是多少?

每个结果的可能性是一样的,一共有 8 个可能,所以每个结果的概率是 1/8

所以结果是"两个正面"这个事件的概率是:

需要的
结果
    每个结果的
概率
 
3   ×   1/8   =  3/8

有特别的名词:

我们来计算所有的概率:

计算是这样的(P 的意思是 "概率"):

我们可以用 随机变量 X = "抛 3次硬币里结果是正面的次数":

我们也可以画个 柱形图:

二项分布 1
图是对称的!

做个公式

好 …… 抛 9次硬币里得到 5个正面 的可能性是多少 …… 把全部结果 (512) 写下来要花很多花时间!

我们还是做个公式吧。

 

在上面的例子里,我们怎样可以得到 1、3、3 和 1 这些值呢?

杨辉三角

 

这些值是 杨辉三角 的第三行 …… !

 

我们可以用一个公式来计算这些值吗?

可以的,像这样:

  二项 n 取 k = n! / k!(n-k)!
   
  • n = 总数
  • k = 我们想求的数

通常这个是叫 "n取k"。你可去
组合与排列 来了解更多。

注意: "!" 的意思是 "阶乘",例如 4! = 1×2×3×4 = 24

学以致用:

例子:抛 3次,结果有 2个正面

n=3k=2

n!   =   3!   =   3×2×1   = 3
k!(n-k)! 2!(3-2)! 2×1 × 1

有 3个结果是有 "2个正面" 的

(在上面我们数出来了,不过这里是用公式算出来的。)

 

现在我们用这个公式来解一个比较难的问题:

例子:抛 9次,结果有 5个正面的可能性是多少?

n=9k=5

n!   =   9!   =   9×8×7×6×5×4×3×2×1   = 126
k!(n-k)! 5!(9-5)! 5×4×3×2×1 × 4×3×2×1

 

 

抛 9次有 29 = 512个可能结果,所以可能性是:

 

我们想要的
结果的次数
  每个结果的
概率
   
126   ×   1   =   126
512 512

 

P(X=5)  =   126   =   63   = 0.24609375 
512 256

差不多 25% 的可能性。

(比全部写下来容易点。)

偏差!

在上面讲的情况里,成功和失败的可能性是相同的。

可是,当硬币有偏误(不公平的硬币)时,一面的可能性便会大于另一面。

例子:你卖三明治,70% 的人买鸡肉三明治,其他的买猪肉。

接下来的三个顾客买两个鸡肉三明治的概率是多少?

这和抛硬币差不多,不过可能性是 70/30 而不是 50/50。

我们画个 树图

树鸡猪

图中突出显示了有 "两个鸡肉" 的结果。

注意所有 "两个鸡肉" 的概率全是 0.147,因为每次都是把两个 0.7 和一个 0.3 相乘。

我们可以用公式来求 0.147 这个值吗?公式里需要有 "两个 0.7 和一个 0.3"

得到我们 "想要的结果和个数" (两个鸡肉)是:pk

并且

"其他的结果" (一个猪肉)的概率是:(1-p)(n-k)

所以所有的结果一同发生的概率是:

pk(1-p)(n-k)

例子:(续)

这就是:

pk(1-p)(n-k) = 0.72(1-0.7)(3-2) = 0.72(0.3)(1) = 0.7 × 0.7 × 0.3 = 0.147

这便是每个结果的概率。

 

结果的总数是:

n!   =   3!   =   3×2×1   = 3
k!(n-k)! 2!(3-2)! 2×1 × 1

 

这就是:

我们想要的
结果
    每个结果的
概率
   
3   ×   0.147   =   0.441

 

所以 "3个人里面有 2个人买鸡肉三明治" 这个事件的概率 = 0.441

 

好了,做了这么多,其实我们已经知道这个答案了,不过现在我们可以解比较复杂的问题了。

例子:"因为 70% 的人选鸡肉,所以下 10个顾客里有 7个会买鸡肉" …… 这句话是对的可能性是多少?

公式说:

pk(1-p)(n-k) = 0.77(1-0.7)(10-7) = 0.77(0.3)(3) = 0.0022235661

这是每个结果的概率。

 

结果的个数是:

n!   =   10!
k!(n-k)! 7!(10-7)!
    =   10×9×8×7×6×5×4×3×2×1
7×6×5×4×3×2×1 × 3×2×1
    =   10×9×8   = 120 
3×2×1

最后得到:

我们想要的
结果
    每个结果的
概率
   
120   ×   0.0022235661   =   0.266827932

 

实际上 10个顾客里有 7个买鸡肉三明治的可能性只是差不多 27%

 

这个故事的寓意是:就算长期平均是 70%,不要期望下 10个里会有 7个。

结合起来

我们知道怎样去求数量

n!
k!(n-k)!

还有每个结果的概率

pk(1-p)(n-k)

把它们相乘:

n个里有 k个的概率:

P(n取k) =   n!   pk(1-p)(n-k)
k!(n-k)!

二项分布概率公式

重要提示:

梅花机

梅花机

 

来玩玩 梅花机 (然后去阅读 梅花机解释)来更多了解二项分布。

骰子

掷骰子

掷一个公平的骰子四次。求得到以下结果的概率:

n=4, p = P(二点) = 1/6

X 是这个随机变量:"掷四次骰子里得到二点的次数"。

把 x = 0 到 4 代入到公式里:

P(n取k) =   n! pk(1-p)(n-k)
k!(n-k)!

像这样(确到 4个小数位):

总结:"掷 4次,有 48% 的机会没有二点、39% 的机会有 1个二点、12% 的机会有 2个二点、1.5% 的机会有 3个二点和小小的 0.08% 的机会全部的投掷都是二点(机会很小,但不是不可能!)"

在这个例子里,柱形图不是对称的:

二项 0 到 4 偏斜
不是对称的!

图是偏斜的,因为 p 不是 0.5

 

自行车

运动自行车

你的公司制造运动自行车。90% 的运动自行车通过最后质量检查(10% 不通过,需要修补)。

下四个质量检查的预期平均值 和预期方差 是多少??

首先求所有的概率。

X 是代表 "在四个质量检查里通过的个数" 的随机变量

把 x = 0 到 4 代入到公式里:

P(n取k) =   n! pk(1-p)(n-k)
k!(n-k)!

像这样:

总结:"在下四个质量检查里,只有小小的 0.01% 机会没有自行车通过检查、0.36% 的机会有 1辆通过、5% 的机会有 2辆通过、29% 的机会有 3辆通过和 66% 的机会所有有都通过。"

平均、方差和标准差

我们来求运动自行车质量检查的 平均方差和标准差

这些都有相当简单的公式。证明这些公式有点复杂,但公式是管用的!

平均值,也叫 "期望值",是:

μ = np

在运动自行车质量检查的例子里:

μ = 4 × 0.9 = 3.6

我们期望每 4辆自行车里有 3.6辆通过检查。
有道理 …… 0.9 的机会乘以4辆车等于 3.6

方差的公式是:

方差:σ2 = np(1-p)

标准差是方差的平方根:

σ = √(np(1-p))

运动自行车例子:

方差:σ2 = 4 × 0.9 × 0.1 = 0.36

标准差是:

σ = √(0.36) = 0.6

 

注意:也可以做个列表来用人手计算:

X P(X) X × P(X) X2 × P(X)
0 0.0001 0 0
1 0.0036 0.0036 0.0036
2 0.0486 0.0972 0.1944
3 0.2916 0.8748 2.6244
4 0.6561 2.6244 10.4976
  总和: 3.6 13.32

平均是 (X × P(X)) 的总和

μ = 3.6

方差是 (X2 × P(X)) 的总和 减去 平均2

方差:σ2 = 13.32 − 3.62 = 0.36

标准差是:

σ = √(0.36) = 0.6

答案和上面的一样(还好!)

 

总结

二项分布概率公式

P(n取k) =   n! pk(1-p)(n-k)
k!(n-k)!

X 的平均值:μ = np

X 的方差:σ2 = np(1-p)
X 的标准差:σ = √(np(1-p))