假阳性和假阴性

测验说 "是"……真的吗?

当测验的结果是 "是" 或 "否"(例如医学检验的结果)时,你需要想:

错的?

假阳性

就像人家说你做了一件事,但其实你没有做!

或说你没有做,但其实你是做了。

这两个情况都有个特别名字:"假阳性""假阴性"

  说你 说你没有
你真的有 他们是对的! "假阴性"
你真的没有 "假阳性" 他们是对的!

以下是一些 "假阳性" 和 "假阴性" 的例子:

但是,很多人不了解 "是" 或 "否" 背后的真正意义,像以下的例子:

例子:有没有敏感?

大牛说他浑身发痒。有一个检测可以知道她是不是对猫有敏感,但这个检测不一定是对的:

  • 对于真的有这种敏感的人,检测有 80% 的机会给回 "有" 的答案
  • 对于没有这种敏感的人,检测有 "10%" 的机会给回 "有" 的答案("假阳性")
猫猫

写在列表里:

  检测结果是 "有" 检测结果是 "没有"
有敏感 80% 20% "假阴性"
没有敏感 10% "假阳性" 90%

 

问题:如果 1% 的人口有这种敏感,而大牛的检测结果是 "有",大牛真的有这种敏感的概率是多少?

75%?还是 50%?

当被问到这个问题时,大部分医生的猜测是大约 75%……
…… 但这是个非常错误的答案!

(这例子是基于 "Probabilistic reasoning in clinical medicine: Problems and opportunities",David M. Eddy 1982)

有三个好方法去解答这个问题:"想象 1000人", "树图" 或 "贝叶斯定理"。来看看你喜欢哪个:

 

想象 1000个人

要了解这种问题,我们可以用一大群人(比方 1000个人)来做例子,然后分析数字和概率:

写在列表里:

  1% 有敏感 检测结果是 "有" 检测结果是 "没有"
有敏感 10 8 2
没有敏感 990 99 891
  1000 107 893

所以 107个人的检测结果是 "有",但其中只有 8个人真的有这种敏感:

8 / 107 = 大约 7%

所以,尽管大牛的检测结果是 "有",他只有 7% 的可能性有这种敏感。

为什么可能性是这么少?这种敏感是很罕见的,所以真是有敏感的人数比检测结果是假阳性的人数少很多

 

树图

画个树图也会很有用:

树图检测结果

首先,确定所有的概率加起来是 100%:

0.8% + 0.2% + 9.9% + 89.1% = 100% (不错!)

两个 "有" 的答案加起来是 0.8% + 9.9% = 10.7%,但只有 0.8% 是对的。

0.8/10.7 = 7%(和上面的答案一样)

 

贝叶斯定理

还有一个特别的公式!

P(A|B) = P(A)P(B|A)
P(A)P(B|A) + P(非 A)P(B|非 A)

这个公式背后的原理有些复杂,你可以去 贝叶斯定理 网页来了解更多。

 

最后,我们再看一个例子:

极端例子:电脑病毒

网络世界

一个电脑病毒在一部主服务器控制下散播到全世界。

网络保安特工队夺得了这部主服务器,在服务器上的数据显示已经有一百万部电脑受到感染(但不知道哪一百万部)。

天子令下!

如一个人的电脑不能通过 "病毒测试",他便不能上网。测试是 99% 准确的(不错,对不对?)但有 1% 的可能性它会说你有病毒,而实际上你没有("假阳性")。

全球有 10亿个互联网用户。

所以总共大约 一千一百万个用户不能上网,但其中只有一百万人真的受到感染。

所以如果你不通过测试而不能上网,你只有 9% 的可能性是真的受到感染!

结论

我们可以用以下的方法来处理假阳性和假阴性问题(或其他不易处理的概率问题):