假阳性和假阴性

测验说 "是"……真的吗？

当测验的结果是 "是" 或 "否"（例如医学检验的结果）时，你需要想：

"是" 的结果可能是错的。
"否" 的结果可能是错的。

错的？

就像人家说你做了一件事，但其实你没有做！

或说你没有做，但其实你是做了。

这两个情况都有个特别名字："假阳性" 和 "假阴性"：

	说你有	说你没有
你真的有	他们是对的！	"假阴性"
你真的没有	"假阳性"	他们是对的！

以下是一些 "假阳性" 和 "假阴性" 的例子：

机场保安："假阳性" 就是好像钥匙或硬币等普通日常用品被当作武器（警报"响起"）

质检："假阳性" 就是质检结果说一个质量好的产品有问题，"假阴性" 就是质检结果说一个质量不好的产品没有问题。（"阳性" 结果是产品有问题。）

杀毒软件："假阳性" 就是一个普通的文件被当作一个电脑病毒

医疗检查：一大群人接受便宜简单的医疗检查往往会导致很多假阳性的结果（说你有某种疾病，而其实你没有），然后你便要去接受更精确的检查。

但是，很多人不了解 "是" 或 "否" 背后的真正意义，像以下的例子：

例子：有没有过敏？

大牛说他浑身发痒。有一个检测可以知道她是不是对猫过敏，但这个检测不一定是对的：

对于真的有这种过敏人，检测有 80% 的机会给回 "有" 的答案
对于没有这种过敏的人，检测有 "10%" 的机会给回 "有" 的答案（"假阳性"）

写在列表里：

	检测结果是 "有"	检测结果是 "没有"
过敏	80%	20% "假阴性"
不过敏	10% "假阳性"	90%

问题：如果 1% 的人口有这种过敏，而大牛的检测结果是 "有"，大牛真的有这种敏感的概率是多少？

75%？还是 50%？

当被问到这个问题时，大部分医生的猜测是大约 75%……
…… 但这是个非常错误的答案！

（这例子是基于 "Probabilistic reasoning in clinical medicine: Problems and opportunities"，David M. Eddy 1982）

解答这个问题有三个好方法："想象 1000人", "树图" 或 "贝叶斯定理"。来看看你喜欢哪个：

想象 1000个人

要了解这种问题，我们可以用一大群人（比方 1000个人）来做例子，然后分析数字和概率：

1000个人里，只有 10个人真的有这种过敏（1000 的 1% 是 10）

对有这种过敏的人，检测有 80% 的机会是对的，所以对这 10个人里的 8个人来说，检测是对的。

但 990个人没有这种过敏，但当中 10%的人的检测的结果是 "有"，
这就是 99个没有这种过敏的人的（错误）检测结果是 "有"（假阳性）

所以在 1000个人里，(8+99) = 107个人 的检测结果是 "有"

写在列表里：

	1% 过敏	检测结果是 "有"	检测结果是 "没有"
过敏	10	8	2
不过敏	990	99	891
	1000	107	893

所以 107个人的检测结果是 "有"，但其中只有 8个人真的有这种过敏：

8 / 107 = 大约 7%

所以，尽管大牛的检测结果是 "有"，他只有 7% 的可能性有这种过敏。

为什么可能性是这么低？这种过敏是很罕见的，所以真是过敏的人数比检测结果是假阳性的人数少很多。

树图

画个树图也会很有用：

树图检测结果

首先，确定所有的概率加起来是 100%：

0.8% + 0.2% + 9.9% + 89.1% = 100% （不错！）

两个 "有" 的答案加起来是 0.8% + 9.9% = 10.7%，但只有 0.8% 是对的。

0.8/10.7 = 7%（和上面的答案一样）

贝叶斯定理

还有一个特别的公式！

P(A\|B) =	P(A)P(B\|A)
	P(A)P(B\|A) + P(非 A)P(B\|非 A)

这个公式背后的原理有些复杂，你可以去贝叶斯定理网页来了解更多。

最后，我们再看一个例子：

极端例子：电脑病毒

网络世界

一个电脑病毒在一部主服务器控制下散播到全世界。

网络保安特工队得到了这部主服务器，在服务器上的数据显示已经有一百万部电脑受到感染（但不知道哪一百万部）。

天子令下！

如一个人的电脑不能通过 "病毒测试"，他便不能上网。测试是 99% 准确的（不错，对不对？）但有 1% 的可能性它会说你有病毒，而实际上你没有（"假阳性"）。

全球有 10亿个互联网用户。

在一百万个受感染的用户里，99% 不通过测试，不能上网 = 大约一百万人
但假阳性的用户有 9.99亿 × 1% = 大约 一千万人

所以总共大约 一千一百万个用户不能上网，但其中只有一百万人真的受到感染。

所以如果你不通过测试而不能上网，你只有 9% 的可能性是真的受到感染！

结论

我们可以用以下的方法来处理假阳性和假阴性问题（或其他不易处理的概率问题）：

想象有 1000个东西作为例子，
画个树图，或
用贝叶斯定理