离群值
"离群值" 是数据里与其他数值分开的数值("离"开其他的"群"值。)
当我们收集数据时,有时会有与其他数值相比"差异较大" 的数值……那么我们怎样处理这些数值? |
例子:跳远
跳远队这个月有个新教练,队员的表现也进步了。
小关跳远了 0.15m,小吕和小赵的成绩也增加了 0.06m。
以下是所有的结果:
- 小关: +0.15m
- 小张: +0.11m
- 小吕: +0.06m
- 小赵: +0.06m
- 小马: + 0.12m
- 小黄: -0.56m
不好了!小黄退步了。
这是在实数直线上的数据:
平均值是:
(0.15+0.11+0.06+0.06+0.12-0.56) / 6 = -0.06 / 6 = -0.01m
所以平均表现退步了。
教练不行……对不对?
小黄的结果是个 "离群值"……我们试试不用他的结果看看。
例子:跳远(续)
我们用没有小黄的结果来算算:
平均值 = (0.15+0.11+0.06+0.06+0.12)/5 = 0.1 m
教练好多了!
但这公平吗?我们可以随便不用我们不喜欢的数据吗?
那怎办?
你需要想想: "为什么那个数值跟其他的数值有那么大的差异?"
其实有高和低的数值是很正常的
- 人有高矮
- 天有晴雨
- 运动员每天的表现都会不一样
也可能有特别的原因为什么会有极端的数据
例子:跳远(续)
调差发现小黄当天不舒服,并不是教练的错。
所以在这个例子里把小黄的数据拿走是适当的。
如果我们拿走离群值,我们便改变了数据,数据不再是"纯净"的了,所以我们不可以在没有好理由的情况下随便拿走离群值!
如果我们真的拿走离群值,我们需要提供说明及解释。
平均值、中位数和众数
上面我们看到离群值对 平均值有影响,那么 中位数 或 众数呢?
例子:跳远(续)
中位数:
- 包括小黄,是:0.085
- 不包括小黄,是:0.11 (增加了一点)
众数(最常见的数值):
- 包括小黄,是:0.06
- 不包括小黄,是:0.06(不变)
中位数和众数的改变不大。
它们也在大部分的数据附近。
所以离群值对平均的影响最大,但对中位数和众数就没有太大的影响。
提示:如果有离群值,用中位数或众数。