离群值

"离群值" 是数据里与其他数值分开的数值(""开其他的""值。)

当我们收集数据时,有时会有与其他数值相比"差异较大" 的数值……那么我们怎样处理这些数值? 离群值

 

例子:跳远

跳远

跳远队这个月有个新教练,队员的表现也进步了。

小关跳远了 0.15m,小吕和小赵的成绩也增加了 0.06m。

以下是所有的结果:

不好了!小黄退步了。

这是在实数直线上的数据:

离群值例 1

平均值是:

(0.15+0.11+0.06+0.06+0.12-0.56) / 6 = -0.06 / 6 = -0.01m

所以平均表现退步了。

教练不行……对不对?

小黄的结果是个 "离群值"……我们试试不用他的结果看看。

出去,离群者!

例子:跳远(续)

我们用没有小黄的结果来算算:

没有离群值的离群值例子

平均值 = (0.15+0.11+0.06+0.06+0.12)/5 = 0.1 m

教练好多了!

但这公平吗?我们可以随便不用我们不喜欢的数据吗?

那怎办?

你需要想想: "为什么那个数值跟其他的数值有那么大的差异?"

其实有高和低的数值是很正常的

也可能有特别的原因为什么会有极端的数据

例子:跳远(续)

调差发现小黄当天不舒服,并不是教练的错。

所以在这个例子里把小黄的数据拿走是适当的。

如果我们拿走离群值,我们便改变了数据,数据不再是"纯净"的了,所以我们不可以在没有好理由的情况下随便拿走离群值!

如果我们真的拿走离群值,我们需要提供说明及解释

平均值、中位数和众数

上面我们看到离群值对 平均值有影响,那么 中位数众数呢?

例子:跳远(续)

中位数:

众数(最常见的数值):

中位数和众数的改变不大。

它们也在大部分的数据附近。

所以离群值对平均的影响最大,但对中位数和众数就没有太大的影响。

提示:如果有离群值,用中位数或众数。