异常检测之箱线图法

要理解箱线图,先理解下面几个概念,我相信这几个概念并不难理解


  1. 中位数
  2. 第一四分位数(25%)
  3. 第三四分位数(75%)
  4. 最大值,最小值。

上面几个是常用的统计量,下面这个图直观的解释了箱线图和箱线图如何做异常检测。

其中IQR是第三四分位数减去第一四分位数,大于Q3+1.5*IQR之外的数和小于Q1-1.5*IQR的值被认为是异常值,似曾相识吧,像不像3倍方差???这里的1.5也是经过大量实践经验的总结。

3倍方差方法有个假设条件就是样本分布为整天,而箱线图方法没有这个限制,因此当没有正态假设的时候,可以考虑试试这个方法




参考文献

异常点判断-箱线图_百度文库

编辑于 2017-11-12

文章被以下专栏收录