音讯 什么是异常值检测? -技术百科的定义

什么是异常值检测? -技术百科的定义

目录:

Anonim

定义-离群检测是什么意思?

离群值检测是检测并随后从给定数据集中排除离群值的过程。

异常值可以定义为与给定标准或数据集平均值大不相同的一条数据或观察值。 离群值可能仅由偶然原因引起,但也可能表示测量错误或给定的数据集具有严重的尾部分布。

这是异常值检测的一种简单情况,测量过程始终会产生1到10之间的读数,但在极少数情况下,我们会得到大于20的测量值。

这些超出标准的罕见测量值称为异常值,因为它们“位于”正态分布曲线之外。

技术百科解释了异常值检测

确实没有标准化和严格的数学方法来确定离群值,因为它实际上取决于集合或数据总体而变化,因此其确定和检测最终会变得主观。 通过在给定数据字段中进行连续采样,可以建立异常值的特征以使检测更加容易。

存在用于检测离群值的基于模型的方法,它们假定数据全部来自正态分布,并且会将基于均值或标准差被认为不可能的观测值或点识别为离群值。 有几种异常值检测方法:

  • Grubb的离群值测试–这是基于这样的假设:数据是正态分布的,并且每次迭代一次删除一个离群值,直到找不到更多离群值为止。
  • Dixon的Q测试–同样基于数据集的正常性,此方法测试不良数据。 已经注意到,应该在数据集中谨慎地使用它,并且不要超过一次。
  • Chauvenet的准则–用于分析异常值是虚假的还是仍在边界内,并被视为集合的一部分。 取平均值和标准偏差,并计算发生异常的概率。 结果将确定是否应将其包括在内。
  • 皮尔斯准则(Pierce's Criterion)–为一系列观测值设置了错误限制,超过此限制后,由于所有观测值已经包含如此大的误差,所有观测值将被丢弃。
什么是异常值检测? -技术百科的定义