资料库 什么是脏数据? -技术百科的定义

什么是脏数据? -技术百科的定义

目录:

Anonim

定义-脏数据是什么意思?

脏数据是指包含错误信息的数据。 当引用内存中尚未加载到数据库中的数据时,也可以使用它。 从源头完全删除脏数据是不切实际的或几乎不可能的。

以下数据可以视为脏数据:

  • 误导性数据
  • 资料重复
  • 资料不正确
  • 资料不正确
  • 非集成数据
  • 违反业务规则的数据
  • 没有通用格式的数据
  • 标点或拼写错误的数据

Techopedia解释了脏数据

除了错误的数据输入外,由于数据管理和数据存储方法不正确,还会生成脏数据。 下面说明一些脏数据类型:

  • 数据不正确-为确保数据有效或正确,输入的值应符合该字段的有效值。 例如,在“月”字段中输入的值应在1到12的范围内,否则个人的年龄必须小于130。可以通过查找表或通过编辑检查以编程方式强制执行数据值正确性。
  • 数据不正确-数据值可能正确但不准确。 有时,根据其他文件或字段进行检查以根据使用的数据来确定数据值是否准确是很实际的。 尽管如此,准确性通常只能通过手动验证来验证。
  • 违反业务规则-违反业务规则的数据是另一种脏数据。 例如,生效日期必须始终在到期日期之前。 另一个违反业务规则的示例可以是患者的Medicare保险索赔,其中患者可能仍处于退休年龄以下,并且无权获得Medicare。
  • 数据不一致-未经检查的数据冗余会导致数据不一致。 每个组织都会受到不一致和重复的数据的影响。 对于客户数据,这尤其典型。
  • 不完整的数据-缺少值的数据是不完整的数据的主要类型。
  • 重复数据-重复提交,不正确的数据加入或用户错误可能会导致重复数据。

为了提高数据质量并防止脏数据,组织应采用方法论来确保数据的完整性,有效性,一致性和正确性。

什么是脏数据? -技术百科的定义