数据质量基础:脏数据为什么会影响结论

本文最后更新于 8 个月前,文中所描述的信息可能已发生改变。
加载中... 浏览

数据分析最怕的不是不会画图,而是数据本身不可靠。 如果数据质量差,再漂亮的图表和模型也可能得出错误结论。

1. 什么是脏数据

脏数据指的是不符合分析或业务要求的数据。

常见类型包括:

  • 缺失值。
  • 重复数据。
  • 格式不一致。
  • 异常值。
  • 口径不一致。
  • 逻辑矛盾。

比如年龄字段出现 -1,手机号长度不对,同一个用户被记录了多次,这些都会影响分析结果。

2. 为什么会出现脏数据

数据问题通常不是某一个人造成的,而是链路复杂导致的。

可能来源包括:

  • 用户填写不规范。
  • 系统埋点错误。
  • 数据同步失败。
  • 字段定义变化。
  • 多个系统口径不同。
  • 人工导入出错。

所以数据质量不是分析阶段才要关心,而是从数据产生时就应该关注。

3. 脏数据如何影响结论

假设要计算用户平均消费金额。

如果有重复订单,平均值会偏高;如果退款订单没处理,也会影响结果;如果异常大额订单没有识别,平均值可能被极端值拉偏。

最后得到的数字看起来很精确,但结论可能是错的。

这就是数据分析里的一个重要提醒:

数字精确,不代表结论正确。

4. 常见质量检查

可以从几个角度检查:

维度问题
完整性是否有缺失
唯一性是否重复
合法性格式是否正确
一致性多系统口径是否一致
准确性是否符合真实业务
及时性数据是否延迟

这些检查不一定一次都做完,但至少要有意识。

5. 小结

数据质量决定分析上限。

做分析前要先问:

  • 数据从哪里来?
  • 字段含义是什么?
  • 有没有缺失和重复?
  • 口径是否统一?
  • 异常值要不要处理?

干净可信的数据,是后续指标、模型和决策的基础。

留言板

加载评论中...
数据治理基础:元数据、血缘、权限与标准
数据湖、数据仓库与湖仓一体
Valaxy v0.28.0-beta.1 驱动|主题-Yunv0.28.0-beta.1