数据质量基础：脏数据为什么会影响结论

本文最后更新于 9 个月前，文中所描述的信息可能已发生改变。

加载中... 浏览

数据分析最怕的不是不会画图，而是数据本身不可靠。如果数据质量差，再漂亮的图表和模型也可能得出错误结论。

1. 什么是脏数据

脏数据指的是不符合分析或业务要求的数据。

常见类型包括：

比如年龄字段出现 -1，手机号长度不对，同一个用户被记录了多次，这些都会影响分析结果。

数据问题通常不是某一个人造成的，而是链路复杂导致的。

可能来源包括：

所以数据质量不是分析阶段才要关心，而是从数据产生时就应该关注。

假设要计算用户平均消费金额。

如果有重复订单，平均值会偏高；如果退款订单没处理，也会影响结果；如果异常大额订单没有识别，平均值可能被极端值拉偏。

最后得到的数字看起来很精确，但结论可能是错的。

这就是数据分析里的一个重要提醒：

数字精确，不代表结论正确。

可以从几个角度检查：

这些检查不一定一次都做完，但至少要有意识。

数据质量决定分析上限。

做分析前要先问：

干净可信的数据，是后续指标、模型和决策的基础。

加载评论中...