本文最后更新于 8 个月前,文中所描述的信息可能已发生改变。加载中... 浏览
数据分析最怕的不是不会画图,而是数据本身不可靠。 如果数据质量差,再漂亮的图表和模型也可能得出错误结论。
1. 什么是脏数据
脏数据指的是不符合分析或业务要求的数据。
常见类型包括:
- 缺失值。
- 重复数据。
- 格式不一致。
- 异常值。
- 口径不一致。
- 逻辑矛盾。
比如年龄字段出现 -1,手机号长度不对,同一个用户被记录了多次,这些都会影响分析结果。
2. 为什么会出现脏数据
数据问题通常不是某一个人造成的,而是链路复杂导致的。
可能来源包括:
- 用户填写不规范。
- 系统埋点错误。
- 数据同步失败。
- 字段定义变化。
- 多个系统口径不同。
- 人工导入出错。
所以数据质量不是分析阶段才要关心,而是从数据产生时就应该关注。
3. 脏数据如何影响结论
假设要计算用户平均消费金额。
如果有重复订单,平均值会偏高;如果退款订单没处理,也会影响结果;如果异常大额订单没有识别,平均值可能被极端值拉偏。
最后得到的数字看起来很精确,但结论可能是错的。
这就是数据分析里的一个重要提醒:
数字精确,不代表结论正确。
4. 常见质量检查
可以从几个角度检查:
| 维度 | 问题 |
|---|---|
| 完整性 | 是否有缺失 |
| 唯一性 | 是否重复 |
| 合法性 | 格式是否正确 |
| 一致性 | 多系统口径是否一致 |
| 准确性 | 是否符合真实业务 |
| 及时性 | 数据是否延迟 |
这些检查不一定一次都做完,但至少要有意识。
5. 小结
数据质量决定分析上限。
做分析前要先问:
- 数据从哪里来?
- 字段含义是什么?
- 有没有缺失和重复?
- 口径是否统一?
- 异常值要不要处理?
干净可信的数据,是后续指标、模型和决策的基础。
留言板