本文最后更新于 8 个月前,文中所描述的信息可能已发生改变。加载中... 浏览
数据湖、数据仓库、湖仓一体这几个词很容易混在一起。 它们本质上是在讨论数据应该如何存储、管理和分析。
1. 数据仓库
数据仓库更强调结构化和主题化。
进入数仓的数据通常经过清洗、建模和口径统一。
它适合:
- 报表分析。
- 指标体系。
- 经营分析。
- 稳定的 BI 查询。
优点是规范、可靠,缺点是灵活性相对低,原始数据可能被加工后丢失一些细节。
2. 数据湖
数据湖更强调存储原始数据。
它可以保存各种类型数据:
- 结构化表格。
- 半结构化日志。
- JSON。
- 图片、音频、文本等非结构化数据。
数据湖的思想是:
先把数据存下来,以后再按需要处理。
优点是灵活,能保存大量原始数据;缺点是如果缺少治理,容易变成“数据沼泽”,数据很多但没人知道怎么用。
3. 湖仓一体
湖仓一体想结合二者优点:
- 像数据湖一样低成本存储多类型数据。
- 像数据仓库一样提供可靠管理和高效分析。
它通常会强调:
- 统一存储。
- 事务能力。
- 元数据管理。
- 数据治理。
- 批流一体。
4. 怎么理解三者关系
可以先这样记:
| 类型 | 关键词 |
|---|---|
| 数据仓库 | 规范、建模、分析 |
| 数据湖 | 原始、灵活、多类型 |
| 湖仓一体 | 统一、融合、治理 |
它们不是简单的新旧替代关系,而是不同阶段和需求下的数据架构选择。
5. 小结
学习这几个概念时,不要只背定义。
更应该问:
- 数据是否已经清洗建模?
- 是否需要保存原始数据?
- 查询性能要求高不高?
- 数据类型是否复杂?
- 后续是否需要机器学习或 AI 使用?
这些问题决定了数据更适合放在仓、湖,还是湖仓一体架构中。
留言板