数据湖、数据仓库与湖仓一体

本文最后更新于 8 个月前,文中所描述的信息可能已发生改变。
加载中... 浏览

数据湖、数据仓库、湖仓一体这几个词很容易混在一起。 它们本质上是在讨论数据应该如何存储、管理和分析。

1. 数据仓库

数据仓库更强调结构化和主题化。

进入数仓的数据通常经过清洗、建模和口径统一。

它适合:

  • 报表分析。
  • 指标体系。
  • 经营分析。
  • 稳定的 BI 查询。

优点是规范、可靠,缺点是灵活性相对低,原始数据可能被加工后丢失一些细节。

2. 数据湖

数据湖更强调存储原始数据。

它可以保存各种类型数据:

  • 结构化表格。
  • 半结构化日志。
  • JSON。
  • 图片、音频、文本等非结构化数据。

数据湖的思想是:

先把数据存下来,以后再按需要处理。

优点是灵活,能保存大量原始数据;缺点是如果缺少治理,容易变成“数据沼泽”,数据很多但没人知道怎么用。

3. 湖仓一体

湖仓一体想结合二者优点:

  • 像数据湖一样低成本存储多类型数据。
  • 像数据仓库一样提供可靠管理和高效分析。

它通常会强调:

  • 统一存储。
  • 事务能力。
  • 元数据管理。
  • 数据治理。
  • 批流一体。

4. 怎么理解三者关系

可以先这样记:

类型关键词
数据仓库规范、建模、分析
数据湖原始、灵活、多类型
湖仓一体统一、融合、治理

它们不是简单的新旧替代关系,而是不同阶段和需求下的数据架构选择。

5. 小结

学习这几个概念时,不要只背定义。

更应该问:

  • 数据是否已经清洗建模?
  • 是否需要保存原始数据?
  • 查询性能要求高不高?
  • 数据类型是否复杂?
  • 后续是否需要机器学习或 AI 使用?

这些问题决定了数据更适合放在仓、湖,还是湖仓一体架构中。

留言板

加载评论中...
数据质量基础:脏数据为什么会影响结论
ETL 与 ELT 基础笔记
Valaxy v0.28.0-beta.1 驱动|主题-Yunv0.28.0-beta.1