ETL 与 ELT 基础笔记

本文最后更新于 8 个月前,文中所描述的信息可能已发生改变。
加载中... 浏览

数据分析不是从干净表格开始的。 大多数时候,第一步是把数据从不同系统里抽出来,再整理成能分析的样子。

1. ETL 是什么

ETL 是三个词的缩写:

txt
Extract   抽取
Transform 转换
Load      加载

它表示:

先从数据源抽取数据,再清洗转换,最后加载到目标系统。

比如从业务数据库、日志系统、第三方接口抽取数据,处理字段格式、去重、补充维度,最后写入数据仓库。

2. ELT 是什么

ELT 的顺序是:

txt
Extract 抽取
Load    加载
Transform 转换

也就是先把原始数据加载到目标平台,再在平台内部做转换。

这在云数仓和大数据平台中比较常见,因为目标平台本身计算能力很强。

3. ETL 和 ELT 的区别

角度ETLELT
转换发生位置加载前加载后
适合场景传统数仓大数据平台、云数仓
原始数据保留较少更多
灵活性相对低相对高

ETL 更像“整理好再入库”,ELT 更像“先入湖,再加工”。

4. 为什么这很重要

数据链路如果混乱,后面的分析和建模都会受影响。

常见问题包括:

  • 字段含义不一致。
  • 时间格式混乱。
  • 重复数据未处理。
  • 缺失值没有规则。
  • 数据延迟不可控。

ETL / ELT 的目标不是简单搬运数据,而是让数据可理解、可追踪、可复用。

5. 小结

可以这样记:

  • ETL:先转换,再加载。
  • ELT:先加载,再转换。

对初学者来说,更重要的是理解数据流向:

txt
数据从哪里来
经过哪些处理
最后到哪里去

这条链路清楚了,后面的数仓、治理、分析才有基础。

留言板

加载评论中...
数据湖、数据仓库与湖仓一体
离线计算与实时计算基础
Valaxy v0.28.0-beta.1 驱动|主题-Yunv0.28.0-beta.1