本文最后更新于 8 个月前,文中所描述的信息可能已发生改变。加载中... 浏览
数据分析不是从干净表格开始的。 大多数时候,第一步是把数据从不同系统里抽出来,再整理成能分析的样子。
1. ETL 是什么
ETL 是三个词的缩写:
txt
Extract 抽取
Transform 转换
Load 加载它表示:
先从数据源抽取数据,再清洗转换,最后加载到目标系统。
比如从业务数据库、日志系统、第三方接口抽取数据,处理字段格式、去重、补充维度,最后写入数据仓库。
2. ELT 是什么
ELT 的顺序是:
txt
Extract 抽取
Load 加载
Transform 转换也就是先把原始数据加载到目标平台,再在平台内部做转换。
这在云数仓和大数据平台中比较常见,因为目标平台本身计算能力很强。
3. ETL 和 ELT 的区别
| 角度 | ETL | ELT |
|---|---|---|
| 转换发生位置 | 加载前 | 加载后 |
| 适合场景 | 传统数仓 | 大数据平台、云数仓 |
| 原始数据保留 | 较少 | 更多 |
| 灵活性 | 相对低 | 相对高 |
ETL 更像“整理好再入库”,ELT 更像“先入湖,再加工”。
4. 为什么这很重要
数据链路如果混乱,后面的分析和建模都会受影响。
常见问题包括:
- 字段含义不一致。
- 时间格式混乱。
- 重复数据未处理。
- 缺失值没有规则。
- 数据延迟不可控。
ETL / ELT 的目标不是简单搬运数据,而是让数据可理解、可追踪、可复用。
5. 小结
可以这样记:
- ETL:先转换,再加载。
- ELT:先加载,再转换。
对初学者来说,更重要的是理解数据流向:
txt
数据从哪里来
经过哪些处理
最后到哪里去这条链路清楚了,后面的数仓、治理、分析才有基础。
留言板