本文最后更新于 8 个月前,文中所描述的信息可能已发生改变。加载中... 浏览
数据治理听起来很大,但它解决的是很实际的问题: 数据在哪里、是什么意思、从哪里来、谁能用、出了问题怎么查。
1. 为什么需要数据治理
当数据越来越多时,问题也会变多:
- 表太多,不知道该用哪张。
- 字段含义不清楚。
- 同一个指标多个口径。
- 数据出错不知道源头。
- 敏感数据权限混乱。
如果没有治理,数据平台会变成“数据很多,但没人敢用”。
2. 元数据
元数据是描述数据的数据。
比如一张表的元数据包括:
- 表名。
- 字段名。
- 字段类型。
- 字段含义。
- 数据负责人。
- 更新时间。
- 数据来源。
元数据的作用是让人知道数据是什么。
没有元数据,表和字段就像没有说明书的工具。
3. 数据血缘
数据血缘描述数据从哪里来,经过哪些处理,最后流向哪里。
比如:
txt
订单业务库 -> ODS 订单表 -> DWD 订单明细 -> DWS 销售汇总 -> 报表如果报表数字错了,血缘可以帮助定位是哪一层出问题。
数据血缘回答的是:
这个数据是怎么来的?
4. 权限与标准
数据权限决定谁能看、谁能改、谁能导出。
尤其是用户手机号、身份证、地址、交易记录等敏感数据,不能随便开放。
数据标准则用来统一命名和口径。
比如:
- 用户 id 统一叫
user_id。 - 日期分区统一叫
dt。 - 活跃用户有统一定义。
标准越清楚,协作成本越低。
5. 小结
数据治理可以先抓住四个词:
- 元数据:数据是什么。
- 血缘:数据从哪里来。
- 权限:谁能用数据。
- 标准:大家按同一套规则理解数据。
它不是写 SQL 的技巧,而是让数据长期可用、可信、可管理的基础。
留言板