数据治理基础:元数据、血缘、权限与标准

本文最后更新于 8 个月前,文中所描述的信息可能已发生改变。
加载中... 浏览

数据治理听起来很大,但它解决的是很实际的问题: 数据在哪里、是什么意思、从哪里来、谁能用、出了问题怎么查。

1. 为什么需要数据治理

当数据越来越多时,问题也会变多:

  • 表太多,不知道该用哪张。
  • 字段含义不清楚。
  • 同一个指标多个口径。
  • 数据出错不知道源头。
  • 敏感数据权限混乱。

如果没有治理,数据平台会变成“数据很多,但没人敢用”。

2. 元数据

元数据是描述数据的数据。

比如一张表的元数据包括:

  • 表名。
  • 字段名。
  • 字段类型。
  • 字段含义。
  • 数据负责人。
  • 更新时间。
  • 数据来源。

元数据的作用是让人知道数据是什么。

没有元数据,表和字段就像没有说明书的工具。

3. 数据血缘

数据血缘描述数据从哪里来,经过哪些处理,最后流向哪里。

比如:

txt
订单业务库 -> ODS 订单表 -> DWD 订单明细 -> DWS 销售汇总 -> 报表

如果报表数字错了,血缘可以帮助定位是哪一层出问题。

数据血缘回答的是:

这个数据是怎么来的?

4. 权限与标准

数据权限决定谁能看、谁能改、谁能导出。

尤其是用户手机号、身份证、地址、交易记录等敏感数据,不能随便开放。

数据标准则用来统一命名和口径。

比如:

  • 用户 id 统一叫 user_id
  • 日期分区统一叫 dt
  • 活跃用户有统一定义。

标准越清楚,协作成本越低。

5. 小结

数据治理可以先抓住四个词:

  • 元数据:数据是什么。
  • 血缘:数据从哪里来。
  • 权限:谁能用数据。
  • 标准:大家按同一套规则理解数据。

它不是写 SQL 的技巧,而是让数据长期可用、可信、可管理的基础。

留言板

加载评论中...
数据挖掘基础(一):分类任务
数据质量基础:脏数据为什么会影响结论
Valaxy v0.28.0-beta.1 驱动|主题-Yunv0.28.0-beta.1