20200720 元数据的理解


元数据

元数据元数据,简单定义就是描述数据的数据。在企业中,只要有数据存在的地方,就有其对应元数据。只有完整、准确的元数据存在,才能更好地理解数据,充分挖掘数据的价值。本文针对数据分析类场景,描述其包含元数据,方便读者更好地理解它。

技术元数据

  1. 物理元数据描述物理资源的元数据,包括但不限于服务器、操作系统、机房位置等信息。

  2. 数据源元数据描述数据源的元数据,通常包括四类信息:数据源地址(IP、PORT等)物理拓扑(主备、角色等)权限(用户名、口令等)库名、版本、域名等

  3. 存储元数据描述对象存储的元数据,也是通常”狭义”上的元数据,包括几大类管理属性(创建人、应用系统、业务线、业务负责人等)生命周期(创建时间、DDL时间、版本信息等)存储属性(位置、物理大小等)数据特征(数据倾斜、平均长度等)使用特征(DML、刷新率等)数据结构表/分区(名称、类型、备注等)列(名称、类型、长度、精度等)索引(名称、类型、字段等)约束(类型、字段等)

  4. 计算元数据描述数据计算过程的元数据,通常可分为数据抽取(ETL)或数据加工(JOB)两类计算。每类计算又可以进一步细分控制元数据(配置属性、调度策略等)过程元数据(依赖关系、执行状态、执行日志等)

  5. 质量元数据描述数据质量的一类元数据。通常情况下,是通过定义一系列质量指标反映数据质量。

  6. 操作元数据描述数据是如何进行使用的一类元数据。数据产生(产生时间、作业信息等)表访问(查询、关联、聚合等)表关联(关联表、关联字段、关联类型、关联次数)字段访问(查询、关联、聚合、过滤等)

  7. 运维元数据描述系统运维层面的元数据,通常包括任务类、报警类及故障类。

  8. 成本元数据描述数据存储及计算成本的元数据。计算成本(CPU、MEM等)存储成本(空间、压缩率等)

  9. 标准元数据描述数据标准化内容的元数据。代码管理(转换规则、对外接口等)映射管理数据展示(样式、规则、语义、单位等)

  10. 安全元数据描述数据安全内容的元数据。安全等级数据敏感性(是否敏感、脱敏算法等)

  11. 共享元数据描述数据是如何共享的部分,包括接口方式、格式、内容等。

业务元数据

  1. 模型元数据数据建模,是一种对业务的描述,通过模型可更好地了解业务。常见的建模方式有范式模型、维度模型、多维建模等。下面以维度模型为例进行说明。业务线、板块、过程数据域、主题域维度、属性指标事实、度量集市与应用

  2. 应用元数据描述数据应用类的元数据。

  3. 分析元数据从数据分析角度,描述业务的元数据。数据域、主题域产品线、板块、业务过程业务流程业务规则

管理元数据

  1. 管理元数据描述企业内部,数据管理相关内容。人员流程职责、岗位组织、部门

举例hive中的元数据表

Hive元数据信息对应MySQL数据库表参考:

https://www.cnblogs.com/qingyunzong/p/8710356.html

引用

https://www.zhihu.com/question/20679872/answer/681988497


文章作者: Callable
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Callable !
评论
  目录