数仓建模-体系架构


体系架构

模型设计: 以维度建模理论为基础,基于维度建模总线架构,构建
致性的维度和事实(进行规范定义)。同时,在落地表模型时,基于
自身业务特点 设计出一套表规范命名体系。

规范定义

规范定义指以维度建模作为理论基础 构建总线矩阵,划分和定义
数据域、业务过程、维度、度量 原子指标、修饰类型、修饰词、时间
周期、派生指标。

名词术语

名词术语 解释
数据域 指面向业务分析,将业务过程或者维度进行抽象的集合 其中 业务过程可以概括为一个个不可拆分的行为事件,在业务过程之下可以定义指标;维度是指度量的环境,如买家下单事件,买家是维度为保障整个体系的生命力数据域是需要抽象提炼,并且长期维护和更新的 但不轻易变动 在划分数据域时 既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中和扩展新的数据域。
业务过程 指企业的业务活动事件,如下单、支付、退款都是业务过程。请注意,业务过程是一个不可拆分的行为事件,通俗地讲,业务过程就是企业活动中的事件。
时间周期 用来明确数据统计的时间范围或者时间点,如最近30天、自然周、截止当日等。
修饰类型 是对修饰词的一种抽象划分。修饰类型从属于某个业务域,如日志域的访问终端类型涵盖无线端、PC端等修饰词。
修饰词 指除了统计维度意外指标的业务场景限定抽象。修饰词隶属于一种修饰类型,如在日志域的访问终端类型下 有修饰词 PC 端、无线端等
度量/原子指标 原子指标和度自含义相同,基于某一业务 jJ 行为下的度盟,是业务定义中不可再拆分的指标,具有明确业务含义的名词 ,如支付金额
维度 维度是度盟的环境,用来反映业务的一类属性 这类属性的集合构成一个维度也可以称为实体对象 维度属于 个数据域,如地理维度(其中包括国家、地区、 省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)
维度属性 维度属性隶属于一个维度 如地理维度里面的国家名称、同家 ID 、省份名称等都属于维度属性
派生指标 派生指标= 个原子指标+多个修饰词(可选)+时间周期 可以理解为对原子指标业务统计范罔的圈定 如原子指标 支付金额,最近 天海外买家支付金额则为 派生指标(最近 天为时间周期 海外为修饰词 买家作为维度,而不作为修饰词)

指标体系

在讲述指标时,会涵盖其组成体系(原子指标、派生指标、修饰类型、修饰词、时间周期),将它们作为一个整体来解读。

1、基本原则

组成体系质检的关系

  • a、派生指标由原子指标、时间周期修饰词、若干其他修饰词组合得到。

  • b、原子指标、修饰类型以及修饰词,直接归属在业务过程下,其中修饰词继承修饰类型的数据域。

  • c、派生指标可以选择多个修饰词,修饰词之间的关系为”或”或者”且”,由具体的派生指标语义决定。

  • d、派生指标唯一归属一个原子指标,继承原子指标的数据域,与修饰词的数据域无关。

    一般而言,事务型指标存量型指标(见下文定义)只会唯 定位
    到一个业务过程,如果遇到同时有两个行为发生、需要多个修饰词、生
    成一个派生指标的情况,则选择时间靠后的行为创建原子指标,选择时
    间靠前的行为创建修饰词。

  • e、原子指标有确定的英文字段名、数据类型和算法说明;派生指标要继承原子指标的英文名、数据类型和算法要求。

派生指标的种类

派生指标可以分为三类:
事务型指标、存量型指标、复合型指标。按照其特性不同,有些必须新建原生指标,有些可以在其他类型原子指标的基础上增加修饰词形成派生指标。

  • 1、事务型指标:

    是指对业务活动进行衡量的指标。例如新发商品数、
    重发商品数、新增注册会员数、订单支付金额,这类指标需维护
    原子指标及修饰词,在此基础上创建派生指标。

  • 2、存量型指标:

    是指对实体对象(如商品、会员)某些状态的统计。
    例如商品总数、注册会员总数,这类指标需维护原子指标及修饰
    词,在此基础上创建派生指标,对应的时间周期 般为“历史截
    至当前某个时间”。

  • 3、复合型指标:

    :是在事务型指标和存量型指标的基础上复合而成
    的。例如浏览 UV-下单买家数转化率 有些需要 建新原子指标,
    有些则可以在事务型或存量型原子指标的基础上增加修饰词得
    到派生指标。

复合型指标的规则

  • 比率型 创建原子指标。
  • 比例型 创建原子指标,如百分比、占比。
  • 变化量型:不创建原子指标,增加修饰词,在此基础上创建派指标。
  • 变化率型:创建原子指标。
  • 统计型 (均值、分位数等):不创建原子指标,增加修饰词,在此基础上创建派生指标;在修饰类型 “统计方法”下增加修饰词。
  • 排名型 创建原子指标。
    创建派生指标时选择对应的修饰词如下:
  • 统计方法(如降序、升序)。
  • 排名名次(如 TOP IO )。
  • 排名范围(如行业、省份、一级来源等)。
  • 根据什么排序(如搜索次数、 PV )。
  • 对象集合型 主要是指数据产品和应用需要展现数据时,将一些对象以 k-v 对的方式存储在一个字段 中,方便前端展现。
    其定义方式是,创建原子指标, 般为xxx 串:创建派生指标时选择对应的修饰词如下:
  • 统计方法(如降序、升序)。
  • 排名名次(如 TOP 10)。
  • 排名范围(如行业、区域)。

其他规则

(1)、上下层级派生指标同时存在时,如最近一天支付金额最近PC端支付金额,建议使用前者, 把PC 端作为维度属性存放在物理表中体现。
(2)、父子关系原子指标存在时,当父子关系原子指标存在时,派生指标使用子原子指标创建派生指标。如PV、IPV(商品详情页PV),当统计商品详情页PV时,优先选择子原子指标。


文章作者: Callable
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Callable !
评论
  目录