生前何须久睡,死后自会长眠
  推荐文章
ER模型

数仓建模-ER模型

数仓建模 ER模型 3NF -> 第三范式(Third Normal Form,3rd NF)就是指表中的所有数据元素不但要能唯一地被主关键字所标识,而且它们之间还

阅读更多
模型设计

数仓建模-模型设计

模型设计模型层次 把表数据模型分为三层: 1 、操作数据层(ODS) 2、公共维度模型层(DM) , 包括明细数据层(DWD)和汇总数据层(

阅读更多
模型实施

数仓建模-模型实施

模型实施 如何从具体的需求或项目转换为可实施的解决方案,如何进行需求分析、架构设计、详细模型设计等,则是模型实施过程中讨论的内容。 业界常

阅读更多
体系架构

数仓建模-体系架构

体系架构 模型设计: 以维度建模理论为基础,基于维度建模总线架构,构建致性的维度和事实(进行规范定义)。同时,在落地表模型时,基于自身业务特点 设计出一套表规范命名体系。

阅读更多
体系架构

数仓建模-OneData

OneData 实施过程1、指导方针首先,在建设大数据数据仓库时,要进行充分的业务调研和需求分析。这是数据仓库建设的基石,业务调研和需求分析

阅读更多
Markdown

Hello World

分享如何创建一个hexo的blog。

阅读更多
presto

大数据列式存储的精髓:按列缓存打包

大数据列式存储的精髓:按列缓存打包,最具代表的大数据文件存储类型,Parquet和ORC

阅读更多
为什么要模型建立

网易云音乐数仓维度建模实践:模型设计篇【转载】

网易云音乐数仓维度建模实践:模型设计篇 数仓模型架构搭建、模型设计是整个数仓建设的核心部分。数仓建模的价值体现在:数据质量、健壮水平、资源消

阅读更多
模型实践

网易云音乐数仓建模实践-声波APP【转载】

网易云音乐数仓建模实践 数仓是商业智能的基础,它为OLAP、数据挖掘提供分析和决策支持。本文以在声波业务中的实践经历,总结了如何开始构建一个数仓模型、如何配置数据任务流调

阅读更多
模型实践

数仓维度建模系列-数据体系搭建篇【转载】

数仓维度建模系列-数据体系搭建篇基本概念数据仓库概念由世界公认的数据仓库之父Bill Inmon(比尔·恩门)在1991年出版的“Build

阅读更多
clickhouse

clickhouse 基础配置

clickhouse database的创建和引擎

阅读更多
spark性能优化

spark性能优化

spark性能优化1、性能调优1.1、分配更多资源1.1.1、分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内

阅读更多
switch 游戏介绍 游戏列表 侵权删除 图片 游戏名称 终极街头霸王 2:最后的挑战者 / Ultra Street Fighter II: The Final Challengers 魔神少女音乐外传 / Dar
2022-10-14 Callable
【转载】MapReduce之数据倾斜原因与解决 【转载】MapReduce之数据倾斜原因与解决
1 前言在大数据背景下, 数据倾斜是一个频发问题, 有时候我们可能会有疑问, 为什么一个处理几千万数据量的任务比一个处理几亿数据量的任务耗时还要长很多, 这里大概率是因为任务产生了数据倾斜. 在日常工作中, 数仓工程师一般可以比较好的处理倾
2022-01-07
经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不
2021-11-26 Callable
Hello World Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hex
2021-11-26 Callable
Lock wait timeout exceeded; try restarting transaction解决方案 Lock wait timeout exceeded; try restarting transaction解决方案
Lock wait timeout exceeded; try restarting transaction解决方案1[2021-11-01 09:49:59] [40001][1205] Lock wait timeout exceede
2021-11-01 Callable
数据模型⽆法复⽤,归根结底还是设计问题 数据模型⽆法复⽤,归根结底还是设计问题
原文链接 数据模型⽆法复⽤,归根结底还是设计问题如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务
2021-09-23
定义事实表和维度表 定义事实表和维度表
定义事实表和维度表分为四个阶段: 1、选择业务流程 2、确定颗粒度 3、确定维度 4、识别事实 是不是看起来很简单呢?接下来,将使用以下步骤分解流程: 将详细的原子数据加载到维度结构中 围绕业务流程构建维度模型 确保每个事实表都有一个关联
2021-07-12
Hive窗口函数详解 Hive窗口函数详解
一、hive窗口函数语法在前言中我们已经说了avg()、sum()、max()、min()是分析函数,而over()才是窗口函数,下面我们来看看over()窗口函数的语法结构、及常与over()一起使用的分析函数 1231、over()窗口
2021-06-30
HDFS简介 HDFS简介
一、hive窗口函数语法在前言中我们已经说了avg()、sum()、max()、min()是分析函数,而over()才是窗口函数,下面我们来看看over()窗口函数的语法结构、及常与over()一起使用的分析函数 1231、over()窗口
2021-06-30
Hive 中parse_url的使用 Hive 中parse_url的使用
1、Hive的parse_url函数parse_url(url, partToExtract[, key]) - extracts a part from a URL解析URL字符串,partToExtract的选项包含[HOST,PATH
2021-06-30
1 / 12