subtitle
【转载】MapReduce之数据倾斜原因与解决 【转载】MapReduce之数据倾斜原因与解决
1 前言在大数据背景下, 数据倾斜是一个频发问题, 有时候我们可能会有疑问, 为什么一个处理几千万数据量的任务比一个处理几亿数据量的任务耗时还要长很多, 这里大概率是因为任务产生了数据倾斜. 在日常工作中, 数仓工程师一般可以比较好的处理倾
2022-01-07
数据模型⽆法复⽤,归根结底还是设计问题 数据模型⽆法复⽤,归根结底还是设计问题
原文链接 数据模型⽆法复⽤,归根结底还是设计问题如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务
2021-09-23
hive执行计划 hive执行计划
查看SQL的执行计划Hive提供的执行计划目前可以查看的信息有以下几种:● 查看执行计划的基本信息,即explain;● 查看执行计划的扩展信息,即explain extended;● 查看SQL数据输入依赖的信息,即explain dep
2021-05-18
事实表设计 事实表设计
事实表设计 学习《大数据之路》第11章,《事实表设计》摘要。 事实表基础事实表特性事实表作为数据仓库维度建模的核心,进进围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和业务过程有关的度量。事实表中一条记录
2021-04-28
维度设计 维度设计
维度设计 学习《大数据之路》第10章,《维度设计》摘要。 维度设计基础维度的基本概念 维度是维度建模的基础和灵魂。在维度建模中,讲度量称为”事实”,将环境描述称为”维度”,维度是用于分析事实所需要的多样环境。 维度所包含的表示维度的列,
2021-04-27
操作系统的进程和线程 操作系统的进程和线程
[TOC] 操作系统的进程和线程 进程我们编写的代码只是一个存储在硬盘的静态文件,通过编译后就会生成二进制可执行文件,当我们运行这个可执行文件后,它会被装载到内存中,接着 CPU 会执行程序中的每一条指令,那么这个运行中的程序,就被称为「进
2020-09-27
20200618 kafka的的副本复制机制 20200618 kafka的的副本复制机制
kafka的的副本复制机制(☆☆☆☆)让分布式系统的操作变得简单,在某种程度上是一种艺术,通常这种实现都是从大量的实践中总结得到的。Apache Kafka 的受欢迎程度在很大程度上归功于其设计和操作简单性。随着社区添加更多功能,开发者们会
2020-06-18
20200617 说说你理解的sparkRdd的 partion 20200617 说说你理解的sparkRdd的 partion
说说你理解的sparkRdd的 partion(☆☆☆☆☆)Spark中提供了通用的接口来抽象每个Rdd,这些接口包括 分区信息 依赖关系 函数,基于父Rdd的计算方法 划分策略和数据位置的元数据 举个🌰一个HDFS文件的RDD将文
2020-06-17
20200616 说一说spark rdd宽窄依赖吧 20200616 说一说spark rdd宽窄依赖吧
说一说spark rdd宽窄依赖吧(☆☆☆☆☆) 概念 窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用,子RDD分区通常对应常数个父RDD分区(O(1),与数据规模无关) 宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用
2020-06-16
1 / 2