subtitle
06
22
20200622 说说 flink Watermark 原理 20200622 说说 flink Watermark 原理
说说 flink Watermark 原理(☆☆☆)啥叫个水位线 Watermark Watermark 是一种告诉 Flink 一个消息延迟多少的方式。它定义了什么时候不再等待更早的数据。 可以把 Watermarks 理解为一个水位线,
21
20
20200620 Spark SQL 运行流程简述 20200620 Spark SQL 运行流程简述
Spark SQL 运行流程简述(☆☆☆☆) SparkSql整个解析成RDD的流程图,红色部分便是SparkSql优化器系统Catalyst,和大多数大数据SQL处理引擎设计基本相同(Impala、Presto、Hive(Calcite)
19
18
20200618 kafka的的副本复制机制 20200618 kafka的的副本复制机制
kafka的的副本复制机制(☆☆☆☆)让分布式系统的操作变得简单,在某种程度上是一种艺术,通常这种实现都是从大量的实践中总结得到的。Apache Kafka 的受欢迎程度在很大程度上归功于其设计和操作简单性。随着社区添加更多功能,开发者们会
2020-06-18
17
20200617 说说你理解的sparkRdd的 partion 20200617 说说你理解的sparkRdd的 partion
说说你理解的sparkRdd的 partion(☆☆☆☆☆)Spark中提供了通用的接口来抽象每个Rdd,这些接口包括 分区信息 依赖关系 函数,基于父Rdd的计算方法 划分策略和数据位置的元数据 举个🌰一个HDFS文件的RDD将文
2020-06-17
16
20200616 说一说spark rdd宽窄依赖吧 20200616 说一说spark rdd宽窄依赖吧
说一说spark rdd宽窄依赖吧(☆☆☆☆☆) 概念 窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用,子RDD分区通常对应常数个父RDD分区(O(1),与数据规模无关) 宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用
2020-06-16
15
14
20200614 聊一聊MapReduce的Shuffle过程吧 20200614 聊一聊MapReduce的Shuffle过程吧
聊一聊MapReduce的Shuffle过程吧(☆☆☆) Map 方法之后 Reduce 方法之前这段处理过程叫 Shuffle Map 方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓冲区默认大小
2020-06-14
13
20200613 说一说你了解的Mapreduce过程吧 20200613 说一说你了解的Mapreduce过程吧
说一说你了解的Mapreduce过程吧 现在我们有一个单词本(如上图1所示),这个单词本是200m,我们现在hadoop2.7.2HDFS的默认文件块大小是128m,现在我有一个200m的文本,那他是不是应该分了两个文件块对吧?然后下一步
2020-06-13
5 / 6