subtitle
06
16
20200616 说一说spark rdd宽窄依赖吧 20200616 说一说spark rdd宽窄依赖吧
说一说spark rdd宽窄依赖吧(☆☆☆☆☆) 概念 窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用,子RDD分区通常对应常数个父RDD分区(O(1),与数据规模无关) 宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用
2020-06-16
15
14
20200614 聊一聊MapReduce的Shuffle过程吧 20200614 聊一聊MapReduce的Shuffle过程吧
聊一聊MapReduce的Shuffle过程吧(☆☆☆) Map 方法之后 Reduce 方法之前这段处理过程叫 Shuffle Map 方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓冲区默认大小
2020-06-14
13
20200613 说一说你了解的Mapreduce过程吧 20200613 说一说你了解的Mapreduce过程吧
说一说你了解的Mapreduce过程吧 现在我们有一个单词本(如上图1所示),这个单词本是200m,我们现在hadoop2.7.2HDFS的默认文件块大小是128m,现在我有一个200m的文本,那他是不是应该分了两个文件块对吧?然后下一步
2020-06-13
12
20200612 聊一聊你所遇到的数据倾斜问题 20200612 聊一聊你所遇到的数据倾斜问题
聊一聊你所遇到的数据倾斜问题(☆☆☆☆☆)1. 倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 (1)key分布不均匀
2020-06-12
11
20200611  mr与spark的区别是什么? 20200611 mr与spark的区别是什么?
mr与spark的区别是什么?(☆☆☆☆☆) Spark利用多线程来执行具体的任务,减少任务启动的开销。MR的每一个task都是一个进程,当task完成时,进程也会结束。所以,spark比MR快的原因也在这,MR启动就需要申请资源,用完就销
2020-06-11
2 / 2