subtitle
20200615 hdfs读写过程,以及数据完整性如何保证? 20200615 hdfs读写过程,以及数据完整性如何保证?
hdfs读写过程,以及数据完整性如何保证?(☆☆☆☆☆)首先看看HDFS中的block、packet、chunk block 这个大家应该知道,文件上传前需要分块,这个块就是block,一般为128MB,当然你可以去改,不过不推荐。因为块
2020-06-15
20200614 聊一聊MapReduce的Shuffle过程吧 20200614 聊一聊MapReduce的Shuffle过程吧
聊一聊MapReduce的Shuffle过程吧(☆☆☆) Map 方法之后 Reduce 方法之前这段处理过程叫 Shuffle Map 方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓冲区默认大小
2020-06-14
20200613 说一说你了解的Mapreduce过程吧 20200613 说一说你了解的Mapreduce过程吧
说一说你了解的Mapreduce过程吧 现在我们有一个单词本(如上图1所示),这个单词本是200m,我们现在hadoop2.7.2HDFS的默认文件块大小是128m,现在我有一个200m的文本,那他是不是应该分了两个文件块对吧?然后下一步
2020-06-13
20200612 聊一聊你所遇到的数据倾斜问题 20200612 聊一聊你所遇到的数据倾斜问题
聊一聊你所遇到的数据倾斜问题(☆☆☆☆☆)1. 倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 (1)key分布不均匀
2020-06-12
20200611  mr与spark的区别是什么? 20200611 mr与spark的区别是什么?
mr与spark的区别是什么?(☆☆☆☆☆) Spark利用多线程来执行具体的任务,减少任务启动的开销。MR的每一个task都是一个进程,当task完成时,进程也会结束。所以,spark比MR快的原因也在这,MR启动就需要申请资源,用完就销
2020-06-11
2 / 2