subtitle
06
12
20200612 聊一聊你所遇到的数据倾斜问题 20200612 聊一聊你所遇到的数据倾斜问题
聊一聊你所遇到的数据倾斜问题(☆☆☆☆☆)1. 倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 (1)key分布不均匀
2020-06-12
11
20200611  mr与spark的区别是什么? 20200611 mr与spark的区别是什么?
mr与spark的区别是什么?(☆☆☆☆☆) Spark利用多线程来执行具体的任务,减少任务启动的开销。MR的每一个task都是一个进程,当task完成时,进程也会结束。所以,spark比MR快的原因也在这,MR启动就需要申请资源,用完就销
2020-06-11
05
03
如何做分享 如何做分享
关于团队内部分享的思考背景在团队内部做过几次分享, 但是效果总不尽人意,大家都提不起兴趣也没啥可问的问题 发现问题关于技术分享的思考,结合本次分享有以下问题 分享中没有对比分析,新的东西很难让别人懂 在语言表达方面还是准备不充分,导致说
2020-05-03
01
01
6 / 6