归档: 2020/6 | Callable

2020

06

16

说一说spark rdd宽窄依赖吧（☆☆☆☆☆）概念窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用，子RDD分区通常对应常数个父RDD分区(O(1)，与数据规模无关) 宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用

2020-06-16 interview

spark

15

hdfs读写过程，以及数据完整性如何保证？（☆☆☆☆☆）首先看看HDFS中的block、packet、chunk block 这个大家应该知道，文件上传前需要分块，这个块就是block，一般为128MB，当然你可以去改，不过不推荐。因为块

2020-06-15 interview

HDFS

14

聊一聊MapReduce的Shuffle过程吧（☆☆☆） Map 方法之后 Reduce 方法之前这段处理过程叫 Shuffle Map 方法之后，数据首先进入到分区方法，把数据标记好分区，然后把数据发送到环形缓冲区；环形缓冲区默认大小

2020-06-14 interview

MR

13

说一说你了解的Mapreduce过程吧现在我们有一个单词本（如上图1所示），这个单词本是200m，我们现在hadoop2.7.2HDFS的默认文件块大小是128m，现在我有一个200m的文本，那他是不是应该分了两个文件块对吧？然后下一步

2020-06-13 interview

Mr

12

聊一聊你所遇到的数据倾斜问题（☆☆☆☆☆）1. 倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。（1）key分布不均匀

2020-06-12 interview

hive

11

mr与spark的区别是什么？（☆☆☆☆☆） Spark利用多线程来执行具体的任务，减少任务启动的开销。MR的每一个task都是一个进程，当task完成时，进程也会结束。所以，spark比MR快的原因也在这，MR启动就需要申请资源，用完就销

2020-06-11 interview

spark