Callable

说说 flink Watermark 原理（☆☆☆）啥叫个水位线 Watermark Watermark 是一种告诉 Flink 一个消息延迟多少的方式。它定义了什么时候不再等待更早的数据。可以把 Watermarks 理解为一个水位线，

2020-06-22 interview flink

flink

数据平台建设方向思考（☆☆☆）

2020-06-21 interview spark

spark

Spark SQL 运行流程简述（☆☆☆☆） SparkSql整个解析成RDD的流程图，红色部分便是SparkSql优化器系统Catalyst，和大多数大数据SQL处理引擎设计基本相同（Impala、Presto、Hive（Calcite）

2020-06-20 interview spark

spark

当执行spark-submit提交一个任务时都干了啥呢？（☆☆☆☆）cat spark-submit 123456789101112131415161718192021222324252627#!/usr/bin/env bash## L

2020-06-19 interview spark

spark

kafka的的副本复制机制（☆☆☆☆）让分布式系统的操作变得简单，在某种程度上是一种艺术，通常这种实现都是从大量的实践中总结得到的。Apache Kafka 的受欢迎程度在很大程度上归功于其设计和操作简单性。随着社区添加更多功能，开发者们会

2020-06-18 interview

kafka

说说你理解的sparkRdd的 partion（☆☆☆☆☆）Spark中提供了通用的接口来抽象每个Rdd,这些接口包括分区信息依赖关系函数，基于父Rdd的计算方法划分策略和数据位置的元数据举个🌰一个HDFS文件的RDD将文

2020-06-17 interview

spark

说一说spark rdd宽窄依赖吧（☆☆☆☆☆）概念窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用，子RDD分区通常对应常数个父RDD分区(O(1)，与数据规模无关) 宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用

2020-06-16 interview

spark

hdfs读写过程，以及数据完整性如何保证？（☆☆☆☆☆）首先看看HDFS中的block、packet、chunk block 这个大家应该知道，文件上传前需要分块，这个块就是block，一般为128MB，当然你可以去改，不过不推荐。因为块

2020-06-15 interview

HDFS

聊一聊MapReduce的Shuffle过程吧（☆☆☆） Map 方法之后 Reduce 方法之前这段处理过程叫 Shuffle Map 方法之后，数据首先进入到分区方法，把数据标记好分区，然后把数据发送到环形缓冲区；环形缓冲区默认大小

2020-06-14 interview

MR

说一说你了解的Mapreduce过程吧现在我们有一个单词本（如上图1所示），这个单词本是200m，我们现在hadoop2.7.2HDFS的默认文件块大小是128m，现在我有一个200m的文本，那他是不是应该分了两个文件块对吧？然后下一步

2020-06-13 interview

Mr