subtitle
20200622 说说 flink Watermark 原理 20200622 说说 flink Watermark 原理
说说 flink Watermark 原理(☆☆☆)啥叫个水位线 Watermark Watermark 是一种告诉 Flink 一个消息延迟多少的方式。它定义了什么时候不再等待更早的数据。 可以把 Watermarks 理解为一个水位线,
20200621 数据平台建设方向思考 20200621 数据平台建设方向思考
数据平台建设方向思考(☆☆☆)
20200620 Spark SQL 运行流程简述 20200620 Spark SQL 运行流程简述
Spark SQL 运行流程简述(☆☆☆☆) SparkSql整个解析成RDD的流程图,红色部分便是SparkSql优化器系统Catalyst,和大多数大数据SQL处理引擎设计基本相同(Impala、Presto、Hive(Calcite)
20200619 当执行spark-submit提交一个任务时都干了啥呢? 20200619 当执行spark-submit提交一个任务时都干了啥呢?
当执行spark-submit提交一个任务时都干了啥呢?(☆☆☆☆)cat spark-submit 123456789101112131415161718192021222324252627#!/usr/bin/env bash## L
20200618 kafka的的副本复制机制 20200618 kafka的的副本复制机制
kafka的的副本复制机制(☆☆☆☆)让分布式系统的操作变得简单,在某种程度上是一种艺术,通常这种实现都是从大量的实践中总结得到的。Apache Kafka 的受欢迎程度在很大程度上归功于其设计和操作简单性。随着社区添加更多功能,开发者们会
2020-06-18
20200617 说说你理解的sparkRdd的 partion 20200617 说说你理解的sparkRdd的 partion
说说你理解的sparkRdd的 partion(☆☆☆☆☆)Spark中提供了通用的接口来抽象每个Rdd,这些接口包括 分区信息 依赖关系 函数,基于父Rdd的计算方法 划分策略和数据位置的元数据 举个🌰一个HDFS文件的RDD将文
2020-06-17
20200616 说一说spark rdd宽窄依赖吧 20200616 说一说spark rdd宽窄依赖吧
说一说spark rdd宽窄依赖吧(☆☆☆☆☆) 概念 窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用,子RDD分区通常对应常数个父RDD分区(O(1),与数据规模无关) 宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用
2020-06-16
20200615 hdfs读写过程,以及数据完整性如何保证? 20200615 hdfs读写过程,以及数据完整性如何保证?
hdfs读写过程,以及数据完整性如何保证?(☆☆☆☆☆)首先看看HDFS中的block、packet、chunk block 这个大家应该知道,文件上传前需要分块,这个块就是block,一般为128MB,当然你可以去改,不过不推荐。因为块
2020-06-15
20200614 聊一聊MapReduce的Shuffle过程吧 20200614 聊一聊MapReduce的Shuffle过程吧
聊一聊MapReduce的Shuffle过程吧(☆☆☆) Map 方法之后 Reduce 方法之前这段处理过程叫 Shuffle Map 方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓冲区默认大小
2020-06-14
20200613 说一说你了解的Mapreduce过程吧 20200613 说一说你了解的Mapreduce过程吧
说一说你了解的Mapreduce过程吧 现在我们有一个单词本(如上图1所示),这个单词本是200m,我们现在hadoop2.7.2HDFS的默认文件块大小是128m,现在我有一个200m的文本,那他是不是应该分了两个文件块对吧?然后下一步
2020-06-13
8 / 12