subtitle
06
28
27
20200627  Spark 倒排索引的实现 20200627 Spark 倒排索引的实现
Spark 倒排索引的实现啥是倒排索引(也有叫反向索引)inverted index倒排索引(inverted index)源于实际应用中需要根据属性的值来查找记录。在索引表中,每一项均包含一个属性值和一个具有该属性值的各记录的地址。由于记
2020-06-27
24
23
20200623 一个有意思的数据分析问题 20200623 一个有意思的数据分析问题
某公司楼下有一便利店,35平米,收银员6位,每天提供早餐、中餐、晚餐。如果你来做估算,计算每天的营业额是多少? 我们假定这个便利店是盈利的 也就是营业额 >= 成本 我们假设北京的城市生活成本指数为1,最热门商圈租金为beijing_
2020-06-23
22
20200622 说说 flink Watermark 原理 20200622 说说 flink Watermark 原理
说说 flink Watermark 原理(☆☆☆)啥叫个水位线 Watermark Watermark 是一种告诉 Flink 一个消息延迟多少的方式。它定义了什么时候不再等待更早的数据。 可以把 Watermarks 理解为一个水位线,
21
20
20200620 Spark SQL 运行流程简述 20200620 Spark SQL 运行流程简述
Spark SQL 运行流程简述(☆☆☆☆) SparkSql整个解析成RDD的流程图,红色部分便是SparkSql优化器系统Catalyst,和大多数大数据SQL处理引擎设计基本相同(Impala、Presto、Hive(Calcite)
19
18
20200618 kafka的的副本复制机制 20200618 kafka的的副本复制机制
kafka的的副本复制机制(☆☆☆☆)让分布式系统的操作变得简单,在某种程度上是一种艺术,通常这种实现都是从大量的实践中总结得到的。Apache Kafka 的受欢迎程度在很大程度上归功于其设计和操作简单性。随着社区添加更多功能,开发者们会
2020-06-18
17
20200617 说说你理解的sparkRdd的 partion 20200617 说说你理解的sparkRdd的 partion
说说你理解的sparkRdd的 partion(☆☆☆☆☆)Spark中提供了通用的接口来抽象每个Rdd,这些接口包括 分区信息 依赖关系 函数,基于父Rdd的计算方法 划分策略和数据位置的元数据 举个🌰一个HDFS文件的RDD将文
2020-06-17
1 / 2