subtitle
12
21
19
11
26
解决Spark数据倾斜 解决Spark数据倾斜
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势 本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代
2020-11-26
23
Spark作业运行流程 Spark作业运行流程
Spark作业运行流程Spark 作业运行流程1、Driver通过SparkContext向Cluster Manager 申请资源2、Cluster Manager分配资源、并在Worker节点上创建Executor3、SparkCont
2020-11-23
21
spark 核心概念图解 spark 核心概念图解
spark 核心概念图解 学习spark 三部曲 首先来看几个只管重要的概念,这些概念承载着Spark集群运转和程序运行的重要使命。Spark运行架构图,如图1-1所示。 1、Master 图1-1 中的 Cluster Manager
2020-11-21
02
sparksql到RDD sparksql到RDD
从SQL到RDD:一个简单的案例 从典型的Spark SQL应用场景中,数据的读取、数据表的创建和分析都是必不可少的过程。通常来讲,SQL查询所面对的数据模型以关系表为主。转自《Spark SQL内核剖析》 一个简单的案例 1234567
2020-11-02
10
16
hadoop shell 命令介绍 hadoop shell 命令介绍
Hadoop Shell 命令介绍在Hadoop2.0部署目录中,bin目录下有四个常见Shell脚本:hadoop、hdfs、yarn和mapred,它们分别负责common、HDFS、YARN和MapReduce四个模块的管理工作,用户
2020-10-16
16
16
一、yarn产生背景(yarn设计理念与基本架构) 一、yarn产生背景(yarn设计理念与基本架构)
一、yarn产生背景(yarn设计理念与基本架构) 学习了董西成的Hadoop技术内幕第二章总结回顾 由于MRv1在扩展性、可靠性、资源利用率和多框架等方面存在明显不足,Apache开始尝试对MapReduce进行升级改造,于是诞生了更加先
2020-10-16
16
数据库范式 数据库范式
数据库范式 设计关系数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式,各种范式呈递次规范,越高的范式数据库冗余越小。 范式的由来范式来自英文Normal form,简称NF。要想设计—个好的关系,
1 / 6