subtitle
10
16
spark性能优化 spark性能优化
spark性能优化1、性能调优1.1、分配更多资源1.1.1、分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量 1.1.2、在哪里分配这些资源?在生
09
30
HDFS基本原理 HDFS基本原理
HDFS基本原理一、什么是HDFSHDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的
2020-09-30
29
.git文件夹太大问题及解决方法 .git文件夹太大问题及解决方法
.git文件夹太大问题及解决方法最近提交项目代码时发现文件.git文件夹越来越大, 168m,比代码还大。 script1234567➜ bisparkclass git:(master) ✗ git rev-list --objects
2020-09-29
27
操作系统的进程和线程 操作系统的进程和线程
[TOC] 操作系统的进程和线程 进程我们编写的代码只是一个存储在硬盘的静态文件,通过编译后就会生成二进制可执行文件,当我们运行这个可执行文件后,它会被装载到内存中,接着 CPU 会执行程序中的每一条指令,那么这个运行中的程序,就被称为「进
2020-09-27
26
22
hive中解析json数据(map数组型) hive中解析json数据(map数组型)
hive中解析json数据(map数组型)在hive中解析json数据,一般会想到get_json_object函数,当然json数据的复杂程度不一样,解析方法也会不一样,本文总结一下简单json和复杂json的解析过程。 ##1、简单js
2020-09-22
22
21
hdfs小文件盘查与优化 hdfs小文件盘查与优化
背景最近在任务优化的时候发现,简单的将mapreduce引擎换成spark-sql去执行,但是发现有些sql即使使用spark依然无法被优化,经过探索发现,是由于任务执行过程中产生的小文件过多导致。 小文件带来的影响首先介绍一下什么是小文件
2020-09-21
16
5 / 12