subtitle
09
30
HDFS基本原理 HDFS基本原理
HDFS基本原理一、什么是HDFSHDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的
2020-09-30
29
.git文件夹太大问题及解决方法 .git文件夹太大问题及解决方法
.git文件夹太大问题及解决方法最近提交项目代码时发现文件.git文件夹越来越大, 168m,比代码还大。 script1234567➜ bisparkclass git:(master) ✗ git rev-list --objects
2020-09-29
27
操作系统的进程和线程 操作系统的进程和线程
[TOC] 操作系统的进程和线程 进程我们编写的代码只是一个存储在硬盘的静态文件,通过编译后就会生成二进制可执行文件,当我们运行这个可执行文件后,它会被装载到内存中,接着 CPU 会执行程序中的每一条指令,那么这个运行中的程序,就被称为「进
2020-09-27
26
22
hive中解析json数据(map数组型) hive中解析json数据(map数组型)
hive中解析json数据(map数组型)在hive中解析json数据,一般会想到get_json_object函数,当然json数据的复杂程度不一样,解析方法也会不一样,本文总结一下简单json和复杂json的解析过程。 ##1、简单js
2020-09-22
22
21
hdfs小文件盘查与优化 hdfs小文件盘查与优化
背景最近在任务优化的时候发现,简单的将mapreduce引擎换成spark-sql去执行,但是发现有些sql即使使用spark依然无法被优化,经过探索发现,是由于任务执行过程中产生的小文件过多导致。 小文件带来的影响首先介绍一下什么是小文件
2020-09-21
16
01
20200901 那我们常说的小表join大表是什么意思呢? 20200901 那我们常说的小表join大表是什么意思呢?
在join时如何区分小表和大表结论:小表指的是关连建重复少的表,写在关联左侧的表每有1条重复的关联键时底层就会多1次循环运算处理。 经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提
2020-09-01