归档: 2020/9 | Callable

2020

09

30

HDFS基本原理一、什么是HDFSHDFS即Hadoop分布式文件系统（Hadoop Distributed Filesystem），以流式数据访问模式来存储超大文件，它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的

2020-09-30 hdfs

hdfs

29

.git文件夹太大问题及解决方法最近提交项目代码时发现文件.git文件夹越来越大, 168m,比代码还大。 script1234567➜ bisparkclass git:(master) ✗ git rev-list --objects

2020-09-29 git

git

27

[TOC] 操作系统的进程和线程进程我们编写的代码只是一个存储在硬盘的静态文件，通过编译后就会生成二进制可执行文件，当我们运行这个可执行文件后，它会被装载到内存中，接着 CPU 会执行程序中的每一条指令，那么这个运行中的程序，就被称为「进

2020-09-27 interview

线程进程

26

大数据列式存储的精髓：按列缓存打包,最具代表的大数据文件存储类型，Parquet和ORC

2020-09-26 presto

presto 大数据列式存储

22

hive中解析json数据(map数组型)在hive中解析json数据，一般会想到get_json_object函数，当然json数据的复杂程度不一样，解析方法也会不一样，本文总结一下简单json和复杂json的解析过程。 ##1、简单js

2020-09-22 hive解析json

22

python中使用sys模板和logging模块获取行号和函数名的方法 1.python中没办法直接取得当前的行号和函数名。这是有人在论坛里提出的问题，底下一群人只是在猜测python为什么不像__file__一样提供__line__和__

2020-09-22 python

python logging模块

21

背景最近在任务优化的时候发现，简单的将mapreduce引擎换成spark-sql去执行，但是发现有些sql即使使用spark依然无法被优化，经过探索发现，是由于任务执行过程中产生的小文件过多导致。小文件带来的影响首先介绍一下什么是小文件

2020-09-21 etl spark hdfs

16

2020-09-16 clickhouse

clickhouse clickhouse数据库 clickhouse数据库引擎

16

clickhouse database的创建和引擎

2020-09-16 clickhouse

clickhouse clickhouse基础配置

01

在join时如何区分小表和大表结论：小表指的是关连建重复少的表，写在关联左侧的表每有1条重复的关联键时底层就会多1次循环运算处理。经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提

2020-09-01 hive

hive