subtitle
20200901 那我们常说的小表join大表是什么意思呢? 20200901 那我们常说的小表join大表是什么意思呢?
在join时如何区分小表和大表结论:小表指的是关连建重复少的表,写在关联左侧的表每有1条重复的关联键时底层就会多1次循环运算处理。 经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提
2020-09-01
获取神策数据保存在hive表 获取神策数据保存在hive表
概述这两天要获取一部分神策的埋点数据保存在hive库,就尝试用pyspark写个简单的脚本获取。请求api用saprk写入hive以下是详细代码 sensor data fetch123456789101112131415161718192
2020-08-25
Flink sql 最佳实践 Flink sql 最佳实践
【最佳实践】实时计算Flink在在线教育行业的实时数仓建设实践 https://developer.aliyun.com/article/769798?spm=a2c6h.14164896.0.0.73501154kejd15 【最佳实践
2020-08-24
Flink 工作原理 Flink 工作原理
一个Flink程序是由多个任务组成(source、transformation和sink)。
2020-08-12
Flink 的 task subtask operator-chain Flink 的 task subtask operator-chain
一个Flink程序是由多个任务组成(source、transformation和sink)。
2020-08-12
Hello World Hello World
分享如何创建一个hexo的blog。
2020-08-06
20200730 布隆过滤器是啥 20200730 布隆过滤器是啥
布隆过滤器比如HBase里面的应用,构建scannner时,判断scanner的是否包含所需要的数据列或者列族,来判断rowkey是否在一个region里?用到了布隆过滤器。 说人话的解释如下 https://developer.aliyu
2020-07-30
20200728 spark-sql的执行过程 20200728 spark-sql的执行过程
spark执行SQL的过程总体流程parser;基于antlr框架对 sql解析,生成抽象语法树变量替换,通过正则表达式找出符合规则的字符串,替换成系统缓存环境的变量SQLConf中的spark.sql.variable.substitut
2020-07-28
20200724 用户画像基础 20200724 用户画像基础
何为用户画像用户画像,即用户信息标签化,户画像建模其实就是对用户“打标签”。通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。 用户信息标签分类按照标签的变
2020-07-24
20200721 Linux kill -n n到底是啥 20200721 Linux kill -n n到底是啥
Linux kill -n这里的-n 其实就是操作系统信号量的编号,下边来举两个具体的常用🌰 kill -15 pid系统会发送一个SIGTERM的信号给对应的程序。当程序接收到该signal后,将会发生以下的事情 程序立刻停止 当程序
2020-07-21
6 / 12