subtitle
20200728 spark-sql的执行过程 20200728 spark-sql的执行过程
spark执行SQL的过程总体流程parser;基于antlr框架对 sql解析,生成抽象语法树变量替换,通过正则表达式找出符合规则的字符串,替换成系统缓存环境的变量SQLConf中的spark.sql.variable.substitut
2020-07-28
20200724 用户画像基础 20200724 用户画像基础
何为用户画像用户画像,即用户信息标签化,户画像建模其实就是对用户“打标签”。通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。 用户信息标签分类按照标签的变
2020-07-24
20200716 数仓建模中的各种表类型 20200716 数仓建模中的各种表类型
全量表每天的所有的最新状态的数据。 增量表新增数据,增量数据是上次导出之后的新数据。 分区表分区存储数据 流水表对于表的每一个修改都会记录,可以用于反映实际记录的变更 区别于拉链表: 拉链表通常是对账户信息的历史变动进行处理保留的结果,流
2020-07-16
20200710 大数据文件格式揭秘 20200710 大数据文件格式揭秘
大数据文件格式揭秘textfile文件存储就是正常的文本格式,将表中的数据在hdfs上 以文本的格式存储,下载后可以直接查看,也可以使用cat命令查看。优点弊端: 行存储使用textfile存储文件默认每一行就是一条记录, 可以使用任意
2020-07-10
20200701 如何设计一个元数据管理系统 20200701 如何设计一个元数据管理系统
如何设计一个元数据管理系统利用周末的时间学习了关于大数据工程师职业发展规划的一些课程,其中有个很好的问题分享给大家,如果让你从0到1设计一个元数据管理系统你如何设计?需要具备哪些必要的技能?就这两个问题分享一下关于我的思考。首先一个元数据管
2020-07-01
20200627  Spark 倒排索引的实现 20200627 Spark 倒排索引的实现
Spark 倒排索引的实现啥是倒排索引(也有叫反向索引)inverted index倒排索引(inverted index)源于实际应用中需要根据属性的值来查找记录。在索引表中,每一项均包含一个属性值和一个具有该属性值的各记录的地址。由于记
2020-06-27
20200624 请简述ZooKeeper的选举机制 20200624 请简述ZooKeeper的选举机制
请简述ZooKeeper的选举机制一致性算法演示理解zookeeper http://thesecretlivesofdata.com/raft/
2020-06-24