分类: interview

文章分类

interview 15 interview spark 3 interview flink 1 数据分析 1 大数据 7 算法 2 SQL 3 数仓 2 操作系统 1 hive 2 etl spark hdfs 1 hive解析json 1 git 1 hdfs 1 Hadoop 1 Hadoop shell 1 yarn 1 数据库范式 1 spark 4 ER模型 1 模型设计 2 模型实施 1 体系架构 2 数据建模 1 数仓建设 2 事实表 1 distribute by 和 partition by 1 parse_url 4 clickhouse 2 css 2 data-analysis 2 database 2 bigData 5 js-basics 5 数据仓库建模方法论 1 Flink 2 front-end 2 Markdown 1 blog 2 presto 1 life 2 machine-learning 3 为什么要模型建立 1 模型实践 2 operation 1 Python 3 python 1 Spark 2 分享 1 Hbase 1 spark性能优化 1 帝都 1

                            
                            20200615 hdfs读写过程，以及数据完整性如何保证？
                        
                                hdfs读写过程，以及数据完整性如何保证？（☆☆☆☆☆）首先看看HDFS中的block、packet、chunk
block  这个大家应该知道，文件上传前需要分块，这个块就是block，一般为128MB，当然你可以去改，不过不推荐。因为块
                            
                                2020-06-15
                            
                                    interview
                                
                            HDFS
                        
                            20200614 聊一聊MapReduce的Shuffle过程吧
                        
                                聊一聊MapReduce的Shuffle过程吧（☆☆☆）

Map 方法之后 Reduce 方法之前这段处理过程叫 Shuffle
Map 方法之后，数据首先进入到分区方法，把数据标记好分区，然后把数据发送到环形缓冲区；环形缓冲区默认大小 
                            
                                2020-06-14
                            
                                    interview
                                
                            MR
                        
                            20200613 说一说你了解的Mapreduce过程吧
                        
                                说一说你了解的Mapreduce过程吧

现在我们有一个单词本（如上图1所示），这个单词本是200m，我们现在hadoop2.7.2HDFS的默认文件块大小是128m，现在我有一个200m的文本，那他是不是应该分了两个文件块对吧？然后下一步
                            
                                2020-06-13
                            
                                    interview
                                
                            Mr
                        
                            20200612 聊一聊你所遇到的数据倾斜问题
                        
                                聊一聊你所遇到的数据倾斜问题（☆☆☆☆☆）1. 倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。
（1）key分布不均匀
                            
                                2020-06-12
                            
                                    interview
                                
                            hive
                        
                            20200611  mr与spark的区别是什么？
                        
                                mr与spark的区别是什么？（☆☆☆☆☆）
Spark利用多线程来执行具体的任务，减少任务启动的开销。MR的每一个task都是一个进程，当task完成时，进程也会结束。所以，spark比MR快的原因也在这，MR启动就需要申请资源，用完就销
                            
                                2020-06-11
                            
                                    interview
                                
                            spark