概述
团队大量使用spark操作数据,包括对数据的拉取,清洗,入库,统计等操作,为了更好的使用数据,为了做到不求人,故有这个系列的学习。我本前端出生,对于强类型的语言还是不习惯,那就一点一点的学习。
学习初期的环境搭建是必要的,例如scala,spark,handoop等环境的安装,当然最快速的就是使用docker,不用自己搭建环境,抱着学习的心态还是都走了一遍。
scala 基础
Scala 中定义变量
scala中用var
和val
定义变量都是可以的。
用val
定义的变量是不可变的,被初始化后值就固定下来,不可以再被修改
用var
定义的变量是可变的,可以任意修改。
Scala 中的循环
1 | for (i <- 1 to 3) { |
在上面代码中的循环结构里,箭头<-
左侧是一个val(注意不是var)变量,右侧是一个生成器表达式.
生成器表达式1 to 3
生成的连续值包含了下界[1]和上界[3],如果用until方法替换to方法后,就可以排除上界。
我们已经知道1 to 3返回的使一个连续值(Range),那么就可以考虑使用Range的foreach方法来实现循环.
1 | (1 to 3).foreach(i => print(i + ",")) |