使用spark(-) scala 基础

scala Spark

Spark

发布日期: 2018-01-25

团队大量使用spark操作数据，包括对数据的拉取，清洗，入库，统计等操作，为了更好的使用数据，为了做到不求人，故有这个系列的学习。我本前端出生，对于强类型的语言还是不习惯，那就一点一点的学习。

学习初期的环境搭建是必要的，例如scala,spark,handoop等环境的安装，当然最快速的就是使用docker,不用自己搭建环境，抱着学习的心态还是都走了一遍。

scala中用var和val定义变量都是可以的。

用val定义的变量是不可变的，被初始化后值就固定下来，不可以再被修改

用var定义的变量是可变的，可以任意修改。

1
2
3

for (i <- 1 to 3) {
    print(i + ",")
}

在上面代码中的循环结构里，箭头<-左侧是一个val（注意不是var）变量，右侧是一个生成器表达式.

生成器表达式1 to 3生成的连续值包含了下界[1]和上界[3]，如果用until方法替换to方法后，就可以排除上界。

我们已经知道1 to 3返回的使一个连续值(Range)，那么就可以考虑使用Range的foreach方法来实现循环.

1	(1 to 3).foreach(i => print(i + ","))

Callable

http://foxdogbee.com/2018/01/25/spark-scala-base1/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Callable !

scala Spark

2018-03-08 data-analysis

data analysis interview

2018-01-22 bigData

handoop