分类下相关文章
2020-10-08 · 阅读 5072 · 字数 1018
官方入门文档 https://spark.apache.org/docs/latest/ Spark 下载地址 https://spark.apache.org/downloads.html 需要注意,默认这个页面的 jquery 文件地址被墙了,需要自行解决。 我选择 Spark 3.0.1 版本 pre build for apache hadoop 2.7。 网站会自动推荐一个下载地址,可以看到默认选择的是国内的北京外国语大学的下载源: wget https://mirrors.bfsu.edu.cn/apache/spark/spark-3.0.1/spark-3.0.1-bin-ha ...
2020-10-08 · 阅读 2593 · 字数 160
Spark in Action, Second Edition 《Spark in Action》系列的第二版。我看的是英文版电子书,大概很难等到中文版,即便等到了,估计 spark 3 都要过时了。 我选择这本书的原因是: 内容相对要新很多,覆盖了 Spark 3 的介绍 主要是用 Java 来演示,也包括了 python 和 Scala。虽然我知道 Spark 推荐使用 Scala 这种函数式编程语言来执行,但是我想先用 Java 来试试。比较团队中 Java 是主流,担心 Scala 写的没法交接。 亚马逊上评价很高。且介绍了 spark 3,使用 java Spark 官方网站 ...
2020-09-19 · 阅读 2912 · 字数 269
需求 近期有两个功能点需要进行数据分析 对用户打标签,好自动推荐职位 activity 自动分组,好进行不同的资讯推荐 虽然可以通过简单的关键词匹配实现,但是我还是想尝试一下当下火热的 spark。 spark 的作用 借用了 Spark in Action 第二版中的一张图,简单翻译了一下: 非常形象的一幅图,spark 将多个独立的计算机系统组成一套分布式数据分析系统。省去了自己写代码去在多台电脑上调度任务和计算资源。 此外,我的理解,spark 不但实现了分布式数据分析,而且规范了数据处理流程(通过标准API和数据结构)。 spark 的四大核心功能 Spark SQL:类似数据 ...