为何要使用 Spark 进行数据分析

更新日期: 2020-09-19 阅读次数: 4082 字数: 269 分类: spark

需求

近期有两个功能点需要进行数据分析

  • 对用户打标签,好自动推荐职位
  • activity 自动分组,好进行不同的资讯推荐

虽然可以通过简单的关键词匹配实现,但是我还是想尝试一下当下火热的 spark。

spark 的作用

借用了 Spark in Action 第二版中的一张图,简单翻译了一下:

非常形象的一幅图,spark 将多个独立的计算机系统组成一套分布式数据分析系统。省去了自己写代码去在多台电脑上调度任务和计算资源。

此外,我的理解,spark 不但实现了分布式数据分析,而且规范了数据处理流程(通过标准API和数据结构)。

spark 的四大核心功能

  • Spark SQL:类似数据库 SQL
  • Spark Streaming
  • Spark MLlib:机器学习、深度学习
  • GraphX

典型的数据处理场景

  1. 收集数据:Ingestion
  2. 提升数据质量:Improvement of data quality (DQ) 例如,清除干扰数据
  3. 转换:Transformation
  4. 发布:Publication

推荐

tags: 数据分析

关于作者 🌱

我是来自山东烟台的一名开发者,有敢兴趣的话题,或者软件开发需求,欢迎加微信 zhongwei 聊聊, 查看更多联系方式