为何要使用 Spark 进行数据分析

发布时间: 2020-09-19 10:23:35 作者: 大象笔记

需求

近期有两个功能点需要进行数据分析

虽然可以通过简单的关键词匹配实现,但是我还是想尝试一下当下火热的 spark。

spark 的作用

借用了 Spark in Action 第二版中的一张图,简单翻译了一下:

非常形象的一幅图,spark 将多个独立的计算机系统组成一套分布式数据分析系统。省去了自己写代码去在多台电脑上调度任务和计算资源。

此外,我的理解,spark 不但实现了分布式数据分析,而且规范了数据处理流程(通过标准API和数据结构)。

spark 的四大核心功能

典型的数据处理场景

  1. 收集数据:Ingestion
  2. 提升数据质量:Improvement of data quality (DQ) 例如,清除干扰数据
  3. 转换:Transformation
  4. 发布:Publication
我是一名山东烟台的开发者,联系作者