为何要使用 Spark 进行数据分析

更新日期: 2020-09-19 阅读次数: 259 字数: 269 分类: spark

需求

近期有两个功能点需要进行数据分析

  • 对用户打标签,好自动推荐职位
  • activity 自动分组,好进行不同的资讯推荐

虽然可以通过简单的关键词匹配实现,但是我还是想尝试一下当下火热的 spark。

spark 的作用

借用了 Spark in Action 第二版中的一张图,简单翻译了一下:

非常形象的一幅图,spark 将多个独立的计算机系统组成一套分布式数据分析系统。省去了自己写代码去在多台电脑上调度任务和计算资源。

此外,我的理解,spark 不但实现了分布式数据分析,而且规范了数据处理流程(通过标准API和数据结构)。

spark 的四大核心功能

  • Spark SQL:类似数据库 SQL
  • Spark Streaming
  • Spark MLlib:机器学习、深度学习
  • GraphX

典型的数据处理场景

  1. 收集数据:Ingestion
  2. 提升数据质量:Improvement of data quality (DQ) 例如,清除干扰数据
  3. 转换:Transformation
  4. 发布:Publication

推荐

领取阿里云/腾讯云服务器优惠券

关于作者

我是来自山东烟台的一名开发者,喜欢瞎折腾,顺便记记笔记。有敢兴趣的话题,欢迎加微信 zhongwei 聊聊, 查看更多联系方式。 白天写程序,晚上哄熊孩子,可能回复有点慢,见谅。同时也欢迎关注我的微信公众号“大象工具”: 大象工具微信公众号

tags: 数据分析

相关文章

爱评论不评论

近期节日

2020年10月31日 世界勤俭日
2020年11月01日 万圣节
2020年11月07日 立冬
2020年11月08日 中国记者日
2020年11月10日 世界青年节
2020年11月11日 光棍节
2020年11月14日 世界糖尿病日
2020年11月17日 国际大学生节
2020年11月20日 国际儿童日
2020年11月21日 世界问候日
2020年11月22日 小雪
2020年11月26日 感恩节
查看更多节日