大数据

更新日期: 2016-05-14 阅读次数: 7241 分类: 数据分析

关系型数据库还是 NoSQL

TODO

很多时候采集到的数据是非结构化的,或者结构差异较大的。 例如,某些商品有条码数据,而有些没有。

是否对于原始数据更适合采用 NoSQL 存储,而对于待展现的数据更适用关系型数据库存储?

使用公有云做大数据服务安全性如何

TODO

  • 是否有规范的安全方案?
  • 客户是否能接受公有云作为商业大数据方案?

分析的实时性是否才是大数据的核心价值

TODO

数据量可能要求并不大,但是对实时性和准确性要求很高?

为何分布式计算一定要使用类 Hadoop 的架构

TODO

从大量非结构化的信息中提取结构化的数据是大数据重要的一环

所以,收集整理常见数据的提取规则很有价值,例如,电话号码的正则、邮箱的正则等。

Spark 与 Hadoop 的关系

2014 年 Spark 代替 MapReduce 成为了 Hadoop 的缺省引擎。Spark 解决了 MapReduce 大量硬盘 IO 的问题。

Spark 支持 HBase, Cassandra 等等。

HBase 的特点

  • 可以存储数十亿行数据,几百万列
  • 行的列可以完全不同
  • 空列不占用存储空间, 表设计可以非常灵活
  • 每个单元中的数据可以有多个版本,默认是时间戳
  • 推荐单表存储
  • 不支持范围查询,只支持 row key 查询

关于作者 🌱

我是来自山东烟台的一名开发者,有敢兴趣的话题,或者软件开发需求,欢迎加微信 zhongwei 聊聊, 查看更多联系方式