大数据

更新日期: 2016-05-14 阅读次数: 3900 分类: 数据分析

关系型数据库还是 NoSQL

TODO

很多时候采集到的数据是非结构化的,或者结构差异较大的。 例如,某些商品有条码数据,而有些没有。

是否对于原始数据更适合采用 NoSQL 存储,而对于待展现的数据更适用关系型数据库存储?

使用公有云做大数据服务安全性如何

TODO

  • 是否有规范的安全方案?
  • 客户是否能接受公有云作为商业大数据方案?

分析的实时性是否才是大数据的核心价值

TODO

数据量可能要求并不大,但是对实时性和准确性要求很高?

为何分布式计算一定要使用类 Hadoop 的架构

TODO

从大量非结构化的信息中提取结构化的数据是大数据重要的一环

所以,收集整理常见数据的提取规则很有价值,例如,电话号码的正则、邮箱的正则等。

Spark 与 Hadoop 的关系

2014 年 Spark 代替 MapReduce 成为了 Hadoop 的缺省引擎。Spark 解决了 MapReduce 大量硬盘 IO 的问题。

Spark 支持 HBase, Cassandra 等等。

HBase 的特点

  • 可以存储数十亿行数据,几百万列
  • 行的列可以完全不同
  • 空列不占用存储空间, 表设计可以非常灵活
  • 每个单元中的数据可以有多个版本,默认是时间戳
  • 推荐单表存储
  • 不支持范围查询,只支持 row key 查询
领取阿里云/腾讯云服务器优惠券

关于作者

我是来自山东烟台的一名开发者,喜欢瞎折腾,顺便记记笔记。有敢兴趣的话题,欢迎加微信 zhongwei 聊聊。 白天写程序,晚上哄熊孩子,可能回复有点慢,见谅。 查看更多联系方式

相关文章

爱评论不评论

近期节日

2020年04月07日 世界卫生日
2020年04月11日 世界帕金森病日
2020年04月19日 谷雨
2020年04月21日 复活节
2020年04月22日 世界地球日
2020年04月23日 世界读书日
2020年04月26日 知识产权日
2020年04月30日 佛诞
2020年04月30日 全国交通安全反思日
2020年05月01日 国际劳动节
2020年05月04日 五四青年节
2020年05月05日 立夏
查看更多节日