大数据

发布时间: 2016-05-14 22:58:14 作者: 大象笔记

关系型数据库还是 NoSQL

TODO

很多时候采集到的数据是非结构化的,或者结构差异较大的。 例如,某些商品有条码数据,而有些没有。

是否对于原始数据更适合采用 NoSQL 存储,而对于待展现的数据更适用关系型数据库存储?

使用公有云做大数据服务安全性如何

TODO

分析的实时性是否才是大数据的核心价值

TODO

数据量可能要求并不大,但是对实时性和准确性要求很高?

为何分布式计算一定要使用类 Hadoop 的架构

TODO

从大量非结构化的信息中提取结构化的数据是大数据重要的一环

所以,收集整理常见数据的提取规则很有价值,例如,电话号码的正则、邮箱的正则等。

Spark 与 Hadoop 的关系

2014 年 Spark 代替 MapReduce 成为了 Hadoop 的缺省引擎。Spark 解决了 MapReduce 大量硬盘 IO 的问题。

Spark 支持 HBase, Cassandra 等等。

HBase 的特点

我是一名山东烟台的开发者,联系作者