2.1 Hadoop 是什么
Hadoop
也叫Apache Hadoop
, 是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。支持在商品硬件构建的大型集群上运行的应用程序
主要解决,海量数据的存储和海量数据的分析计算问题
广义上来说,
Hadoop
通常是指一个更广泛的概念——Hadoop
生态圈。
分布式计算是一个宽泛并且不断变化的领域, 单Hadoop
与众不同之处在于以下几点:
方便.
Hadoop 运行在由一般商用机器构成的大型集群上, 或者如亚马逊弹性计算云等云计算服务器之上.
不需要专门的高级设备.
健壮
Hadoop 致力于在一般的商用机器上运行, 其架构假设硬件会频繁的出现失效.
Hadoop可以从容的处理大多3数此类故障.
可扩展
Hadoop通过增加集群节点, 可以线性的的扩展以处理更大的数据集.
简单
Hadoop允许用户快速的编写出高效的并行代码.