2.2 Hadoop发展简史

  1. 1997年, 一个叫道格·卡丁(Doug Cutting)的人开启了一个叫Lucene的项目: 一个全文检索和搜索的开放源代码程序库.

  2. 2002年,第一次互联网泡沫刚刚破灭, google崛起.

    道格·卡丁(Doug Cutting)和迈克·加法雷拉(Mike Cafarella), 不想让google一家独大, 就雄心勃勃的想把Lucene改造成一个开源的网络搜索引擎.

    于是Lucene的子项目Nutch问世, 一个可以运行网页爬取工具和搜索引擎的的系统.

    但是他们认为这一架构灵活性不够, 不足以解决数十亿网页的搜索问题.

  3. 2003年10月, Google发布了一篇Paper: "The Google File System"(Goole文件系统, GFS). GFS或类似的架构可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求.

    到2004年, 道格·卡丁就用Java做出了一个开源版本的分布式文件系统: Nutch分布式文件系统(NDFS)

  4. 2004年12月, Google又发布了一篇Paper: "MapReduce:Simplified Data Processing on Large Clusters"(MapReduce:大型集群的数据简化处理).

    到2005年初, 道格·卡丁就在Nutch上实现了一个MapReduce系统.

    到2005年中, Nutch的所有主要算法均完成移植: 用NDFSMapReduce来运行.

    并且他们不仅仅只适用于搜索领域.

  5. 2006年2月, 道格·卡丁把 NDFSMapReduce移出了Nutch, 形成了Lucene的一个子项目, 并且把这个新的子项目命名为Hadoop.

    Hadoop这个名字没有任何意义, 是道格·卡丁的孩子的大象玩家的名字.

  6. 同年, 道格·卡丁加盟Yahoo公司.

    雅虎为此组织了专门的团队和资源,将Hadoop发展成能够以 Web 网络规模运行系统.

  7. 2008年1月, Hadoop成为 Apache 的顶级项目, 证明了它的成功, 多样化和生命力.

    Hadoop迎来他的飞速发展时机.

  8. 2008年2月, 雅虎宣布, 雅虎搜索引擎使用的索引是在一个拥有1万个内核的 Hadoop 集群上构建的.

  9. 2008年4月, Hadoop打破世界纪录, 成为最快的TB级数据排序系统.

    运行于一个910个节点的集群上, Hadoop在209秒内完成了1TB数据的排序, 击败了前一年的297秒冠军.

  10. 2008年11月, 谷歌在报告中声称, 它的MapReduce对 1TB 数据的排序只用了 68秒. 2009年4月, 雅虎的一个团队使用Hadoop对 1TB 数据排序只花了 62秒.

  11. 从这以后, 以更快的速度对更大规模的数据进行排序已经成为一种趋势. 在2014年, 有一个团队使用207个节点的Spark集群对100TB数据进行排序, 只用了 1406秒, 处理速度达到了惊人的每分钟 4.27TB.

  12. 目前, Hadoop已经被主流企业广泛使用. 在工业界, Hadoop已经是公认的大数据通用存储和分析平台.

    主要体现在大量直接使用或间接使用包含Hadoop系统的产品如雨后春笋般大量涌现.

    一些大公司包括 EMC, IBM, Microsoft和Oracle, 以及一些专注于Hadoop的公司(如:Cloudera, Hortonworks, MapR)都可以提供商业化的 Hadoop 支持.

Copyright © 尚硅谷大数据 2013-2019 all right reserved,powered by Gitbook
该文件最后修订时间: 2019-02-14 02:59:46

results matching ""

    No results matching ""