Hadoop 起源于全文检索,随着数据量的增大,存储和查询出现了一些瓶颈。
在这方面,谷歌因为其搜索引擎数据量是巨大的,因此大量数据的存储查询瓶颈也是最为突出的,这也就催生了谷歌的三篇论文。
但是,谷歌只公布了方案,并没有公布源码。DougCutting此时正在开发Nutch项目过程中,其试图不断扩大分布式搜索系统的规模。不过,当这一规模达到数十亿网页的级别时,进展变得相当缓慢。谷歌这三篇论文恰好能解决这一瓶颈。
因此,他开始在Nutch系统中实施Google那样的分布式文件系统和MapReduce引擎……新系统被称为“Hadoop”,这是以Cutting儿子的毛绒大象命名的。
下面是Hadoop生态几大技术与谷歌论文的关系。
2008年1月,Hadoop成为Apache的顶级项目。
Hadoop 是Apache旗下的一套开源软件平台,核心组建有如下几个
广义上,Hadoop经过长期的发展,又加入了很多新的成员。
👉 Hadoop官网
Hadoop三大发行版本:Apache、Cloudera、Hortonworks
至于学习的话,肯定是Apache开源版本是最好的。