目录
HDFS:最底层的文件处理系统,用来管理和存储数据,让大量数据能够横跨不同机器;
Hadoop:大数据的操作系统,大数据集分布计算的标准工具;
MapReduce:第一代计算引擎,Map+Reduce模型,好用但笨重(大砍刀)–Haddop的分布式计算框架
Spark:Hadoop的分布式计算框架
GFS:Hadoop的通用并行框架
Tez, Spark:第二代计算引擎,让Map和Reduce过程更好用、界限更模糊,数据交换更灵活,加入内存缓存机制
Pig:接近脚本方式描述MapReduce,是更高层次、更抽象的描述算法和数据处理流程的语言层
Hive:把脚本和SQL语言翻译成MapReduce程序,逐渐成长为大数据仓库的核心部件
Impala, Presto, Drill:更轻量的SQL交互引擎,牺牲了一定的容错性保证(剔骨刀)
Hive on Tez/Spark:用Tez跑SQL
SparkSQL:用Spark跑SQL
底层HDFS,上面跑MapReduce/Tez/Spark,在上面跑Hive,Pig。或者HDFS上直接跑Impala,Drill,Presto。这解决了中低速数据处理的要求。
Streaming(流)计算:Storm是最流行的流计算平台
流计算:基本无延迟,但是要统计的东西必须事先知道
KV Store:迅速找到与键值绑定的数据,速度极快
Yarn:中央管理的重要组件
Hadoop(大数据操作系统)–>GFS(文件系统)、MapReduce(计算框架)、Spark(并行框架)
数据生态圈就是一个厨房工具生态圈。为了做不同的菜,中国菜,日本菜,法国菜,你需要各种不同的工具。而且客人的需求正在复杂化,你的厨具不断被发明,也没有一个万用的厨具可以处理所有情况,因此它会变的越来越复杂。