每日一狗(田园犬西瓜瓜)

大数02 hadoop环境搭建
1. Hadoop
1.1 什么事Hadoop?
三大核心组件
- HDFS::分布式存储
- MapReduce:海量离线分布式并行处理
- YARN:解决了分布式资源管理
三个发行版:
四个特点
- 高可靠。多副本机制
- 高可扩展。水平高效线性扩展
- 高效。高并行
- 高容错:失败的任务会被重新分发,数据会进行备份
不适合应用场景
- 不适合响应需求低延迟
- 不适合存储海量小文件(块)
- 不适合并发写入、文件的随机修改
1.2 基本使用步骤
1、搭建Hadoop集群环境,完成后可以通过web页面进行验证
2、通过Hadoop shell命令上传文件值hdfs集群中
3、通过继承开发环境导入Hadoop开发相关jar包,编写MapReduce程序导出jar包
4、启动Hadoop相关程序加载运行MapReduce的jar程序
1.3 搭建环境
操作系统:linux
1.4 二级标题
离线文件批处理:移动计算要比移动数据成本要低
2. 文件存储与管理HDFS
一般情况下HDFS只提供文件增删追加操作,没有修改这一说
2.1 应用场景
2.2 HDFS优点
高容错:多副本保存 适合批量处理,移动计算而不是移动数据,数据位置暴露给框架 适合大数据处理,是指MB到TB级别的数据文件 可构建在廉价计算机上,通过副本提高可靠性,提供了容错和恢复机制 流式地访问数据,提供一次写入多次读取的服务,没有修改操作
2.3 二级标题
2.4 二级标题
3. 一级标题
3.1 二级标题
3.2 二级标题
3.3 二级标题
3.4 二级标题
扩展小芝士
模板备份开始
4. 一级标题
4.1 二级标题
4.2 二级标题
4.3 二级标题
4.4 二级标题
模板备份结束