大数据基础架构选型

1.介绍

在处理大数据上，Hadoop 已经成为事实上的标准，但是 hadoop 生态组件很多面临的问题也很多

在本地系统上独立安装 Apache Hadoop 是非常容易的（只需解压缩并设置某些环境变量，然后就可以开始使用了）。但是这只合适于入门和做一些基本的教程学习。
如果你想在一个或多个“真正的节点”上安装 Apache Hadoop，那就复杂多了。需要考虑到

复杂的集群设置
组件的兼容性
运维管理⼯具(配置、部署、管理、监控、告警)

2.基础架构选型依据

选择大数据套件时，应考虑几个方面

简单性：操作简单易上手
广泛性：是否该大数据套件支持广泛使用的开源标准
特性：是否满足我们实际业务需求上的特性需求
陷阱：某些大数据套件采用数据驱动的付费方式，或者部分开源，核心不开源
运维：

为啥要选择套件

框架 vs. 发行版本 vs. 套件

Hadoop生态十余款软件，兼容性管控
组件配置、部署、管理、监控、告警
由于公司没有专门的运维人员

主流发行版对比

CDH 6.3 的⽀持结束⽇期为 2022 年 3 ⽉ , HDP 3.1的⽀持结束⽇期为 2021 年 12 ⽉

也就是说，在这个⽇期之前，这些最后的“免费午餐”依然是主流的版本。但过了这个⽇期之后呢？我也没办法提供实现⽅法，只能提供思路，如果我有实现⽅法我就发财了，中国版的CDP就出现了。

回到Apache 原⽣版本 (其实很多公司⼀直就是这么做的，但⾮常具有挑战性（后续成本⽐买个商业版可能还要⾼⼀些），没有⼀定实⼒的公司还真不敢玩，除⾮公司做不⼤)
使⽤ Cloudera 的"社区版" CM虽然收费了，但是CDH发⾏版的源码⼀直都是在 GitHub 上公开的 ,但是最重要的组件是 Cloudera Manager 是假开源源代码只会向具有许可证的客户开放, 正是 Cloudera Manager 降低了集群的安装、部署、运维的难度,没有了Cloudera Manager 只能源码编译和部署组件，然后在繁琐的命令⾏下进⾏操作那就和 Apache 社区版没啥区别了
Apache Ambari +Apache BigTop Stack 使⽤Ambari 降低集群的安装、部署、运维的难度，且可以扩展Ambari去⽀持更多的组件, Hadoop 生态圈的项目众多，各种编译依赖又特别复杂，并且不同组件版本之间还有乱作一团麻的版本兼容性问题 ,Apache BigTop 是由 Cloudera 贡献给社区的。它的功能就是对 Hadoop 生态圈的开源项目进行集成、打包、虚拟化、部署和测试它本身是实现了自己的 Stack(实际上就是一组预定义好的组件服务和命令脚本的集合,你可以理解为是一种“公版”发行版方案)

在这里插入图片描述

总结大公司用商业版套件,或者自研,小公司用 Apache Ambari +Apache BigTop Stack 方案国内也有很多基于 Apache Ambari +Apache BigTop Stack 再二次开源的公司例如

红象云腾，旗下的发行版CRH
USDP (ucloud版)

3.岗位

数据运维工程师 (协调机器资源,集群组件的维护、升级)
数据平台开发工程师 (开发面向数据开发使用的工具，比如元数据系统、数据质量、数据采集、数据计算平台、任务调度平等。自研或者基于开源的项目进行二次开发。例如数据报表平台、数据分析平台、数据查询平台)
数据仓库工程师 (离线数仓的开发，比如数仓建模、数据清洗) ( 实时数仓：实时指标的开发，使用Spark Streaing 、Flink) 主要是写 SQL(离线、实时开发平台)、需要理解业务，开发业务报表根据业务数据进行建模。
数据测试工程师 (测试数仓开发的指标逻辑、数据的准确性。)
数据分析师 (运营活动等数据查询分析,日报、周报、月报、季报、年报、报表等,专题分析，比如用户画像分析、ROI分析、风控分析,市场分析，比如要做竞品分析、渠道分析、行业分析)
数据挖掘师 (用户基础研究，用户生命周期刻画（进入、成长、成熟、衰退、流失）,个性化推荐算法：基于协同过滤（USERBASE/ITEMBASE）的推荐，基于内容推荐，基于关联规则Apriot算法推荐 ,风控模型：恶意注册模型、异地识别模型、欺诈识别模型、高危会员模型)
算法工程师 ( 推荐系统、用户画像。语音、图像、自然语言处理、深度学习等机器学习算法)
数据产品经理 (协助公司各业务⽅向⼤数据应⽤产品调研、规划、执⾏。)

总结由于公司大数据平台才起步

大数据套件选取开源套件自运维
数据平台选取开源 wedatasphere,或者各组件内操作类似 Dinky
数据分析与数据挖掘
用户画像与协同推荐二期
数据仓库
组⻓ 1 ⼈，离线 3~5 ⼈左右（离线处理、数仓），实时 2 ⼈左右，组⻓或技术⼤⽜兼顾、JavaEE、前端。

服务器规划

节点/服务	最低配置	USDP Server	MySQL	NTP	Hadoop Cluster	大数据集群内各服务部署规划
节点1 (host01)	8C 32G sys 60GB data 600GB	Y	Y	Y	Cluster1-节点1	自行规划
节点2 (host02)	4C 16G sys 60GB data 500GB	-	-	-	Cluster1-节点2	自行规划
节点3 (host03)	4C 16G sys 60GB data 500GB	-	-	-	Cluster1-节点3	自行规划

相关阅读:
http模块、路径、fs模块、静态网站
4.PHP数组与数组排序
深度学习入门(4) -Object Detection 目标检测
stm32f407栈溢出导致跑程序异常
多git仓库一键更新脚本分享 2.0
ElasticSearch实操入门(四)
CVE-2021-44228 Log4j 远程代码执行漏洞——原理
linux-常用命令
MongoDB数组查询
架构师之路八分布式系统下大流量限流与消峰的方案

原文地址：https://blog.csdn.net/u010020726/article/details/126584789