大数据学长面试之华为面试题

大数据学长面试之华为面试题

学长1
1）华为非外包岗位，比较看重学历，要求985，如果学历过了，技术基本不怎么卡。
2）外包总部d1区：
（1）namenode内存满了，如何进行扩容，调什么参数。
（2）linux命令怎么查看mr任务的jobid
（3）kafka消费者消费数据的流程，细节到进程和线程这一层。
（4）生产中遇到过哪些OM的情况，怎么解决
（5）namenode设置多目录，在哪个配置文件里面设置，设置哪个参数？

学长2
介绍一下最近做了两个项目，你主要做了什么？
回答：回答了实时的组件和离线的组件，自己主要负责hql和sql的指标书写

华为-西安
（1）数据分析怎样呈现
（2）什么样的报表具体到指标
（3）hdfs用开源的还是别的公司
（4）平台监控用什么开源的还是其他的
（5）服务器规模有多大
（6）离线数仓负责什么
（7）实时项目介绍
（8）sparkstreaming和flink有什么差异
（9）有没有接触过EE的项目
（10）hive实现原理
（11）hive元数据管理 hive有两个进程你了解吗
（12）hbase和hvie有什么区别使用场景有什么区别
（13）实时项目redis在做什么哪个进程在访问redis

华为外包智慧园区项目
软通动力华为外包面试题
flink 维表关联怎么做的（应该是开发必做，建议提前准备）
https://blog.csdn.net/u012554509/article/details/100533749
redis 支持的数据类型
flink支持的数据类型
flink 数据倾斜是怎么解决的
checkpoint 大小多少，怎么监控的
flink CEP 案例
flink 用 rocksDB 状态后端会有什么bug（）？

华为，吉贝克面试题
1.spark内存管理
2.hive分区表中，单值分区和范围分区的区别
3.你们公司执行spark任务时，资源怎么设置的（需要直接说出来）
4.介绍一下kafka水位线（其实就是leo和Hw）
5.说几个指标，分别从什么数据层拿取了数据，需要直接说出来
6.数仓采用了什么模型？为什么？
7.hive分区表，单值分区和范围分区的区别
8.spark任务切分，怎么判断有没有执行shuffle
9.你们公司拉链表都有什么字段，拉链表出错怎么办
10.列举几张表的同步策略
11.flink Sql 了解吗

相关阅读:
计算机毕业设计基于SpringBoot的智能停车场计费系统的设计与实现 Java实战项目附源码+文档+视频讲解
C++ Reference: Standard C++ Library reference: Containers: array: array: swap
生成指定范围内的指定个数的随机整数numpy.random.randint()
OpenAI再次与Altman谈判；ChatGPT Voice正式上线
天宇优配|突然爆雷！大跌15%！
使用单调队列解决 “滑动窗口最大值” 问题
Java 字节输出流FileOutputStream的用法和概述
【问题记录】防止mimikatz获取到明文密码
【VS Code 神奇小插件】Code Runner
Meter接口测试使用教程哪里找？

原文地址：https://blog.csdn.net/m0_46914845/article/details/126551664