大数据学长面试之华为面试题
学长1
1)华为非外包岗位,比较看重学历,要求985,如果学历过了,技术基本不怎么卡。
2)外包总部d1区:
(1)namenode内存满了,如何进行扩容,调什么参数。
(2)linux命令怎么查看mr任务的jobid
(3)kafka消费者消费数据的流程,细节到进程和线程这一层。
(4)生产中遇到过哪些OM的情况,怎么解决
(5)namenode设置多目录,在哪个配置文件里面设置,设置哪个参数?
学长2
介绍一下最近做了两个项目,你主要做了什么?
回答:回答了实时的组件和离线的组件,自己主要负责hql和sql的指标书写
华为-西安
(1)数据分析怎样呈现
(2)什么样的报表 具体到指标
(3)hdfs用开源的还是别的公司
(4)平台监控用什么 开源的还是其他的
(5)服务器规模有多大
(6)离线数仓负责什么
(7)实时项目介绍
(8)sparkstreaming和flink有什么差异
(9)有没有接触过EE的项目
(10)hive实现原理
(11)hive元数据管理 hive有两个进程 你了解吗
(12)hbase和hvie有什么区别 使用场景有什么区别
(13)实时项目redis在做什么 哪个进程在访问redis
华为外包 智慧园区项目
软通动力 华为外包面试题
flink 维表关联怎么做的(应该是开发必做,建议提前准备)
https://blog.csdn.net/u012554509/article/details/100533749
redis 支持的数据类型
flink支持的数据类型
flink 数据倾斜是怎么解决的
checkpoint 大小 多少, 怎么监控的
flink CEP 案例
flink 用 rocksDB 状态后端会有什么bug()?
华为,吉贝克 面试题
1.spark内存管理
2.hive分区表中,单值分区和范围分区的区别
3.你们公司执行spark任务时,资源怎么设置的(需要直接说出来)
4.介绍一下kafka水位线(其实就是leo和Hw)
5.说几个指标,分别从什么数据层拿取了数据,需要直接说出来
6.数仓采用了什么模型?为什么?
7.hive分区表,单值分区和范围分区的区别
8.spark任务切分,怎么判断有没有执行shuffle
9.你们公司拉链表都有什么字段,拉链表出错怎么办
10.列举几张表的同步策略
11.flink Sql 了解吗