写在最前:秋招以来一直在冲,因为事情比较多,对于笔试面试一直没有复盘,现在靠仅存的记忆把面试的一些问题记录下来,尽可能记录出能回忆到的问题,但可能记的不是很全。
时长:70min左右
问项目,问的不深,大概一些设计的数据类型、业务线、业务逻辑怎么处理的、怎么处理的脏数据、模型怎么设计的?
数仓建模这个问题也是比较重要,被问到的几率也很高
spark OOM有没有遇到过,怎么处理的?
这个问题第一次见到,OOM平时真的没有注意过,面完也是及时的整理出来
spark streaming用没用过?有什么特点?和flink比哪个更好?
kafka的高水位线
保证数据一致性的东西,顺便说了一些ISR,和leader宕机后的选举
zookeeper的节点类型
面试官先问我对zookeeper了解不,我说问问看,我以为会问选举机制,我还沾沾自喜,没想到问了节点类型,直接G
项目中的亮点和难点
这个问题真的是被问烂了啊,几乎面面都有
论文完成情况?论文内容?论文中使用到的算法和其他算法比有什么优势?复杂度如何?
十大排序算法的特点和复杂度?简单说说?O(n)的都有哪些
clickhouse用来干什么了?有什么优缺点?平时用的比较多的引擎有哪些?
大数据质量是怎么保证的?
大数据容灾机制怎么做的?
问了几个情景问题,问如果数据出现了告警,怎么快速处理?如果开发中,任务已经上线,但是业务方改了需求,怎么办?
数据倾斜怎么处理?怎么发生的?
工作中最大的难点?最大的错误?
spark常见的错误?
算法题:实现正则匹配
算法题:翻转链表
总结:整体下来面试问题的难度并不是很大,涉及的面也比较广,对于大数据的组件、还有一些项目问题,面试官应该也是一晚没睡想的这些题目,复盘的价值也是很高的。而且整场下来面试官也比较和善,也会引导你去思考。