2023秋招—大数据开发面经—美的

线下群面：

五分钟读题，然后每人简单自我介绍+说出对题目的答案，然后讨论20分钟，最后5分钟派一个人总结。

题目：（2选1）

1、如何构建数据中台？

2、设计一个智能家居，应该有哪些功能？用什么技术实现这些功能？

测评：

性格测试+图形推理+资料分析

二面：

1、自我介绍

2、详细介绍一下项目

3、实习的数据框架和项目的数据框架有什么区别吗？

4、数据采集还了解其他工具或架构吗？

5、数据加工处理还了解其他工具或架构吗？

6、数据对外提供服务还了解哪些工具？

7、介绍一下实习中大数据开发的流程和规范

8、编译原理、数据库原理有了解过吗

9、做题，说思路就好：（不用借助其他平台，想思路就好）

上百T数据，里面有手机号，有5台机器，找出手机号出现频率最高的10个。

自己的思路：将数据分为5份，让每一台数据处理一份，分别对数据进行排序，取出出现频率前10的手机号，最后把5台机器的结果汇总起来再进行排序，取出前10频率的手机号。

面试官：那每台机器怎么取出频率最高的10个手机号？

我：HashMap存储处理过的数据，key存放手机号，value存放出现次数，然后用小顶堆存放HashMap的数据，取10次堆顶的数据。

面试官：每台机器取前10，加起来再取前10，但每天机器的前10不一定是准确的，即可能出现同一个手机号出现在不同的机器，怎么处理？（一开始理解错了问题）

我：扩大前几的范围，前20、前50

面试官：这个方法不解决问题，参考MR的计算原理，借鉴一下有没办法解决？

我：（根据MR处理数据的流程说了一遍）

面试官：了解Shuffle吗？

我：了解，数据分区......

面试官：对，就是Hash分区，先让相同的手机号放到同一个机器上，后面那套就通了，这个手机号就是这台机器的前10。

大数据——海量数据处理的基本方法总结：

https://blog.csdn.net/hong2511/article/details/80842704

（数据进行Hash分区，分为5个文件，分别发给5台机器处理。每台机器用HashMap统计词频，然后用第一个文件建立一个小顶堆，只存频率最高的10个，然后第二个文件继续存入小顶堆。最后小顶堆里存在的10个号码就是最高频的）

10、反问

部门规模：数据业务中心，200多人，负责所有的数据建设和管理

技术栈：需要用到什么就用什么，没有特定的技术栈，不限于某种技术

候选人特质：没有特别倾向，对基础能力的掌握情况，对做过东西的了解程度，不仅仅是完成，做完后对背后的东西有比较好的理解。

二面挂，个人分析是场景题没有做出来

相关阅读:
depth estimation datasets
外卖项目（SpringBoot）--- 菜品模块、套餐模块
OpenCV+相机校准和3D重建
黑马-设计模式-笔记（未完）
基于docker搭建redis高可用集群
C语言游戏实战（12）：植物大战僵尸（坤版）
经典文献阅读之--DLO
滨州注册商标材料清单
北京/上海/广州/深圳DAMA-CDGA/CDGP数据治理认证报名条件
bootstrap V4.x 中 dropdown 的事件由 click 成 hover

原文地址：https://blog.csdn.net/m0_65025800/article/details/127898110