复星杏脉算法面经2024年5月16日面试

复星杏脉算法面经2024年5月

面试记录：3个部分1. 自己介绍 2. 问八股 3.代码题
代码题15分钟但是很简单
解题思路一：

面试记录：3个部分1. 自己介绍 2. 问八股 3.代码题

1一小时

先自我介绍

再20分钟简历
然后问了其他自己做的实习论文
怎么做的细细讲

20分钟问问题

1. 梯度爆炸怎么解决，三个解决方案：梯度裁剪（Gradient Clipping）正则化（Regularization）调整激活函数

梯度爆炸（Gradient Explosion）是指在训练深度神经网络时，梯度值在反向传播过程中变得非常大，导致模型参数更新过大，进而导致模型不稳定或无法收敛。以下是常用的三个解决梯度爆炸问题的方案：

梯度裁剪（Gradient Clipping）：
梯度裁剪是直接限制梯度的大小，当梯度的范数超过预设的阈值时，将其缩放到该阈值范围内。这样可以防止梯度变得过大。

torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

在上面的代码中，max_norm 参数设置了梯度的最大范数，当梯度的范数超过这个值时，会被裁剪到这个值。

正则化（Regularization）：
正则化是一种在损失函数中添加额外项以防止过拟合的方法，常见的有 L1 和 L2 正则化。正则化项能够限制权重的大小，从而间接减小梯度的爆炸。

L2 正则化（也称为权重衰减，Weight Decay）：

optimizer = torch.optim.SGD(model.parameters(), lr=0.01, weight_decay=1e-4)

在上面的代码中，weight_decay 参数即为 L2 正则化项的系数。

调整激活函数：
选择合适的激活函数可以帮助减小梯度爆炸的风险。某些激活函数如 ReLU 和 Leaky ReLU 相较于 sigmoid 和 tanh 更能减轻梯度爆炸问题，因为它们的梯度在正区间不会饱和。

ReLU（Rectified Linear Unit）：

import torch.nn.functional as F

def forward(self, x):
    x = F.relu(self.fc1(x))
    return x

Leaky ReLU：

import torch.nn.functional as F

def forward(self, x):
    x = F.leaky_relu(self.fc1(x), negative_slope=0.01)
    return x

以上三种方法分别从梯度约束、模型正则化和激活函数选择三个不同角度来缓解梯度爆炸的问题，在实际应用中可以根据具体情况选择合适的方法或组合使用多种方法。

2. batch norm说一下里面的缩放因子为什么需要 shift

在这里插入图片描述

二分类任务的评价指标仔细讲讲

在这里插入图片描述

如何缓解样本不均的二分类问题

在这里插入图片描述

其中Adan优化器比SGD优化器优点是什么,优化器的选择

在这里插入图片描述

Adam及其变种：结合动量和自适应学习率，快速稳定收敛，适用于大多数深度学习任务。

AdamW 是 Adam 优化器的改进版本，旨在解决 Adam 优化器在某些情况下会导致权重衰减（weight decay）效果不佳的问题。AdamW 是由 Ilya Loshchilov 和 Frank Hutter 提出的，并在他们的论文《Decoupled Weight Decay Regularization》中详细介绍。
在这里插入图片描述

AdamW 是一种改进的 Adam 优化器，通过将权重衰减与梯度更新分离，提供了更好的正则化效果和更快的收敛速度。它在许多深度学习任务中表现优异，是现代深度学习中常用的优化器之一。

有没有用过分布式训练dp和ddp，dp和ddp哪个更好

在这里插入图片描述

代码题15分钟但是很简单

Q1: Compression
e.g, input: aabbbdeffffww
output aa3bde4fww
连续大于等于三个相同的character用“数量+ character”表示，otherwise照常输出

解题思路一：

s = input()
result = ""
i = 0
while i < len(s) - 2:
    c = s[i]
    if c == s[i + 1] == s[i + 2]:
        count = 3
        while i + count < len(s) and s[i + count] == c:
            count += 1
        result += str(count)
        result += c
        i += count
    else:
        result += c
        i += 1
if s[-1] != s[-3]:
    result += s[-2]
    result += s[-1]
print(result)

时间复杂度：O(n)
空间复杂度：O(1)

创作不易，观众老爷们请留步… 动起可爱的小手，点个赞再走呗 (๑◕ܫ￩๑)

欢迎大家关注笔者，你的关注是我持续更博的最大动力

原创文章，转载告知，盗版必究

在这里插入图片描述

在这里插入图片描述
♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠

相关阅读:
C# 进度条使用
JVM之对象的内存模型、创建过程、对象引用、生命周期
《机器学习实战》8.预测数值型数据：回归
两道杂题
SAP BC 源代码搜索
现金储备超400亿的小鹏，进入中途蓄力时刻
Java Websocket 02: 原生模式通过 Websocket 传输文件
web前端期末大作业：基于HTML+CSS+JavaScript汽车租赁网站(47页)
按钮控制LED灯、蜂鸣器、风扇实验
Vue打包好的dist如何在本地运行

原文地址：https://blog.csdn.net/qq_45934285/article/details/139023497

复星杏脉算法面经2024年5月16日面试

复星杏脉算法面经2024年5月

面试记录：3个部分1. 自己介绍 2. 问八股 3.代码题

先自我介绍

20分钟问问题

1. 梯度爆炸怎么解决，三个解决方案：梯度裁剪（Gradient Clipping）正则化（Regularization）调整激活函数

2. batch norm说一下 里面的缩放因子 为什么需要 shift

二分类任务的评价指标 仔细讲讲

如何缓解样本不均的二分类问题

其中Adan优化器比SGD优化器优点是什么,优化器的选择

有没有用过分布式训练dp和ddp，dp和ddp哪个更好

代码题15分钟但是很简单

解题思路一：

2. batch norm说一下里面的缩放因子为什么需要 shift

二分类任务的评价指标仔细讲讲