本文是LLM系列文章,针对《Efficient Pruning of Large Language Model with Adaptive Estimation Fusion》的翻译。
大型语言模型(LLM)已经成为许多生成下游任务的关键,这导致了在资源受限的设备上高效地部署它们的不可避免的趋势和重大挑战。结构化修剪是解决这一挑战的一种广泛使用的方法。然而,当处理多个解码器层的复杂结构时,一般方法通常使用通用的估计方法进行修剪。这些方法导致特定下游任务的准确性下降。在本文中,我们介绍了一种简单而有效的方法,该方法自适应地对每个子结构的重要性进行建模。同时,它可以根据复杂和多层结构的结果自适应地融合粗粒度和细粒度估计。我们设计的所有方面都无缝集成到端到端修剪框架中。与主流数据集上的最先进方法相比,我们的实验结果表明,LLaMa-7B、Vicuna-7B、百川-7B和Bloom-7b1的平均准确率分别提高了1.1%、1.02%、2.0%和1.2%。
本文观察到,现有LLM结构修剪技术的局限性源于复杂的多层解码器结构,该结构在每一层中包括各种运算符