EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models

本文是LLM系列文章，针对《EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models》的翻译。

EdgeMoE：基于MoE的大型语言模型的快速设备推理

摘要
1 引言
2 实验与分析
3 EDGEMOE设计
4 评估
5 相关工作
6 结论

摘要

GPT和LLaMa等大型语言模型（LLM）由于其在广泛的机器学习任务中的卓越能力，迎来了机器智能的一场革命。然而，LLM从数据中心向边缘设备的过渡带来了一系列挑战和机遇。虽然这种转变可以增强隐私和可用性，但这些模型的巨大参数大小阻碍了这种转变，导致不切实际的运行时成本。
鉴于这些考虑，我们介绍了EdgeMoE，这是第一个为专家（MoE）LLM的混合量身定制的设备上推理引擎，这是稀疏LLM的一种流行变体，其参数大小尺度显示出几乎恒定的计算复杂性。EdgeMoE通过在存储层次结构中战略性地划分模型，实现了内存和计算效率。具体而言，非专家权重存储在设备的存储器中，而专家权重则保存在外部存储器中&#x

相关阅读:
Python从 0 到 1 系统学习的全面详细内容
如何有效管理产品生命周期(How to Effectively Manage a Product Lifecycle)
CSS页面布局（超详解）
在Android 上开发一个显示系统属性的APK应用
亚马逊国际按关键字搜索商品 API 返回值说明
【大数据存储技术】第7章 MongoDB 的原理和使用
从零开始写 Docker(四)---使用 pivotRoot 切换 rootfs 实现文件系统隔离
OW-DETR | 基于 Transformer 的开放世界目标检测器
实时营销引擎在vivo营销自动化中的实践 | 引擎篇04
携职教育：这么备考中级经济师的，90%都考不过

原文地址：https://blog.csdn.net/c_cpp_csharp/article/details/133039508