码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • vLLM vs Text Generation Interface:大型语言模型服务框架的比较


    在大型语言模型(LLM)的世界中,有两个强大的框架用于部署和服务LLM:vLLM 和 Text Generation Interface (TGI)。这两个框架都有各自的优势,适用于不同的使用场景。在这篇博客中,我们将对这两个框架进行详细的比较。

    vLLM

    vLLM 是一个用于 LLM 推理和服务的高吞吐量和内存高效的库。它具有以下特点:

    • 具有最先进的服务吞吐量。
    • 通过 PagedAttention 高效管理注意力键和值内存。
    • 对传入请求进行连续批处理。
    • 支持 CUDA/HIP 图形的快速模型执行。
    • 量化:GPTQ,AWQ,SqueezeLLM,FP8 KV 缓存。
    • 优化的 CUDA 内核。

    vLLM 也具有灵活性和易用性:

    • 与流行的 Hugging Face 模型无缝集成。
    • 使用各种解码算法进行高吞吐量服务,包括并行采样,波束搜索等。
    • 支持分布式推理的张量并行性。
    • 流式输出。
    • 支持 OpenAI 兼容的 API 服务器。
    • 支持 NVIDIA GPU 和 AMD GPU(实验性)。
    • 支持前缀缓存(实验性)。
    • 支持多 lora。

    vLLM 无缝支持许多 Hugging Face 模型,包括以下架构:Aquila & Aquila2。

    Text Generation Interface (TGI)

    Text Generation Interface (TGI) 是一个多功能的选项,支持各种 LLMs,包括量化和微调。它适用于需要为核心模型增加多个 adapter 的场景。

    比较

    在选择使用哪个框架时,需要根据你的具体需求和应用场景来决定。如果你需要处理大量的 Prompt 输入,并且对推理速度有较高的要求,那么 vLLM 可能是一个更好的选择。如果你需要支持各种 LLMs,并且需要进行量化和微调,那么 TGI 可能更适合你。

    在大型语言模型(LLM)的部署和服务框架方面,vLLM 和 Text Generation Interface (TGI) 是两个主流的选择。然而,是否有更好的框架取决于你的具体需求和应用场景。

    根据网络上的一些讨论123,以下是一些可能的选择:

    CTranslate22:如果你计划在 CPU 上运行推理,CTranslate2 可能是一个好选择

    OpenLLM2:如果你打算为核心模型添加适配器并使用 HuggingFace Agents,尤其是不完全依赖 PyTorch,那么 OpenLLM 可能是一个好选择。

    Ray Serve2:如果你需要稳定的 Pipeline 和灵活的部署,那么 Ray Serve 可能是一个好选择,它最适合更成熟的项目。

    MLC LLM2:如果你打算在客户端(例如,在 Android 或 iPhone 平台上)本地部署 LLM,那么 MLC LLM 可能是一个好选择。

    源码:

    vllm:

    :GitHub - vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

    text-generation-webui :

    GitHub - oobabooga/text-generation-webui: A Gradio web UI for Large Language Models. Supports transformers, GPTQ, AWQ, EXL2, llama.cpp (GGUF), Llama models.

  • 相关阅读:
    微信小程序链接快速生成方法
    VSCode编写OpenCV
    【Proteus仿真】【STM32单片机】基于单片机的智能晾衣架控制系统
    如何在确保身份安全的同时改善员工体验
    OLED透明屏的应用场景有哪些
    删除公共字符串、排序子序列、逆置字符串、字符串中连续最长的数字串、数组中次数出现一半的数字
    网络安全系列-三十三: 网络情报原理及情报侦察的技术、工具及资源
    计算机竞赛 深度学习YOLOv5车辆颜色识别检测 - python opencv
    Mybatis-Plus之使用LocalDateTime等java8新日期时间类型报错
    材料空间「填空解谜」:MIT 利用深度学习解决无损检测难题
  • 原文地址:https://blog.csdn.net/canduecho/article/details/136109212
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号