使用 vllm 本地部署 Llama3-8b-Instruct

0. 引言
1. 安装 vllm
2. 本地部署 Llama3-8b-Instruct

0. 引言

此文章主要介绍使用 vllm 运行 Llama3-8b。

1. 安装 vllm

conda create -n myvllm python=3.11 -y
conda activate myvllm
1
2

安装 Ray 和 Vllm，

pip install ray vllm
1

安装 flash-attention，

git clone https://github.com/Dao-AILab/flash-attention; cd flash-attention
pip install flash-attn --no-build-isolation
1
2

2. 本地部署 Llama3-8b-Instruct

eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model meta-llama/Meta-Llama-3-8B-Instruct --gpu-memory-utilization 0.9 --tensor-parallel-size 1 --port 8000
1
2
3
4

完结！

相关阅读:
web3-引言之读取账户地址
3DTiles三维管线数据生产工具试用版
C++特殊定制：揭秘cpo与tag_invoke！
市场调查中的信度和效度分析原理及python实现示例
使用 @antfu/eslint-config 配置 eslint (包含兼容uniapp方法)
【word密码】word设置只读方式的四个方法
OJ练习第167题——单词接龙
Talk预告 | 普渡大学王虓：如何利用合作对抗学习来提升自监督学习
Vue3实现获取验证码按钮倒计时效果
如何使用 TypeScript 编写“ Hello World “程序

原文地址：https://blog.csdn.net/engchina/article/details/138012965