利用docker一键部署LLaMa到自己的Linux服务器，有无GPU都行、可以指定GPU数量、支持界面对话和API调用，离线本地化部署包含模型权重合并 - 码农知识堂

利用docker一键部署LLaMa到自己的Linux服务器，有无GPU都行、可以指定GPU数量、支持界面对话和API调用，离线本地化部署包含模型权重合并

利用docker一键部署LLaMa到自己的Linux服务器，有无GPU都行、可以指定GPU数量、支持界面对话和API调用，离线本地化部署包含模型权重合并。两种方式实现支持界面对话和API调用，一是通过搭建text-generation-webui。二是通过llamma.cpp转换模型为转换为 GGUF 格式，使用 quantize 量化模型，使用 llama.cpp 运行 GGUF 模型。

斯坦福大学的Alpaca-lora模型的本地化部署，并验证了实际的推理效果，总体感觉并不是特别理想，原始Alpaca-lora模型对中文支持并不好，用52k的中文指令集对模型进行fine-tuning之后，效果依然达不到网上说的媲美GPT-3.5的推理效果，验证了那句话：“事不目见耳闻，而臆断其有无，可乎？”。在具有3块Tesla P40显卡的服务器上，利用3块GPU显卡加载模型参数和计算，进行一次简单的推理（非数学运算和逻辑运算）也需要大概30s-1min的时间，效率简直慢的惊人，虽然用中文数据集对模型进行了fine-tuning，然而对中文的支持也并不是很好，经常会出现乱码、重复问题、词不达意等情况。

当时大模型也同雨后春笋般的层出不穷，各个大厂和科研机构都推出了自己的大模型，其中基于LLaMA（开源且好用）的最多，所以决定再看看其他模型，有没有推理效果好，中文支持好，同时推理效率高的模型。经过筛选，Vicuna-13B的推理效果据说达到了ChatGPT的90%以上的能力࿰
相关阅读:
vue踩坑
 【数据库】从事务到锁机制
 基于FPGA：多目标运动检测（手把手教学①）
Azure Synapse Analytics 性能优化指南（3）——使用具体化视图优化性能(下)
基于javaweb的社区养老服务管理系统
 使用Everything分析和清理C盘
 AEB强制标配？今年乘用车前装搭载率预计突破50%
c++取出文件路径中的文件名
 MyBatis框架-缓存
 9-FreeRTOS之静态内存分配与动态内存分配
原文地址：https://blog.csdn.net/u014374009/article/details/136190542