利用uvicorn、Starlette和pipeline将一个训练好的大模型发布成一个web服务

技术名词：

1、Starlette：

它是一个轻量级、高度可用性和可扩展性的Web框架，它专门为异步应用程序设计。 Starlette基于Python 3.6+的异步/协程语法，具有快速响应性能和低延迟。你可以将它理解为Java的Spring。

安装：pip install starlette

2、uvicorn

它是一个Python Web服务器，用于实现基于ASGI（异步服务器网关接口）的异步Web应用程序。它是用Python编写的，可高效、高性能地处理HTTP请求和响应，而且很容易配置和部署。你可以将它理解为Java的Tomcat。

安装：pip install uvicorn

编写一个web服务server.py：


from starlette.applications import Starlette
from starlette.responses import JSONResponse
from starlette.routing import Route
from transformers import pipeline
from transformers import AutoModelForSequenceClassification, AutoTokenizer
import asyncio
 
async def homepage(request):
    payload = await request.body()
    string = payload.decode("utf-8")
    response_q = asyncio.Queue()
    await request.app.model_queue.put((string, response_q))
    output = await response_q.get()
    return JSONResponse(output)
 
async def server_loop(q):
    model_name = "/data/checkpoint-10598"
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    tokenizer.deprecation_warnings["Asking-to-pad-a-fast-tokenizer"] = True
    model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=4)
    pipe = pipeline("text-classification", model=model, tokenizer=tokenizer)
    while True:
        (string, response_q) = await q.get()
        out = pipe(string)
        await response_q.put(out)
 
app = Starlette(
    routes=[
        Route("/", homepage, methods=["POST"]),
    ],
)
 
@app.on_event("startup")
async def startup_event():
    q = asyncio.Queue()
    app.model_queue = q
    asyncio.create_task(server_loop(q))

启动服务：

uvicorn server:app --port 8000

测试：

[ipa@comm]$ curl -X POST -d "我爱你" http://127.0.0.1:6788

结果：

[{"label":"LABEL_3","score":0.8000535368919373}]

总结：

利用transformers的pipeline来搭建一个Python的web服务，这样我们微调的大模型就能很简单的发布给他人使用，非常的方便便捷。

当然这个样例程序还有需要待完善的地方，你觉得该如何完善？

相关阅读:
【数据结构】二叉树的·深度优先遍历（前中后序遍历）and·广度优先（层序遍历）
申请400电话的详细步骤及操作指南
PerfView专题 (第六篇)：如何洞察 C# 中 GC 的变化
计算机毕业论文java毕业设计选题源代码ssm校园兼职系统|求职招聘系统
MCDF实验2
把这份关于软件测试一系列笔记研究完，进大厂是个“加分项”...
Apollo 应用与源码分析：Monitor监控-软件监控-channel时间延迟监控
测试员有必要转测试开发吗？
k8s教程（10）-pod生命周期、重启策略及健康检查
Restcloud ETL实践之数据行列转换

原文地址：https://blog.csdn.net/duzm200542901104/article/details/133362517