码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 240713-Xinference模型下载、管理及测试


    Step 1. 安装Xinference

    • 安装 — Xinference

    Step 2. 下载模型

    方式1: UI界面下载
    • 命令行启动Xinference:
    xinference-local --host 0.0.0.0 --port 9997
    
    • 在localhost:9997中,通过左侧的Launch Model 配置并下载模型
    • 如果模型已下载或配置好,则在右侧会显示cached字样
    • 具体可以参考这个视频:xinference一键管理主流大模型,手摸手教你本地部署和推理模型,本地部署glm4并简单测评,提供环境包_哔哩哔哩_bilibili
      在这里插入图片描述
    方式2: 命令行下载
    • 命令行启动Xinference:
    xinference-local --host 0.0.0.0 --port 9997
    
    • 以chatglm3-6B为例,下载并启动模型:
    xinference launch --model-engine vLLM --model-name chatglm3 --size-in-billions 6 --model-format pytorch --quantization none
    
    • 下图,右边和左边分别是启动及下载的Bash命令,可以看到,在执行左边的命令的时候,右边可以显示下载的状态
      在这里插入图片描述

    Step 3. 模型路径

    • Xinference设置的软链接

      • 模型默认的链接路径在~/.xinference/cache对应的文件夹中
      • 模型的实际下载路径则在~/.cache对应的文件夹中
    • 注意:在~/.xinference/cache/model_name中,多了一个__valid_download的文件

    • 该文件的内容包含如下,可能是用于后台检测,模型是否已经有效下载

    {"model_type": "LLM", "address": null, "accelerators": null, "model_name": "chatglm3", "model_lang": ["en", "zh"], "model_ability": ["chat", "tools"], "model_description": "ChatGLM3 is the third generation of ChatGLM, still open-source and trained on Chinese and English data.", "model_format": "pytorch", "model_size_in_billions": 6, "model_family": "chatglm3", "quantization": "none", "model_hub": "huggingface", "revision": "103caa40027ebfd8450289ca2f278eac4ff26405", "context_length": 8192}(xinference) 
    

    在这里插入图片描述

    Step 4. 模型使用

    • 登录:http://localhost:9997/ui/#/running_models/LLM
    • 点击:右侧红框按钮
    • 弹出:下图对话界面,可直接使用
      在这里插入图片描述

    在这里插入图片描述

    Step 5: 自行下载模型及使用的方法测试

    • 自行下载模型的方法:
      • HF-Mirror
      • 如何快速下载huggingface模型——全方法总结 - 知乎
    • 设置软链接
    ln -s ~/Downloads/chatglm3-6b ~/.xinference/cache/chatglm3-pytorch-6b
    
    • 复制有效下载的文件,注意这里我更新了xinference下载模型的名字chatglm3-pytorch-6b-raw
    cp ~/.xinference/cache/chatglm3-pytorch-6b-raw/__valid_download ~/.xinference/cache/chatglm3-pytorch-6b/__valid_download
    
    • 进行完上述操作后,重复执行Step 2中的操作,可以直接到Step 3的内容,无需下载模型

    Step 6:这里有两个问题还需要解决:

    • 如何根据模型文件的命名规则,设置软链接?ln -s ~/Downloads/chatglm3-6b ~/.xinference/cache/chatglm3-pytorch-6b
    • 如何撰写__valid_download文件?如果没有这个文件,Xinference在执行下述命令后,似乎还是会继续默认的下载
    xinference launch --model-engine vLLM --model-name chatglm3 --size-in-billions 6 --model-format pytorch --quantization none
    
    • 潜在解决方法(待测试):教你快速上手Xinference分布式推理框架-腾讯云开发者社区-腾讯云

    问题整理

    1. GLM4使用报错
    • xinference 后端驱动chatglm4-9b-chat,接入到dify/lobe-chat时出错,不能正常回答 · Issue #1746 · xorbitsai/inference · GitHub
    • pip install transformers==4.21.2 # Default 4.42.3

    参考文献

    • 在Xinference上部署自定义大模型——FreedomIntelligence/HuatuoGPT2-13B为例 - 知乎
    • (51 封私信 / 80 条消息) localai, xinference, ollama 这些本地大模型部署工具的优缺点是什么? - 知乎
  • 相关阅读:
    【阅读笔记】Java游戏服务器架构实战(待更新)
    面试宝典-【redis】
    【Linux】reboot,shutdown -r ,init 6失效问题处理分析
    JS-DOM-对象的事件onload、匿名函数、this
    Ruoyi 从数据库中导出多个excel打包为zip
    安利个神器, Python 脚本可轻松打包为 exe
    微信小程序的展览会设计与实现
    YaRN: Efficient Context Window Extension of Large Language Models
    【C语法学习】20 - 文件访问顺序
    GTK进行rgb绘图
  • 原文地址:https://blog.csdn.net/qq_33039859/article/details/140396941
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号