码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 第二十篇-推荐-纯CPU(E5-2680)推理-llama.cpp-qwen1_5-72b-chat-q4_k_m.gguf


    环境

    系统:CentOS-7
    CPU: Intel® Xeon® CPU E5-2680 v4 @ 2.40GHz 14C28T
    内存: 48G DDR3

    依赖安装

    make --version
    GNU Make 4.3
    
    gcc --version
    gcc (GCC) 11.2.1 20220127 (Red Hat 11.2.1-9)
    
    g++ --version
    g++ (GCC) 11.2.1 20220127 (Red Hat 11.2.1-9)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    编译

    git clone https://github.com/ggerganov/llama.cpp
    cd llama.cpp
    
    make
    
    等待一会
    
    查看
    ls
    -rwxr-xr-x.  1 root root 1.6M Feb 23 07:54 main
    -rwxr-xr-x.  1 root root 2.6M Feb 23 07:55 server
    .....
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

    下载模型

    https://hf-mirror.com/Qwen/Qwen1.5-72B-Chat-GGUF
    qwen1_5-72b-chat-q4_k_m.gguf.a
    qwen1_5-72b-chat-q4_k_m.gguf.b
    
    • 1
    • 2
    • 3

    合并文件

    cat qwen1_5-72b-chat-q5_k_m.gguf.* > qwen1_5-72b-chat-q5_k_m.gguf
    
    • 1

    启动

    ./server -m /models/Qwen1.5-72B-Chat-GGUF/qwen1_5-72b-chat-q4_k_m.gguf --host 192.168.31.222 -c 1024 -t 26
    我的IP是192.168.31.222
    或
    ./main -m /models/Qwen1.5-72B-Chat-GGUF/qwen1_5-72b-chat-q4_k_m.gguf  -n 512 --color -i -cml -f prompts/chat-with-qwen.txt
    
    • 1
    • 2
    • 3
    • 4

    访问

    方式1
    	http://192.168.31.222:8080/
    方式2
    	curl --request POST \
    --url http://192.168.31.222:8080/completion \
    --header "Content-Type: application/json" \
    --data '{"prompt": "Building a website can be done in 10 simple steps:","n_predict": 128}'
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    总结

    CPU利用2600%左右,42G内存,如果更强的CPU估计还是能到4倍速度吧
    
    速度 0.6 tokens/s 这个速度还是很慢的,测试一下还是可以的,毕竟是70B的模型呀,继续研究中
    print_timings: prompt eval time =    4839.81 ms /    13 tokens (  372.29 ms per token,     2.69 tokens per second)
    print_timings:        eval time =  214075.61 ms /   128 runs   ( 1672.47 ms per token,     0.60 tokens per second)
    print_timings:       total time =  218915.43 ms
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
  • 相关阅读:
    【路径插值与抽稀篇】(3)路径插值与抽稀篇
    starting the docker engine无法启动解决办法
    【循环自相关和循环谱系列7】OFDM循环自相关推导分析、时间参数估计原理仿真及某无人机实际图传信号验证(含矩形/非矩形、有无循环前缀等情况)
    scss的高级用法——循环
    JavaScript:生成器函数
    java技术文档--多线程(3)--线程同步于互斥
    pip install face_recognition 报错的解决
    西南交通大学智能监测 培训课程练习2
    锂电池为什么做保护
    zookeper&kafka学习
  • 原文地址:https://blog.csdn.net/hai4321/article/details/136332734
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号