• 第二十篇-推荐-纯CPU(E5-2680)推理-llama.cpp-qwen1_5-72b-chat-q4_k_m.gguf


    环境

    系统:CentOS-7
    CPU: Intel® Xeon® CPU E5-2680 v4 @ 2.40GHz 14C28T
    内存: 48G DDR3

    依赖安装

    make --version
    GNU Make 4.3
    
    gcc --version
    gcc (GCC) 11.2.1 20220127 (Red Hat 11.2.1-9)
    
    g++ --version
    g++ (GCC) 11.2.1 20220127 (Red Hat 11.2.1-9)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    编译

    git clone https://github.com/ggerganov/llama.cpp
    cd llama.cpp
    
    make
    
    等待一会
    
    查看
    ls
    -rwxr-xr-x.  1 root root 1.6M Feb 23 07:54 main
    -rwxr-xr-x.  1 root root 2.6M Feb 23 07:55 server
    .....
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

    下载模型

    https://hf-mirror.com/Qwen/Qwen1.5-72B-Chat-GGUF
    qwen1_5-72b-chat-q4_k_m.gguf.a
    qwen1_5-72b-chat-q4_k_m.gguf.b
    
    • 1
    • 2
    • 3

    合并文件

    cat qwen1_5-72b-chat-q5_k_m.gguf.* > qwen1_5-72b-chat-q5_k_m.gguf
    
    • 1

    启动

    ./server -m /models/Qwen1.5-72B-Chat-GGUF/qwen1_5-72b-chat-q4_k_m.gguf --host 192.168.31.222 -c 1024 -t 26
    我的IP是192.168.31.222
    或
    ./main -m /models/Qwen1.5-72B-Chat-GGUF/qwen1_5-72b-chat-q4_k_m.gguf  -n 512 --color -i -cml -f prompts/chat-with-qwen.txt
    
    • 1
    • 2
    • 3
    • 4

    访问

    方式1
    	http://192.168.31.222:8080/
    方式2
    	curl --request POST \
    --url http://192.168.31.222:8080/completion \
    --header "Content-Type: application/json" \
    --data '{"prompt": "Building a website can be done in 10 simple steps:","n_predict": 128}'
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    总结

    CPU利用2600%左右,42G内存,如果更强的CPU估计还是能到4倍速度吧
    
    速度 0.6 tokens/s 这个速度还是很慢的,测试一下还是可以的,毕竟是70B的模型呀,继续研究中
    print_timings: prompt eval time =    4839.81 ms /    13 tokens (  372.29 ms per token,     2.69 tokens per second)
    print_timings:        eval time =  214075.61 ms /   128 runs   ( 1672.47 ms per token,     0.60 tokens per second)
    print_timings:       total time =  218915.43 ms
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
  • 相关阅读:
    Python学习打卡:day11
    图扑软件智慧风电:数字孪生 3D 风机智能设备运维
    FreeRTOS学习 -- 任务
    软件设计师2018上午题基础知识(易错整理)
    TensorRT 学习(二):Pytorch 模型转 TensorRT C++ 流程
    PHP 获取类对象的信息
    万字深剖进程地址空间(全程干货)
    【k8s】6、pod详解
    BMP文件格式-笔记
    840. 矩阵中的幻方。python三连双等 a==b==c
  • 原文地址:https://blog.csdn.net/hai4321/article/details/136332734