实测:
输入内容:295个字,1.9秒开始出结果,这个速度明显比T4 GPU块多了,都快赶上V100 GPU的推理性能了。
具体过程如下:
1.准备环境
git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp
git submodule update --init --recursive
python3 -m pip install -U pip
python3 -m pip install torch tabulate tqdm transformers accelerate sentencepiece
2.下载chatglm3-6b
brew install git-lfs
git lfs install
git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git
下载到/Users/xxx/chatglm3-6b
3.生成cpu版本
python3 chatglm_cpp/convert.py -i /Users/xxx/chatglm3-6b -t q4_0 -o chatglm3-ggml.bin
4.开启Metal for M1,安装chatglm-cpp
CMAKE_ARGS="-DGGML_METAL=ON" pip install -U chatglm-cpp
5.运行模型web
python examples/web_demo.py -m chatglm3-ggml.bin