架构+数据+算力
- 8*A100 微调大模型 lora工具微调
- 内容审核:输入的审核 生成的审核;
- GPU并行处理能力
算力计算
一个LLaMA-6B的数据类型为Int8
模型参数 6B1bytes = 6GB
梯度 6B1bytes = 6GB
优化器参数 Adam 2倍模型参数:6GB*2 = 12GB
训练共24GB的显存
推理算力
模型参数 6B*1bytes = 6GB
推理共6GB的显存
Transformer
1, 多头注意力
2. Transformer可以取代CNN,也就是使用Transformer可以做视觉