Mistral 7B 比Llama 2更好的开源大模型（四）

Mistral 7B在平衡高性能和保持大型语言模型高效的目标方面迈出了重要的一步。通过我们的工作，我们的目标是帮助社区创建更实惠、更高效、更高性能的语言模型，这些模型可以在广泛的现实世界应用程序中使用。

Mistral 7B在实践中，对于16K和W=4096的序列长度，对FlashAttention[11]和xFormers[18]进行了更改，比普通注意力基线的速度提高了2倍。

本文学习论文FlashAttention：FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness的相关内容。
论文链接：https://arxiv.org/abs/2205.14135

在这里插入图片描述

摘要

transformer在长序列上速度慢且内存消耗大，因为自注意力的时间和内存复杂度在序列长度上是二次方。近似注意力方法试图通过权衡模型质量来降低计算复杂度来解决这个问题，但往往无法实现整体加速。本文认为，缺失的一个原则是使注意力算法IO感知-考虑GPU内存级别之间的读写。本文提出FlashAttention，一种io感知的精确注意力算法&#

相关阅读:
12. 自动化项目实战
【网页前端】CSS的基本样式边框、布局、字体
区间统计——ST算法
Kaldi的简单介绍和基本使用说明
Docker启动mysql服务
1.1 向量与线性组合
Ansible自动化运维工具（二）playbook剧本
dijkstra算法+链表储存+优先队列
PhpSpreadsheet设置单元格常用操作汇总
物理学专业英语（词汇整理）--------05

原文地址：https://blog.csdn.net/duan_zhihua/article/details/134441342

Mistral 7B 比Llama 2更好的开源大模型 （四）

摘要

Mistral 7B 比Llama 2更好的开源大模型（四）