1、大模型的模型结构
一般指一亿参数以上的模型。
目前以Transformer为基础自回归生成大致可以分为三种架构:
·Encoder-only的模型,如BERT
·Encoder-Decoder的模型,如T5。
·Decoder-Only的模型,如GPT系列。
京公网安备 11010502049817号