增加模型参数或数据规模可以带来下游任务模型性能的提升。即扩展法则:scaling law。
GPT-3 175B,PaLM:540B, BERT:330M,GPT-2:1.5B
GPT-3可以通过上下文学习(ICL)的方式来利用少样本数据解决下游任务,GPT-2不具备这个能力。
特点:
京公网安备 11010502049817号