本文是LLM系列文章,针对《Textbooks Are All You Need II: phi-1.5 technical report》的翻译。
我们继续调查TinyStories发起的基于Transformer的较小语言模型的威力,TinyStoris是一个1000万参数的模型,可以生成连贯的英语,phi-1是一个13亿参数的模型。后一项工作建议使用现有的大型语言模型(LLM)来生成“教科书质量”的数据,作为与传统网络数据相比增强学习过程的一种方式。我们遵循“教科书就是你所需要的一切”的方法,这次重点关注自然语言中的常识推理,并创建了一个名为phi-1.5的13亿参数的新模型,在自然语言任务上的性能可与5倍大的模型相媲美,在更复杂的推理任务(如小学数学和基本编码)上超过了大多数非前沿LLM。更普遍地说,phi-1.5表现出了大得多的LLM的许多特征,既有好的——比如“一步一步思考”或进行一些基本的上下