本文探讨一个新型的音频基础模型LTU(Listen, Think, and Understand)的开发,该模型旨在同时具备音频感知和推理能力。这种模型在现有音频模型和大语言模型的基础上进行了融合与创新。
人类不仅能够感知和分类声音,还能理解声音背后的含义,并根据这些信息做出判断和行动。这种能力目前的人工智能系统还不具备。现有的音频模型大多只能将音频输入映射到预定义的离散声标签集合,而缺乏对声音细节的深入理解和推理能力。另一方面,现代的大型语言模型(LLMs)虽然在推理能力上表现出色,但缺乏音频感知能力。因此,提出一个问题:能否构建一个同时具备音频感知和推理能力的模型?
LTU模型通过将高性能的音频感知模型(如AST)与开源的大型语言模型(如LLaMA)结合在一起,实现了音频的感知、推理和理解。具体来说,LTU框架整合了以下组件:

由于现有数据集无法满足LTU的训练需求,作者创建了一个新的音频问答数据集OpenAQA-5M,包含190万个闭合式问答对和370万个开放式问答对。数据集整合了多个主流音频数据集,并通过GPT辅助生成多样化的问题和答案对。
在音频分类任务上,LTU超越了现有的音频文本模型CLAP,在8个基准测试上平均相对提升23.6%。在音频描述任务上,LTU的表现与当前最先进的专用模型相当。更重要的是,LTU展示了现有音频模型所不具备的音频推理和理解能力,可以对音频进行开放式问题回答,并在多个任务上展示出色的性能。
本文提出的LTU模型是第一个专注于一般音频理解的多模态大语言模型,展示了其在音频感知、推理和理解上的卓越能力。这一研究将推动未来AI系统在处理和理解复杂音频信号方面的进步,为实现更智能的人工听觉系统奠定了基础。
LTU模型是一个创新性的多模态大模型,通过结合音频感知和语言推理能力,展示了在音频分类、描述和问答任务上的卓越表现。其独特的架构设计、训练方法和数据集支持,推动了AI系统在处理和理解复杂音频信号方面的进步。通过公开代码和数据,LTU模型为研究人员提供了一个强大的工具,促进了音频理解领域的进一步研究和应用。
本文的代码、数据集和预训练模型均已公开,读者可以在GitHub上获取相关资源。