英文名称: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
中文名称: LMM 的黎明:GPT-4V 的初步探索
文章: http://arxiv.org/abs/2309.17421
中文翻译:https://mp.weixin.qq.com/s/a8Y_yU5XYgJhQ2xMuTK13w
作者: Zhengyuan Yang
日期: 2023-09-29
1 读后感
GPT-4V 是基于 SOTA LLM 并使用大量多模态数据训练的最先进的具有视觉能力的 LMM。
论文是 2023 年 9 月 29 日微软发布 GPT-4V(视觉)的研究报告 。主要讨论了多模态及其在各场景中的应用。文章不涉及公式及具体实现方法,整体偏重经验和测试,看了之后可以少走一些弯路。文章 166 页,近 3W 字,124 张图片,乍一看觉得挺长的,不过实验挺丰富挺有意思的,有点像在飞机上翻杂志的感觉。
整个文章看下来,感觉就像是培养一个机器 " 人 ",从底层的视觉和文本能力,推理能力,智商情商,到后面的与物理世界交互,解决具体问题的能力。虽然还不是很完美,但文档让我们对它的能力有一个大概的定位和评估。
我个人比较喜欢 3.4 节和 9 章。3.4 节涉及一些较为复杂的使用场景,Zero-shot 问题,以及多步推理问题,在不改变网络参数的情况下,如何通过少量示例让模型正常工作。有点像构建人的思考能力:通过构建底层的学习逻辑,让模型从死记硬背到举一返三 。第 9 章 讨论模型的具体应用,以及与现有技术结合的方法。整体看来,虽然目前模型还不能做到完全自动,但可以实现很多辅助工作,且在各个领域都有许多可以深入发展的工作机会。
(阅读时请注意 LMMs 与 LLMs 的区别)
2 模型输入
仅文本输入 图像文本对 交错的图像文本,如混合图像的网页
3 工作模式及提示技巧
文本引导:列举了一些引导模型做出正常回答的提示,以及对回答格式的限制(如 json 串) 视觉参考提示:在交互中提示模型,更关注图片中的哪些部分 文本 + 视觉提示:合并上述两种方法,以及让模型通过示例学习 上下文中的小样本学习:通过上下文示例,不调整模型参数,让模型通过少样本学习
4 视觉语言能力
不同领域的图像描述,如:人物描述,地标识别,食物识别,医学图像(识别常见问题),标志识别(复杂场景),反事实示例(识别误导)。 对象定位、计数和密集字幕,如:空间关系,计数,对象定位(边界框),密集字幕(对图中各区域生成标注),目前在复杂场景里还有一定问题。 多模式知识和常识,如:解释笑话和梗图,科学知识(包括地理、物理、生物和地球科学),多模态常识(识别人及场景,视觉线索)。 场景文本,表格,图表和文档推理,如:试卷,海报,图表,图示,流程图,公式,平面图等,展示了模型识别和推理的能力。未来还需要探索更高级的提示技术,如逐步思考 或采用更少的上下文范围 ,可能会提高模型的性能。 多语言多模态理解:使用各种语言提问和回答,多文化理解能力(文化的差异)。 视觉编码能力:为方程编写代码。
5 人机交互:视觉参考提示
模型只关注提示区域,并参考全图作为上下文。 视觉指示提示:模型理解人在图像上绘制的标记(提示和文本)。 模型生成视觉输出(在图像上生成视觉标记)。
6 时间序列和视频理解
多图像序列:除了对象和场景,还可识别视频帧变化中的关系。 视频理解:
时间排序:识别时间前后和因果关系 时间预期:通过已知的时间序列,预测未来事件和步骤;支持长短期预测 时间定位和推理:预测因果关系,如预测球和守门员的动作 用提示来提升模型对时间的理解,如:指定区域内的人或事件
7 抽象视频推理和智力测试
抽象视觉符号描述,如:将七巧板图形识别成有意义的图像 发现和关联部件和对象:理解整体与部分的关系 IQ 测试,如:韦氏成人智力量表,雷文推理矩阵
8. 情商测试
同理心和情商
从面部表情中识别和读取人类的情感 理解不同的视觉内容如何引起情感,以及理解审美 根据情感生成适当的文本输出
9. 新兴应用亮点
图像找不同 行业:缺陷检测(能识别常见问题),安全检查(工地安全法规),杂货结帐(不用扫条码识别物体,及通过商品目录提升效果)。 医疗:根据图片生成报告(有一定误差,可作为初步结果和模板) 汽车保险:损害评估和生成保险报告。 定制化:识别家庭成员,生成标题,图像搜索。 密集标注与分隔:识别图中对象,生成标注。 图像生成:评估图像美学水平,评估文图一致性,为生成图像写提示。 具体化智能体:指导智能体 Agent 与真实世界交互,如识别咖啡机按钮,室内导航。 计算机 GUI 导航:通过对屏幕截图,模型预测及与计算机通过鼠标交互操作 UI,在没有人参与的情况下自动化“人机交互”过程。实现阅读新闻,打印食谱等操作,处理消息,推荐应用……
10. LLMs 增强智能体
讨论可能的未来研究方向,将应用扩展到多模态场景 ,使用的新能力。
多模态插件,如:有效利用多模态的实时信息。 多模态链,如:一组多模态插件集成使用,提升了只基于语言的交互。 自我反思,促进手动修正。 自我一致性,通过投票改进推理。 检索增强,通过检索和整合相关信息加入提示,以增强文本生成,多用于专业领域。