An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

本文是LLM系列文章，针对《An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA》的翻译。

GPT-3对基于小样本知识的VQA的实证研究

摘要
引言
相关工作
方法
OK-VQA上的实验
VQAv2上的实验
结论

摘要

基于知识的视觉问答（VQA）涉及回答需要图像中不存在的外部知识的问题。现有的方法首先从外部资源中检索知识，然后对所选知识、输入图像和问答预测进行推理。然而，这种两步走的方法可能会导致失配，从而潜在地限制VQA性能。例如，检索到的知识可能是嘈杂的，与问题无关，并且在推理过程中重新嵌入的知识特征可能偏离其在知识库（KB）中的原始含义。为了应对这一挑战，我们提出了PICa，这是一种简单而有效的方法，通过使用图像字幕来提示GPT3，用于基于知识的VQA。受GPT-3在知识检索和问答方面的能力的启发，我们不再像以前的工作那样使用结构化知识库，而是将GPT-3视为一种隐式和非结构化知识库来联合获取和处理相关知识。具体来说，我们首先将图像转换为GPT-3能够理解

相关阅读:
美团、飞猪基础架构组实习经历分享
轻量封装WebGPU渲染系统示例＜33＞- 单精度浮点纹理(源码)
初识asio
GGTalk 开源即时通讯系统源码剖析之：数据库设计
在家怎么做芋圆芋圆的做法
不用电的计算机（二）
关于ENVI遥感影像的hdr元数据信息设置与读取（C++ 、Python）
如何在微信小程序中实现音视频通话
股票量化怎么用？怎样才能做好量化交易？
5、质量保证实践

原文地址：https://blog.csdn.net/c_cpp_csharp/article/details/132665576