该研究集中于通过将生物医学知识图谱(KG)与大型语言模型(LLMs)集成,以增强LLMs在生物医学应用中的表现。研究的动机源于LLMs在生成精确内容方面面临的挑战,尤其是在像生物医学这样准确性至关重要的领域。LLMs在广泛的通用文本上的传统训练并不总是能够在专业领域中转化为高准确性,这是因为模型尽管语言结构正确,却仍会生成错误信息(即“幻觉”)。
本研究的主要目标是创建一个框架,将丰富的结构化生物医学知识与LLMs的先进文本处理能力结合起来。这个框架旨在提高LLMs输出的事实正确性,使其更适合敏感的生物医学应用,而无需进行广泛的重新训练或特定领域的微调。
LLM的限制:尽管LLM功能强大,但在处理复杂的特定领域信息时常常生成非事实内容。
特定领域的LLM:如PubMedBERT和BioBERT等模型专门在生物医学文献上进行训练,以缓解一些问题,但需要巨大的计算资源。
LLM中的知识图谱:先前的工作已将LLM与KG整合,有效地利用了结构化领域知识,特别是在问答任务中。
1.query->抽取实体,prompt对应为:
2.找到的graph中的三元组转为自然语言:
(Disease hypertension, ASSOCIATES_DaG, Gene VHL) → Disease hypertension associates Gene VHL
3.把检索出来的自然语言填充进Prompt,例如:
从KG中检索出相关信息,回填Prompt,基本上走的原RAG后半段的G思路,R也是采用embedding,不过和非结构化文档的检索流程略不同。
详细流程如下:
Disease hypertension associates Gene VHL
实验使用了多种预训练的LLM,包括Llama-2-13b、GPT-3.5-Turbo和GPT-4,利用KG-RAG框架处理不同的生物医学任务(例如,是非题、多项选择题和药物重定位)。比较这些模型在使用和不使用KG-RAG框架的情况下的表现,以评估整合KG信息的影响。
KG选用的是SPOKE,SPOKE是一个开放知识图谱,提供数据下载和开放API,整合了超过40个公开可用的生物医学知识源,涵盖了基因、蛋白质、药物、化合物、疾病等概念和概念之间的关系,
引入KG-RAG后,所有测试任务中LLM输出的准确性和可靠性都显著提高。特别是,Llama-2模型在MCQ(多项选择题)数据集上的表现提高到显著的71%。
与KG-RAG集成的模型显示出更好的上下文利用能力,能生成更准确的生物医学文本回答,尤其是在复杂查询场景如药物重定位中。