随着应用程序越来越受欢迎并遇到更高的流量水平,与 LLM API 调用相关的费用可能会变得相当可观。此外,LLM 服务的响应时间可能会很慢,尤其是在处理大量请求时。GPTCache是一个致力于构建用于存储 LLM 响应的语义缓存的项目。
- import openai
- from gptcache import cache
-
- # 问答函数
- def ask_question(question, image_path=None):
- if image_path:
- prompt = f"