• Hugging Face发布重量级版本:Transformer 4.42


    Hugging Face 宣布发布Transformer 4.42,该版本为流行的机器学习库带来了许多新功能和增强功能。此版本引入了几个高级模型,支持新工具和检索增强生成 (RAG),提供 GGUF 微调,并整合了量化的 KV 缓存,以及其他改进。

    随着Transformer 4.42的发布,包括Gemma 2、RT-DETR、InstructBlip 和 LLaVa-NeXT-Video在内的新模型的发布也使其更加值得关注。下面就一起看下这些新的更新。

    Gemma 2 模型系列由 Google 的 Gemma2 团队开发,这些模型在 6万亿个代币上进行了训练,并在语言理解、推理和安全方面的各种学术基准中表现出卓越的表现。在 18 个基于文本的任务中,它们在 11 个任务中的表现优于类似大小的开放模型。

    RT-DETR,即实时DEtection Transformer,是另一个重要的补充。该模型专为实时对象检测而设计,利用 transformer 架构快速准确地识别和定位图像中的多个对象。它的发展使其成为目标检测模型的强大竞争对手。

    InstructBlip使用BLIP-2架构增强了可视化指令调优。它将文本提示馈送到 Q-Former,从而实现更有效的视觉语言模型交互。该模型有望提高需要视觉和文本理解的任务的性能。

    LLaVa-NeXT-Video通过合并视频和图像数据集来构建 LLaVa-NeXT 型。此增强功能使该模型能够执行最先进的视频理解任务,使其成为零样本视频内容分析的宝贵工具。AnyRes 技术将高分辨率图像表示为多个较小的图像,对于该模型有效地从图像泛化到视频帧的能力至关重要。

    • 使用 AnyRes 实现零镜头视频表示功能:AnyRes 技术自然地将高分辨率图像表示为预训练的 VIT 能够消化的多个图像,并将它们形成一个压缩序列。这种技术自然可以推广到表示视频(由多个帧组成),使仅经过图像训练的 LLaVA-Next 模型在视频任务上表现出色。值得注意的是,这是LMM首次表现出强大的零样本模态转移能力。

    • 长度泛化的推理在较长的视频上得到了改进。线性缩放技术支持长度泛化,使 LLaVA-NeXT 能够有效地处理max_token_length长视频,而超出了 LLM.

    • 较强的视频理解能力。(1) LLaVA-Next-Image 结合了上述两种技术,与在视频上调谐的开源 LMM 相比,产生了卓越的零样本性能。(2) LLaVA-Next-Video,对视频数据进行进一步的监督微调(SFT),与LLaVA-Next-Image相比,实现了更好的视频理解能力。(3) LLaVA-Next-Video-DPO,使用直接偏好优化 (DPO) 将模型响应与 AI 反馈保持一致,显示出显着的性能提升。

    • 使用 SGLang 进行高效部署和推理。它允许将视频任务的推理速度提高 5 倍,从而实现更具可扩展性的服务,例如百万级视频重新字幕。请参阅我们的存储库中的说明。

    Hugging Face会自动为Python函数生成JSON架构描述,从而促进与工具模型的无缝集成。工具模型的标准化 API 确保了各种实现之间的兼容性。另一个值得注意的增强功能是GGUF微调支持。此功能允许用户在 Python/Hugging Face生态系统中微调模型,然后将它们转换回 GGUF/GGML/llama.cpp库。这种灵活性确保了模型可以在不同的环境中进行优化和部署。

    量化改进(包括添加量化的 KV 缓存)进一步降低了生成模型的内存需求。此次更新,加上对量化文档的全面修订,为用户提供了更清晰的指导,帮助他们选择最适合其需求的量化方法。

    除了这些主要更新之外,该版本还删除已弃用的组件,如 ConversationalPipeline 和 Conversation 对象。

  • 相关阅读:
    Unity -- Animation(旧版动画组件)和Animator(新版动画器组件)
    R Removing package报错(as ‘lib’ is unspecified)
    LeetCode每日一题:实现strStr()
    线性表的线性表示;初始化,输出,插入,删除,查找;
    PHP+AJAX实现异步上传文件
    vscode搭建LVGL开发环境
    sort by 和 order by 的区别
    Linux》yum与vim
    鸿蒙 HarmonyOS NEXT星河版APP应用开发—上篇
    最新出炉!2022金九银十Java面试复盘,22w字
  • 原文地址:https://blog.csdn.net/Janexjy/article/details/140079478