1.U版YOLO-World来了,YOLOv8再度升级,三行代码上手YOLO-World!
摘要:YOLO-World是下一代YOLO检测器,具有强大的zero-shot开集Capbility与Grounding能力。它在大规模视觉语言数据集上进行了预训练,可以实现实时开放词汇对象检测。YOLO-World的方案包括YOLO检测器、文本编码器和RepVL-PAN。通过使用ultralytics库,可以简单快捷地进行YOLO-World的上手测试。
Raiden说:多模态的检测器,准备放到todo list. 之前验证的结论是多模态过拟合比较严重。
Yolo-World好像Ultralytics官方也支持了,可能在效率上会比GLIP系列的好些。
摘要:本文介绍了一个针对少样本不平衡数据的项目算法方案,该方案用于监控工地上起重机的使用合规性情况。作者使用了迁移学习和对比学习的方法,并通过训练一个支持向量机分类器来识别起重机的三种状态:移动、伸展支腿和开臂。经过实验,该方案在测试集上表现出良好的分类性能。
Raiden说:有个思路我和你赞同,一是没有不好的算法,只有不适合的算法,小样本分类思路比较适合这种场景。另外,我很怀疑95%以下的分类准确率能非常好的判断文中所述的起重机状态流程是否正确。 这个场景是不是只做下起重机的静止状态异常更有实际意义。
3.后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式
摘要:这篇文章探讨了计算机视觉领域的模型选择问题,指出仅依靠ImageNet准确率无法完全衡量模型性能。研究者通过对比不同架构和训练范式的模型行为,发现它们在错误率、校准效果、稳健性和可迁移性等方面存在差异。文章强调需要更详细的评估指标来选择特定情境下的模型,并建立与ImageNet无关的新基准。
Raiden说:论文值得细看,尤其是ConvNeXt和transformer的对比,值得深入研究。在目前这个阶段,CNN死而不僵,transformer大行其道,它们有其各自适合的场景,算法开发人员还是要谨慎评估和选择,而不是一味追求新东西。
摘要:Yolov8-OBB
Raiden说:旋转目标检测,很有实际意义,我理解旋转目标标注噪音更小,更容易训练收敛。