微信扫码
添加专属顾问
我要投稿
Paper:YOLO-World: Real-Time Open-Vocabulary Object Detection
Abs:https://arxiv.org/abs/2401.17270
Code:https://github.com/AILab-CVC/YOLO-World在自然图像与视频目标检测与识别领域,传统方法通常在预定义类别的数据集上训练,无法识别数据集中未出现的目标类别,缺乏零样本检测能力,识别能力有限。
来自Tencent AI Lab、ARC Lab、Tencent PCG 以及华中科技大学的研究者们在 CVPR 2024 上提出了基于视觉语言建模的开放词汇YOLO-World模型,并探索针对YOLO检测器的大规模数据预训练方法,赋予 YOLO 模型零样本检测能力与语言理解能力,在推理速度和零样本检测精度上均领先先前工作。
YOLO-World模型目前已经在腾讯内部多项业务中落地,并与海外多家公司达成商业合作。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-18
突发!ChatGPT版应用商店正式发布,第三方开发者新入口!
2025-12-18
实测豆包1.8后,我终于明白字节为什么要推豆包手机了。
2025-12-18
通用Agent模型Seed1.8正式发布
2025-12-18
谷歌甩出“价格屠夫”!Gemini 3 Flash超Pro,成本仅1/4,速度如“闪电”
2025-12-18
谷歌发布Gemini 3 Flash,口述即原型,速度堪比搜索引擎
2025-12-18
2026 开年AI对谈:the year of R | 对谈真格基金戴雨森
2025-12-18
再论Skill:Agent 落地第一性原理
2025-12-18
Gemini 3 Flash闪电来袭:智力竟反超Pro!速度快3倍,全球免费
2025-10-26
2025-10-02
2025-09-29
2025-10-07
2025-09-30
2025-11-19
2025-10-20
2025-11-13
2025-10-02
2025-10-11
2025-12-16
2025-12-15
2025-12-14
2025-12-12
2025-12-12
2025-12-11
2025-12-09
2025-12-08