在计算机视觉领域,如何让人工智能像人类一样观察并描述图像的每一个细节,一直是技术难题。近日,苹果公司携手威斯康星大学麦迪逊分校正式发布了一款名为RubiCap的全新AI训练框架。

该框架专注于“密集图像描述”,旨在使AI能够精准捕捉并解释图像中的细节信息,例如“桌上的红苹果”或“远处的行人”,而不仅仅是给出笼统的图像总结。

强化学习带来突破:Qwen2.5担任“裁判”角色

传统的图像标注通常依赖昂贵的人力或庞大的模型,这些模型容易产生幻觉现象,导致数据质量不稳定。苹果研究团队通过创新的强化学习机制解决了这一问题。系统首先利用GPT-5和Gemini 2.5 Pro生成候选描述,随后Gemini 2.5 Pro优化评分标准,最终由Qwen2.5模型作为裁判,提供评分和反馈。

这种结构化且精准的反馈机制,使模型在训练过程中能够清晰识别并纠正错误,从而在参数规模较小的情况下实现更高的描述准确率。

小型模型的胜利:低幻觉率超越万亿参数大模型

基于该框架训练的RubiCap系列模型,参数规模从20亿到70亿不等,在测试中表现出色。实验数据显示,70亿参数的RubiCap模型在盲测中排名最高,其“幻觉”错误率甚至低于一款拥有7200亿参数的先进大模型。更令人惊讶的是,30亿参数的迷你版本在某些指标上表现优于70亿参数版本,体现出紧凑模型的强大潜力。