You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal La...

最新推荐文章于 2026-06-28 22:07:23 发布

原创最新推荐文章于 2026-06-28 22:07:23 发布 · 106 阅读

·

4

·

标签

#人工智能 #深度学习

LLM Daily 专栏收录该内容

2892 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

一、文章主要内容总结

该研究聚焦于多模态大型语言模型（MLLMs）在细粒度视觉分类（FGVC）任务中的局限性，提出了一种名为nlg2choice的两阶段方法，以提升模型的细粒度视觉识别能力。

核心背景与问题

FGVC任务面临两大挑战：选项数量极多（数百至数千个）、选项对应的概念高度专业化，现有MLLMs在这类任务中准确率大幅下降（如LLaVA-1.5在iNaturalist数据集上的细粒度物种识别准确率仅1-2%）。
传统评估方法存在缺陷：要么局限于纯语言任务，要么无法扩展到多选项场景，且计算概率时成本高昂，同时模型对提示词的微小变化极为敏感，鲁棒性不足。

nlg2choice方法设计

第一阶段：以最小约束向MLLM提出开放式问题，允许模型生成自由形式的自然语言响应（避免格式限制影响推理）。
第二阶段：采用纯文本约束解码从自由响应中提取最可能的选项；在检索场景中，引入早停机制（Truncated Prob），当某选项的后续令牌不再出现在其他选项中时停止计算概率，大幅提升吞吐量。

关键实验结果

在7个FGVC数据集（CUB200、Flowers 102等）上，nlg2choice在分类准确率和检索平均精度（mAP）上均优于传统约束解码和穷尽式提问方法。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。