RESEARCH27

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

arXiv CS.CL·10 de abril de 2026

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

Vision-Language ModelsVisual ReasoningReinforced Latent Reasoningchain-of-thoughtMulti-step Reasoning

Ler original ↗