RESEARCH30

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

arXiv CS.CL·24 de abril de 2026

Modelos de Visão-Linguagem (VLMs) frequentemente falham na interpretação de gráficos interativos devido a uma "Pixel-Only Bottleneck", tratando-os como imagens estáticas. Este trabalho apresenta o Introspective and Interactive Visual Grounding (IVG), uma estrutura que combina introspecção baseada em especificações e interação baseada na visualização para resolver ambiguidades visuais e melhora significativamente a precisão.

AI AccuracyVision-Language ModelsVisual Groundingbenchmarkingdata visualization

Ler original ↗