RESEARCH30
Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents
arXiv CS.CL·24 de abril de 2026
Modelos de Visão-Linguagem (VLMs) frequentemente falham na interpretação de gráficos interativos devido a uma "Pixel-Only Bottleneck", tratando-os como imagens estáticas. Este trabalho apresenta o Introspective and Interactive Visual Grounding (IVG), uma estrutura que combina introspecção baseada em especificações e interação baseada na visualização para resolver ambiguidades visuais e melhora significativamente a precisão.
AI AccuracyVision-Language ModelsVisual Groundingbenchmarkingdata visualization
Ler original ↗