notch
RESEARCH40

Source-Modality Monitoring in Vision-Language Models

arXiv CS.CL·27 de abril de 2026

Esta pesquisa investiga o monitoramento de modalidade de origem em modelos de visão-linguagem (VLMs), definindo-o como a capacidade de rastrear a procedência da informação. Os autores avaliam como VLMs utilizam sinais sintáticos e semânticos para ligar termos às suas fontes de entrada, descobrindo que ambos são importantes, mas os sinais semânticos tendem a predominar, impactando a robustez dos modelos.

model robustnessmultimodal AIVision-Language Models
Ler original