RESEARCH0
Do Audio-Visual Large Language Models Really See and Hear?
arXiv CS.AI·6 de abril de 2026
Este conteúdo discute a capacidade real de percepção (visão e audição) de Modelos de Linguagem Grandes (LLMs) multimodais que processam informações de áudio e vídeo. A análise questiona se esses modelos realmente 'veem' e 'ouvem' no sentido humano ou se apenas processam padrões complexos.
multimodal AIAI perceptionAudio-Visual LLMslarge language models
Ler original ↗