RESEARCH0

Do Audio-Visual Large Language Models Really See and Hear?

arXiv CS.AI·6 de abril de 2026

Este conteúdo discute a capacidade real de percepção (visão e audição) de Modelos de Linguagem Grandes (LLMs) multimodais que processam informações de áudio e vídeo. A análise questiona se esses modelos realmente 'veem' e 'ouvem' no sentido humano ou se apenas processam padrões complexos.

multimodal AIAI perceptionAudio-Visual LLMslarge language models

Ler original ↗