RESEARCH28

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

arXiv CS.CL·10 de abril de 2026

Este artigo apresenta um sistema de Reconhecimento de Emoção da Fala (SER) em árabe, baseado em uma arquitetura híbrida CNN-Transformer. O modelo combina camadas convolucionais para extração de características espectrais e codificadores Transformer para capturar dependências temporais, alcançando 97,8% de precisão e 0,98 de F1-score macro.

CNNDeep LearningtransformerMachine LearningSpeech Emotion Recognition

Ler original ↗