RESEARCH28
Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition
arXiv CS.CL·10 de abril de 2026
Este artigo apresenta um sistema de Reconhecimento de Emoção da Fala (SER) em árabe, baseado em uma arquitetura híbrida CNN-Transformer. O modelo combina camadas convolucionais para extração de características espectrais e codificadores Transformer para capturar dependências temporais, alcançando 97,8% de precisão e 0,98 de F1-score macro.
CNNDeep LearningtransformerMachine LearningSpeech Emotion Recognition
Ler original ↗