RESEARCH27
Beyond LLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation
arXiv CS.CL·8 de abril de 2026
Este artigo propõe OmniScore, uma família de métricas determinísticas desenvolvidas com modelos pequenos, para avaliar texto gerado de forma mais eficiente e reprodutível do que LLMs-juízes. Ele aproxima o comportamento de LLMs-juízes, preserva baixa latência e consistência, e suporta avaliações multidimensionais em 107 idiomas.
OmniScoremétricas de IAmultilíngueavaliação de textoLLM
Ler original ↗