RESEARCH27
Position: Science of AI Evaluation Requires Item-level Benchmark Data
arXiv CS.AI·7 de abril de 2026
Este artigo de posição argumenta que dados de benchmark em nível de item são essenciais para uma ciência rigorosa da avaliação de IA, abordando falhas de validade sistêmicas nas metodologias atuais. Ele propõe a análise em nível de item para diagnósticos detalhados e validação de benchmarks, baseando-se em conceitos da ciência da computação e psicometria.
Benchmarks de IAAvaliação de IADados em nível de itemIA GenerativaValidade
Ler original ↗