RESEARCH27

Position: Science of AI Evaluation Requires Item-level Benchmark Data

arXiv CS.AI·7 de abril de 2026

Este artigo de posição argumenta que dados de benchmark em nível de item são essenciais para uma ciência rigorosa da avaliação de IA, abordando falhas de validade sistêmicas nas metodologias atuais. Ele propõe a análise em nível de item para diagnósticos detalhados e validação de benchmarks, baseando-se em conceitos da ciência da computação e psicometria.

Benchmarks de IAAvaliação de IADados em nível de itemIA GenerativaValidade

Ler original ↗