ARTICLE0
Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation
arXiv CS.AI·6 de abril de 2026
O conteúdo fornecido está vazio, impossibilitando a criação de um resumo detalhado.
EvaluationrubricsbenchmarkingAI
Ler original ↗O conteúdo fornecido está vazio, impossibilitando a criação de um resumo detalhado.