notch
RESEARCH27

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

arXiv CS.CL·7 de abril de 2026

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

LLM-as-a-JudgeConstrained MLEmodel evaluationFailure Rate EstimationLLM performanceAI safety
Ler original