ARTICLEDEV.to AI·19d atrás
We Hit 99.1% on the LOCOMO Benchmark. Here's How.
O texto descreve como uma equipe alcançou 99,1% de precisão no benchmark LOCOMO, que avalia a capacidade de agentes de IA em realizar raciocínio multi-hop usando memórias armazenadas. Esse avanço significativo, superando outros sistemas, foi atribuído à remoção de uma única premissa, e não a um novo modelo complexo.
memory systemsbenchmarkingReasoningAI