notch
RESEARCH40

Math Takes Two: A test for emergent mathematical reasoning in communication

arXiv CS.AI·27 de abril de 2026

Este artigo propõe o Math Takes Two, um novo benchmark para avaliar o raciocínio matemático emergente em modelos de linguagem através da comunicação. Ele testa a capacidade de dois agentes sem conhecimento matemático prévio de desenvolver um protocolo simbólico compartilhado para resolver uma tarefa visualmente fundamentada, facilitando a extrapolação numérica.

language modelsmathematical reasoningAI communicationbenchmarksemergent AI
Ler original