RESEARCH27
CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge
arXiv CS.CL·7 de abril de 2026
CresOWLve é um novo benchmark para avaliar a resolução criativa de problemas em LLMs, superando as limitações dos benchmarks existentes. Ele utiliza quebra-cabeças baseados em conhecimento do mundo real, exigindo diversas estratégias de pensamento criativo e combinação de fatos para encontrar soluções.
LLMsCreative Problem SolvingbenchmarksCognitive AbilitiesReal-world AI
Ler original ↗