RESEARCH37

GPT-5.4 Fails Client-Ready Test: 0% Pass Rate in Banking Benchmark

DEV.to AI·26 de abril de 2026

Um novo benchmark, BankerToolBench, revelou que os principais modelos de IA como GPT-5.4 e Claude Opus 4.6 falharam em produzir trabalho pronto para clientes em tarefas de banqueiros de investimento júnior. Apesar de liderar entre os modelos, o GPT-5.4 ainda não atendeu a quase metade dos critérios, indicando limitações significativas em aplicações profissionais complexas.

AI limitationsfinancial servicesprofessional tasksbenchmarkingGenerative AI

Ler original ↗