RESEARCH37
GPT-5.4 Fails Client-Ready Test: 0% Pass Rate in Banking Benchmark
DEV.to AI·26 de abril de 2026
Um novo benchmark, BankerToolBench, revelou que os principais modelos de IA como GPT-5.4 e Claude Opus 4.6 falharam em produzir trabalho pronto para clientes em tarefas de banqueiros de investimento júnior. Apesar de liderar entre os modelos, o GPT-5.4 ainda não atendeu a quase metade dos critérios, indicando limitações significativas em aplicações profissionais complexas.
AI limitationsfinancial servicesprofessional tasksbenchmarkingGenerative AI
Ler original ↗