ARTICLE↑ trending43
Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results
Reddit r/LocalLLaMA·10 de abril de 2026
O autor compartilha resultados de otimização de um servidor de inferência com duas GPUs para LLMs, alcançando 198 tok/s com o modelo Qwen3.5-122B NVFP4. O conteúdo detalha a configuração de hardware (2x RTX PRO 6000 Blackwell) e compara o desempenho de diferentes motores e modelos de linguagem.
Qwen3.5BenchmarkingGPU performanceLLM inferenceHardware Optimization
Ler original ↗