ARTICLE↑ trending43

Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results

Reddit r/LocalLLaMA·10 de abril de 2026

O autor compartilha resultados de otimização de um servidor de inferência com duas GPUs para LLMs, alcançando 198 tok/s com o modelo Qwen3.5-122B NVFP4. O conteúdo detalha a configuração de hardware (2x RTX PRO 6000 Blackwell) e compara o desempenho de diferentes motores e modelos de linguagem.

Qwen3.5BenchmarkingGPU performanceLLM inferenceHardware Optimization

Ler original ↗