DOC↑ trending42
Run Qwen3.5-397B-A13B with vLLM and 8xR9700
Reddit r/LocalLLaMA·11 de abril de 2026
Este documento detalha como executar o modelo Qwen3.5-397B-A17B-MXFP4 usando vLLM em GPUs RDNA4 (como 8xR9700) para um desempenho otimizado. Ele fornece um Dockerfile com patches de Triton e instruções para baixar o modelo e lançar o contêiner de inferência.
DockerGPUMXFP4QwenvLLM
Ler original ↗