DOC↑ trending42

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Reddit r/LocalLLaMA·11 de abril de 2026

Este documento detalha como executar o modelo Qwen3.5-397B-A17B-MXFP4 usando vLLM em GPUs RDNA4 (como 8xR9700) para um desempenho otimizado. Ele fornece um Dockerfile com patches de Triton e instruções para baixar o modelo e lançar o contêiner de inferência.

DockerGPUMXFP4QwenvLLM

Ler original ↗