ARTICLE↑ trending50

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

Reddit r/MachineLearning·26 de abril de 2026

O autor está migrando do ajuste fino de transformadores densos para o Nemotron 3 Nano da NVIDIA (uma arquitetura híbrida Mamba-Attention-MoE) para raciocínio multi-tarefa. Ele busca orientação sobre como a arquitetura híbrida afeta a receita padrão de ajuste fino LoRA, pois sua experiência anterior é limitada a modelos densos.

LLMsmulti-task reasoningAI architecturesFine-Tuning

Ler original ↗