heapsort-ai
ARTICLE↑ trending43

Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]

Reddit r/MachineLearning·12 de abril de 2026

Este repositório educacional em PyTorch implementa diversas técnicas de paralelismo para treinamento distribuído, como DP, FSDP, TP e PP, do zero. Ele expõe a lógica de forward/backward e os coletivos explicitamente, permitindo a compreensão direta dos algoritmos e padrões de comunicação sem abstrações de alto nível.

distributed trainingFSDPdeep learningParallelismPyTorch
Ler original