ARTICLE↑ trendingReddit r/MachineLearning·19d atrás
Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]
Este repositório educacional em PyTorch implementa diversas técnicas de paralelismo para treinamento distribuído, como DP, FSDP, TP e PP, do zero. Ele expõe a lógica de forward/backward e os coletivos explicitamente, permitindo a compreensão direta dos algoritmos e padrões de comunicação sem abstrações de alto nível.
distributed trainingFSDPdeep learningParallelism