RESEARCH↑ trending44
[D] 60% MatMul Performance Bug in cuBLAS on RTX 5090 [D]
Reddit r/MachineLearning·10 de abril de 2026
Um bug de desempenho foi identificado no cuBLAS para operações de multiplicação de matrizes em GPUs NVIDIA RTX, como a 5090, utilizando apenas 40% da capacidade. O autor demonstrou um kernel customizado que supera o cuBLAS em até 70%, sugerindo otimização deficiente para essas GPUs em comparação com modelos Pro e H-series.
Matrix MultiplicationRTX GPUsperformance-optimizationNVIDIAcuBLAS
Ler original ↗