heapsort-ai
RESEARCH↑ trending44

[D] 60% MatMul Performance Bug in cuBLAS on RTX 5090 [D]

Reddit r/MachineLearning·10 de abril de 2026

Um bug de desempenho foi identificado no cuBLAS para operações de multiplicação de matrizes em GPUs NVIDIA RTX, como a 5090, utilizando apenas 40% da capacidade. O autor demonstrou um kernel customizado que supera o cuBLAS em até 70%, sugerindo otimização deficiente para essas GPUs em comparação com modelos Pro e H-series.

Matrix MultiplicationRTX GPUsperformance-optimizationNVIDIAcuBLAS
Ler original