ARTICLE↑ trending41
Takeaways & discussion about the DeepSeek V4 architecture
Reddit r/LocalLLaMA·24 de abril de 2026
Este artigo discute as novidades arquitetônicas do DeepSeek V4, destacando seu sistema de atenção híbrida (CSA + HCA) e as Manifold-Constrained Hyper-Connections. Também aborda o treinamento FP4 QAT em escala de fronteira, diferenciando-o de modelos anteriores.
DeepSeekdeep learningattention mechanismsquantizationLLM architecture
Ler original ↗