RESEARCH27
FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels
arXiv CS.LG·24 de abril de 2026
FairyFuse é um novo sistema de inferência projetado para plataformas exclusivas de CPU, que permite a execução de modelos de linguagem grandes sem multiplicações. Ele utiliza pesos ternários ({-1, 0, +1}) para substituir multiplicações de ponto flutuante por adições e subtrações condicionais, reduzindo significativamente os gargalos de largura de banda de memória e oferecendo compressão de peso de até 16x.
inferenceCPU optimizationquantizationperformanceLLM
Ler original ↗