RESEARCH27

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

arXiv CS.LG·24 de abril de 2026

FairyFuse é um novo sistema de inferência projetado para plataformas exclusivas de CPU, que permite a execução de modelos de linguagem grandes sem multiplicações. Ele utiliza pesos ternários ({-1, 0, +1}) para substituir multiplicações de ponto flutuante por adições e subtrações condicionais, reduzindo significativamente os gargalos de largura de banda de memória e oferecendo compressão de peso de até 16x.

inferenceCPU optimizationquantizationperformanceLLM

Ler original ↗