计算所严明玉团队新作： Attention 并非永远是瓶颈，多 GPU 并不一定更快

AI科技评论 2025-12-21 12:00

系统实验表明，模型推理分为计算受限的 Prefill 与内存受限的 Decode。