浅谈 DeepSeek mHC 一种可能的加速方案:小矩阵遇上牛顿法

统计之都 2026-02-27 09:00
本文提供了一种改进 mHC 实现的思路,为 mHC 中常见的 4×4 Birkhoff 投影设计了一套加速方案。在本文中我们通过融合最优传输方法、牛顿法、隐式微分和寄存器级别的 CUDA 算子优化,提出了一种精度和速度都显著超越现有 Sinkhorn-Knopp 方法的高效实现。
推荐阅读