创新Transformer!面壁基于稀疏-线性混合架构SALA训练9B模型,端侧跑通百万上下文

AI科技评论 2026-02-11 22:05
9B模型实现端侧百万上下文推理,比同尺寸模型速度最高提升 3.5 倍。
推荐阅读