早于 DeepSeek-V3.2 问世!仅用 5B 长文本,完成「稀疏注意力」训练!

GitHubDaily 2025-10-10 17:05
推荐阅读