DeepSeek-V3.2 128K 推理秒开？百度百舸开源 CP 上下文并行方案

百度Geek说 2025-12-24 18:00

随着大语言模型（LLM）长上下文推理需求飙升至 128K Tokens，首字延迟（TTFT）和显存压力已成为制约工业化落地的核心瓶颈。