DeepSeek-V3.2 128K 推理秒开?百度百舸开源 CP 上下文并行方案

百度Geek说 2025-12-24 18:00
随着大语言模型(LLM)长上下文推理需求飙升至 128K Tokens,首字延迟(TTFT)和显存压力已成为制约工业化落地的核心瓶颈。
推荐阅读