每日推荐
早报
搜索
登录
聚焦结构化注意力,探索提升多模态大模型文档问答性能
vivo互联网技术
2025-09-10 20:00
本文聚焦多模态大语言模型(MLLMs)在文档问答(DocQA)任务中的性能提升,提出无需改动模型架构或额外训练的结构化输入方法,通过保留文档层次结构与空间关系(如标题、表格、图像位置)优化理解能力。
推荐阅读