清华大学张瀚镭 - MIntRec: 一个全新的多模态意图识别数据集

机器学习算法与自然语言处理 2022-09-24 00:00

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
MLNLP Paper ReadingMLNLP社区举办的学术交流活动,旨在邀请一线青年学者领读优质论文,期待大家从论文中受益。
本期我们选取了一篇ACM MM 2022的发表工作。该工作由清华大学为第一单位完成,论文第一作者张瀚镭博士进行录制。

1

『作者信息』

Hanlei Zhang (Tsinghua University)、Hua Xu (Tsinghua University)、Xin Wang(Tsinghua University)、Qianrui Zhou(Tsinghua University)、Shaojie Zhao (Tsinghua University)、Jiayan Teng(Tsinghua University)

2

『论文摘要』

在真实多模态场景中进行意图识别是对于理解人类语言十分关键的任务。在现实生活中我们往往需要利用多种模态信息(如自然语言、视频和音频信号等)去综合判断一个人的真实意图。然而,目前多数意图基准数据集仍只包含文本模态信息,极大限制了多模态意图理解领域的发展。因此,我们提出了一个新颖的多模态意图识别数据集MIntRec,希望促进相关领域的研究。该数据集结合多模态场景构建了新的层次化意图体系,包含两个粗粒度和20个细粒度意图类别。数据来源于美剧Superstore,从中筛选了2224条高质量的多模态意图样本。每条样本包含文本、视频和音频三种模态信息以及多模态意图标签。此外,我们还实现了一个说话人标注工具,能针对每个视频片段自动获取说话人目标区域的位置信息。
MIntRec数据集能够帮助研究者们挖掘不同模态之间的交互关系,增强意图识别能力。我们对不同模态进行特征提取,并利用三个有效的多模态融合方法作为基多模态意图基准方法。通过实验表明,结合多模态信息相比于只利用文本模态在多分类任务上能够取得1~3个百分点的重要提升。我们同样进行了人类测评,然而现有方法和人类评估性能相比仍存在较大差距。如何有效利用多模态信息进行意图识别仍面临巨大挑战。

3

『论文贡献』

1. 本文提出了一个新颖的多模态意图识别数据集,包含2224条高质量的标注样本以及对应的文本、视频和音频三种模态信息。并结合多模态场景设计了新的意图分类体系,包含两个粗粒度和20个细粒度意图类别。据我们所知,这也是第一个面向真实世界对话场景的多模态意图识别数据集。
2. 本文提出了一个自动进行视频说话人标注的工具,能够在较短时间内自动收集超过120K的关键帧以及对应说话人目标区域的检测框信息,同时提供了一个12K的人工标注数据用于测试。
3. 本文对不同模态进行特征提取,搭建了文本和三个多模态融合基线方法,并进行人类性能评测。实验结果表明,相较于单文本模态,利用多模态信息能够有效提升意图识别性能。然而和人类表现相比,现有方法仍有很大的提升空间。提出的数据集为解决多模态对话意图理解挑战迈出了重要一步。

4

『一句话论文简介』

本论文提出了一个新颖的多模态意图识别数据集,针对多模态场景构建了新的意图分类体系,并设计流程自动提取说话人目标区域的位置信息,通过搭建基线方法证明了多模态信息对意图识别的重要作用,和人类评估性能的差距表明这个任务十分具有挑战性。

5

『论文信息与链接』

Hanlei Zhang, Hua Xu, Xin Wang, Qianrui Zhou, Shaojie Zhao, Jiayan Teng. MintRec: A New Dataset for Multimodal Intent Recognition. ACM MM 2022.
文章链接:https://arxiv.org/pdf/2209.04355.pdf
代码链接:https://github.com/thuiar/MIntRec
B站观看链接:https://www.bilibili.com/video/BV1DD4y1v77N

视频号观看入口:


6

『视频讲者简介』

张瀚镭,清华大学计算机系直博三年级在读,师从徐华副教授。研究兴趣为文本开放意图检测和发现,多模态意图理解,自然语言处理。以第一作者身份在AAAI/ACM MM/ACL等CCF A类国际会议发表4篇论文。曾获清华大学综合优秀一等奖学金。个人主页是https://hanleizhang.github.io/

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

推荐阅读