计算机科学与技术学科机器学习与视觉研究所系列学术报告（俞俊杭州电子科技大学）

学科建设与研究生办 2021-12-05 66

浙江师范大学数学与计算机科学学院“机器学习与视觉”专题系列报告四

报告题目：通用多模态学习

报告专家：俞俊（杭州电子科技大学）

报告时间：2021年12月06日14:00-14:40

报告地点：腾讯会议号699-492-742（浙师大MLV专题系列报告第三期）

报告摘要：使用深度神经网络对视觉、语言等不同模态信息进行统一建模的多模态深度学习是近年来的研究热点，在跨媒体检索、视觉内容描述、视觉问答等典型的多模态深度学习任务上均取得了显著的进展。得益于深度自注意力网络模型Transformer和预训练方法BERT在自然语言领域的快速发展，多模态深度学习的研究逐渐由各个任务“分而治之”向“通用统一”的方向演变，即使用单个框架适配多种类型不同的多模态任务。本报告首先对多模态深度学习发展过程中的代表性工作进行简要介绍；然后对当前通用多模态深度学习领域的三类代表性方法：基于多模态多任务联合学习、多模态神经架构搜索、多模态预训练的若干代表性工作进行详细介绍；最后，对通用多模态深度学习未来的发展进行展望和反思。

邀请人：郑忠龙