科学视点

自动化所研发出图文音三模态预训练模型

  近期,中国科学院自动化研究所提出全球首个图文音(视觉-文本-语音)三模态预训练模型(OPT-Omni-Perception pre-Trainer),同时具备跨模态理解与跨模态生成能力,取得了预训练模型重要进展。

  自GPT/Bert模型提出后,预训练模型迅速发展。多模态预训练模型被认为是从限定领域的弱人工智能迈向通用人工智能的路径探索,其具有在无监督情况下自动学习不同任务、并快速迁移到不同领域数据的能力。近年来,互联网音视频数据高速增长,纯文本的预训练模型只涵盖了互联网数据中的较少部分,更丰富的语音、图像、视频等数据未被充分利用与学习,且人类的信息获取、环境感知、知识学习与表达都是通过多模态信息方式来执行的。为了实现更加通用的人工智能模型,预训练模型会从单模态向多模态方向发展,将文本、语音、图像、视频等多模态内容联合起来进行学习。自动化所瞄准这一方向,构建出视觉-文本-语音三模态预训练模型

  目前,已有的多模态预训练模型通常仅考虑两个模态(如图像和文本/视频和文本),忽视了周围环境中普遍存在的语音信息,并且模型较少兼具理解与生成能力,难以在生成任务与理解类任务中同时取得良好表现。

  针对上述问题,自动化所此次提出的视觉-文本-语音三模态预训练模型采用分别基于词条级别(Token-level)、模态级别(Modality-level)以及样本级别(Sample-level)的多层次、多任务子监督学习框架,更加关注图-文-音三模态数据之间的关联特性和跨模态转换问题,对更广泛、更多样的下游任务提供模型基础支撑。该模型不仅实现跨模态理解(如图像识别、语音识别等任务),也能够完成跨模态生成(如从文本生成图像、从图像生成文本、语音生成图像等任务)。灵活的自监督学习框架可同时支持三种或任两种模态弱关联数据进行预训练,有效降低了多模态数据收集与清洗成本。

  引入语音模态后的多模态预训练模型,能够直接实现三模态的统一表示,实现了“以图生音”和“以音生图”,如下方视频所示:

视频1.以图生音示例

视频2.以音生图示例

  三模态预训练模型基本原理


  自动化所提出的视觉-文本-语音三模态预训练模型,实现了三模态间相互转换和生成。其核心原理是视觉、文本、语音不同模态首先通过各自编码器映射到统一语义空间,然后通过多头自注意力机制(Multi-head Self-attention)学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示,再利用编码后的多模态特征,通过多头自注意力机制进行通过解码器分别生成文本、图像和语音。三模态互相转化和相互生成示意如下图所示:

文音三模态相互转换与生成

  多层次多任务自监督预训练学习

  此次提出的三模态预训练模型由单模态编码器、跨模态编码器和跨模态解码器构成。针对图文音三模态数据,研究人员提出三级预训练自监督学习方式:词条级别(Token-level, Modality-level)、模态级(Modality-level masking)和样本级别(Sample-level masking) 。具体包括:

  (1)词条级别(Token-level)学习:包括:a.文本掩码建模(Masked Language Modeling):随机掩盖一些文本单词,需要模型根据上下文预测被掩盖的单词是什么;b.视觉掩码建模(Masked Vision Modeling):随机掩盖一些图像区域,让模型预测被掩盖的区域;c.语音掩码建模(Masked Audio Modeling):随机掩盖一些语音词条(token),模型需要预测被掩盖的词条(token)是什么。

  (2)模态级别(Modality-level)学习:包括文本重构和图像重构两个任务,分别学习重构输入文本和图像。研究人员引入模态级别掩码(Modality-Level Masking)机制随机地掩盖一个模态信息,使模型需要根据其他模态信息对当前模态进行重构,从而能够进行下游的跨模态生成任务。该机制带来了另一个好处,即:它使该模型不仅能够处理三模态输入,也能处理两模态输入,从而适应下游的两模态任务。

  (3)样本级别(Sample-level)学习:该预训练任务通过对每个样本随机地替换三种模态信息中的一种或两种,让模型来预测替换哪些模态。

  实验结果

  研究人员主要采用Open Images数据集作为预训练数据,该数据包含图像、文本与音频数据。研究人员还额外地使用了两模态数据(如Conceptual Caption图文数据集、Visual Genome图文数据集等)。当加入额外的两模态数据时,这些两模态与三模态数据则被随机混合进行训练。

  研究人员主要进行了以下两个方面的实验验证:

  (1)图文音三模态关联编码与相互生成性能:研究人员分别在多模态融合的图像分类、任意两模态的相互检索和语音识别任务中,与常规全监督方法进行了性能比较,均获得了性能上的显著提升。其中,在多模态融合的图像分类任务中,与常规全监督的Resnet101网络模型相比,性能提升了5个百分点;加入语音模态信息能够明显提升以文搜图的性能,验证了联合建模视觉-文本-语音三模态信息的必要性。

  (2)多模态下游任务性能:研究人员分别在跨模态检索、视觉问答与图像语义描述任务中,与当前最新的图文两模态预训练模型进行了性能比较,在补充了图文两模态数据参与预训练的模型上,获得了具有竞争力甚至更好的实验性能。

  三模态预训练模型的提出将改变当前单一模型对应单一任务的人工智研发范式,三模态图文音的统一语义表达将提升文本、语音、图像和视频等领域的基础任务性能,并在多模态内容的理解、搜索、推荐和问答;语音识别和合成;人机交互和无人驾驶等商业应用中具有市场价值。“大数据+大模型+多模态”多任务统一学习对促进技术发展具有重要意义。


分享到: