多模态深度学习方法和应用的回顾¶

Abstract¶

深度学习已经实现了广泛的应用，并在近年来变得越来越受欢迎。多模态深度学习（MMDL）的目标是创建能够处理和链接使用各种模态的信息的模型。尽管对单模态学习进行了广泛的开发，但它仍然无法涵盖人类学习的所有方面。当各种感官参与信息处理时，多模态学习有助于更好地理解和分析。本文关注多种类型的模态，即图像、视频、文本、音频、身体手势、面部表情和生理信号。提供了对基线方法的详细分析和对过去五年（2017年至2021年）在多模态深度学习应用中的最新进展的深入研究。提出了各种多模态深度学习方法的细粒度分类，详细阐述了不同应用。最后，分别突出了每个领域的主要问题，并提出了可能的未来研究方向。

Motivation¶

深度学习已经在各种应用中得到了广泛的实施，并在近年来变得越来越流行。多模态深度学习（MMDL）的目标是创建能够处理和链接使用各种模态的信息的模型。尽管对单模态学习进行了广泛的开发，但它仍然无法涵盖人类学习的所有方面。多模态学习有助于更好地理解和分析，当各种感官参与信息处理时。

Brief Outline Of Topic¶

简介 (Introduction)
本文关注多种类型的模态，即图像、视频、文本、音频、身体手势、面部表情和生理信号。提供了对基线方法的详细分析和对过去五年（2017年至2021年）在多模态深度学习应用中的最新进展的深入研究。
多模态深度学习方法 (Multimodal Deep Learning Methods)
提出了各种多模态深度学习方法的细粒度分类，详细阐述了不同应用。
主要问题 (Main Issues)
分别突出了每个领域的主要问题，并提出了可能的未来研究方向。

Contents¶

多模态图像描述 (Multimodal Image Description, MMID)¶

图像描述主要用于生成输入图像的视觉内容的文本描述。在深度学习时代，计算机视觉（CV）和自然语言处理（NLP）两个不同的领域被合并来进行图像描述。在这个过程中，主要使用了两种模态，即图像和文本。图像描述框架被分类为基于检索的、基于模板的和基于深度学习的图像描述。在这篇文章中，详细解释了基于深度学习的图像描述技术，这些技术进一步被分类为基于编码器-解码器的、基于语义概念的和基于注意力的图像描述。

基于编码器-解码器的图像描述 (Encoder-Decoder based Image Description, EDID)：EDID在使用深度学习架构的图像标注任务中起着至关重要的作用。CNN架构主要用作编码器部分，从图像中提取和编码数据，而RNN架构用作解码器部分，解码并生成标注。
J. Wu和H.hu [106] 提出了一个 级联递归神经网络 (Cascade Recurrent Neural Network, CRNN) 用于图像描述。CRNN采用级联网络从前向和后向方向学习视觉语言交互。
M. Chen等人 [21] 提出了一个 基于参考的LSTM模型 用于图像描述任务。在这个模型中，训练图像被用作提出的框架的参考，以最小化描述任务的误识别。
W. Jiang等人 [49] 提出了一个 基于编码器-解码器的递归融合网络 用于图像标注任务。在这个网络中，CNN架构被用来从输入图像中提取信息，RNN架构被用来生成文本形式的描述。
L. Guo等人 [34] 提出了一个 使用CNN的多样式图像标注框架。
基于语义概念的图像描述 (Semantic Concept-based Image Description, SCID)：SCID方法选择性地处理从图像中提取的一组语义概念。这些概念在编码阶段与图像的其他特征一起被提取，然后被合并到语言模型的隐藏状态中，输出被用来生成基于语义概念的图像描述。
W. Wang等人[101]提出了一个 基于属性的图像字幕生成框架 。通过使用显著的语义属性来提取视觉特征，并将其作为LSTM编码器的输入。
Z. Zhang等人[118]提出了一个 基于语义引导的视觉注意机制的图像字幕模型 。全卷积网络（FCN）主要用于语义分割，特别是用于密集像素级特征提取和空间网格形式的语义标签。
P. Cao等人[17]提出了一个 基于语义的图像描述模型 。在这个模型中，使用基于语义注意力的引导对LSTM架构进行描述图像。
L. Cheng等人[23]提出了一个 基于多阶段视觉语义注意机制的图像描述模型 。在这种方法中，将自上而下和自下而上的注意模块结合起来，控制视觉和语义级别的信息，以产生细粒度的图像描述。
L. Chen等人[20]提出了一个模型，通过 引入动词特定的语义角色（VSR），提高了图像字幕的准确性。该模型针对特定动作中的活动和实体角色，以提取和生成图像中最具体的信息。
基于注意力的图像描述 (Attention-based Image Description, AID)：AID起着至关重要的作用，因为它通过根据它们的上下文关注图像的不同区域来帮助图像描述过程。近年来，已经提出了各种技术来通过应用注意力机制更好地描述图像。
L. Li等人[58]提出了一个新的框架，通过使用 局部和全局注意机制来描述图像。根据上下文，将选择性的**对象级特征与图像级特征结合**起来。
P. Anderson等人[3]提出了一个 基于自下而上和自上而下的注意力的图像描述框架，以促进对图像的更深入理解和推理。
M. Liu等人提出了一个基于 双重注意机制的框架 来描述中文[62]和英文[63]的图像。文本注意机制用于提高数据的可信度，视觉注意机制用于深入理解图像特征。
B. Wang等人[98]提出了一个 使用语义注意机制的端到端深度学习方法 进行图像描述。在这种方法中，使用注意机制从特定的图像区域提取特征，以生成相应的描述。
Y. Wei等人[105]提出了一个图像描述框架，通过使用 多注意力机制来提取局部和非局部特征表示 。
W. Jiang等人[48]提出了一个 多门自我注意机制的扩展。在这个网络中，通过添加自我门控模块和注意力权重门控模块来扩展注意机制，以消除描述中的无关信息。

多模态视频描述（MMVD）¶

与图像描述类似，视频描述用于生成输入视频的视觉内容的文本描述。在这个过程中，主要使用两种模态，即视频流和文本。视频描述方法根据视觉特征提取和文本生成的不同架构组合进行分类。

CNN-RNN架构：在视频描述领域，CNN-RNN是最广泛使用的架构组合。在视觉提取（编码器）阶段使用CNN架构的变体，在句子生成（解码器）阶段使用RNN架构的变体。在深度学习时代，许多作者提出了基于这种编码器、解码器组合的视频描述技术。
R Krishna等人[52]提出了一种 使用密集字幕机制进行动作/事件检测的视频描述技术。B. Wang等人[97]提出了一个使用编码器-解码器-重构器架构的视频描述重构网络。
W. Pei等人[81]提出了一个 基于注意力机制的编码器-解码器框架 进行视频描述。
N Aafaq等人[1]提出了一个视频字幕框架，使用2D和3D的CNNs层次化地提取视频的时空动态 以获取高级语义，GRU用于文本生成部分。
S. Liu等人[64]提出了SibNet，一个 用于视频描述的兄弟卷积网络。
J. Perez-Martin等人[82]通过实施 视觉句法嵌入 来提高视觉字幕的质量。
RNN-RNN架构：在深度学习时代，RNN-RNN也是一种流行的架构组合，因为许多作者通过使用这种组合提出了各种方法。作者使用RNN架构而不是CNN来提取视频的视觉内容。在视觉提取（编码器）和句子生成（解码器）阶段都使用RNN架构的变体。
M. Rahman等人[85]提出了一个视频字幕框架，该框架使用 空间硬拉和堆叠注意力机制 修改生成的上下文。
Z. Fang等人[29]提出了一个框架来生成输入视频的 常识字幕。
Z. Zhang等人[119]提出了一个 基于编码器解码器 的密集视频字幕框架。
深度强化学习（DRL）架构：DRL是一种学习机制，其中机器可以像人类从经验中学习一样从行动中学习智能。在这种机制中，如果一个代理的行动使模型更接近目标结果，那么就会奖励或惩罚该代理。使用DRL架构的作者的主要贡献包括：
X. Wang等人[102]提出了一个用于描述视频的 基于层次的强化学习（HRL）模型。
Y. Chen等人[22]提出了一个 基于RL的框架，用于从输入视频中选择信息帧。L. Li和B. Gong[57]提出了一个E2E多任务RL框架进行视频描述。
J. Mun等人[74]提出了一个框架，其中使用 事件序列生成网络来监控 为视频生成的字幕的一系列事件。
W. Zhang等人[117]提出了一个用于描述视觉内容的 重构网络。
W. Xu等人[108]提出了一个 使用RL技术精炼生成字幕的抛光网络。
R. Wei等人[104]提出了一个框架，用于更好地探索 RL事件，以生成更准确和详细的视频字幕。

多模态视觉问题回答（MMVQA）¶

VQA是一个新兴的技术，它引起了计算机视觉和自然语言处理团队的兴趣。它是关于创建一个能够回答自然语言问题的AI系统的研究领域。从输入的图像/视频和问题中提取的特征被处理和组合，以回答关于图像的问题。VQA比文本到图像检索、视频字幕、图像字幕等其他视觉和语言功能更复杂，因为：

（1）在VQA中提出的问题不是特定的或预先确定的。

（2）VQA中的视觉信息维度较高。通常，VQA需要对图像/视频有更深入和详细的理解。

（3）VQA解决了多个计算机视觉子任务。

许多作者使用各种深度学习技术为VQA领域做出了贡献。这些方法被分为三组，即多模态联合嵌入模型、多模态基于注意力的模型和多模态外部知识库模型。

多模态联合嵌入模型（MMJEM）：MMJEM在一个共享特征空间中联合并学习多模态的表示。在VQA中，这种方法通过在模态上进行更多的推理，比图像/视频描述进一步改进了这种理念。
H. Ben-Younes等人[12]提出了一个 用于VQA的MUTAN框架。使用基于张量的tucker分解模型，通过低秩矩阵约束来参数化视觉和文本解释之间的双线性关系。
MT Desta等人[27]提出了一个框架，该框架将 视觉特征和语言与抽象推理合并。从图像中提取的高级抽象事实优化了推理过程。
R. Cadene等人[16]提出了一个 用于VQA的端到端推理网络。这项研究的主要贡献是引入了MuRel单元，该单元产生了问题和相应图像区域之间的交互。
B. Patro等人[80]提出了一个 联合答案和文本解释生成模型。使用协作相关（编码器，生成器和相关）模块来确保答案及其生成的解释是正确和连贯的。
S. Lobry等人[65]提出了一个 用于遥感数据的VQA框架，该框架可用于土地覆盖分类任务。
Z. Fang等人[29]提出了一个 使用常识推理的开放式VQA框架，其中问题是关于影响、意图和属性的。
多模态基于注意力的模型（MMAM）：在编码阶段，一般的编码器-解码器可能会在预测阶段提供一些噪声和不必要的信息。MMAM被设计用来改进通用的基线模型，以克服这个问题。注意力机制的主要目标是使用图像/视频的局部特征，并允许系统为从不同区域提取的特征分配优先级。这个概念也被用于VQA，通过关注图像的特定部分来提高模型的性能。
P. Wang等人[100]提出了一个 基于共注意机制的VQA框架。在这个框架中，共注意机制可以处理事实、图像和问题的更高阶。
Z. Yu等人[113]提出了一个 使用共注意学习的因子化双线性池化方法 进行VQA任务。双线性池化方法优于传统的线性方法，但由于其高计算复杂性和高维表示，其实际应用性受到限制。
P. Anderson等人[3]提出了一个 基于自下而上和自上而下的注意力的VQA框架。这种注意力机制使模型能够根据对象或显著的图像区域计算特征。
Z. Yu等人[112]提出了一个 用于VQA任务的深度模块化共注意网络。每个模块化共注意层都包含了问题引导的图像自我注意机制，使用图像和问题注意单元的模块化组合。
L. Li等人[56]提出了一个 关系感知图注意机制 进行VQA。这个框架将图像的视觉特征编码成一个图，为了学习问题适应的关系表示，一个图注意机制模拟了对象间的关系。
W. Guo等人[36]提出了一个 基于重新注意的机制进行VQA。注意模块将对象-词的对应关系相关联，并在彼此的引导下为问题和图像生成注意图。
多模态外部知识库模型（MMEKM）：传统的多模态联合嵌入和基于注意力的模型只从训练集中存在的信息中学习。现有的数据集并未覆盖所有的真实世界事件/活动。因此，MMEKM对于应对真实世界的场景至关重要。通过将知识库（KB）数据库链接到VQA任务，可以更大地提高VQA任务的性能。Freebase [15]，DBPedia [7]，WordNet [69]，ConceptNet [61]和WebChild [92]是广泛使用的KB。一个强大的VQA框架需要访问来自KB的广泛信息内容。它已经被有效地整合到VQA任务中，通过嵌入各种实体和关系。在深度学习时代，为VQA任务提出了各种外部KB方法。
P. Wang等人[99]提出了另一个用于VQA任务的框架，名为"基于事实的VQA（FVQA）"，该框架使用数据驱动的方法和LSTM架构来映射图像/问题查询。FVQA框架使用了DBPedia，ConceptNet和WebChild KB。
M. Narasimhan和AG. Schwing [75]提出了一个 使用外部知识资源的VQA框架，该资源包含一组事实。这个框架可以回答基于事实和基于视觉的问题。
K. Marino等人[67]提出了一个 用于VQA的外部知识数据集，该数据集包含超过14,000个问题。这个数据集包含了许多类别，如体育、科学和技术、历史等。这个数据集需要使用外部资源来回答问题，而不仅仅是理解问题和图像特征。
K. Basu等人[11]提出了一个 基于常识的VQA框架。在这个框架中，图像的视觉内容被YOLO框架提取和理解，并在答案集程序中表示。语义关系特征和额外的常识知识回答了自然语言推理的复杂问题。
J. Yu等人[111]提出了一个框架，在该框架中，图像的 视觉内容 被提取并在知识图的多个视角下处理，如语义、视觉和事实视角。

多模态语音合成（MMSS）¶

MMSS是人类行为中最重要的一部分，即通信（写作/讲话）。人类可以使用自然语言的文本和语音进行交流，分别代表自然语言的书面形式和发声形式。最新的语言和语音处理研究帮助系统像人类一样交谈。语音合成是生成机器发出的自然语言的复杂过程。文本转语音（TTS）系统将自然语言文本模态实时转换为其相应的语音波形模态。使用语音合成引入了各种实际应用，如人机交互系统，屏幕阅读器，电信和多媒体应用，说话的玩具游戏等。

目前TTS系统的主要研究目标是产生像人类一样的声音。因此，用于评估TTS系统质量的各种方面，如自然性（从生成的语音时序结构，渲染情绪和发音的角度看的质量），可理解性（在句子中产生的每个单词的质量），合成语音偏好（听者在语音和信号质量方面的选择，以便更好的TTS系统）和人类感知因素，如可理解性（接收到的消息的理解质量）。语音合成过程的主要类别包括发音TTS，连接TTS，共振峰TTS，参数TTS和深度学习TTS。

深度学习TTS（DLTTS）：在DLTTS框架中，DNN架构模拟了文本及其声学实现之间的关系。DLTTS的主要优点是在没有人类预处理的情况下开发其广泛的特性。此外，使用这些系统可以提高语音的自然性和可理解性。深度学习文本转语音框架使用DNN架构解释了文本转语音合成过程。
Y. Wang等人[103]提出了"Tacotron"，这是一个 序列到序列的TTS框架，可以从文本和音频对合成语音。编码器嵌入了提取其顺序表示的文本。基于注意力的解码器处理这些表示，然后后处理架构生成合成的波形。
SO Arik等人[5]提出了 使用DNN架构的"Deep Voice"模型 来合成来自字符的音频。这个模型由五个主要的块组成，用于从文本生成合成语音。与现有的基线模型相比，计算速度增加，因为该模型可以在没有人类参与的情况下进行训练。
A. Gibiansky等人[33]提出了 Deep Voice-2架构。该框架旨在通过扩展多扬声器TTS来改进现有的最先进的方法，即Tacotron和Deep Voice-1，通过低维可训练的扬声器嵌入。在Deep Voice的第三个版本中，
W. Ping等人[84]提出了一个 基于全卷积模型和注意力机制的神经TTS系统。该模型通过适应Griffin-Lim光谱反转，WORLD和WaveNet声码器语音合成来执行并行计算。
A. Oord等人[78]提出了 WaveNet的高级版本"Parallel WaveNet"，使用概率密度分布方法来训练网络。在这个模型中，教师和学生WaveNet并行使用。
SO Arik等人[4]提出了一个 神经语音克隆系统，可以从少量样本中学习人类的声音。为此，一起使用了两种技术，即扬声器适应和编码。
Y. Taigman等人[91]提出了一个 VoiceLoop框架 用于TTS系统。这个模型可以处理无约束的语音样本，而不需要语言特性或对齐的音素。这个框架使用短移动内存缓冲区将文本转换为语音。
J. Shen等人[88]提出了"Tacotron2"。这是一个 神经TTS架构，用于直接从文本合成语音。一个基于循环的序列到序列特性预测网络可以将字符映射到光谱图，然后这些光谱图被用来通过使用WaveNet声码器的修改版本来合成波形。
F. Tao和C. Busso[93]提出了一个 使用多任务学习机制的语音识别 系统。所提出的设计考虑了跨模态和模态内的时间动态，从而产生了一个吸引人的和可行的融合方法。
Parallel Tacotron 是最近一次对神经TTS方法的出色发明，由I. Elias等人[28]提出。在推理和训练过程中，这种方法是高度并行化的，以在现代硬件上实现最佳合成。VAE的一对多映射性质提高了TTS的性能，也提高了其自然性。

Other MMDL Applications¶

多模态情绪识别（MMER）¶

MMER是增强人机交互体验的重要方式，它使计算机能够通过训练数据集学习和识别新输入，从而有效地检测、处理、响应、理解和识别人类的情绪。情感计算的主要目标是赋予机器/系统情绪智能能力。多模态情绪识别框架可以基于AI/ML原型，从各种模态（如语音、文本、图像、视频、面部表情、身体姿势和生理信号）中提取和处理情绪信息。

Y. Huang等人[45]提出了一种 使用面部表情和脑电图（EEG）信号的情绪识别融合方法。
D. Nguyen等人[77]和[76]提出了 使用音频和视频流进行情绪识别的方法。
S. Tripathi等人[94]提出了一个 使用文本、语音、面部表情和手部动作等多种模态的情绪识别框架。
D. Hazarika等人[39]提出了一个从 视频对话中识别情绪 的框架，他们还提出了另一个 使用注意力机制进行情绪检测 的框架[38]。
M. Jaiswal等人[46]分析了个体在各种压力水平下 情绪表达的变化。
L. Chong等人[24]提出了一个新的 在线聊天系统"EmoChat"，可以 自动识别用户的情绪 并在短时间内附加识别的情绪和发送的消息。
M. Li等人[59]提出了一个多步深度系统，用于通过 收集包含无效数据的数据来可靠地检测情绪。
H. Lai等人[53]提出了一个 用于交互式对话中的情绪识别 的模型。
RH Huan等人[43]提出了一个 使用注意力机制 的模型。
Y Cimtay等人[25]提出了一种 使用面部表情、皮肤电反应（GSR）和EEG信号的三种模态的情绪识别的混合融合方法。

多模态事件检测（MMED）¶

由于互联网上的媒体共享的普及，用户可以随时分享他们的事件、活动和想法。MMED系统的目标是从多种模态（如图像、视频、音频、文本等）中找到动作和事件。自动从大量用户生成的视频中检测事件和动作的机制在许多计算机视觉应用中是必需的。从这大量的数据中找到事件和动作是一项复杂且具有挑战性的任务。它在现实世界中有各种应用，如疾病监测、治理、商业等，也帮助互联网用户理解和捕捉世界各地的发生的事情。

Y. Gao等人[32]提出了一种 使用微博中的图像和文本媒体进行事件分类 的方法。
S. Huang等人[44]提出了一种使用深度学习架构 从拥挤场景中检测异常事件的无监督方法。
P. Koutras等人[51]提出了一种 使用音频和视频模态检测视频中显著事件的方法。
Z. Yang等人[109]提出了一个 从多个数据领域（如社交和新闻媒体）检测真实世界事件 的框架。

Last update: 2023-07-29
Created: 2023-07-29