一种基于深度交互适配网络模型的通用多模态学习方法

未命名 10-18 阅读：128 评论：0

1.本发明涉及一种图文特征融合方法，具体涉及一种基于深度交互适配网络模型的通用多模态学习方法。

背景技术：

2.预训练模型是指在大规模数据上进行预训练的深度神经网络模型，用以首先学习通用的特征表示，然后再特定的下游任务上进行微调，以提高性能。近年来，随着各领域大规模数据集的增加、各类自监督训练方法的涌现以及计算硬件的发展，基于预训练模型的方法在自然语言处理、计算机视觉、语音识别等领域中获得了广泛应用。其中，bert、gpt、roberta、t5等自然语言领域的预训练模型，以及resnet、vit、swin transformer等计算机视觉领域的预训练模型，都取得了出色的成果。
3.多模态学习是指将来自不同模态的数据进行联合建模，从而提高模型的性能，其中，视觉和语言多模态学习是其中一个重要分支。在视觉与语言多模态学习中，一般采用将图像和文本信息联合建模的方法，通常采用图像预训练模型和文本预训练模型分别处理图像和文本数据得到特征后使用深度神经网络进行融合交互后针对不同下游任务进行预测。在各类多模态预训练方法提出后，多模态模型开始摒弃单模态的预训练模型，直接对大量图文数据进行多模态预训练，得到多模态预训练模型，如albef、uniter、oscar等。在得到预训练模型后，将其在各类具体的多模态下游任务上进行微调得到专用模型。常见的多模态下游任务有视觉问答，视觉定位，图像描述等。
4.适配器技术是近年来深度学习领域的一项新兴技术。传统“预训练-微调”范式需要在预训练模型的基础上，基于特定下游任务的大量标注数据进行重新训练，不仅需要消耗大量计算资源，而且容易导致过拟合和性能下降。同时针对不同下游任务需要微调一个完全不同的模型，带来了大量的训练以及部署成本。适配器技术可以在保持预训练模型结构以及权重不变的情况下，在模型中间层内插入一些可训练的小型适配器模块，可以快速地学到针对特定任务的相关知识并传递给预训练模型，达到快速微调的效果，同时能够减少针对不同任务的部署成本。目前适配器技术已经在自然语言处理、计算机视觉等领域中得到了广泛的应用。在多模态领域，近期也提出了一些适配器方法，用于快速迁移预训练模型的知识到下游任务。例如，有研究者提出将预训练图像模型的输出作为大型预训练语言模型的输入，并保持预训练模型的权重不变，在大型预训练语言模型中插入一些可训练的小型适配器模块，将两个单模态的预训练大模型结合成一个多模态的模型。但是，这种适配器方法在多模态任务上的性能弱于传统的多模态预训练模型，对于单模态预训练模型的特征解析能力的利用仍然不够充分。因此，如何针对多模态任务设计一个适配器方法来更好地利用已有的单模态预训练大模型，将其快速适用于下游多模态任务，仍然是一个极具挑战性的课题。
5.[1]liu y,ott m,goyal n,et al.roberta:a robustly optimized bert pretraining approach[j].arxiv preprint arxiv:1907.11692,2019.
[0006]
[2]radford a,kim j w,hallacy c,et al.learning transferable visual models from natural language supervision[c]//international conference on machine learning.pmlr,2021:8748-8763.
[0007]
[3]radford a,wu j,child r,et al.language models are unsupervised multitask learners[j].openai blog,2019,1(8):9.
[0008]
[4]dosovitskiy a,beyer l,kolesnikov a,et al.an image is worth 16x16 words:transformers for image recognition at scale[j].arxiv preprint arxiv:2010.11929,2020.

技术实现要素：

[0009]
现有多模态预训练模型大多需要耗费大量训练时间和算力，同时需要大量图文对数据，如何在多模态任务中更好的利用现有的单模态预训练模型，仍然是一个值得探讨的问题。本发明通过为图像和文本两个单模态的预训练模型构建外部适配器网络，提取两个单模态模型的分层次特征，使用所构建的适配器进行多模态细粒度对齐融合，使单模态预训练模型可以迅速适用于多种多模态任务。
[0010]
本发明解决其技术问题所采用的技术方案包括如下步骤：
[0011]
步骤1：获取图像单模态的预训练模型，以及文本单模态的预训练模型，在两个预训练模型之间增设多模态适配器模块；
[0012]
图像预训练模型用于将图像处理得到图像特征图，并使用深度神经网络对图像特征进行推理得到最终图像特征；文本预训练模型用于对自然语言语句进行分词，并对词向量使用深度神经网络进行推理得到文本特征。所添加的多模态适配器包含自注意力模块和引导注意力模块，自注意力模块将单模态模型的中间层输出调整为更适合多模态任务以及更适合另一模态模型理解的中间层输出，引导注意力模块将来自另一模态模型的中间层输出和当前模态模型的中间层输出进行融合后注入回当前模态的中间层中。
[0013]
步骤2：分别加载图像和文本单模态模型的预训练权重参数并保持其不变，在多模态下游任务上微调训练所设计的适配器的权重参数；
[0014]
步骤3：利用所微调的多模态适配器模型在多模态下游任务上进行推理部署。
[0015]
进一步地，对步骤1所述的获取单模态预训练模型和预训练模型之间的多模态适配器模块进行进一步说明。
[0016]
1.1对选取的单模态预训练模型进行分层。
[0017]
现今以深度学习为基础的单模态模型通常采用堆叠网络层数的方式来提高模型的特征理解能力，从而提高性能。以典型的视觉单模态模型clip-vit[3]为例，模型由一个切片编码网络和一个视觉transformer编码器构成。该视觉transformer编码器由多个重复的编码器模块构成，对输入的图像特征进行细致的特征提取。编码器模块的数量由模型的大小决定，由几层到几十层不等。本发明的分层操作即将该部分堆叠重复的编码器进行分层，每一层块分配数量相等的编码器。以clip-vit-base模型为例，其内部堆叠了12层编码器模块，使用本发明的分层操作对齐进行三层分层，则每一层块分配得到4层编码器模块。注意此分层操作仅对编码器模块进行分层，不对模型前向计算时编码器的前后次序进行调整。现今流行的文本单模态模型如roberta、bert、gpt等模型由于也有类似的transformer
编码器或解码器的堆叠，所以也可以很方便地进行分层操作。对选取的图像预训练模型modelv和文本预训练模型model
t
进行分层操作，使两个模型分得数目相同的层块，分别表示为和
[0018]
1.2在两个单模态预训练模型的分层之间增设多模态适配器
[0019]
对模型进行分层完成后，在每两个层块之间增设多模态适配器。对单模态模型而言，增设的多模态适配器位置处于blocki和block
i+1
之间。具体而言，多模态适配器接受图像模型和文本模型的分层和的输出作为输入，计算得到与输入形状相同的适配器输出后又会加回到图像模型和文本模型的分层输出中。上述过程用公式表示如下：
[0020][0021][0022][0023][0024]
其中，vi表示第i个分层输出的图像特征，ti表示第i个分层输出的文本特征。ada表示多模态适配器模块，表示多模态适配器输出的第i个分层的图像特征，表示多模态适配器输出的第i个分层的文本特征。
[0025]
本发明提出的多模态适配器的说明如下：
[0026]
多模态适配器内部在接收到图像特征vi和文本特征ti之后，首先使用线性层分别对二者进行降维，降维的目的是减少适配器内部的计算量，同时将不同的单模态模型输出的特征统一到同一维度，方便后续计算。经过多个多模态下游任务上的实验表明，一定程度的降维操作不会影响适配器的性能，同时可以减小适配器的参数量。
[0027]
降维之后，将图像特征和文本特征分别使用一个自注意力模块进行处理。自注意力机制的公式可以表示为：
[0028][0029]
其中，在自注意力模块中，q、k、v均为所输入的特征。i用于索引不同的注意力头，n
head
表示注意力头的总数，softmax(
·
)表示softmax归一化函数，d
head
表示注意力头的维度，wi表示可学习的权重。
[0030]
降维后的图像特征和文本特征首先经由自注意力机制进行计算，得到的特征会再使用一个前馈神经网络进行处理，具体过程可表述成如下公式：
[0031]
feat＝attention(q，k，v＝feat)
[0032]
feat＝ffn(feat)
[0033]
其中，feat表示所输入的特征，可以是图像特征也可以是文本特征。ffn表示前馈神经网络。
[0034]
计算完成之后，得到经由自注意力模块处理的图像特征和文本特征。再使用一个引导注意力模块对其进行计算后，得到融合特征。最后的融合特征会再使用一个前馈神经网络进行计算后，加回到原本的单模态特征输出中。其公式表示如下：
[0035]vi
′
＝attention(q＝vi′
，k，v＝ti′
)
[0036]vi
＝vi+ffn(vi′
)
[0037]
ti＝ti+ti′
[0038]
其中，vi′
、ti′
分别表示经由降维和自注意力模块处理后的第i个单模态模型分块输出的特征。需要注意的是这里得到在加回原本的特征vi、ti之前，会将计算得到的特征使用线性层升维，使其回到与原本特征相同的形状后进行相加。最后输出得到的vi和ti将作为下一个单模态模型分块的输入。
[0039]
本发明提供了一种面向通用多模态学习的深度交互适配网络，包含以下内容：使用已有的图像单模态预训练模型处理图像；使用已有的文本单模态预训练模型处理自然语言语句；在保持两个单模态预训练模型的权重无需优化更新的同时，对两个单模态模型进行分层。在两个单模态模型的中间层增设多模态适配器，使用注意力机制引导两个单模态预训练模型分别使用另一模态的中间层特征输出来优化本模态的中间层特征。
[0040]
本发明的突出的实质性特点在于：通过在图像单模态预训练模型和文本单模态预训练模型的中间层之间添加额外的适配器网络，可以有效利用单模态预训练模型优秀的模态理解能力，并使其提升为多模态对齐能力，能够快速适配需要对图像和文本进行联合理解的多模态任务。与目前最优的多模态预训练模型相比，本发明在模型训练参数量大大减少的情况下取得了具有竞争力的精度。此外，本发明所提供的多模态适配器对单模态预训练模型的结构要求较少，可以适配于多种不同的单模态预训练模型从而适用于不同的多模态任务，并使模型在多模态任务中表现更好。同时，由于本方法所设计的适配器参数量较小，且保持单模态预训练模型的权重参数不变，针对不同多模态下游任务只需要加载不同的适配器即可，可使模型更易于部署。
附图说明
[0041]
图1：根据本发明示例的一个实施例构建的基于clip-vit模型和roberta模型的多模态任务适配器方法的流程图；
[0042]
图2：基于多模态预训练的多模态任务的旧范式示意图；
[0043]
图3：根据本发明所设计的基于适配器的多模态任务新范式示意图；
[0044]
图4：根据本发明的一个实施例构建的基于clip-vit模型和roberta模型的多模态任务适配器整体结构示意图；
[0045]
图5：根据本发明的一个实施例构建的多模态适配器的内部结构示意图；
具体实施方式
[0046]
下面结合附图对本发明做进一步具体说明。除非另外具体说明，附图中阐述的实例的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
[0047]
如图1所示，本发明提供的面向多模态多任务学习的深度交互适配网络构建包括三大步骤。
[0048]
其中，步骤(1)具体实现如下：
[0049]
针对图像单模态模型和文本单模态模型，在外部增设多模态适配器，图像单模态模型和文本单模态模型分别以clip-vit和roberta为例，需要说明的是，本发明对单模态模
型的限制较少，大多数图像或文本的单模态模型均可使用。
[0050]
本发明采用多模态任务的新范式，如图2和图3所示。图2表示多模态预训练范式，图3表示本发明所采用的新范式示例。在多模态预训练的旧范式中，首先设计图像模型和文本模型对大规模图文对数据集的图文对进行初步处理得到图像特征和文本特征，再使用一个多模态模型对得到的图像特征和文本特征进行联合建模对齐。针对不同的多模态预训练模型，图像模型和文本模型的设计会有所不同，而对二者的特征进行联合建模对齐的多模态模型则大多使用多层堆叠的深度注意力网络。使用以上模型结构在大规模图文对数据集上使用各种多模态预训练方法进行预训练后，在针对不同的多模态下游任务对得到的多模态预训练模型进行微调得到专用模型。在图3所示的新范式中，首先将单模态模型在各自的单模态数据集上进行预训练，再在两个单模态模型之间增设多模态适配器，再在多模态下游任务的数据集上进行微调。由于目前存在大量公开的图像单模态预训练模型和文本单模态预训练模型，预训练步骤可以省略，直接选择已有模型进行加载即可。
[0051]
具体的多模态适配器添加方法可参见图4。以clip-vit作为图像单模态预训练模型和roberta作为文本单模态预训练模型为例，图4表示加入多模态适配器后的模型整体结构，图5表示所设计的多模态适配器的具体结构。具体地，首先将图像单模态预训练模型和文本单模态预训练模型按照其层数进行分块，两个模型的分块数保持相同，在每两个分块中间插入多模态适配器模块。如图5所示，多模态适配器接受来自图像单模态模型的中间层输出和文本单模态模型的中间层输出，分别使用自注意力模块对来自单模态的特征进行处理，之后将处理得到的两个单模态特征输入到引导注意力模块中，得到融合文本特征后的图像特征。最后将多模态适配器模块输出得到的图像特征和文本特征加回到原本各自的单模态特征中，并输入回单模态模型中。
[0052]
下面以图4实施例的其中一个分层输出为例具体说明多模态适配器中对图像特征和文本特征的操作。
[0053]
在一个多模态适配器中，首先对单模态模型的中间分层输出的图像特征和文本特征进行降维，使用两个线性层将两个特征降低到256维。原始输入的图像特征作为v，原始输入的文本特征作为t，上述操作使用公式表达如下：
[0054]v256
＝linear(v)，t
256
＝linear(t)
[0055]v256
，t
256
为得到的降维特征。linear(
·
)表示所使用的的线性层。降维之后，将得到的图像特征和文本特征分别使用一个自注意力模块进行处理。
[0056]vsa
＝attention(q，k，v＝v
256
)
[0057]
t
sa
＝attention(q，k，v＝t
256
)
[0058]v′
sa
＝ffn(v
sa
)，t
′
sa
＝ffn(t
sa
)
[0059]
其中，v
sa
，t
sa
表示经由自注意力机制计算后的图像特征和文本特征，v
′
sa
，t
′
sa
表示经过前馈神经网络计算后的图像特征和文本特征。需要注意的是以上计算得到的特征均经过dropout层和层规范化层进行处理。
[0060]
计算完成之后，再使用一个引导注意力模块对得到的特征进行计算，得到融合特征。最后的融合特征会再使用一个前馈神经网络进行计算后，加回到原本的单模态特征输出中。其公式表示如下：
[0061]v′
ga
＝attention(q＝v
′
sa
，k，v＝t
′
sa
)
[0062]
v＝v+linear(ffn(v
′
ga
))
[0063]
t＝t+linear(t
′
sa
)
[0064]
其中，v
′
ga
表示经由引导注意力计算后的图像特征，该特征会在使用前馈神经网络计算后使用线性层升维，使其回到与原本图像特征相同的形状之后与原始图像特征相加。之前计算得到的文本特征也会使用线性层升维之后加回原始的文本特征。最后输出得到的vi和ti将作为下一个单模态模型分块的输入。
[0065]
需要指出的是，这一实施例主要适用于多模态下游任务中的图像问答任务，该任务主要侧重于图像中内容理解，所以在使用引导注意力机制的时候将其计算结果引导向图像特征一侧。在针对其他多模态下游任务如图像描述等任务时，模型可以将其引导注意力简单修改为引导至文本特征一侧，来更好地适应下游任务。
[0066]
步骤(2)的具体实现如下：
[0067]
针对选取的不同的单模态模型，加载其预训练参数并保持其不变，对所增设的多模态适配器的参数进行随机初始化，对整体模型进行微调训练。微调训练过程可根据不同的下游任务选择相应的数据集，并根据模型精度等要求设置相应的训练轮数、批大小、优化器以及学习率等参数，对所增设的多模态适配器参数进行微调训练更新。
[0068]
步骤(3)的具体实现如下：
[0069]
微调后的多模态适配器模型可以用于图像问答、视觉定位、图像描述等多种不同的多模态下游任务场景中。图像问答任务用于针对一副图像和一个自然语言问题进行推理回答，视觉定位任务用于针对一副图像和一个自然语言语句进行目标检测定位，图像描述任务用于针对一副图像推理生成一句自然语言描述。
[0070]
本发明涉及的模型训练过程可在服务器或云端离线进行，将经训练的模型部署到电子设备即可实现实施的多模态任务推理。该电子设备可以是终端设备或者服务器，终端设备包括手机、平板电脑等任意终端设备。服务器包括但不限于应用服务器或web服务器，可以为独立服务器、集群服务器或云服务器等。由于本发明保持单模态模型的预训练参数不变，且所增设的多模态适配器参数量较小，部署时可以为多种不同的多模态下游任务保留一份单模态模型参数，针对不同多模态任务加载不同的多模态适配器参数，减小参数存储成本。
[0071]
本模型在多种多模态下游任务上进行了效果验证试验，实验细节如下。
[0072]
实施例1
[0073]
(1)图像问答实验
[0074]
实验中，使用vqav2数据集来验证本发明在图像问答任务上的效果。视觉预训练模型采用clip-vit，文本预训练模型采用roberta，并分别使用其预训练权重进行初始化后将其权重固定。将两个模型分为三层，并插入三个所设计的多模态适配器，适配器参数进行随机初始化。模型训练13个轮次，训练的批大小为128，优化器为adam，学习率为0.0005。
[0075]
实验结果如表1所示，本发明所设计的多模态适配器方法可以很好的将两个单模态预训练模型适配到多模态任务中，并达到可以与多模态预训练模型相比较的性能。使用clip-vit的base模型与roberta的base模型进行训练后在vqav2的test-dev集上的正确率达到了73.70，高于传统的多模态预训练模型uniter以及oscar，同时也高于meter所报告的同样使用clip-vit的base模型与roberta的base模型，并将其单模态输出使用多模态编码
器进行理解训练的模型的性能。需要特别指出的是我们所提出方法需要的参数量远小于上述其他模型，新增的多模态适配器的参数量仅为6.9m，而表中其他模型的可训练参数量均在80m左右。
[0076]
表1
[0077]
模型vqa准确率uniter-base72.70oscar-base73.16meter(clip-b&roberta)71.75ours(clip-b&roberta)73.70
[0078]
实施例2
[0079]
(2)视觉定位实验
[0080]
实验使用refcoco+数据集验证本发明在视觉定位任务上的效果。本实验所用的模型整体与图像问答实验相同，仅在输出部分的线性层有所修改，从输出答案索引修改为输出四个坐标。本实验训练迭代120轮次，训练批大小为128，学习率为0.0004。最后在验证集上的准确率达到78.00。高于传统多模态预训练模型uniter、rosita，也高于使用clip-vit等模型进行训练的transvg++、dynamic mdetr等方法。
[0081]
表2
[0082][0083][0084]
实施例3
[0085]
(3)图像描述实验
[0086]
图像描述实验使用coco数据集进行验证。使用clip-vit-base模型与gpt2-base模型进行实验，同样将两个模型分为三层，并插入三个所设计的多模态适配器。模型训练18个轮次，训练的批大小为80，优化器为adam，学习率为0.00007，使用交叉熵损失进行优化。实验结果的cider分数为119.85，优于同样使用gpt2-base模型与clip-vit-base模型的i-tuning方法。
[0087]
表3
[0088]
模型cider得分oscar-base123.7
vl-t5116.5vl-adapter116.0i-tuning(gpt2-base)116.7ours(clip-b&gpt2-base)119.8

技术特征：
1.一种基于深度交互适配网络模型的通用多模态学习方法，其特征在于包括如下步骤：步骤1：获取图像单模态预训练模型和文本单模态预训练模型，在两个预训练模型之间增设多模态适配器模块；步骤2：加载单模态模型的预训练权重参数并保持其不变，在多模态下游任务上微调训练所设计的适配器的权重参数；步骤3：利用所微调的多模态适配器模型在多种不同多模态下游任务上进行推理。2.根据权利要求1所述的一种基于深度交互适配网络模型的通用多模态学习方法，其特征在于步骤1所述的增设多模态适配器模块，包括以下子步骤：步骤1.1对选取的单模态预训练模型进行分层；将单模态模型的部分堆叠重复的编码器进行分层，每一层块分配数量相等的编码器；此分层操作仅对编码器模块进行分层，不对模型前向计算时编码器的前后次序进行调整；对选取的图像预训练模型modelv和文本预训练模型model
t
进行分层操作，使两个模型分得数目相同的层块，分别表示为和步骤1.2在两个单模态预训练模型的分层之间增设多模态适配器对模型进行分层完成后，在每两个层块之间增设多模态适配器；对单模态模型而言，增设的多模态适配器位置处于block
i
和block
i+1
之间；多模态适配器接受图像模型和文本模型的分层和的输出作为输入；其计算得到的输出与输入形状相同，之后此计算输出又会加回到图像模型和文本模型的分层输出中。3.根据权利要求2所述的一种基于深度交互适配网络模型的通用多模态学习方法，其特征在于，步骤1.2中多模态适配器接受图像模型和文本模型的分层和的输出作为输入，计算得到与输入形状相同的适配器输出后又会加回到图像模型和文本模型的分层输出中；公式如下：分层输出中；公式如下：分层输出中；公式如下：分层输出中；公式如下：其中，v
i
表示第i个分层输出的图像特征，t
i
表示第i个分层输出的文本特征；ada表示多模态适配器模块，表示多模态适配器输出的第i个分层的图像特征，表示多模态适配器输出的第i个分层的文本特征。4.根据权利要求1所述的一种基于深度交互适配网络模型的通用多模态学习方法，其特征在于，步骤2中包括以下子步骤：使用步骤1所构建的模型，导入所选用的两个单模态预训练模型的权重后将其权重固定；对于多模态适配器部分的参数，使用随机初始化；将模型在下游图像问答数据集、视觉定位数据集、图像描述数据集上分别进行微调训练。5.根据权利要求1所述的一种基于深度交互适配网络模型的通用多模态学习方法，其
特征在于步骤3中包括以下子步骤：在部署时只需要保存单模态预训练模型的参数和针对不同任务的多模态适配器参数。6.一种多模态适配器，适用于权利要求3所述的一种基于深度交互适配网络模型的通用多模态学习方法，其特征在于，包括两个针对单模态的自注意力模块和一个针对多模态的引导注意力模块，所输入的图像模型的分层输出和文本模型的分层和的输出分别经由自注意力模块后，二者联合输入至引导注意力模块中计算得到融合特征，所得融合特征再经过一个前馈神经网络计算之后作为多模态适配器的输出。7.根据权利要求6所述的一种多模态适配器，其特征在于，多模态适配器内部在接收到图像特征v
i
和文本特征t
i
之后；使用线性层分别对二者进行降维，降维的目的是减少适配器内部的计算量，同时将不同的单模态模型输出的特征统一到同一维度，方便后续计算；v
256
＝linear(v)，t
256
＝linear(t)v
256
，t
256
为得到的降维特征；linear(
·
)表示所使用的的线性层；降维之后，将图像特征和文本特征分别使用一个自注意力模块进行处理；自注意力机制的公式为：其中，在自注意力模块中，q、k、v均为所输入的特征；i用于索引不同的注意力头，n
head
表示注意力头的总数，softmax(
·
)表示softmax归一化函数，d
head
表示注意力头的维度，w
i
表示可学习的权重；降维后的图像特征和文本特征经由自注意力机制进行计算，得到的特征使用前馈神经网络进行处理，公式如下：v
sa
＝attention(q，k，v＝v
256
)t
sa
＝attention(q，k，v＝t
256
)v
sa
＝ffn(v
sa
)，t
sa
＝ffn(t
sa
)其中，v
sa
，t
sa
表示经由自注意力机制计算后的图像特征和文本特征，v
′
sa
，t
′
sa
表示经过前馈神经网络计算后的图像特征和文本特征；以上计算得到的特征均经过dropout层和层规范化层进行处理；计算完成之后，得到经由自注意力模块处理的图像特征和文本特征；使用引导注意力模块对其进行计算后，得到融合特征；融合特征会使用前馈神经网络进行计算后，加回到原本的单模态特征输出中；其公式表示如下：v
′
ga
＝attention(q＝v
′
sa
，k，v＝t
′
sa
)v＝v+linear(ffn(v
′
ga
))tt+linear(t
sa
)其中,v
′
ga
表示经由引导注意力计算后的图像特征，该特征会在使用前馈神经网络计算后使用线性层升维，使其回到与原本图像特征相同的形状之后与原始图像特征相加；输出得到的v
i
和t
i
将作为下一个单模态模型分块的输入。

技术总结
本发明公开了一种基于深度交互适配网络模型的通用多模态学习方法。本发明步骤：1、获取图像单模态以及文本单模态的预训练模型，在两个预训练模型之间增设多模态适配器模块，2、分别加载图像和文本单模态模型的预训练权重参数并保持其不变，在多模态下游任务上微调训练所设计的适配器的权重参数，3、利用所微调的多模态适配器模型在多模态下游任务上进行推理部署。本发明通过为图像和文本两个单模态的预训练模型构建外部适配器网络，提取两个单模态模型的分层次特征，使用所构建的适配器进行多模态细粒度对齐融合，使单模态预训练模型可以迅速适用于多种多模态任务，并获得可与大规模多模态预训练模型相比的性能。模多模态预训练模型相比的性能。模多模态预训练模型相比的性能。

技术研发人员：余宙王眺俞俊
受保护的技术使用者：杭州电子科技大学
技术研发日：2023.07.11
技术公布日：2023/10/15

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

一种基于深度交互适配网络模型的通用多模态学习方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于深度交互适配网络模型的通用多模态学习方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表