一种无监督对比学习的多模态数据增强和编码方法

未命名 10-09 阅读：154 评论：0

1.本发明涉及大数据处理、自然语言处理、智能信息处理等领域，涉及数据增强方法的设计与应用，具体涉及一种无监督对比学习在人-机结合的多模态数据增强和编码方法。

背景技术：

2.近年来，随着大数据和人工智能技术的快速发展，多模态数据处理逐渐成为智能信息处理领域的热门方向。多模态数据包括音频、视频、图像等多种类型的数据，这些数据往往在不同的模态下具有不同的表现形式和特征。多模态数据的应用十分广泛，包括语音识别、图像分类、智能交互等。使用多模态数据进行增强和编码能够提高机器学习模型的性能和准确率，尤其是在语音识别、图像识别、自然语言处理等领域中。然而，多模态数据通常具有高维度和复杂的结构，如何对这些数据进行有效的编码和表示也是一个难点。数据增强和编码是实现高精度和鲁棒性模型的关键因素。
3.针对数据增强和数据编码，一般采用传统的信号处理算法或机器学习方法，将原始信号通过频域、时域或空间维度的变换，产生更多可训练样本，通过神经网络模型对样本编码，并在实际应用中发挥作用。近年来最有代表性，且受到广泛关注的是对比学习。
4.对比学习首次被用于计算机视觉领域和自然语言处理领域的表示学习，随着应用的增加，它已被用于数据的增强和编码。首先，通过数据增强技术构造正样本对和负样本对，然后通过最大化正样本对的相似性和最小化负对的相似性来学习数据的编码。zhang等人在2022年提出使用不同的模拟时间序列样本优化分类器，并将对抗性培训与自我监督学习相结合，以进行情感识别。nonnen-macher等人在2022年提出了一种基于目标的对比方法，利用专家特征来鼓励学习表征的两种属性。jiang等人在2021年使用自监督的学习方法来组合预测和对抗模型，以提高原始时间序列基础语义的效率。然而，以前框架中的编码器只使用增强视图进行训练，所学的代表需要包括原始数据的潜在特征。对于下游任务，大多数对比方法都忽略了数据增强产生的偏差。
5.增强方法用于构造正对和负对。franceschi等人在2019年将采样子系列视为增强对。yang&hong在2022年采用dropout策略，随机掩盖部分原始数据。zhang等人在2022年将时间序列转换为频域。mohsenvand等人在2020年提出选择不同的变换，如缩放和置换，来学习变换-不变表示。通常，对比学习方法使用同一增强方法的两个变体。eldele等人在2021年提出采用不同的增强来提高表示的鲁棒性和收敛效率。然而，训练分类器和微调下行任务的编码器是基于原始的未增强数据。未增强数据和增强数据之间的偏差只能通过线性网络或传统的机器学习方法，如svm、knn等进行优化。大多数对比框架忽略了编码器具有更好的感知和最小化数据增强偏差的能力。

技术实现要素：

6.针对现有技术中大多数对比方法忽略了数据增强产生的偏差，以及忽略了编码器具有更好的感知和最小化数据增强偏差的能力的现状，本发明提供了一种无监督对比学习
的多模态数据增强和编码方法，由对比学习框架中的数据增强过程引入数据增强偏差(dab)问题，设计dab感知的对比学习框架来感知dab，减轻它对下游任务的影响，提升数据编码能力。
7.本发明的一种无监督对比学习的多模态数据增强和编码方法，包括如下步骤：
8.步骤1：进行多模态数据增强和样本对构建。通过预设的差异化数据增强方法对输入的多模态时间序列进行数据增强，构建样本对；对同一个样本的不同增强结果构建正样本对，对不同样本之间的任意增强结果构建负样本对。
9.步骤2：将原始样本与增强样本分别通过编码器编码，获得样本特征，对样本对保留正负样本关系。
10.步骤3：利用时间与上下文对比模块进行时间交叉预测和上下文对比学习，优化样本特征；
11.(1)将原始样本特征流与不同的增强样本特征流输入时间与上下文对比模块；在时间与上下文对比模块中，使用两个注意力映射模块作为时间编码模型，采用交叉视图预测方式，使用一种增强样本特征流预测另一种增强样本的未来时间步；使用不同的增强样本特征流同时预测原始样本的未来时间步；基于增强样本特征流和原始样本特征流设计时间交叉预测的损失函数，挖掘正负样本对之间的时间差异性；
12.(2)在时间与上下文对比模块中，利用上下文对比模块先对输入的原始样本特征与增强样本特征进行非线性投影后，再分别计算增强样本间相似性的损失函数，原始样本与增强样本间相似性的损失函数；
13.(3)将时间交叉预测的损失函数，增强样本间相似性的损失函数，以及原始样本与增强样本间相似性的损失函数进行加权合并，作为时间与上下文对比模块的总体损失，通过最小化总体损失最小化数据增强偏差，优化样本特征。
14.步骤4：利用优化的样本特征输入分类模型进行分类或预测。
15.所述的步骤3中，时间与上下文对比模块的总体损失表示为计算如下：
[0016][0017]
其中，λ1、λ2、λ3和λ4是固定标量超参数，表示每个损失的相对权重；为预测未来尺度增强样本特征的损失，为预测未来时间增强样本特征的损失，为增强样本相似性的上下文对比损失，是针对原始样本与时间增强样本相似度的上下文对比损失，是针对原始样本与尺度增强样本相似度的上下文对比损失。
[0018]
本发明方法中，利用预训练和微调方案训练模型参数，在预训练阶段，采用对比学习方案训练编码器、时间与上下文对比模块和分类模型的参数，在微调阶段，固定编码器和时间与上下文对比模块中的参数，仅优化分类模型的参数。
[0019]
与现有技术相比，本发明的多模态数据增强和编码方法的优点在于：
[0020]
(1)本发明方法通过差异化数据增强方法对原始数据的进行增强，通过时间-尺度增强策略，使得增强后的数据之间的差异性更强，提升了对比学习所学到的数据编码能力；
[0021]
(2)本发明方法在无监督对比学习中引入未增强特征流，与原本的差异化数据增强方法结合，在不影响数据编码能力的同时，降低了由数据增强引入的数据偏差问题对下游任务的影响；本发明方法在时间交叉预测和前后文对比学习中，利用原始数据的编码，构
建了新的优化损失函数，计算预测结果与未增强数据的特征差异，缩小增强样本与未增强样本对的前后文编码差异，以构建偏差更小的前后文信息
[0022]
(3)本发明方法采用了深度学习的无监督对比学习技术手段，通过构建未增强特征流，使无偏差数据特征参与梯度和损失计算，令数据编码模块感知了数据增强带来的偏差影响，减少了数据增强偏差对下游任务的影响，具有多模态数据增强和无标签数据编码优势，提升了对比学习所学到的数据编码能力，且在不影响数据编码能力的同时，降低了由数据增强引入的数据偏差问题对下游任务的影响。本发明方法是应用于多种模态数据的通用型方法，针对信号、藏文文本等具体问题均可减少数据增强的偏差问题。
附图说明
[0023]
图1为本发明的无监督对比学习的多模态数据增强和编码方法的拟议架构图；
[0024]
图2为具有不同增强策略的har数据集的分类性能图；
[0025]
图3为具有不同未增强特征的har数据集的分类性能图。
具体实施方式
[0026]
下面结合附图和实施例来对本发明技术方案进行详细说明。
[0027]
本发明的一种无监督对比学习的多模态数据增强和编码方法，首先，定义由对比学习框架中的数据增强过程引入的数据增强偏差问题；进而，设计dab感知的对比学习框架来感知dab，并减轻它对下游任务的影响。所设计的对比学习框架由两个数据流组成，即dab特征流(dabfs)和未增强特征流。dabfs提取了数据增强的时间特征和上下文特征，dabfs采用具有数据增强速度尺度策略的转换不一致性模块。在未增强特征流中，未增强数据的特征也被提取并与增强数据一起输入对比模块，以构建dab意识的负对和正对。未增强特征流有助于感知和最小化dabfs学习表示中存在的dab问题。时间对比模块旨在借助未增强特征流最小化学习表示中的dab，并在更高维度中提取时间和上下文特征。最后，通过实验验证，对平均准确性等评估指标，本发明方法与传统自监督学习相比有所提升。
[0028]
本发明实施例的一种无监督对比学习的多模态数据增强和编码方法运行环境如下：
[0029]
运行环境：ubuntu系统，python3.9，pytorch深度学习架构；
[0030]
待处理数据的类型：多维度序列数据。
[0031]
本发明实施例的无监督对比学习的多模态数据增强和编码方法，实现框架如图1所示，图1中虚线标注了dab问题的根源。未增强特征流中的编码器、注意力和投影(非线性映射)与dab特征流(dabfs)中的块共享权重。在dabfs中，原始时间序列通过具有时间-尺度增强策略的差异性转换增强模块转换为两种不同的视图。编码特征的时间交叉预测和前后文对比学习学习时间和上下文特征，并使用dabminloss最小化dab。下面将本发明方法分以下5个步骤说明。
[0032]
步骤1：通过数据增强模块进行多模态数据增强。本发明的数据增强模块使用具有时间-尺度增强策略的样本差异性转换增强模块，标记为tia模块。
[0033]
在对比学习的架构中，原始时间序列通过两个随机操作进行增强。通常，操作是从相同的增强算法中选择的，例如dropout、时间屏蔽和裁剪，以保留全局时间信息并保持时
间序列的原始属性。不同的增强可以提高学习表示的鲁棒性，并减少损失收敛的训练时间。
[0034]
本发明方法首先设计了差异性转换的数据增强方法，用于学习不变表示。为了获得更具辨别性的表示，采用了时间-尺度增强策略。尺度增强通过随机变化改变时间序列的大小实现。对于时间增强，应用了排列和抖动策略，该策略将时间序列随机拆分为一组时间段，随机调整时间片段位置并添加随机变化，将最大时间段数作为超参数，扩充操作不会更改时间序列的维度。随机变化的片段数和参数是根据先前关于增强的研究选择的。
[0035]
本实施例中，设原始时间序列x∈r
sum
，增强后的数据可表示为其中sum表示样本数，r
sum
表示样本空间，x
t
为对样本x经时间增强后得到的一个样本，表示时间增强操作，xs为对样本x经尺度增强后得到的一个样本，表示尺度增强操作。
[0036]
本发明通过差异化数据增强方法，同一个样本的不同增强结果可构建正样本对，不同样本之间的任意增强结果可构建负样本对，正负样本的关联关系在后续步骤中使用。
[0037]
步骤2：通过数据编码模块对原始样本和增强多模态数据样本分别进行编码。
[0038]
为了得到数据的表征，设计了数据编码模块，针对不同模态的数据分别进行卷积和池化，从而得到数据的高维度表示。并且编码模块的参数为可训练参数，通过对比学习可以提升编码模块的编码效果。本实施例中的编码器采用了3块卷积架构。编码器的复杂性由超参数控制，以确保表示和泛化能力得到平衡。编码操作定义为其中，为编码操作，此处x表示一个原始样本或增强样本，d是每个时间样本的特征长度，te是每个时间序列表征的时间戳数。如图1所示，本发明方法中，原始样本与增强样本均需要经编码器编码，获得样本的高维度表示，如x
t
经编码器编码后获得特征z
t
，将xs经编码器编码后获得特征zs，与此同时，原始时间序列x也被编码为特征zu，用于下一步的偏差感知；zu被馈入时间对比模块。
[0039]
本步骤对原始样本与增强样本编码之后的特征在后续步骤中使用，用以解决数据增强偏差问题。数据编码会随着训练过程不断增强，最后用于步骤5中。
[0040]
步骤3：通过时间与上下文对比模块对编码特征进行时间交叉预测。
[0041]
与图像和自然语言数据不同，时间特征的认知对于时间序列编码至关重要。时间交叉预测旨在增强最终表示的时间信息部分。时间与上下文对比模块首先使用两个注意力映射模块作为时间编码模型，由于transformer具有时间相关性的特征提取能力，因此基于transformer encoder进行了编码。transformer encoder由多头注意力和前馈网络组成。
[0042]
transformer encoder中，首先，设将h个不同的线性投影应用于输入，并将结果映射到并行查询矢量q、键矢量k和值矢量v。其次，在qi,ki(i≤h)上执行点积，以计算相似性分数。再应用归一化操作来稳定梯度。然后，通过softmax操作计算vi的权重，并应用另一个点积。前馈网络由两个具有relu激活的线性变换组成。
[0043]
设经步骤2编码后的时间片段和表示为和原始样本特征流表示为其中m是transformer encoder隐藏层的维度，r为实数集。然后，根据已知c
t
，即或用于预测未来的时间步数z
t,k
,k＝z
t+k
,1≤k≤k，其中时间步t从1到(te-k)随机选择，k是一个超参数。z
t,k
对应从z
t
到z
t+k
的时间步。在预测时采
用了交叉视图预测。时间表示用于预测尺度未来时间步数反之亦然，用于预测与此同时，为了最大限度地减少dab，和都用于预测未增强样本的未来时间步具体来说，c
t
被一组线性层映射为与z
t
具有相同的维度。编码特征的时间交叉预测旨在优化正样本对的预测性能，最小化负样本对的预测性能，并最小化时间特征的dab。因此，损失函数定义如下：
[0044][0045][0046]
其中，分别为预测的损失函数；上角标t表示转置；分别为两种增强样本对应的在未来时间步(t+k)的真实值，为原始信号在未来时间步(t+k)的真实值；下角标neg表示来自负样本对的样本特征，对于负样本对，一个minibatch中来自不同样本的增强特征，在时间步t+k的真实值定义为中来自不同样本的增强特征，在时间步t+k的真实值定义为为一个minibatch中来自不同样本的原始特征，在时间步(t+k)的真实值。
[0047]
步骤4：通过时间与上下文对比模块对编码特征进行前后文对比学习。
[0048]
如图1所示，时间与上下文对比模块中通过上下文对比模块进行前后文对比学习，以学习更多的判别性表示，上下文对比模块中，首先将非线性投影head应用于和设非线性映射得到c
t
为或m是transformer encoder隐藏层的维度。
[0049]
给定n个时间序列样本，tia模块产生2n个增强样本。大多数对比学习方法只将2n增强样本输入编码器，每个样本只有一个正对和2(n-1)个负对。本发明方法注意到未增强的n个原始样本，并将其与增强样本并行输入编码器进行特征编码，生成未增强特征流，构建dab意识的负样本对和正样本对。
[0050]
对于上下文对比模块，评估时间增加样本和尺度增强样本之间的相似性对于学习区分性表示很重要。最大化正对的相似性，最小化负对的相似性，增强样本相似性的损失函数定义如下：
[0051][0052]
其中，分别表示对第i个原始样本的不同增强样本进行非线性投影得到的向量，表示第k(k≠i)个原始样本的某一增强样本进行非线性投影得到的向量；s、t分别标记尺度增强方式和时间增强方式；k取值从1到2n；sim(u,v)＝u
t
v/||u||||v||，表示l2归一化u和v的点积，即计算余弦相似性；τ是温度参数，以帮助模型从负值中学习。
[0053]
本发明还要评估原始样本和增强样本之间的相似性，使编码特征更接近原始数据分布，从而最大限度地减少提取的上下文特征的dab。这种相似性进行了如下优化：
[0054][0055][0056]
其中，是针对原始样本与尺度增强样本相似度的上下文对比损失，是针对原始样本与时间增强样本相似度的上下文对比损失；表示对第i个原始样本进行非线性投影得到的向量；sim(u,v)＝u
t
v，表示点积，即点相似性。
[0057]
时间与上下文对比模块中的总体损失是模块中所有损失函数的合并，如下所示：
[0058][0059]
其中，λ1、λ2、λ3和λ4是固定标量超参数，表示每个损失的相对权重。
[0060]
最小化总体损失即最小化数据增强偏差dabminloss，dabminloss最小化了提取的时间和上下文特征的dab。因此，学习的特征编码具有较低的dab，这可以在下游任务中实现更好的性能。
[0061]
步骤5：利用优化特征进行下游任务的分类。
[0062]
设计全连接网络，利用步骤2数据编码优化后的特征进行分类或预测，并评估数据增强与编码结果。本发明方法利用预训练和微调方案，在预训练时采用对比学习方案训练整体模型的参数，在微调时，固定步骤2、3和4中的模型参数，仅优化步骤5的分类模型参数。
[0063]
利用准确率、召回率等指标评估模型，在三个现实世界的时间序列任务上评估了本发明方法，包括睡眠阶段分类(sleep-edf)、人类活动识别(har)和癫痫发作预测(epilepsy)。将本发明方法(简称dabaclt)与现有较先进的方法进行比较。使用pytorch重新构建用于对比的基线方法。基线模型的超参数被设置为在其文章或开放源代码中引入的最佳内容。数据分为60％、20％和20％，用于训练、验证和测试，考虑sleep-edf数据集的个体拆分，以避免过度拟合。实验用五个不同的种子重复测试五次，记录了平均值avg.acc和标准差mf1。对于时间增强，本发明实施例将ns设置为5，而对于尺度增强，将所有数据集的缩放比设置为0.1。对于损失函数，设置λ1＝1，λ2＝1，λ3＝0.7，λ4＝0.4。
[0064]
实验结果如下表1所示。
[0065]
表1本发明方法与基线方法的性能对比
[0066][0067]
其中，dabaclt代表本发明方法，对比的基线方法包括：(1)有监督：编码器和分类器模型的监督训练；在上表简称supervised；(2)simclr(chen等人，2020年)；(3)ts-tcc(eldele等人，2021年)；(4)ts2vec(yue等人，2021年)。上表显示，只使用一个线性分类器，本发明方法在三个数据集中的两个上表现最好，同时在第三个数据集上实现了与监督方法
相当的性能。与自监督学习相比，本发明方法的平均准确性在睡眠阶段分类数据上提高了1.08％至23.94％，在人类活动识别数据上提高了2.96％至5.05％，在癫痫发作预测数据上提高了0.46％至1.92％。结果表明，本发明方法充分学习了时间序列中的时间和上下文信息，并进一步感知并最小化增强和未增强表示之间的dab。
[0068]
为了进一步证明本发明方法的时间-尺度策略的差异性转换增强方法(tempo-scale)的有效性，将本发明方法与其他四种增强策略：切片(slice)、缩放(scaling)、dropoout和置换(permutation)，进行比较。har数据集上不同增强的分类准确性比较如图2所示。由图2可以看出，本发明的时间-尺度策略在平均精度方面表现最好，这表明差异性表示是使用时间-尺度转换增强来学习的。此外，考虑到使用相同增强方法的随机变换会产生两个相似的视图，本发明方法的差异性转换增强方法生成了具有更多信息熵的视图。之前的研究认为dropout策略是最好的增强。然而，当感知dab时，构建的差异特征越多，模型可以实现更好的性能。虽然增强过程引入了dab，但它可以被编码特征的时间交叉预测和前后文对比学习模块感知和最小化，这意味着差异性转换增强方法对本框架来说更适用。
[0069]
未增强特征流是本发明方法的重要组成部分，其中包括未增强的时间序列、编码表示以及对比学习模块中的损失函数。本发明方法认为，dab存在于不同级别的特征中，并且可以通过不同的未增强特征最小化。为了评估未增强特征流是否确实有助于感知编码中的dab，对har数据集进行了消融实验。本发明比较了四种情况：(1)抹去未增强特征流，图中标记为drop all ufs情况；(2)在编码特征的时间交叉预测中抹去未增强特征，图中标记为drop uf in daba-tc情况；(3)在编码特征的前后文对比学习中抹去未增强特征，图中标记为drop uf in daba-cc情况；(4)完整的未增强特征流，图中标记为no drop情况。图3显示了四种情况的分类性能。当删除完整未增强特征流时，框架仍然可以学习时间和上下文信息，然而，分类性能不如使用其他三种情况。此外，完整的本发明方法实现了最佳的平均准确度，这意味着未增强特征流对dab感知和最小化非常有价值。
[0070]
除说明书所述的技术特征外，均为本专业技术人员的已知技术。本发明省略了对公知组件和公知技术的描述，以避免赘述和不必要地限制本发明。上述实施例中所描述的实施方式也并不代表与本技术相一致的所有实施方式，在本发明技术方案的基础上，本领域技术人员不需要付出创造性的劳动即可做出的各种修改或变形仍在本发明的保护范围内。

技术特征：
1.一种无监督对比学习的多模态数据增强和编码方法，其特征在于，包括如下步骤：步骤1：对输入的多模态时间序列进行数据增强，构建样本对；预设差异化数据增强方法，包含不同增强方式，对输入样本通过不同增强方式构建增强样本；正样本对由同一原始样本的增强样本构建，不同样本的任意增强样本构建负样本对；步骤2：将原始样本与增强样本分别通过编码器编码，获得样本特征，对样本对保留正负样本关系；步骤3：利用时间与上下文对比模块进行时间交叉预测和上下文对比学习，优化样本特征；(1)将原始样本特征流与不同的增强样本特征流输入时间与上下文对比模块；在时间与上下文对比模块中，使用两个注意力映射模块作为时间编码模型，采用交叉视图预测方式，使用一种增强样本特征流预测另一种增强样本的未来时间步；使用不同的增强样本特征流同时预测原始样本的未来时间步；基于增强样本特征流和原始样本特征流设计时间交叉预测的损失函数，挖掘正负样本对之间的时间差异性；(2)在时间与上下文对比模块中，利用上下文对比模块先对输入的原始样本特征与增强样本特征进行非线性投影后，再分别计算增强样本间相似性的损失函数，原始样本与增强样本间相似性的损失函数；(3)将时间交叉预测的损失函数，增强样本间相似性的损失函数，以及原始样本与增强样本间相似性的损失函数进行加权合并，作为时间与上下文对比模块的总体损失，通过最小化总体损失最小化数据增强偏差，优化样本特征；步骤4：利用优化的样本特征输入分类模型进行分类或预测。2.根据权利要求1所述的方法，其特征在于，所述的步骤1中，差异化数据增强方法中设置时间增强策略和尺度增强策略；尺度增强是指通过随机变化改输入的时间序列样本的大小；时间增强是指将时间序列样本随机拆分为一组时间段，随机调整时间片段位置并添加随机变化。3.根据权利要求1所述的方法，其特征在于，所述的步骤3中，使用transformer encoder作为注意力映射模块，设输入的两种增强样本特征时间序列分别为和分别标记为和时间步t从1到(te-k)随机选择，利用预测未来时间步数利用预测未来时间步数的k＝{z
t+k
,1≤k≤k}，k为超参数，te为每个样本时间序列中的时间戳数；同时使用和预测原始样本的未来时间步数4.根据权利要求1或3所述的方法，其特征在于，所述的步骤3中，标记步骤2获得的在时间步i的原始样本特征为对应的时间增强样本特征为和尺度增强样本特征在交叉视图预测中，标记输入的增强样本特征流为和时间步t从1到(te-k)随机选择，利用特征流预测未来从到的时间步利用特征流预测未来从到的时间步1≤k≤k；设计时间交叉预测的损失函数如下：
其中，为预测的损失函数，为预测的损失函数，上角标t表示转置，表示将或进行线性映射，映射为与或具有相同维度的向量；分别为时间增强样本和尺度增强样本对应在未来时间步(t+k)的真实值，为原始样本在未来时间步(t+k)的真实值；分别为来自负样本对中的原始样本、时间增强样本和尺度增强样本在时间步(t+k)的真实值。5.根据权利要求1或2所述的方法，其特征在于，所述的步骤3中，上下文对比模块计算原始样本与增强样本间相似性的损失函数如下：原始样本与增强样本间相似性的损失函数如下：其中，是针对原始样本与尺度增强样本相似度的上下文对比损失，是针对原始样本与时间增强样本相似度的上下文对比损失；分别表示对第i个原始样本、第i个原始样本的尺度增强样本、第i个原始样本的时间增强样本进行非线性投影得到的向量；k取值从1到2n；n为原始样本数，对应生成n个尺度增强样本和n个时间增强样本；τ是温度参数；sim(u,v)＝u
t
v，表示向量u和v的点积。6.根据权利要求1或2所述的方法，其特征在于，所述的步骤3中，时间与上下文对比模块的总体损失表示为计算如下：其中，λ1、λ2、λ3和λ4是固定标量超参数，表示每个损失的相对权重；为预测未来尺度增强样本特征的损失，为预测未来时间增强样本特征的损失，为增强样本相似性的上下文对比损失，是针对原始样本与时间增强样本相似度的上下文对比损失，是针对原始样本与尺度增强样本相似度的上下文对比损失。7.根据权利要求1所述的方法，其特征在于，所述的方法中，利用预训练和微调方案训练模型参数，在预训练阶段，采用对比学习方案训练编码器、时间与上下文对比模块和分类模型的参数，在微调阶段，固定编码器和时间与上下文对比模块中的参数，仅优化分类模型的参数。

技术总结
本发明公开了一种无监督对比学习的多模态数据增强和编码方法，涉及数据增强方法的设计与应用。本发明方法包括：通过差异化数据增强方法对输入的多模态时间序列进行数据增强，构建正负样本对；将原始样本与增强样本分别通过编码器编码，获得样本特征；利用时间与上下文对比模块进行时间交叉预测和上下文对比学习，引入原始样本，最小化数据增强偏差，优化样本特征；利用优化的样本特征输入分类模型进行分类或预测。本发明在对比学习框架中的数据增强过程引入数据增强偏差问题，令数据编码模块感知了数据增强带来的偏差影响，减少了数据增强偏差对下游任务的影响，并提升了数据编码能力。力。力。

技术研发人员：郑宇博罗莹莹邵恒益张琳李蕾
受保护的技术使用者：北京邮电大学
技术研发日：2023.07.03
技术公布日：2023/10/7

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种云原生应用漏洞检测方法、装置、系统及介质与流程 下一篇：一种自动匹配会议的方法与系统与流程

一种无监督对比学习的多模态数据增强和编码方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种无监督对比学习的多模态数据增强和编码方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表