一种基于Informer的图像识别方法与流程
未命名
08-07
阅读:135
评论:0

一种基于informer的图像识别方法
技术领域
1.本发明属于图像识别领域,具体是一种基于informer的图像识别方法。
背景技术:
2.在计算机视觉领域,图像识别是一个重要的研究方向,在社会生产活动和科学研究方面都有着广泛的应用。随着图像数据爆炸式的增长,图像识别在多个领域得到了重视。然而,随着图像识别任务的不断复杂化和图像数据的不断增长。传统的图像识别技术面临着异常严峻的挑战,如准确率低、识别效率不高等。为此,各界都在积极探索新的图像识别方法,以求实现更高的准确率和更少的时间开销。
3.一定程度上来看,传统的图像识别方法对图像识别技术的发展也有促作用。但是,传统图像识别方法绝大多数需要人工设计特征,这就使得在图像识别的前期阶段需要消耗大量资源来设计这些特征信息;此外,传统的图像识别方法在特征提取阶段所提取绝大多数是图像浅层特征,这些浅层特征包含的关键信息往往较少,不能全面反映图像的整体内容。
4.现有基于卷积神经网络cnn(convolutional neural networks,简称cnn)的图像识别算法在模型训练时需要大量的优质数据以及对应的样本标注才能得到较好的效果,但在真实情况中,优质数据的数量往往很少,而且对样本进行标注的成本也很高,这就导致传统的基于cnn的图像识别算法需要耗费大量的计算资源才能达到满意的效果。此外,基于cnn的图像识别算法主要侧重点是提取图像的深层特征来对图像进行精确的识别,但在具体的任务中,图像即包含深层特征也包含浅层特征,它们的主要区别在于:浅层特征包含的更多是图像的表面数据,如色彩、形状等。而深层特征办包含的则是图像的主要数据,如纹理、性状等。尽管不同的子类之间只在某一特定区域存在差异,但这些差异往往是决定识别质量的重要依据。因此,如何有效的将图像的表层特征与深层特征进行有机融合,从而提高图像识别的准确率是图像识别方法需要解决的重要问题。此外,部分基于cnn的图像识别模型在特征提取过程中,卷积层会减小输出特征图的尺寸,这就会降低输出特征图的分辨率,此外,池化层还会对输出的特征图序列进行平均或者剔除非最大值的特征,如此一来,特征图的质量将会被进一步降低,这就会导致一些细微的但包含关键信息的特征丢失,从而降低识别的准确度。
5.综上所述,现有图像识别方法的不足主要有两点:
6.(1)过于依赖高质量标注数据:在细粒度图像识别任务中,通常有两种类型的标注数据:一种是只对图像类别进行标注的标注信息,这种标注信息一般用于弱监督学习中;另一种是具有较多标注信息,如对象标注点、类别标签和标注框的标注信息,这类标注信息属于强监督标注信息的范畴,通常用于强监督学习的场景中。在实际应用中,强监督标注信息由于需要消耗过多的计算资源且标注过程复杂,在细粒度图形识别任务中已逐渐被抛弃。因此,具有较少标注数据的弱监督学习方法的实用价值更好。但是,弱监督学习方法的标注数据是十分有限的,这就需要图像识别模型在学习中不断定位图像的关键特征,再对关键
特征进行标注,这会大大延长模型学习的时间,并且降低图像识别的准确率;
7.(2)难以克服物理因素的影响:不论是合成数据集还是通过获取真实图像构建的数据集,图像样本在获取过程中总会受到光线、噪声等物理因素的影响,尤其是在室外拍摄时,随着时间的变化,光线的强度和范围也会随之变化,这就导致获取到的图像样本在亮度、对比度等物理参数上也会有差异。此外,获取到的图像中可能包括一些无关的对象,如飞虫等,这就会使得图像中的关键特征被全部遮挡或部分遮挡,对于图像识别任务而言,模型依靠提取关键特征,从而得到准确识别结果的能力机就会大大降低。
技术实现要素:
8.本发明的目的是针对现有技术的不足,而提供一种基于informer的图像识别方法。这种方法能提高图像识别的效率并降低计算开销。
9.实现本发明的技术方案是:
10.一种基于informer的图像识别方法,包括如下步骤:
11.1)输入图像:首先选取不少于2000张的图像作为基于informer的图像识别模型的训练集和测试集,为了使图像识别模型充分提取到图像特征,训练集中的图像数量要多于测试集中的图像数量,此外,在选取训练集和和测试集的图像时,允许两个数据集中的部分图像相同;
12.2)数据预处理:对步骤1)中输入的图像进行预处理即将图像大小裁剪为396
×
396的若干个碎块,该操作的目的是确保编码器能够将整张图像的不同部分作为输入,注意力层关注的不再是整张图像,而是包含有图像特征信息的碎块,由于informer模型采用并行机制,使得注意力层能够同时提取每个碎块的特征信息,因此,为了尽可能的使模型同时处理较多的数据,使输入的图像的尺寸和分辨率参数在合理的范围内;
13.3)特征提取:informer模型由编码器、多头自注意力机制层和解码器三部分组成,特征提取过程是由编码器和多头自注意力机制层中的注意力函数完成的,其中,编码器负责提取出图像的特征信息,多头自注意力机制层被用来定位特征信息的位置,具体过程为:
14.3-1)编码器结构:编码器结构为多层结构,具体来说,它由六个结构完全相同的编码器堆叠组成,其中,每个编码器又设有用于捕捉特征之间关系的多头自注意力机制层mhsam(multi-head self-attention mechanism,简称mhsam),和负责编码学习的前向反馈网络层ffn(feed forward network,简称ffn)两个子层,两个子层之间采用残差连接,然后将两个层进行归一化操作,此时,每个子层的输出为laynorm(x+sublayer(x)),其中,sublayer(x)表示实现该子层的函数,为了简化输出,模型中所有的子层以及其它相关层的输出维度都为512;
15.多头自注意力机制层(multi-head self-attention mechanism):与采用图像特征序列维度的单一注意力函数不同,多头自注意力机制层将图像序列对应的查询query、键key、值value分别线性投影到上dk,投影次数记为h,如此一来,将会得到更精确的注意力值,在投影到dk后,并行执行注意力函数,生成一个维度为dv的输出序列,重复这一过程,直到训练结束,多头自注意力机制层的结构,采用多头自注意力机制层后,模型能够关注来自不同位置上的图像特征序列,这就允许模型能够学习不同特征空间内的相关信息,多头自注意力机制层可以表示为如公式(1)所示:
16.mutilhead(q,k,v)=concat(head1,head2,...,headn)wo(1),
17.公式(1)中,每一层的注意力headi表示为如公式(2)所示:
18.headi=attention(qw
iq
,kw
ik
,vw
iv
)(2),
19.参数w表示一个投影矩阵,记为和
20.在编码器的结构中,前向反馈网络层是另一个重要的部分,前向反馈网络层的主要作用是空间变换,将注意力子层的输出映射到不同的特征空间上,前向反馈网络层中有两个线性变换,且线性变换之间采用relu激活函数,引入线性变换和relu激活函数后,模型的表现能力得到了很大的增强,前向反馈网络层表示为如公式(3)所示:
21.fnn(x)=max(0,xw1+b1)w2+b2(3),
22.虽然线性变换在不同的位置上是一致的,但是在编码器的不同层之间所采用的参数却有所不同,整个前向反馈网络层的输入和输出都是维度都是d
model
=512,但第一个全连接层的输出和第二个全连接层的输入维度却是d
ff
=2048;
23.3-2)注意力函数:informer模型中的注意力函数可以视为是将查询和一组键值对到输出的映射,其中,查询query、键key、值value和输出都是向量,输出是按照值的加权和计算的,而分配给每个值的权重则是通过查询与相应键的兼容性函数计算得到的,模型中采用的注意力机制为缩放点积注意力,缩放点积注意力的输入是图像特征序列维度dk的查询和键以及dv的值,为了约束计算出的点积值,使点积值不超出范围,将求得的每个点积值都除以之后再采用一个softmax函数来获取dk和dv的点积值的权重,在模型运行时,同时还要根据所选择的注意力函数计算图像序列的注意力值,图像序列的注意力值用一个矩阵q来表示如公式(4)所示:
[0024][0025]
在图像识别模型中,采用多头自注意力机制层的主要有两个部分:第一是编码器中的注意力层,在该层中,图像序列所有的键、值和查询都来自同一个特征,该特征是编码器中前一个子层的输出,在采用多头注意力后,使得编码层中的每个位置都能够处理前一层中的相关特征;第二是解码器中的注意力层也采用多头注意力,这使得解码器中的每个子层都能获得其它层所包含的特征信息;
[0026]
4)生成推理:生成推理由解码器完成,解码器结构与编码器类似由六个结构完全相同的解码器堆叠而成,与编码器不同的是,除了多头自注意力层和前向反馈网络层外,解码器结构还额外添加了一个多头自注意力层,额外添加的多头自注意力层对编码器结构的输出执行多头注意,目的是让解码器能够将更多的计算资源集中在主要的图像特征上,解码器的每个子层之间也是通过残差连接的,之后再将输出的结果归一化,此外,解码器还对自注意力子层进行了修改,即将之前已经生成的输出序列作为接下来的输入,这种修改能够保证在处理特定特征信息时,解码器只以该特征信息之前的输出为依据,最大程度上排除了无关特征的干扰;
[0027]
informer模型的编码器允许在有限的内存上处理较长的图像输入序列:具体来
说,在图像序列输入到编码器后,第i个图像的序列xi被表示成了一个矩阵用稀疏自注意力机制替换原有的自注意力机制后,编码器的特征映射具有了值为v的冗余,这样便能最大程度的保留图像的关键特征,之后,采用自注意力self-attention对图像输入序列的进行优先处理,并将这些关键特征映射到下一个注意力层,自注意力过程从第j层一直到第j+1层,过程可以表示为如公式(5)所示:
[0028][0029]
公式(5)中的|
·
|
ab
代表一个注意力块,注意力块是由一些必要的序列操作和多头自注意力机制层组成,convld(
·
)代表一个一维的卷积滤波器,为了增强鲁棒性,编码器还设有输入减半的多头自注意力层副本,在当前注意力层提取图像序列的特征信息时,通过断开与前一注意力层的连接来减少编码器中自注意力层的数量,使得输出的图像特征维度对齐,最后,将所有注意力层的输出联系起来,得到编码器最终的输出;
[0030]
informer模型的解码器通过一个前向过程生成图像序列输出,解码器由两个结构相同的多头注意力层堆叠而成,并采用生成推理的方法来提高图像序列的生成速度,解码器的输入的是一个图像特征向量如公式(6)所示:
[0031][0032]
公式(6)中的表示图像序列的开始位置,表示生成图像序列的位置,将多头注意力的掩码应用到多头自注意力机制层的计算中,并将特征序列的点积值设置为-∞,这样做的目的是防止当前的注意力层将图像的特征序列映射到下一层中,避免图像序列自回归;
[0033]
5)判断是否达到训练轮次:如果已达到训练轮次,则停止训练,并检验基于informer的图像识别模型的准确率是否达到预期的数值,若未达到,重复步骤3)和步骤4),若达到则停止训练;
[0034]
6)输出图像识别结果并保存。
[0035]
这种方法不需要依赖卷积层来提取整张图像的特征信息,而是利用注意力机制对图像的关键特征进行提取,能提高图像识别的效率并降低计算开销。
附图说明
[0036]
图1为实施例中方法流程示意图;
[0037]
图2为实施例中多头自注意力层结构示意图;
[0038]
图3为实施例中缩放点积注意力结构示意图;
[0039]
图4为实施例中informer模型结构示意图;
[0040]
图5为实施例中informer模型编码器结构示意图;
[0041]
图6为实施例中在cub-200-2011数据集上的性能比较分析示意图;
[0042]
图7为实施例中在stanford cars数据集上的性能比较分析示意图;
[0043]
图8为实施例中在cctsdb数据集上的性能比较分析示意图。
具体实施方式
[0044]
下面结合附图和实施例对本发明的内容做进一步的阐述,但不是对本发明的限定。
[0045]
实施例:
[0046]
参照图1,实现本发明的技术方案是:
[0047]
一种基于informer的图像识别方法,其特征在于,包括如下步骤:
[0048]
1)输入图像:首先选取不少于2000张的图像作为基于informer的图像识别模型的训练集和测试集,为了使图像识别模型充分提取到图像特征,训练集中的图像数量要多于测试集中的图像数量,此外,在选取训练集和和测试集的图像时,允许两个数据集中的部分图像相同;
[0049]
2)数据预处理:对步骤1)中输入的图像进行预处理即将图像大小裁剪为396
×
396的若干个碎块,该操作的目的是确保编码器能够将整张图像的不同部分作为输入,注意力层关注的不再是整张图像,而是包含有图像特征信息的碎块,由于informer模型采用并行机制,使得注意力层能够同时提取每个碎块的特征信息,因此,为了尽可能的使模型同时处理较多的数据,使输入的图像的尺寸和分辨率参数在合理的范围内;
[0050]
3)特征提取:informer模型如图4所示,由编码器、多头自注意力机制层和解码器三部分组成,特征提取过程是由编码器和多头自注意力机制层中的注意力函数完成的,其中,编码器负责提取出图像的特征信息,多头自注意力机制层被用来定位特征信息的位置,具体过程为:
[0051]
3-1)编码器结构:编码器结构为多层结构,具体来说,它由六个结构完全相同的编码器堆叠组成,其中,每个编码器又设有如图2所示的用于捕捉特征之间关系的多头自注意力机制层mhsam和负责编码学习的前向反馈网络层ffn两个子层,两个子层之间采用残差连接,然后将两个层进行归一化操作,此时,每个子层的输出为laynorm(x+sublayer(x)),其中,sublayer(x)表示实现该子层的函数,为了简化输出,模型中所有的子层以及其它相关层的输出维度都为512;
[0052]
多头自注意力机制层(multi-headself-attentionmechanism):与采用图像特征序列维度的单一注意力函数不同,多头自注意力机制层将图像序列对应的查询query、键key、值value分别线性投影到上dk,投影次数记为h,如此一来,将会得到更精确的注意力值,在投影到dk后,并行执行注意力函数,生成一个维度为dv的输出序列,重复这一过程,直到训练结束,多头自注意力机制层的结构如图2所示,采用多头自注意力机制层后,模型能够关注来自不同位置上的图像特征序列,这就允许模型能够学习不同特征空间内的相关信息,多头自注意力机制层可以表示为如公式(1)所示:
[0053]
mutilhead(q,k,v)=concat(head1,head2,...,headn)wo(1),
[0054]
公式(1)中,每一层的注意力headi表示为如公式(2)所示:
[0055]
headi=attention(qw
iq
,kw
ik
,vw
iv
)(2),
[0056]
参数w表示一个投影矩阵,记为和
[0057]
在编码器的结构中,前向反馈网络层是另一个重要的部分,前向反馈网络层的主
要作用是空间变换,将注意力子层的输出映射到不同的特征空间上,前向反馈网络层中有两个线性变换,且线性变换之间采用relu激活函数,引入线性变换和relu激活函数后,模型的表现能力得到了很大的增强,前向反馈网络层表示为如公式(3)所示:
[0058]
fnn(x)=max(0,xw1+b1)w2+b2(3),
[0059]
虽然线性变换在不同的位置上是一致的,但是在编码器的不同层之间所采用的参数却有所不同,整个前向反馈网络层的输入和输出都是维度都是d
model
=512,但第一个全连接层的输出和第二个全连接层的输入维度却是d
ff
=2048;
[0060]
3-2)注意力函数:如图4所示的informer模型中的注意力函数视为是将查询和一组键值对到输出的映射,其中,查询query、键key、值value和输出都是向量,输出是按照值的加权和计算的,而分配给每个值的权重则是通过查询与相应键的兼容性函数计算得到的,模型中采用如图3所示的注意力机制为缩放点积注意力,缩放点积注意力的输入是图像特征序列维度dk的查询和键以及dv的值,为了约束计算出的点积值,使点积值不超出范围,将求得的每个点积值都除以之后再采用一个softmax函数来获取dk和dv的点积值的权重,在模型运行时,同时还要根据所选择的注意力函数计算图像序列的注意力值,图像序列的注意力值用一个矩阵q来表示如公式(4)所示:
[0061][0062]
在本例图像识别模型中,采用多头自注意力机制层的主要有两个部分:第一是编码器中的注意力层,在该层中,图像序列所有的键、值和查询都来自同一个特征,该特征是编码器中前一个子层的输出,在采用多头注意力后,使得编码层中的每个位置都能够处理前一层中的相关特征;第二是解码器中的注意力层也采用多头注意力,这使得解码器中的每个子层都能获得其它层所包含的特征信息;
[0063]
4)生成推理:生成推理由解码器完成,如图5所示解码器结构与编码器类似由六个结构完全相同的解码器堆叠而成,与编码器不同的是,除了多头自注意力层和前向反馈网络层外,解码器结构还额外添加了一个多头自注意力层,额外添加的多头自注意力层对编码器结构的输出执行多头注意,目的是让解码器能够将更多的计算资源集中在主要的图像特征上,解码器的每个子层之间也是通过残差连接的,之后再将输出的结果归一化,此外,解码器还对自注意力子层进行了修改,即将之前已经生成的输出序列作为接下来的输入,这种修改能够保证在处理特定特征信息时,解码器只以该特征信息之前的输出为依据,最大程度上排除了无关特征的干扰;
[0064]
informer模型的编码器允许在有限的内存上处理较长的图像输入序列:如图4所示,具体来说,在图像序列输入到编码器后,第i个图像的序列xi被表示成了一个矩阵用稀疏自注意力机制替换原有的自注意力机制后,编码器的特征映射具有了值为v的冗余,这样便能最大程度的保留图像的关键特征,之后,采用自注意力self-attention对图像输入序列的进行优先处理,并将这些关键特征映射到下一个注意力层,自注意力过程从第j层一直到第j+1层,过程可以表示为如公式(5)所示:
[0065]
[0066]
公式(5)中的|
·
|
ab
代表一个注意力块,注意力块是由一些必要的序列操作和多头自注意力机制层组成,convld(
·
)代表一个一维的卷积滤波器,为了增强鲁棒性,编码器还设有输入减半的多头自注意力层副本,在当前注意力层提取图像序列的特征信息时,通过断开与前一注意力层的连接来减少编码器中自注意力层的数量,使得输出的图像特征维度对齐,最后,将所有注意力层的输出联系起来,得到编码器最终的输出;
[0067]
informer模型的解码器通过一个前向过程生成图像序列输出,解码器由两个结构相同的多头注意力层堆叠而成,并采用生成推理的方法来提高图像序列的生成速度,解码器的输入的是一个图像特征向量如公式(6)所示:
[0068][0069]
公式(6)中的表示图像序列的开始位置,表示生成图像序列的位置,将多头注意力的掩码应用到多头自注意力机制层的计算中,并将特征序列的点积值设置为-∞,这样做的目的是防止当前的注意力层将图像的特征序列映射到下一层中,避免图像序列自回归;
[0070]
5)判断是否达到训练轮次:如果已达到训练轮次,则停止训练,并检验基于informer的图像识别模型的准确率是否达到预期的数值,若未达到,重复步骤3)和步骤4),若达到则停止训练;
[0071]
6)输出图像识别结果并保存。
[0072]
实验设置:
[0073]
实验环境和数据集:台式电脑,满足实验要求,在实验中,采用cub-200-2011、stanford cars和cctsdb三个数据集,共包含大约37000条数据,且数据集中包含了不同种类的鸟类、汽车和交通图像,数据集分为训练集和测试集,在本例的实验中,模型训练阶段的数据从训练集中选取,模型测试阶段的数据集从测试集中选取;
[0074]
实验结果和分析:在实验中,对本例方法、基于deeplac的图像识别方法、基于mask-cnn的图像识别方法和基于b-cnns的图像识别方法进行对比,同时用图像识别准确率作为图像识别模型的效果评价,比较结果如图6、图7、图8所示:
[0075]
图6用图像识别准确率作为客观评价指标对4种图像识别模型在cub-200-2011数据集上的效果进行了比较,此外,还分别给出了图像识别模型在识别阶段的可视化,从左到右依次是原始图像、裁剪后的图像、热力图以及注意力图,图像裁剪的效果与图像放大较为相似,本质上都是为了突出图像的关键特征区域,热力图和注意力图显示模型已经找到图像的关键特征区域,并将计算资源向该区域倾斜,本例在cub-200-2011上的实验选取1200张图片作为训练集,模型训练完成后,在选取200张图片作为测试集,表1是4种方法对应的图像识别准确率:
[0076]
表1在cub-200-2011数据集上的性能比较
[0077][0078]
图7是模型在stanford cars数据集上的效果,从图中可以直观的看出,informer模型中的注意力层能够快速且准确的捕获到图像的关键特征区域,并对该区域的重要特征信息进行提取,同时,与cub-200-2011数据集相比,stanford cars数据集中的图像样本背景更为复杂,颜色变化也更为明显,但本例的图像识别模型仍然能够克服这些噪声信息的干扰,取得较高的图像识别准确率,证明该模型在不同场景下的适应性更好,在stanford cars数据集上,训练阶段选取2200张图片作为训练集,训练结束后,在选取与训练集中图像不同的200张图片作为测试集,表2是4种方法在stanford cars数据集上的图像识别准确率:
[0079]
表2在stanford cars数据集上的性能比较
[0080][0081]
如图8所示,可以看到,交通标志牌在整幅图像中的占比较低,且不在图像中心处,注意力层在提取特征时,往往无法直接提取到交通标志牌相关的特征,这就需要通过多次尝试,此外,第二个样本的背景也有红色和白色两种干扰色,在特征提取过程中,就会对标志牌对应的特征信息产生干扰,在模型训练阶段,共选取4200张图像样本作为训练集,之后,在选取500张图像样本作为测试集,测试集中的样本有一部分是来自训练集的图像样本,表3是4种方法在cctsdb数据集上的图像识别准确率:
[0082]
表3在cctsdb数据集上的性能比较
[0083]
。
[0084]
综上所述,本例的优点是:
[0085]
(1)针对复杂背景下的图像识别任务,在公开数据集上的实验证明,本例方法能够更有效的提升图像识别的正确率和精度,本例图像识别方法,具有比传统方法更加广泛和更有价值的应用前景;
[0086]
(2)本例图像识别方法通过将注意力机制应用到图像识别任务中,从而能够快速的提取到图像的关键特征,在很大程度上提高了图像识别模型的效率并降低了图像识别模型的计算开销。
技术特征:
1.一种基于informer的图像识别方法,其特征在于,包括如下步骤:1)输入图像:首先选取不少于2000张的图像作为基于informer的图像识别模型的训练集和测试集,且训练集中的图像数量要多于测试集中的图像数量,在选取训练集和和测试集的图像时,允许两个数据集中的部分图像相同;2)数据预处理:对步骤1)中输入的图像进行预处理即将图像大小裁剪为396
×
396的若干个碎块;3)特征提取:informer模型由编码器、多头自注意力机制层和解码器三部分组成,特征提取过程是由编码器和多头自注意力机制层中的注意力函数完成的,其中,编码器负责提取出图像的特征信息,多头自注意力机制层用来定位特征信息的位置,具体过程为:3-1)编码器结构:编码器结构为多层结构、由六个结构完全相同的编码器堆叠组成,其中,每个编码器又设有用于捕捉特征之间关系的多头自注意力机制层mhsam和负责编码学习的前向反馈网络层ffn两个子层,两个子层之间采用残差连接,然后将两个层进行归一化操作,每个子层的输出为laynorm(x+sublayer(x)),其中,sublayer(x)表示实现该子层的函数,为了简化输出,模型中所有的子层以及其它相关层的输出维度都为512;多头自注意力机制层(multi-headself-attentionmechanism):与采用图像特征序列维度的单一注意力函数不同,多头自注意力机制层将图像序列对应的查询query、键key、值value分别线性投影到上d
k
,投影次数记为h,得到更精确的注意力值,在投影到d
k
后,并行执行注意力函数,生成一个维度为d
v
的输出序列,重复这一过程,直到训练结束,多头自注意力机制层表示为如公式(1)所示:mutilhead(q,k,v)=concat(head1,head2,...,head
n
)w
o
(1),公式(1)中,每一层的注意力head
i
表示为如公式(2)所示:head
i
=attention(qw
iq
,kw
ik
,vw
iv
)(2),参数w表示一个投影矩阵,记为和在编码器的结构中,前向反馈网络层将注意力子层的输出映射到不同的特征空间上,前向反馈网络层中有两个线性变换,且线性变换之间采用relu激活函数,前向反馈网络层表示为如公式(3)所示:fnn(x)=max(0,xw1+b1)w2+b2(3),线性变换在不同的位置上是一致的,但是在编码器的不同层之间所采用的参数不同,整个前向反馈网络层的输入和输出都是维度都是d
model
=512,但第一个全连接层的输出和第二个全连接层的输入维度是d
ff
=2048;3-2)注意力函数:informer模型中的注意力函数视为是将查询和一组键值对到输出的映射,其中,查询query、键key、值value和输出都是向量,输出是按照值的加权和计算的,而分配给每个值的权重则是通过查询与相应键的兼容性函数计算得到的,模型中采用的注意力机制为缩放点积注意力,缩放点积注意力的输入是图像特征序列维度d
k
的查询和键以及d
v
的值,将求得的每个点积值都除以再采用一个softmax函数来获取d
k
和d
v
的点积值的权重,图像序列的注意力值用一个矩阵q来表示如公式(4)所示:
在图像识别模型中,采用多头自注意力机制层的主要有两个部分:第一是编码器中的注意力层,在该层中,图像序列所有的键、值和查询都来自同一个特征,该特征是编码器中前一个子层的输出,在采用多头注意力后,使得编码层中的每个位置都能够处理前一层中的相关特征;第二是解码器中的注意力层也采用多头注意力,使得解码器中的每个子层都能获得其它层所包含的特征信息;4)生成推理:生成推理由解码器完成,解码器结构与编码器类似由六个结构完全相同的解码器堆叠而成,与编码器不同的是,除了多头自注意力层和前向反馈网络层外,解码器结构还额外添加了一个多头自注意力层,额外添加的多头自注意力层对编码器结构的输出执行多头注意,解码器的每个子层之间也是通过残差连接的,之后再将输出的结果归一化,此外,解码器还对自注意力子层进行了修改,即将之前已经生成的输出序列作为接下来的输入,在处理特定特征信息时,解码器只以该特征信息之前的输出为依据;informer模型的编码器允许在有限的内存上处理较长的图像输入序列:在图像序列输入到编码器后,第i个图像的序列x
i
被表示成了一个矩阵用多头自注意力机制替换原有的自注意力机制后,编码器的特征映射具有了值为v的冗余,之后,采用自注意力对图像输入序列的关键特征进行优先处理,并将这些关键特征映射到下一个注意力层,自注意力过程从第j层一直到第j+1层,过程表示为如公式(5)所示:公式(5)中的|
·
|
ab
代表一个注意力块,注意力块是由序列操作和多头自注意力机制层multi-head probspares self-attention组成,convld(
·
)代表一个一维的卷积滤波器,编码器还设有输入减半的多头自注意力层副本,在当前注意力层提取图像序列的特征信息时,通过断开与前一注意力层的连接来减少编码器中自注意力层的数量,使得输出的图像特征维度对齐,最后,将所有注意力层的输出联系起来,得到编码器最终的输出;informer模型的解码器通过一个前向过程生成图像序列输出,解码器由两个结构相同的多头注意力层堆叠而成,并采用生成推理的方法提高图像序列的生成速度,解码器的输入的是一个图像特征向量如公式(6)所示:公式(6)中的表示图像序列的开始位置,表示生成图像序列的位置,将多头注意力的掩码应用到多头自注意力机制层的计算中,并将特征序列的点积值设置为-∞;5)判断是否达到训练轮次:如果已达到训练轮次,则停止训练,并检验基于informer的图像识别模型的准确率是否达到预期的数值若未达到,重复步骤3)和步骤4),若达到则停止训练;6)输出图像识别结果并保存。
技术总结
本发明公开了一种基于Informer的图像识别方法,其特征在于,包括如下步骤:1)输入图像;2)数据预处理;3)特征提取;4)生成推理;5)判断是否达到训练轮次;6)输出图像识别结果并保存。这种方法能提高图像识别的效率并降低计算开销。算开销。算开销。
技术研发人员:杨昌松 肖俊 丁勇 梁海 李春海 李振宇
受保护的技术使用者:南宁桂电电子科技研究院有限公司
技术研发日:2023.05.09
技术公布日:2023/8/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/