一种多模态作物病害表型协同分析模型及装置
未命名
09-22
阅读:147
评论:0

1.本发明涉及作物病害领域,尤其涉及一种多模态作物病害表型协同分析模型及装置。
背景技术:
2.植物病害是全球农业部门重大经济损失的原因。它们与食品安全和可持续食品生产直接相关。量化植物病理对作物的影响是农业中最具挑战性的问题之一。营养缺乏或土壤水分和氧气之间的不平衡使植物更容易受到病原体的影响。植物的异常可能是由害虫、疾病或其他非生物胁迫(如低温)引起的。疾病识别任务往往与耗时、费力和主观有关。传统上,作物检查是由具有该领域一些专业知识的人进行的。然而,这种方法都会产生一定程度的不确定性或错误,从而导致错误决策。
3.植物表型分析的最新进展允许开发用于植物异常识别的高效和自动化诊断系统。尽管现有的方法已经显示出一些效果,但它们在病害的定位识别等问题存在一些局限性,尤其是在实际场景中。为了解决这一限制,我们提出了一种方法,通过结合视觉对象识别和语言生成,通过生成关于其症状的详细信息,采用多模态的形式更有效地检测和定位植物异常。
4.nuthalapati等人以地理位置和时间为先验知并通过非线性嵌入获取特征,然后和视觉特征一起通过relative transformer层进行信息融合,从而提高了cub-200-2011鸟类数据集中的识别精度。huang等人提出了类属性描述引导视觉机制(attributes-guided and pure-visual attention alignment for few-shot recognition,agam),对于有属性的数据集通过属性引导分支合并属性和视觉特征,对于没有属性的分支通过特征选择来学习注意力权重。
5.因此除了图像本身,如摄影的位置、日期、时间、图像的属性和文本描述等信息,也可以是先验知识的重要来源。尤其是图像的文本描述信息,蕴含了丰富的语义信息。这种文本模态信息与图像模态信息之间存在互补关系,可以在一定程度上弥补由于图像训练样本不足导致的问题。但是,农业领域的多模态数据集的获取与构建更加困难,需要通过相关领域的学者和专家手动进行标注和注释,时间和成本较高。因此本专利采用植保专家设计问题和选项,主要围绕植物病害的5种特征,即病害呈现的数量、颜色、形状、特点和病斑占叶片面积,快速收集多模态文本描述。
6.同样对多模态的合理运用在视觉语言定位也能带来很好的效果,视觉语言定位是一项根据自然语言表达来定位图像中目标对象或区域的任务。目前,大多数的视觉语言定位研究集中在人、动物、汽车等平视视角的自然图像,而现有的方法多采用独立提取视觉特征和文本嵌入,然后将其进行融合推理,以定位查询文本中所提及的目标对象。然而通过独立的视觉特征提取模块获取的特征常包含了许多与查询文本无关的视觉特征,这些冗余的不相关视觉特征可能会对后续的多模态融合模块产生不合理的推理,从而影响目标定位。
7.针对上述视觉语言定位中的问题,本专利设计了一种基于swin-transformer架构
的组合网络模型,包含查询文本特征提取模块、查询文本引导的视觉特征生成模块和多阶段融合推理模块。通过在视觉特征提取模块中引入查询文本特征进行指导,减少无关视觉特征的干扰,生成与查询文本相关的视觉特征;再通过多阶段融合推理模块,将相关的视觉特征与查询文本特征进行多阶段的交互推理,以进一步聚焦查询目标对象的精准定位。
技术实现要素:
8.本发明的目的在于提供一种多模态作物病害表型协同分析模型及装置,以解决上述技术问题。
9.本发明为解决上述技术问题,采用以下技术方案来实现:
10.一种多模态作物病害表型协同分析模型,包括以下步骤:
11.s1:多模态数据集构建;
12.通过众包技术,即植物学家设计选项,使用大量非专业人士快速获取病害文本描述,组建多模态病害数据集;
13.s2:基于改进cnn和lstm的作物病害表型文本生成模型构建;
14.s3:基于查询文本引导和多阶段推理的视觉语言定位模型构建;
15.s4:在获取到s2步骤对于该图片的文本描述性句子后输入到s3中多阶段推理的视觉语言定位模型进行病害位置的定位;
16.s5:基于cnn-transformer双流多模态少样本识别模型构建;
17.s6、在s5识别出病害类型后保存图片并预警。
18.优选的,病害数据集包括苹果疮痂病、苹果锈病、樱桃白粉病、玉米锈病、玉米枯叶病、葡萄黑腐病、葡萄枯叶病、桃子细菌性斑点病、辣椒细菌性斑点病、土豆早疫病、土豆晚疫病、番茄细菌性斑点病、番茄叶霉病、番茄二斑叶螨病、苹果黑腐病、南瓜白粉病、番茄早疫病、番茄黄曲叶病、玉米灰斑病、橘子黄龙病、草莓叶焦病、番茄晚疫病、番茄轮斑病、番茄花叶病共24种病害。
19.优选的,病害文本描述要求非专业人士从,数量、颜色、形状、特点和病斑占叶片面积5个角度选择选项,选择之后通过程序收集选项组成文本描述语句,并且在处理我们的问题之前,潜在的注释者需要达到图像标记基础知识的测验准确率的90%以上。
20.优选的,多模态少样本识别模型采用双流架构旨在同时当前任务的全局信息和局部信息;多模态少样本识别模型包括双嵌入模块、特征融合模块和测量模块。
21.优选的,双嵌入模块由两个分支组成局部分支和全局分支。
22.优选的,多阶段推理的视觉语言定位模型主要包含三个模块,即查询文本特征提取模块、查询文本引导的视觉特征生成模块和多阶段推理模块。
23.一种计算机装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1所述的多模态作物病害表型协同分析模型。
24.本发明的有益效果是:
25.1、本发明本发明的一种多模态作物病害表型协同分析模型及装置实际应用价值高,在数据集准备时充分考虑了病害可能的重要的文本特征,依照5个不同角度组建数据集。考虑到实际应用中也可通过众包快速组建新的病害种类持续监测作物表型。为作物表
型研究提供了理论指导与技术支撑。
26.2、本发明在多模态农业领域数据集的构建中引入了众包技术,将多模态农业领域数据集构建环节任务交给众包完成,在此基础上设计了图像描述生成模型、基于查询文本引导和多阶段推理的视觉语言定位模型(mqvl)和基于cnn-transformer双流多模态少样本识别模型(ctmf)。其中图像描述生成模型用于自动生成病害文本描述、mqvl模型用于自动识别可能的病害区域和多模态少样本分类模型用于最后的识别。本发明融合了文本生成、病害定位以及病害识别预警,可以有效提高植物叶片病害识别的准确率。
附图说明
27.图1为本发明一种多模态作物病害表型协同分析模型及装置的流程图;
28.图2为数据集中作物病害在不同复杂背景情况下的展示;
29.图3为ctmf结构示意图;
30.图4为ctmf中双路通道混合注意力结构示意图;
31.图5为mqvl结构示意图;
32.图6为图像描述生成文本模型结构示意图。
具体实施方式
33.为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例和附图,进一步阐述本发明,但下述实施例仅仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其它实施例,都属于本发明的保护范围。
34.下面结合附图描述本发明的具体实施例。
35.实施例1:
36.如图1-6所示,一种多模态作物病害表型协同分析模型,包括以下步骤:
37.s1:通过众包技术,即植物学家设计选项,使用大量非专业人士快速获取病害文本描述,组建多模态病害数据集;
38.s2:按照病害种类对数据集进行分类、标注,并按比例划分为训练集和验证集;
39.s3:调整模型预训练参数,并设计图像描述生成模型、mqvl和ctmf模型;
40.s4:利用步骤2中处理好的数据集对步骤s3的图像描述生成模型、mqvl和ctmf模型进行训练,并保存最优模型;
41.s5:使用训练好的模型对作物病害进行识别。
42.进一步,在步骤s1中,数据集中作物病害包括苹果疮痂病、苹果锈病、樱桃白粉病、玉米锈病、玉米枯叶病、葡萄黑腐病、葡萄枯叶病、桃子细菌性斑点病、辣椒细菌性斑点病、土豆早疫病、土豆晚疫病、番茄细菌性斑点病、番茄叶霉病、番茄二斑叶螨病、苹果黑腐病、南瓜白粉病、番茄早疫病、番茄黄曲叶病、玉米灰斑病、橘子黄龙病、草莓叶焦病、番茄晚疫病、番茄轮斑病、番茄花叶病共24种病害。病害文本描述要求非专业人士从,数量、颜色、形状、特点和病斑占叶片面积5个角度选择选项,选择之后通过程序收集选项组成文本描述语句。并且在处理我们的问题之前,潜在的注释者需要达到图像标记基础知识的测验准确率的90%以上,以防止注释者随意选择选项。
43.进一步,在步骤s3中,ctmf在cnn和swin transformer后加入双路通道混合注意力和最小化分类损失函数。
44.双路通道混合注意力是一种简单有效的注意力模块,将病害文本描述通过bert模型获取768维特征向量,并将其与图片特征同时进行maxpooling和avgpooling操作,通过沿通道和空间维度进行自适应特征细化,旨在提升模型泛化性。
[0045][0046][0047]
其中σ(
·
)表示sigmoid函数。
[0048]
进一步,步骤s5中,使用训练好的模型进行病害识别与定位,输入图像后能够识别出图像中病害的具体位置以及名称。
[0049]
实施例2:
[0050]
如图1-6所示,在其它部分均与实施例1相同的情况下,本实施例与实施例1的区别在于:一种多模态作物病害表型协同分析模型及装置,在使用公开图片病害数据集plantvillage,按照病害特征针对性设计选项,获取病害文本描述,训练模型。自动化识别病害位置并识别类型,提升病害识别的准确率和效率,正确识别病害的种类并预警对于病害的预防和控制具有重要作用。现代农业对于农作物病害防控的重要技术措施之一就是喷洒农药,正确的识别病害的种类将有助于农药配比。所以本发明对于作物表型管理和防止具有实际价值;
[0051]
本发明提供的一种多模态作物病害表型协同分析模型及装置,具体包括以下步骤:
[0052]
s1、多模态数据集构建
[0053]
采用了一种框架收集病害领域描述文本,希望可以提供一套全面的基准和注释类型,从而促进下级分类的研究。在amazon mechanical turk(amt)上执行图像描述任务,员工可以匿名完成短期在线任务,以换取少量费用。使用大量的非专业人士的主要问题是确保病害的描述文本准确和保持注释快速和经济。从经济的角度来说,希望以较低的价格获取到最准确的描述文本。植物专家设计问题和选项,通过选择的方式快速收集描述文本,并且在处理我们的问题之前,潜在的注释者需要达到图像标记基础知识的测验准确率的90%以上,以防止注释者随意选择选项。同时图片数据集本取自plantvillage,包括24种病叶(如苹果疮痂病、苹果锈病、樱桃白粉病、玉米锈病、玉米枯叶病、葡萄黑痘病等)每类图像有275个图片数据,共计6600张图像数据。辅助文本描述数据集共包含720条类文本描述,每类图像都附有中文文本描述,随机组合形成图像文本对。
[0054]
s2、基于改进cnn和lstm的作物病害表型文本生成模型构建
[0055]
对处理后的植物图像进行文本生成,生成包含作物病害表型信息的文本。文本包括数量、颜色、形状、特点和位置几个主要特征。首先,使用基于区域的深度神经网络训练对象检测器,以获得一组包含植物异常的区域特征。其次,语言生成器将对象检测结果的特征作为输入,并使用长短期记忆(lstm)生成具有作物病害表型的描述性句子。为此,我们使用了faster r-cnn(ren et al,2016)。它使用两个阶段的过程来检测图像中的对象。在第一
阶段,区域建议网络将图像的特征图作为输入,并输出一组具有区域分数的对象建议。在第二阶段,将对象建议的特征向量馈送到网络中,以预测边界框的定位。然后语言生成由对象检测器生成的相同区域特征被用作将每个区域与文本相关联的语言生成器的输入。在这一部分中,lstm模块在每个时间步长预测单词,并使用这些预测来预测从init令牌到句子结尾的下一个单词。lstm是rnn的一种特殊单元,它包含了一个内置的存储单元来存储信息并利用长程上下文(hochreiter和schmidhuber,1997)。他们能够学习长期依赖,同时避免长期依赖的问题。
[0056]
s3、基于查询文本引导和多阶段推理的视觉语言定位模型(mqvl)构建
[0057]
mqvl模型主要包含三个模块,即查询文本特征提取模块、查询文本引导的视觉特征生成模块和多阶段推理模块。其中,查询文本特征提取模块是将查询文本进行编码生成文本嵌入;查询文本引导的视觉特征生成模块是在swin-transformer架构的每个层次中引入文本特征提取模块编码的查询文本上下文信息,借助注意力机制对不同尺度下的视觉特征进行指导学习,并将不同尺度下的视觉特征进行聚合,进而得到与查询文本相关的视觉特征;然后,将前两个模块得到的查询文本特征与视觉特征输入多阶段推理模块,借助推理模块的transformer解码器进行多阶段的交互推理,逐步获得查询对象精准的定位表示。
[0058]
(1)查询文本特征提取模块
[0059]
查询文本特征提取模块使用了bert模型提取查询文本的特征。首先将查询文本标记化,然后将标记化的查询文本表达式首部和尾部分别添加[cls]标记和[sep]标记,作为文本特征提取器的输入,并对其进行编码,得到查询文本上下文信息的标记(通过[cls]标记上下文信息)和查询文本中每个单词的标记作为查询文本的特征,其中通道尺寸cq为768维,nq为单词标记的数量。
[0060]
(2)查询文本引导的视觉特征生成模块
[0061]
给定一张图片i∈rh×w×3作为视觉特征生成模块的输入,其中h、w分别代表图片的高度和宽度,mqvl采用查询文本指导网络提取相关的视觉特征,并将其展平成特征序列其中通道维度cv=256,输入的标记数量nv=h
×
w。视觉特征生成模块通过注意力机制实现查询文本特征指导下的视觉特征提取,并将不同尺度的视觉特征进行融合,得到与查询文本密切相关的视觉特征。
[0062]
(3)视觉特征图
[0063]
由于swin-transformer的分层结构,特征提取器得到的输出是一个分层的视觉特征图列表mqvl中的每个阶段是由多个swin-transformer块(即一个swin模块)和一个注意力模块所组成,通过补丁分块操作将图像i嵌入成其中c是嵌入的维度;然后将和查询文本的特征f
query
一同输入到swin-transformer架构中,通过注意力模块来指导四个阶段的视觉特征提取,即在第m(1《=m《=4)阶段时,将上一阶段的视觉特征图与f
query
一同输入到swin-transformer块,通过注意力模块实现f
query
对视觉特征的指导学习,得到每个阶段的视觉特征图
[0064]
查询文本对视觉特征提取的指导学习采用了qrnet的思想,利用动态线性层计算视觉特征中与查询文本相关的通道注意力图和空间注意力图,以获取不同的视觉特征。
[0065]
动态线性层利用查询文本的上下文特征f
query
来指导给定输入向量到输出向量之间的映射,其公式如下:
[0066][0067]
其中m
query
={w
query
,b
query
}=ψ*(f
query
),线性层参数偏置ψ*(f
query
)表示采用矩阵分解的方式将m
query
进行分解求算。
[0068]
通道注意力图计算。对每个阶段中swin模块生成的视觉特征图通过平均池化和最大池化来聚集空间信息,并生成相应特征然后通过动态线性层和relu函数来处理池化的视觉特征,再利用sigmoid函数将处理后的平均池化和最大池化的视觉特征进行求和,得到通道注意力图a
cq
,其计算过程如下:
[0069][0070][0071][0072]
我们将视觉特征fm与a
cq
进行元素相乘,得到通道上的视觉特征其公式如下:
[0073][0074]
空间注意力图计算。利用动态线性层来减少通道上的维度,而不是压缩通道维度,以了解与查询文本相关的区域,并利用sigmoid函数来生成空间注意力图,其计算过程如下:
[0075][0076][0077]
其中a
sq
∈rh×w×1表示空间注意力图,为注意力模块的最终输出。
[0078]
(4)多尺度特征融合
[0079]
通过swin-transformer的层次结构,mqvl获得了4个不同尺度的视觉特征图,分辨率分别为为了不同阶段得到的视觉特征图能有效融合,mqvl利用卷积核为2
×
2的卷积块对多尺度视觉特征进行平均池化,即对第m(1《=m《=3)阶段的生成的视觉特征图进行平均池化,使其与第m+1阶段维度相同,并计算两个视觉特征图的平均值,得到最后,将视觉特征图展平为序列iv,作为接下来的多模态推理模块的输入。
[0080]
(5)多阶段推理模块
[0081]
在视觉特征生成模块中引入的查询文本上下文特征,指导生成的视觉特征与查询文本的相关性是粗粒度的,为了获得更精准的定位,需要进一步建立细粒度上的相关性。mqvl采用多阶段的解码器进行迭代推理,借助交叉注意力机制对视觉信息和语言信息反复交互,以减少推理中的歧义,并逐步定位到最终目标对象位置。
[0082]
借鉴vltvg中关于解码器层数的设置,mqvl的解码器层数设置为6层,即对应6个阶段,每个阶段由相同的网络架构组成,解码器每一个阶段的特征输出作为其下一阶段目标
查询对象特征的输入,以此进行迭代推理。具体来说,在第一阶段,我们设置一个可学习的查询对象作为目标对象的初始表示,并将其输入解码器第一层中,通过多头交叉注意力模块将与文本嵌入fq和视觉特征iv进行交互学习,以从视觉特征iv中收集到与查询文本对象相关的特征再经过前馈神经网络(ffn)和层归一化得到第一阶段目标对象特征然后由第一阶段生成的视觉对象特征作为查询目标对象的表示输入到解码器的第二阶段,其过程与第一阶段一致,最后通过6个阶段的迭代推理得到最优的查询对象表示。每个阶段更新目标对象的过程如下:
[0083][0084][0085]
其中ln(
·
)表示层归一化,ffn(
·
)是由两个两个线性投影层和一个relu激活函数所构成。
[0086]
通过在解码器的不同阶段动态更新查询对象每个阶段能更关注查询文本的不同描述,从而能更精细的寻找目标对象,聚合更完整的目标对象特征,进而得到更精确的查询文本描述的目标对象的视觉表示。
[0087]
(6)查询对象定位
[0088]
mqvl将多模态推理模块中每个阶段输出的目标对象特征输入到一个带有relu激活函数的mlp,每个中间阶段输出的目标对象的坐标位置用于损失函数的计算,将最后一个阶段的输出作为最终目标对象的坐标位置。
[0089]
mqvl通过最后的mlp输出最终目标对象的边界框坐标,对解码器的每一个阶段预测的边界框与真实框之间计算loss并进行求和,其中我们用表示编码器的第1到第n(1≤n≤6)阶段的预测目标框坐标,b={x,y,w,h}表示真实框,训练目标为:
[0090][0091]
其中,l
giou
(
·
)和l
l1
(
·
)分别为giou损失函数和l1损失函数,λ
giou
和λ
l1
为训练期间平衡两种损失的超参数。
[0092]
s4、在获取到s2步骤对于该图片的文本描述性句子后输入到s3中mqvl模型进行病害位置的定位。
[0093]
s5、基于cnn-transformer双流多模态少样本识别模型(ctmf)构建
[0094]
ctmf采用双流架构旨在同时当前任务的全局信息和局部信息。其中swin transformer网络增加了移动滑动窗口,可以更好地捕获全局特征信息并进行全局信息交互。大大提高了多模态少样本模型在分类任务的分类精度和泛化能力。所提出的模型包括双嵌入模块、特征融合模块和测量模块。双嵌入模块由两个分支组成局部分支和全局分支。在给定一个支持样本x_s∈s和一个查询样本x_q∈q,将其同时输入到模型的全局分支和局部分支。在全局分支模块我们使用swin transformer作为特征提取器,在获取到图像特征后输入特征融合模块。同时局部分支采用resnet12获取局部特征,也将其送入特征融合模块,最后局部分支和全局分支进行特征融合输入到余弦函数进行分类。
[0095]
(1)局部分支
[0096]
我们采用resnet12主干网络作为局部嵌入模块获取图片特征f∈r^(h
×w×
c)测试我们模型的效果。resnet12由4个连续的基本块组成,filters的数量设置为64-128-256-512。每个卷积块包含三个卷积层,内核大小为3
×
3、三个批量归一化层、一个relu激活层和一个内核大小为步长为2。全局分支的swin模块与mqvl的swin相同。
[0097]
(2)双路通道混合注意力
[0098]
考虑到单一模型难以同时学习全局信息和局部细节并受类属性引导的混合注意力agam的启发,我们设计了一种双路混合注意力用于融合辅助模态,在multimodal-plant中我们通过bert获取为768维特征向量。我们在获取到f
gr
和f
lr
后同时进行maxpooling和avgpooling操作,并分别拼接辅助模态特征。通过沿通道和空间维度进行自适应特征细化,旨在提升模型泛化性。
[0099]
s5、在s3步骤获取到截取病害位置的图像和全局的叶片图像后将其输入到s4中进行病害识别分类。
[0100]
s6、在s5识别出病害类型后保存图片并预警。
[0101]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
技术特征:
1.一种多模态作物病害表型协同分析模型,其特征在于,包括以下步骤:s1:多模态数据集构建;通过众包技术,即植物学家设计选项,使用大量非专业人士快速获取病害文本描述,组建多模态病害数据集;s2:基于改进cnn和lstm的作物病害表型文本生成模型构建;s3:基于查询文本引导和多阶段推理的视觉语言定位模型构建;s4:在获取到s2步骤对于该图片的文本描述性句子后输入到s3中多阶段推理的视觉语言定位模型进行病害位置的定位;s5:基于cnn-transformer双流多模态少样本识别模型构建;s6、在s5识别出病害类型后保存图片并预警。2.根据权利要求1所述的多模态作物病害表型协同分析模型,其特征在于:病害数据集包括苹果疮痂病、苹果锈病、樱桃白粉病、玉米锈病、玉米枯叶病、葡萄黑腐病、葡萄枯叶病、桃子细菌性斑点病、辣椒细菌性斑点病、土豆早疫病、土豆晚疫病、番茄细菌性斑点病、番茄叶霉病、番茄二斑叶螨病、苹果黑腐病、南瓜白粉病、番茄早疫病、番茄黄曲叶病、玉米灰斑病、橘子黄龙病、草莓叶焦病、番茄晚疫病、番茄轮斑病、番茄花叶病共24种病害。3.根据权利要求1所述的多模态作物病害表型协同分析模型,其特征在于:病害文本描述要求非专业人士从,数量、颜色、形状、特点和病斑占叶片面积5个角度选择选项,选择之后通过程序收集选项组成文本描述语句,并且在处理我们的问题之前,潜在的注释者需要达到图像标记基础知识的测验准确率的90%以上。4.根据权利要求1所述的多模态作物病害表型协同分析模型,其特征在于:多模态少样本识别模型采用双流架构旨在同时当前任务的全局信息和局部信息;多模态少样本识别模型包括双嵌入模块、特征融合模块和测量模块。5.根据权利要求4所述的多模态作物病害表型协同分析模型,其特征在于:双嵌入模块由两个分支组成局部分支和全局分支。6.根据权利要求1所述的多模态作物病害表型协同分析模型,其特征在于:多阶段推理的视觉语言定位模型主要包含三个模块,即查询文本特征提取模块、查询文本引导的视觉特征生成模块和多阶段推理模块。7.一种计算机装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1所述的多模态作物病害表型协同分析模型。
技术总结
本发明公开了一种多模态作物病害表型协同分析模型、装置及模型构建系统,方法包括:构建基于改进CNN和LSTM的作物病害表型文本生成模型,通过组建的多模态训练数据集,对其进行训练;基于改进CNN和LSTM的作物病害表型文本生成模型通过组建的多模态训练数据集,对其进行训练;构建基于查询文本引导和多阶段推理的视觉语言定位模型(MQVL)通过组建的多模态训练数据集,对其进行训练;构建基于CNN-Transformer双流多模态少样本识别模型(CTMF)通过组建的多模态训练数据集,对其进行训练。对其进行训练。对其进行训练。
技术研发人员:王超 朱家瑞 罗伟 辜丽川 何进 蒋婷婷 夏迎春 杨帅 焦俊
受保护的技术使用者:安徽农业大学
技术研发日:2023.07.07
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/