货品识别方法及装置与流程
未命名
09-13
阅读:66
评论:0

1.本技术主要涉及人工智能技术领域,具体涉及一种货品识别方法及装置。
背景技术:
2.密集货品的识别可以通过拍照的方式来了解货品的类型和数量,在货品陈列、店面巡检等领域起着很重要的作用。比如,对于品牌商来说,利用这项技术可以快速了解自家货品销售量,甚至在不同门店、超市的陈列方式进而做出科学的销售策略乃至合理安排采购、生产计划。但是在现实场景中,货品种类繁多,现有技术中有采用神经网络模型进行货品识别然后进行分类的方案进行货物识别,但现有技术中大部分采用常规的卷积神经网络(cnn)提取特征然后进行分类,但是这种分类方式使货品识别准确率较低。
3.也即,现有技术中货品识别准确率较低。
技术实现要素:
4.本技术提供一种货品识别方法及装置,旨在解决现有技术中货品识别准确率较低的问题。
5.第一方面,本技术提供一种货品识别方法,所述货品识别方法包括:
6.获取待识别货品图像;
7.将所述待识别货品图像输入目标货品特征识别模型,得到所述待识别货品图像的待识别特征向量,其中,所述目标货品特征识别模型是基于预设训练集训练得到的,所述预设训练集包括多个训练样本和对应的样本类别;
8.对所述待识别特征向量与所述各个训练样本的特征向量分别计算相似度,得到多个向量相似度;
9.将所述各个训练样本中向量相似度最高的训练样本对应的样本类别确定为所述待识别货品图像的样本类别。
10.可选地,所述将所述待识别货品图像输入目标货品特征识别模型,得到所述待识别货品图像的待识别特征向量,包括:
11.获取所述目标货品特征识别模型,其中,所述目标货品特征识别模型包括并列的目标主干识别网络和至少一个目标自监督辅助识别网络;
12.将所述待识别货品图像输入所述目标主干识别网络,得到所述待识别货品图像的第一特征向量;
13.将所述待识别货品图像分别输入所述至少一个目标自监督辅助识别网络,得到所述待识别货品图像的至少一个第二特征向量;
14.融合所述第一特征向量和所述至少一个第二特征向量,得到所述待识别货品图像的待识别特征向量。
15.可选地,所述获取所述目标货品特征识别模型,包括:
16.获取预设主干识别网络和至少一个预设自监督辅助识别网络;
17.根据所述多个训练样本和对应的样本类别确定各个样本类别的样本数量;
18.将样本数量大于预设数量的样本类别对应的训练样本确定为负样本,将样本数量不大于预设数量的样本类别对应的训练样本确定为正样本;
19.将所述负样本输入预设主干识别网络,将所述正样本输入至少一个预设自监督辅助识别网络,训练预设主干识别网络和至少一个预设自监督辅助识别网络,得到目标主干识别网络和至少一个目标自监督辅助识别网络;
20.基于目标主干识别网络和至少一个目标自监督辅助识别网络构建所述目标货品特征识别模型。
21.可选地,所述将所述负样本输入预设主干识别网络,将所述正样本输入至少一个预设自监督辅助识别网络,训练预设主干识别网络和至少一个预设自监督辅助识别网络,得到目标主干识别网络和至少一个目标自监督辅助识别网络,包括:
22.将所述负样本输入预设主干识别网络,得到第一样本特征向量;
23.将所述正样本输入至少一个预设自监督辅助识别网络,得到至少一个第二样本特征向量;
24.基于所述第一样本特征向量和至少一个第二样本特征向量对所述预设主干识别网络和所述至少一个预设自监督辅助识别网络迭代更新,得到目标主干识别网络和至少一个目标自监督辅助识别网络。
25.可选地,所述至少一个预设自监督辅助识别网络包括第一自监督辅助识别网络和第二自监督辅助识别网络,所述将所述正样本输入所述至少一个预设自监督辅助识别网络,得到至少一个第二样本特征向量,包括:
26.将所述正样本分别输入所述第一自监督辅助识别网络和所述第二自监督辅助识别网络,得到第三样本特征向量和第四样本特征向量;
27.将第三样本特征向量中第一预设比例的特征值转换至预设值,得到第五样本特征向量;
28.将第四样本特征向量中第二预设比例的特征值转换至预设值,得到第六样本特征向量;
29.将第五样本特征向量和第六样本特征向量确定为所述至少一个第二样本特征向量。
30.可选地,所述基于所述第一样本特征向量和至少一个第二样本特征向量对所述预设主干识别网络和所述至少一个预设自监督辅助识别网络迭代更新,得到目标主干识别网络和至少一个目标自监督辅助识别网络,包括:
31.基于所述第一样本特征向量确定交叉熵损失和三元组损失;
32.基于所述第一样本特征向量和至少一个第二样本特征向量确定自监督损失;
33.基于交叉熵损失、三元组损失以及自监督损失确定总损失;
34.基于所述总损失对所述预设主干识别网络和所述至少一个预设自监督辅助识别网络迭代更新,得到目标主干识别网络和至少一个目标自监督辅助识别网络。
35.可选地,所述基于交叉熵损失、三元组损失以及自监督损失确定总损失,包括:
36.基于所述预设训练集中的正样本的数量占比确定所述自监督损失的自监督权重系数,其中,所述数量占比越大时,所述自监督权重系数越小;
37.基于所述自监督权重系数对交叉熵损失、三元组损失以及自监督损失进行加权求和,得到所述总损失。
38.第二方面,本技术提供一种货品识别装置,所述货品识别装置包括:
39.获取单元,用于获取待识别货品图像;
40.特征表征单元,用于将所述待识别货品图像输入目标货品特征识别模型,得到所述待识别货品图像的待识别特征向量,其中,所述目标货品特征识别模型是基于预设训练集训练得到的,所述预设训练集包括多个训练样本和对应的样本类别;
41.相似度计算单元,用于对所述待识别特征向量与所述各个训练样本的特征向量分别计算相似度,得到多个向量相似度;
42.确定单元,用于将所述各个训练样本中向量相似度最高的训练样本对应的样本类别确定为所述待识别货品图像的样本类别。
43.可选地,所述特征表征单元,用于:
44.获取所述目标货品特征识别模型,其中,所述目标货品特征识别模型包括并列的目标主干识别网络和至少一个目标自监督辅助识别网络;
45.将所述待识别货品图像输入所述目标主干识别网络,得到所述待识别货品图像的第一特征向量;
46.将所述待识别货品图像分别输入所述至少一个目标自监督辅助识别网络,得到所述待识别货品图像的至少一个第二特征向量;
47.融合所述第一特征向量和所述至少一个第二特征向量,得到所述待识别货品图像的待识别特征向量。
48.可选地,所述特征表征单元,用于:
49.获取预设主干识别网络和至少一个预设自监督辅助识别网络;
50.根据所述多个训练样本和对应的样本类别确定各个样本类别的样本数量;
51.将样本数量大于预设数量的样本类别对应的训练样本确定为负样本,将样本数量不大于预设数量的样本类别对应的训练样本确定为正样本;
52.将所述负样本输入预设主干识别网络,将所述正样本输入至少一个预设自监督辅助识别网络,训练预设主干识别网络和至少一个预设自监督辅助识别网络,得到目标主干识别网络和至少一个目标自监督辅助识别网络;
53.基于目标主干识别网络和至少一个目标自监督辅助识别网络构建所述目标货品特征识别模型。
54.可选地,所述特征表征单元,用于:
55.将所述负样本输入预设主干识别网络,得到第一样本特征向量;
56.将所述正样本输入至少一个预设自监督辅助识别网络,得到至少一个第二样本特征向量;
57.基于所述第一样本特征向量和至少一个第二样本特征向量对所述预设主干识别网络和所述至少一个预设自监督辅助识别网络迭代更新,得到目标主干识别网络和至少一个目标自监督辅助识别网络。
58.可选地,所述至少一个预设自监督辅助识别网络包括第一自监督辅助识别网络和第二自监督辅助识别网络,所述特征表征单元,用于:
59.将所述正样本分别输入所述第一自监督辅助识别网络和所述第二自监督辅助识别网络,得到第三样本特征向量和第四样本特征向量;
60.将第三样本特征向量中第一预设比例的特征值转换至预设值,得到第五样本特征向量;
61.将第四样本特征向量中第二预设比例的特征值转换至预设值,得到第六样本特征向量;
62.将第五样本特征向量和第六样本特征向量确定为所述至少一个第二样本特征向量。
63.可选地,所述特征表征单元,用于:
64.基于所述第一样本特征向量确定交叉熵损失和三元组损失;
65.基于所述第一样本特征向量和至少一个第二样本特征向量确定自监督损失;
66.基于交叉熵损失、三元组损失以及自监督损失确定总损失;
67.基于所述总损失对所述预设主干识别网络和所述至少一个预设自监督辅助识别网络迭代更新,得到目标主干识别网络和至少一个目标自监督辅助识别网络。
68.可选地,所述特征表征单元,用于:
69.基于所述预设训练集中的正样本的数量占比确定所述自监督损失的自监督权重系数,其中,所述数量占比越大时,所述自监督权重系数越小;
70.基于所述自监督权重系数对交叉熵损失、三元组损失以及自监督损失进行加权求和,得到所述总损失。
71.第三方面,本技术提供一种计算机设备,所述计算机设备包括:
72.一个或多个处理器;
73.存储器;以及
74.一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现第一方面中任一项所述的货品识别方法。
75.第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行第一方面中任一项所述的货品识别方法中的步骤。
76.本技术提供一种货品识别方法及装置,该货品识别方法包括:获取待识别货品图像;将待识别货品图像输入目标货品特征识别模型,得到待识别货品图像的待识别特征向量,其中,目标货品特征识别模型是基于预设训练集训练得到的,预设训练集包括多个训练样本和对应的样本类别;对待识别特征向量与各个训练样本的特征向量分别计算相似度,得到多个向量相似度;将各个训练样本中向量相似度最高的训练样本对应的样本类别确定为待识别货品图像的样本类别。本技术在现有技术中货品识别准确率较低的情况下,创造性地提出一种货品识别方法,通过目标货品特征识别模型对待识别货品图像提取特征向量,并与各个训练样本的特征向量分别计算相似度,将与待识别特征向量相似度最高的训练样本的样本类别确定为待识别货品图像的样本类别,能够提高货品识别的准确性。
77.进一步的,目标货品特征识别模型包括并列的目标主干识别网络和至少一个目标自监督辅助识别网络。通过目标自监督辅助识别网络帮助目标主干识别网络提升网络的表达能力,最终使得目标货品特征识别模型可以得到比较有区分性的表达能力,从而进一步
提高货品识别的准确性。
附图说明
78.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
79.图1是本技术实施例所提供的货品识别系统的场景示意图;
80.图2是本技术实施例中货品识别方法的一个实施例流程示意图;
81.图3是本技术实施例中货品识别方法的一个实施例中获取目标货品特征识别模型的流程示意图;
82.图4是本技术实施例中货品识别方法的一个实施例中s304的流程示意图;
83.图5是本技术实施例中提供的货品识别装置的一个实施例结构示意图;
84.图6是本技术实施例中提供的计算机设备的一个实施例结构示意图。
具体实施方式
85.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
86.在本技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
87.在本技术中,“示例性”一词用来表示“用作例子、例证或说明”。本技术中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本技术,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本技术。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本技术的描述变得晦涩。因此,本技术并非旨在限于所示的实施例,而是与符合本技术所公开的原理和特征的最广范围相一致。
88.本技术实施例提供一种货品识别方法及装置,以下分别进行详细说明。
89.请参阅图1,图1是本技术实施例所提供的货品识别系统的场景示意图,该货品识别系统可以包括计算机设备100,计算机设备100中集成有货品识别装置。
90.本技术实施例中,该计算机设备100可以是独立的服务器,也可以是服务器组成的
服务器网络或服务器集群,例如,本技术实施例中所描述的计算机设备100,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(cloud computing)的大量计算机或网络服务器构成。
91.本技术实施例中,上述的计算机设备100可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中计算机设备100可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digital assistant,pda)、移动手机、平板电脑、无线终端设备、通信设备、嵌入式设备等,本实施例不限定计算机设备100的类型。
92.本领域技术人员可以理解,图1中示出的应用环境,仅仅是本技术方案的一种应用场景,并不构成对本技术方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的计算机设备,例如图1中仅示出1个计算机设备,可以理解的,该货品识别系统还可以包括一个或多个可处理数据的其他计算机设备,具体此处不作限定。
93.另外,如图1所示,该货品识别系统还可以包括存储器200,用于存储数据。
94.需要说明的是,图1所示的货品识别系统的场景示意图仅仅是一个示例,本技术实施例描述的货品识别系统以及场景是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着货品识别系统的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
95.首先,本技术实施例中提供一种货品识别方法,该货品识别方法包括:获取待识别货品图像;对待识别货品图像进行特征提取得到第一特征图;将第一特征图输入预设注意力模型进行权重调整,得到第二特征图;基于第一特征图和第二特征图进行图像融合,得到第三特征图;基于第三特征图进行货品识别,得到待识别货品图像的目标货品识别结果。
96.如图2所示,图2是本技术实施例中货品识别方法的一个实施例流程示意图,该货品识别方法包括如下步骤s201~s204:
97.s201、获取待识别货品图像。
98.在一个具体的实施例中,控制相机对待识别货品进行拍照,得到待识别货品图像。待识别货品可以是洗衣液、方便面等。当然,待识别货品图像可以预先存储。
99.一般货品都摆在货架上,货架上有多个格口,每个格口都有货物,拍摄的图像中可能有多个货品,为了对多个货品进行识别,在另一个具体的实施例中,获取相机对货架拍照得到的当前货架图像,对当前货架图像进行货品检测,得到多个货品检测框,将多个货品检测框中的图像裁剪出来,得到多个待识别货品图像。具体的,使用预设的目标检测网络模型对货架图像进行货品检测,得到多个货品检测框。目标检测网络模型可以为yolov5、ssd等目标检测模型,根据具体情况选用即可。
100.优选地,目标检测网络模型可以为yolov5,目标检测网络模型为将图像分为背景类别和货品类别的二分类模型。由于yolov5是单阶段的,速度快,并且我们采用二分类的方式来检测,所以检测召回率和准确性也很高。具体来说,虽然货品种类很多,比如某个数据集就有10万个货品种类,但是我们把这些货品种类都看成一类,不加以区分,再加上背景,实际上就是二分类问题,从而大大减小了检测的难度。由于采用两分类的方式,该模型均能很准确的检测出货品,从而为接下来的识别打下良好的基础。
101.在一个具体的实施例中,获取参考货架图像,参考货架图像为相机历史对货架拍
照得到的图像,参考货架图像与当前货架图像大小相同,参考货架图像上标注有多个格口框,多个格口框可以人工标注,将参考货架图像与当前货架图像重叠,将当前货架图像中位于多个格口框中的图像裁剪出来,得到多个待识别货品图像。以参考货架图像为模板获取待识别货品图像,针对相机和货架位置不变的场景,能够提高待识别货品图像的获取效率。
102.s202、将待识别货品图像输入目标货品特征识别模型,得到待识别货品图像的待识别特征向量。
103.其中,目标货品特征识别模型是基于预设训练集训练得到的,预设训练集包括多个训练样本和对应的样本类别。
104.在一个具体的实施例中,目标货品特征识别模型可以为训练好的残差网络。例如,目标货品特征识别模型为训练好的resnet、resnext,effcientnet等。
105.在另一个具体的实施例中,将待识别货品图像输入目标货品特征识别模型,得到待识别货品图像的待识别特征向量,可以包括:
106.(1)获取目标货品特征识别模型,其中,目标货品特征识别模型包括并列的目标主干识别网络和至少一个目标自监督辅助识别网络。
107.在一个具体的实施例中,目标主干识别网络和至少一个目标自监督辅助识别网络均可以为训练好的残差网络。例如,标预设主干识别网络和至少一个目标自监督辅助识别网络均可以为训练好的resnet、resnext,effcientnet等。
108.(2)将待识别货品图像输入目标主干识别网络,得到待识别货品图像的第一特征向量。
109.(3)将待识别货品图像分别输入至少一个目标自监督辅助识别网络,得到待识别货品图像的至少一个第二特征向量。
110.(4)融合第一特征向量和至少一个第二特征向量,得到待识别货品图像的待识别特征向量。
111.s203、对待识别特征向量与各个训练样本的特征向量分别计算相似度,得到多个向量相似度。
112.其中,将各个训练样本分别输入目标货品特征识别模型,得到各个训练样本的特征向量。
113.本技术实施例中,对待识别特征向量与各个训练样本的特征向量分别计算欧几里得距离或者余弦相似度,得到多个向量相似度。
114.欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。
115.s204、将各个训练样本中向量相似度最高的训练样本对应的样本类别确定为待识别货品图像的样本类别。
116.向量相似度最高的训练样本与待识别货品图像最相似,可以将向量相似度最高的训练样本对应的样本类别确定为待识别货品图像的样本类别。
117.参阅图3,图3是本技术实施例中货品识别方法的一个实施例中获取目标货品特征
识别模型的流程示意图。在一个具体的实施例中,获取目标货品特征识别模型,可以包括s301-s305:
118.s301、获取预设主干识别网络和至少一个预设自监督辅助识别网络。
119.本技术实施例中,预设主干识别网络和至少一个预设自监督辅助识别网络均可以为残差网络。预设主干识别网络和至少一个预设自监督辅助识别网络均可以为resnet、resnext,effcientnet等。
120.s302、根据多个训练样本和对应的样本类别确定各个样本类别的样本数量。
121.具体的,根据多个训练样本和对应的样本类别,对每个样本类别的样本数量进行统计,确定各个样本类别的样本数量。例如,预设训练集有100个训练样本,经过统计各个样本类别的样本数量分别为:洗衣液类别的训练样本有30个,方便面类别的训练样本有40个,电脑类别的训练样本有10个,钢笔类别的训练样本有10个,鼠标类别的训练样本有10个。
122.s303、将样本数量大于预设数量的样本类别对应的训练样本确定为负样本,将样本数量不大于预设数量的样本类别对应的训练样本确定为正样本。
123.其中,预设数量可以根据具体设定。例如,预设数量为20。则洗衣液类别和方便面类别就是负样本,即头部类别的样本;电脑样本、钢笔样本、鼠标样本就是正样本,即长尾类别的样本。
124.对于有监督的而且各类样本比较均衡的数据来说,深度学习模型都取得了很好的性能,甚至超越人类识别的效果。但是在现实场景中,数据分布很不均衡,比如像货品各个类别分布就很不均衡,有的头部类别成千上万个,但尾部类别少则10几个,甚至更少。那么利用通用的分类模型识别这样的数据效果就会大大降低。对于头部类别会出现过拟合现象,但是对于尾部类别出现欠拟合问题。解决这类问题的常用方法分为两类:一是重采样方法,即在训练的时候,头部的数据按一比例采样,尾部数据重复采样,使得两者的数量差异能够缩小;二是模型调整的方法,即分阶段训练,第一阶段训练关注模型的表达能力,第二阶段在此基础上,关注各类的区分性。不同于这两类,我们提出了一种基于自监督、端到端的目标货品特征识别模型,不仅能够提高模型的表达能力,还能够通过自适应损失函数提升模型的分类性能。我们的模型是多任务分类模型,通过预设自监督辅助识别网络帮助预设主干识别网络提升网络的表达能力,最终我们可以得到比较有区分性的表达能力。
125.s304、将负样本输入预设主干识别网络,将正样本输入至少一个预设自监督辅助识别网络,训练预设主干识别网络和至少一个预设自监督辅助识别网络,得到目标主干识别网络和至少一个目标自监督辅助识别网络。
126.在一个具体的实施例中,分别训练预设主干识别网络和至少一个预设自监督辅助识别网络,得到目标主干识别网络和至少一个目标自监督辅助识别网络。
127.s305、基于目标主干识别网络和至少一个目标自监督辅助识别网络构建目标货品特征识别模型。
128.为了提高货品识别准确度,参阅图4,图4是本技术实施例中货品识别方法的一个实施例中s304的流程示意图。在另一个具体的实施例中,将负样本输入预设主干识别网络,将正样本输入至少一个预设自监督辅助识别网络,训练预设主干识别网络和至少一个预设自监督辅助识别网络,得到目标主干识别网络和至少一个目标自监督辅助识别网络,可以包括s401-s403:
129.s401、将负样本输入预设主干识别网络,得到第一样本特征向量。
130.在一个具体的实施例中,将负样本输入预设主干识别网络,得到第一样本特征向量zj。
131.s402、将正样本输入至少一个预设自监督辅助识别网络,得到至少一个第二样本特征向量。
132.在一个具体的实施例中,至少一个预设自监督辅助识别网络包括第一自监督辅助识别网络和第二自监督辅助识别网络。将正样本输入至少一个预设自监督辅助识别网络,得到至少一个第二样本特征向量,包括:
133.(1)将正样本分别输入第一自监督辅助识别网络和第二自监督辅助识别网络,得到第三样本特征向量和第四样本特征向量。
134.具体的,以第一图像增强策略对正样本进行图像增强,并输入第一自监督辅助识别网络,得到第三样本特征向量;以第二图像增强策略对正样本进行图像增强,并输入第二自监督辅助识别网络,得到第四样本特征向量。第一图像增强策略和第二图像增强策略不同。图像增强策略包括随机裁剪、颜色变化以及随机遮挡。例如,第一图像增强策略包括随机裁剪和颜色变化;第二图像增强策略包括随机遮挡。根据具体设定即可。
135.(2)将第三样本特征向量中第一预设比例的特征值转换至预设值,得到第五样本特征向量。
136.其中,第一预设比例为0.1、0.2等,当然,第一预设比例可以根据具体情况设定。例如,预设值为0。当然,预设值也可以根据具体情况设定。例如,第三样本特征向量是一个1024维的向量,将第三样本特征向量中第一预设比例的特征值转换至预设值,即将第三样本特征向量中第一预设比例的特征值设置为零。例如,得到第五样本特征向量zi。
137.(3)将第四样本特征向量中第二预设比例的特征值转换至预设值,得到第六样本特征向量。
138.其中,第二预设比例为0.1、0.2等,当然,第二预设比例可以根据具体情况设定。例如,预设值为0。优选地,第一预设比例和第二预设比例不同。当然,预设值也可以根据具体情况设定。例如,第四样本特征向量是一个1024维的向量,将第四样本特征向量中第二预设比例的特征值转换至预设值,即将第四样本特征向量中第二预设比例的特征值设置为零。例如,得到第六样本特征向量z
′i。
139.这样,第一自监督辅助识别网络和第二自监督辅助识别网络会从不同视觉上来刻画这些特征,使得图片的特征表示更完整。
140.(4)将第五样本特征向量和第六样本特征向量确定为至少一个第二样本特征向量。
141.需要说明的是,本技术仅以至少一个预设自监督辅助识别网络包括第一自监督辅助识别网络和第二自监督辅助识别网络为例进行说明。这样得到第五样本特征向量和第六样本特征向量作为至少一个第二样本特征向量。在其他实施例中,至少一个预设自监督辅助识别网络可以包括3个或更多个预设自监督辅助识别网络,得到3个或更多个第二样本特征向量。
142.s403、基于第一样本特征向量和至少一个第二样本特征向量对预设主干识别网络和至少一个预设自监督辅助识别网络迭代更新,得到目标主干识别网络和至少一个目标自
监督辅助识别网络。
143.在一个具体的实施例中,基于第一样本特征向量和至少一个第二样本特征向量对预设主干识别网络和至少一个预设自监督辅助识别网络迭代更新,得到目标主干识别网络和至少一个目标自监督辅助识别网络,可以包括:
144.(1)基于第一样本特征向量确定交叉熵损失和三元组损失。
145.在一个具体的实施例中,基于第一样本特征向量zj进行分类,得到正样本的预测标签,基于正样本的预测标签和正样本的样本类别确定交叉熵损失和三元组损失。
146.其中,交叉熵损失l
id
满足如下的公式(1)所示的关系,
[0147][0148]
其中,qi表示样本i的类别,pi表示样本i的预测标签,即样本i属于某个类别的概率,n表示某一次迭代进入训练网络的样本数。
[0149]
另外三元组损失,英文名称tripletloss。可以使得同类物体距离更小,不同类的物体距离更远。三元组损失l
triplet
满足如下的公式(2)所示的关系,
[0150]
l
triplet
=[d
p-dn+α]
+
ꢀꢀꢀ
(2)
[0151]
其中,d
p
和dn是正样本对和负样本对的特征距离,α是边缘设置用于挑选出困难样本对,一般设置为0.3。所谓困难样本对,是指网络越难区分的样本,学习出来的特征越有效果。比如属于同一类的样本对距离很远,来自不同类的样本对很近,这样的都是困难样本对。但一般来说d
p
小于dn,我们通过控制α使得部分正样本对距离较远的和负样本对距离较近的可以保留下来。这也就是困难样本。
[0152]
(2)基于第一样本特征向量和至少一个第二样本特征向量确定自监督损失。
[0153]
其中,至少一个第二样本特征向量包括第五样本特征向量zi和第六样本特征向量z
′i,基于第一样本特征向量和至少一个第二样本特征向量确定自监督损失l
self
,可以包括:基于各个正样本的第五样本特征向量zi和第六样本特征向量z
′i和各个负样本的第一样本特征向量zj确定自监督损失l
self
。
[0154]
其中,自监督损失l
self
满足公式(3)所示的公式,
[0155][0156]
其中,zi为样本i的第五样本特征向量,z
′i为样本i的第六样本特征向量,zj是预设主干识别网络得到的其它类别图片的第一样本特征zj。s是一个余旋度量函数,用来计算两个向量之间的距离。τ是模拟退火参数,用来控制收敛的速度,过小容易造成拟合不足,太大会导致崩溃,所以需要选取一个合适的参数,一般取0.1。这个损失函数的意义是使得同一类型的特征更加靠近,不同类别之间的特征相互远离。
[0157]
(3)基于交叉熵损失、三元组损失以及自监督损失确定总损失。
[0158]
在一个具体的实施例,基于交叉熵损失、三元组损失以及自监督损失确定总损失,
包括:将交叉熵损失、三元组损失以及自监督损失求和,得到总损失。
[0159]
在另一个具体的实施例中,基于交叉熵损失、三元组损失以及自监督损失确定总损失,包括:基于预设训练集中的正样本的数量占比确定自监督损失的自监督权重系数,其中,正样本所属类别的样本数量占比越多,自监督权重系数越大;基于自监督权重系数对交叉熵损失、三元组损失以及自监督损失进行加权求和,得到自监督损失。其中,交叉熵损失的权重系数为1,,三元组损失的权重系数为1,自监督损失的权重系数为自监督权重系数。
[0160]
其中,基于预设训练集中的正样本的数量占比确定自监督损失的自监督权重系数,其中,预设训练集中的正样本的数量占比越大,自监督权重系数越小。在一个具体的实施例中,自监督损失的自监督权重系数为预设训练集中的正样本的数量占比p,即预设训练集中的长尾类别样本的出现的概率。例如,预设训练集有100个训练样本,经过统计各个样本类别的样本数量分别为:洗衣液类别的训练样本有30个,方便面类别的训练样本有45个,电脑类别的训练样本有10个,钢笔类别的训练样本有10个,鼠标类别的训练样本有5个,若预设训练集中正样本的数量占比p为0.25。自监督损失的自监督权重系数为4。
[0161]
具体的,交叉熵损失、三元组损失、自监督损失以及总损失满足公式(4)所示的关系,
[0162][0163]
其中,l
total
为总损失,l
id
为交叉熵损失,l
triplet
为三元组损失,l
self
为自监督损失。
[0164]
也就是说长尾类别选择的概率越小,这时预设自监督辅助识别网络的自监督损失权重越大,越倾向于利用自监督的方式提取目标的特征,否则利用全局网络去对头部类别提取特征。
[0165]
(4)基于总损失对预设主干识别网络和至少一个预设自监督辅助识别网络迭代更新,得到目标主干识别网络和至少一个目标自监督辅助识别网络。
[0166]
其中,当总损失不小于预定损失时,更新预设主干识别网络和至少一个预设自监督辅助识别网络的网络权重,完成一次迭代更新。多次迭代更新预设主干识别网络和至少一个预设自监督辅助识别网络的网络权重至损失值小于预定损失,将此时的预设主干识别网络和至少一个预设自监督辅助识别网络确定为目标主干识别网络和至少一个目标自监督辅助识别网络。
[0167]
为了更好实施本技术实施例中货品识别方法,在货品识别方法基础之上,本技术实施例中还提供一种货品识别装置,如图5所示,货品识别装置500包括:
[0168]
获取单元501,用于获取待识别货品图像;
[0169]
特征表征单元502,用于将待识别货品图像输入目标货品特征识别模型,得到待识别货品图像的待识别特征向量,其中,目标货品特征识别模型是基于预设训练集训练得到的,预设训练集包括多个训练样本和对应的样本类别;
[0170]
相似度计算单元503,用于对待识别特征向量与各个训练样本的特征向量分别计算相似度,得到多个向量相似度;
[0171]
确定单元504,用于将各个训练样本中向量相似度最高的训练样本对应的样本类
别确定为待识别货品图像的样本类别。
[0172]
可选地,特征表征单元502,用于:
[0173]
获取目标货品特征识别模型,其中,目标货品特征识别模型包括并列的目标主干识别网络和至少一个目标自监督辅助识别网络;
[0174]
将待识别货品图像输入目标主干识别网络,得到待识别货品图像的第一特征向量;
[0175]
将待识别货品图像分别输入至少一个目标自监督辅助识别网络,得到待识别货品图像的至少一个第二特征向量;
[0176]
融合第一特征向量和至少一个第二特征向量,得到待识别货品图像的待识别特征向量。
[0177]
可选地,特征表征单元502,用于:
[0178]
获取预设主干识别网络和至少一个预设自监督辅助识别网络;
[0179]
根据多个训练样本和对应的样本类别确定各个样本类别的样本数量;
[0180]
将样本数量大于预设数量的样本类别对应的训练样本确定为负样本,将样本数量不大于预设数量的样本类别对应的训练样本确定为正样本;
[0181]
将负样本输入预设主干识别网络,将正样本输入至少一个预设自监督辅助识别网络,训练预设主干识别网络和至少一个预设自监督辅助识别网络,得到目标主干识别网络和至少一个目标自监督辅助识别网络;
[0182]
基于目标主干识别网络和至少一个目标自监督辅助识别网络构建目标货品特征识别模型。
[0183]
可选地,特征表征单元502,用于:
[0184]
将负样本输入预设主干识别网络,得到第一样本特征向量;
[0185]
将正样本输入至少一个预设自监督辅助识别网络,得到至少一个第二样本特征向量;
[0186]
基于第一样本特征向量和至少一个第二样本特征向量对预设主干识别网络和至少一个预设自监督辅助识别网络迭代更新,得到目标主干识别网络和至少一个目标自监督辅助识别网络。
[0187]
可选地,至少一个预设自监督辅助识别网络包括第一自监督辅助识别网络和第二自监督辅助识别网络,特征表征单元502,用于:
[0188]
将正样本分别输入第一自监督辅助识别网络和第二自监督辅助识别网络,得到第三样本特征向量和第四样本特征向量;
[0189]
将第三样本特征向量中第一预设比例的特征值转换至预设值,得到第五样本特征向量;
[0190]
将第四样本特征向量中第二预设比例的特征值转换至预设值,得到第六样本特征向量;
[0191]
将第五样本特征向量和第六样本特征向量确定为至少一个第二样本特征向量。
[0192]
可选地,特征表征单元502,用于:
[0193]
基于第一样本特征向量确定交叉熵损失和三元组损失;
[0194]
基于第一样本特征向量和至少一个第二样本特征向量确定自监督损失;
[0195]
基于交叉熵损失、三元组损失以及自监督损失确定总损失;
[0196]
基于总损失对预设主干识别网络和至少一个预设自监督辅助识别网络迭代更新,得到目标主干识别网络和至少一个目标自监督辅助识别网络。
[0197]
可选地,特征表征单元502,用于:
[0198]
基于预设训练集中的正样本的数量占比确定自监督损失的自监督权重系数,其中,数量占比越大时,自监督权重系数越小;
[0199]
基于自监督权重系数对交叉熵损失、三元组损失以及自监督损失进行加权求和,得到总损失。
[0200]
本技术实施例还提供一种计算机设备,其集成了本技术实施例所提供的任一种货品识别装置,计算机设备包括:
[0201]
一个或多个处理器;
[0202]
存储器;以及
[0203]
一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行上述货品识别方法实施例中任一实施例中的货品识别方法中的步骤。
[0204]
如图6所示,其示出了本技术实施例所涉及的计算机设备的结构示意图,具体来讲:
[0205]
该计算机设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0206]
处理器601是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;处理器601可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
[0207]
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
[0208]
计算机设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管
理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0209]
该计算机设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0210]
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
[0211]
获取待识别货品图像;
[0212]
对待识别货品图像进行特征提取得到第一特征图;
[0213]
将第一特征图输入预设注意力模型进行权重调整,得到第二特征图;
[0214]
基于第一特征图和第二特征图进行图像融合,得到第三特征图;
[0215]
基于第三特征图进行货品识别,得到待识别货品图像的目标货品识别结果。
[0216]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0217]
为此,本技术实施例提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。其上存储有计算机程序,计算机程序被处理器进行加载,以执行本技术实施例所提供的任一种货品识别方法中的步骤。例如,计算机程序被处理器进行加载可以执行如下步骤:
[0218]
获取待识别货品图像;
[0219]
对待识别货品图像进行特征提取得到第一特征图;
[0220]
将第一特征图输入预设注意力模型进行权重调整,得到第二特征图;
[0221]
基于第一特征图和第二特征图进行图像融合,得到第三特征图;
[0222]
基于第三特征图进行货品识别,得到待识别货品图像的目标货品识别结果。
[0223]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
[0224]
具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。
[0225]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0226]
以上对本技术实施例所提供的一种货品识别方法及装置进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种货品识别方法,其特征在于,包括:获取待识别货品图像;将所述待识别货品图像输入目标货品特征识别模型,得到所述待识别货品图像的待识别特征向量,其中,所述目标货品特征识别模型是基于预设训练集训练得到的,所述预设训练集包括多个训练样本和对应的样本类别;对所述待识别特征向量与所述各个训练样本的特征向量分别计算相似度,得到多个向量相似度;将所述各个训练样本中向量相似度最高的训练样本对应的样本类别确定为所述待识别货品图像的样本类别。2.根据权利要求1所述的货品识别方法,其特征在于,所述将所述待识别货品图像输入目标货品特征识别模型,得到所述待识别货品图像的待识别特征向量,包括:获取所述目标货品特征识别模型,其中,所述目标货品特征识别模型包括并列的目标主干识别网络和至少一个目标自监督辅助识别网络;将所述待识别货品图像输入所述目标主干识别网络,得到所述待识别货品图像的第一特征向量;将所述待识别货品图像分别输入所述至少一个目标自监督辅助识别网络,得到所述待识别货品图像的至少一个第二特征向量;融合所述第一特征向量和所述至少一个第二特征向量,得到所述待识别货品图像的待识别特征向量。3.根据权利要求2所述的货品识别方法,其特征在于,所述获取所述目标货品特征识别模型,包括:获取预设主干识别网络和至少一个预设自监督辅助识别网络;根据所述多个训练样本和对应的样本类别确定各个样本类别的样本数量;将样本数量大于预设数量的样本类别对应的训练样本确定为负样本,将样本数量不大于预设数量的样本类别对应的训练样本确定为正样本;将所述负样本输入预设主干识别网络,将所述正样本输入至少一个预设自监督辅助识别网络,训练预设主干识别网络和至少一个预设自监督辅助识别网络,得到目标主干识别网络和至少一个目标自监督辅助识别网络;基于目标主干识别网络和至少一个目标自监督辅助识别网络构建所述目标货品特征识别模型。4.根据权利要求3所述的货品识别方法,其特征在于,所述将所述负样本输入预设主干识别网络,将所述正样本输入至少一个预设自监督辅助识别网络,训练预设主干识别网络和至少一个预设自监督辅助识别网络,得到目标主干识别网络和至少一个目标自监督辅助识别网络,包括:将所述负样本输入预设主干识别网络,得到第一样本特征向量;将所述正样本输入至少一个预设自监督辅助识别网络,得到至少一个第二样本特征向量;基于所述第一样本特征向量和至少一个第二样本特征向量对所述预设主干识别网络和所述至少一个预设自监督辅助识别网络迭代更新,得到目标主干识别网络和至少一个目
标自监督辅助识别网络。5.根据权利要求4所述的货品识别方法,其特征在于,所述至少一个预设自监督辅助识别网络包括第一自监督辅助识别网络和第二自监督辅助识别网络,所述将所述正样本输入所述至少一个预设自监督辅助识别网络,得到至少一个第二样本特征向量,包括:将所述正样本分别输入所述第一自监督辅助识别网络和所述第二自监督辅助识别网络,得到第三样本特征向量和第四样本特征向量;将第三样本特征向量中第一预设比例的特征值转换至预设值,得到第五样本特征向量;将第四样本特征向量中第二预设比例的特征值转换至预设值,得到第六样本特征向量;将第五样本特征向量和第六样本特征向量确定为所述至少一个第二样本特征向量。6.根据权利要求4所述的货品识别方法,其特征在于,所述基于所述第一样本特征向量和至少一个第二样本特征向量对所述预设主干识别网络和所述至少一个预设自监督辅助识别网络迭代更新,得到目标主干识别网络和至少一个目标自监督辅助识别网络,包括:基于所述第一样本特征向量确定交叉熵损失和三元组损失;基于所述第一样本特征向量和至少一个第二样本特征向量确定自监督损失;基于交叉熵损失、三元组损失以及自监督损失确定总损失;基于所述总损失对所述预设主干识别网络和所述至少一个预设自监督辅助识别网络迭代更新,得到目标主干识别网络和至少一个目标自监督辅助识别网络。7.根据权利要求6所述的货品识别方法,其特征在于,所述基于交叉熵损失、三元组损失以及自监督损失确定总损失,包括:基于所述预设训练集中的正样本的数量占比确定所述自监督损失的自监督权重系数,其中,所述数量占比越大时,所述自监督权重系数越小;基于所述自监督权重系数对交叉熵损失、三元组损失以及自监督损失进行加权求和,得到所述总损失。8.一种货品识别装置,其特征在于,所述货品识别装置包括:获取单元,用于获取待识别货品图像;特征表征单元,用于将所述待识别货品图像输入目标货品特征识别模型,得到所述待识别货品图像的待识别特征向量,其中,所述目标货品特征识别模型是基于预设训练集训练得到的,所述预设训练集包括多个训练样本和对应的样本类别;相似度计算单元,用于对所述待识别特征向量与所述各个训练样本的特征向量分别计算相似度,得到多个向量相似度;确定单元,用于将所述各个训练样本中向量相似度最高的训练样本对应的样本类别确定为所述待识别货品图像的样本类别。9.一种计算机设备,其特征在于,所述计算机设备包括:一个或多个处理器;存储器;以及一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至7中任一项所述的货品识别方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7任一项所述的货品识别方法中的步骤。
技术总结
本申请提供一种货品识别方法及装置,该货品识别方法包括:获取待识别货品图像;将待识别货品图像输入目标货品特征识别模型,得到待识别货品图像的待识别特征向量,其中,目标货品特征识别模型是基于预设训练集训练得到的,预设训练集包括多个训练样本和对应的样本类别;对待识别特征向量与各个训练样本的特征向量分别计算相似度,得到多个向量相似度;将各个训练样本中向量相似度最高的训练样本对应的样本类别确定为待识别货品图像的样本类别。本申请能够提高货品识别的准确性。本申请能够提高货品识别的准确性。本申请能够提高货品识别的准确性。
技术研发人员:罗中华 马佳炯 周浩 连自锋
受保护的技术使用者:顺丰科技有限公司
技术研发日:2022.03.01
技术公布日:2023/9/11
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/