图像分类方法、装置和存储介质与流程

未命名 08-07 阅读:56 评论:0


1.本技术涉及人工智能(artificial intelligence,ai)技术领域,尤其涉及一种图像分类方法、装置和存储介质。


背景技术:

2.人工智能(artificial intelligence,ai)技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。ai中一个重要的研究方向是视觉场景中的不平衡数据识别。由于各种应用中采集到的数据急剧增加,构造的训练样本集合中的数据比例也逐渐逼近现实场景中各种样本的出现频率。这导致数据的类别急剧攀升,同时部分类别由于其稀有性样本数远远少于其它类别,造成识别任务的困难。
3.面对这种情况,当前通常是通过对样本数据进行重采样(包括过采样和欠采样),直接地将一个批次中不平衡分布的数据转化为平衡分布的数据,从而消除不平衡性。然而,过采样可能会导致模型泛化能力的降低,欠采样会导致对头部类别的欠拟合,使模型无法充分学习到头部类别所包含的信息。还存在一种分类器平衡方法,该方法应用了两阶段训练的框架,在不同的阶段使用不同的约束方法,通过各种网络训练约束来重新平衡不平衡数据训练所导致的网络参数不平衡。然而,这种方法针对不同的数据集需要制定不同的约束并选择不同的超参数,在计算上耗费较大,且无法适用于不同结构的网络,不具有普遍性。因此,亟需一种新型的图像分类方法以简单快速地消除不平衡数据对神经网络模型预测结果的影响,提升预测的准确率。


技术实现要素:

4.有鉴于此,提出了一种图像分类方法、装置和存储介质。
5.第一方面,本技术的实施例提供了一种图像分类方法。该方法包括:
6.获取待分类图像;
7.利用神经网络模型对待分类图像进行处理,得到待分类图像的分类结果,神经网络模型基于不平衡分布的训练样本训练得到,待分类图像的分类结果包括基于极坐标系下神经网络模型的参数和极坐标系下待分类图像的特征向量确定的第一分类结果。
8.根据本技术实施例,能够获取待分类图像,利用基于不平衡分布的训练样本训练得到的神经网络模型对待分类图像进行处理,得到分类结果,在此过程中,通过基于极坐标系下神经网络模型的参数和极坐标系下待分类图像的特征向量确定第一分类结果,能够消除在直角坐标系下进行分类时不平衡的数据对预测结果的影响,提升预测结果的准确性,同时,由于可以直接利用训练后的神经网络模型的参数,将原本的预测空间从正交空间转化到极坐标空间,无需重新训练,简单快速,开销更小,更加灵活。
9.根据第一方面,在图像分类方法的第一种可能的实现方式中,第一分类结果可以基于极坐标系下神经网络模型的分类器的参数和极坐标系下待分类图像的特征向量之间
的夹角确定,夹角的概率分布服从平滑分布。
10.根据本技术实施例,通过基于极坐标系下分类器的参数和极坐标系下待分类图像的特征向量之间的夹角确定第一分类结果,可以忽略向量的长度,更合理地确定待分类图像与类别之间的特征相关性,消除了直角坐标系下预测的不平衡性问题,使预测结果更加准确,通过使夹角的概率分布服从平滑分布,能够提升模型的鲁棒性,使模型更加稳定。
11.根据第一方面或第一方面的第一种可能的实现方式,在图像分类方法的第二种可能的实现方式中,利用神经网络模型对待分类图像进行处理,得到待分类图像的分类结果,可包括:
12.获取直角坐标系下神经网络模型的分类器的参数,将直角坐标系下神经网络模型的分类器的参数转换为极坐标系下神经网络模型的分类器的参数;
13.利用神经网络模型确定直角坐标系下待分类图像的特征向量,将直角坐标系下待分类图像的特征向量转换为极坐标系下待分类图像的特征向量;
14.针对不同的类别,计算极坐标系下神经网络模型的分类器的参数和极坐标系下待分类图像的特征向量之间的夹角,根据不同类别的夹角大小确定第一分类结果。
15.根据本技术实施例,通过将直角坐标系下神经网络模型的分类器的参数和直角坐标系下待分类图像的特征向量转换至极坐标下,计算不同类别下参数和特征向量之间的夹角以确定第一分类结果,可以在不对模型进行重新训练的情况下,消除正交空间下预测的不平衡性,得到更加准确的分类结果。
16.根据第一方面或第一方面的第一种或第二种可能的实现方式,在图像分类方法的第三种可能的实现方式中,分类结果还可包括基于直角坐标系下神经网络模型的分类器的参数和直角坐标系下待分类图像的特征向量确定的第二分类结果。
17.根据本技术实施例,通过使分类结果包括直角坐标系下的第二分类结果,可以使分类结果更加全面,以更好地辅助相关工作人员。
18.根据第一方面或第一方面的第一种或第二种或第三种可能的实现方式,在图像分类方法的第四种可能的实现方式中,神经网络模型可以为训练后的神经网络模型,该方法还可包括:
19.利用初始的神经网络模型对训练样本进行处理,确定训练样本的分类结果,训练样本的分类结果基于极坐标系下初始的神经网络模型的参数和极坐标系下训练样本的特征向量确定;
20.基于上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果,对当前批次训练中训练样本的标签进行更新,得到当前批次训练中训练样本的更新后的标签;
21.基于更新后的标签和训练样本的分类结果,计算损失函数的值,以对初始的神经网络模型的参数进行更新,确定训练后的神经网络模型。
22.根据本技术实施例,通过基于上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果,对当前批次训练中训练样本的标签进行更新,得到更新后的标签,可以在不同批次的训练过程中实现对标签进行动态更新,使得标签可以适应于不同批次的训练过程,可以训练得到预测准确率更高的神经网络模型。
23.根据第一方面的第四种可能的实现方式,在图像分类方法的第五种可能的实现方
式中,基于上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果,对当前批次训练中训练样本的标签进行更新,得到当前批次训练中训练样本的更新后的标签,可包括:
24.将上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果相加后取平均,得到当前批次训练中训练样本的平滑函数值;
25.基于当前批次训练中训练样本的平滑函数值,确定当前批次训练中训练样本的更新后的标签。
26.根据本技术实施例,通过将前一批次的平滑函数值与当前批次的分类结果相加后取平均,可以使标签继承之前平滑函数值的计算结果,且将每一批次的极坐标预测结果动态地加入到标签中去,以更新标签使其更加符合当前批次的训练过程,得到更好的训练效果,且可以使得训练过程更加稳定,不会因为不同批次中随机采样的顺序变化而带来预测结果上的显著不同。
27.根据第一方面的第四种或第五种可能的实现方式,在图像分类方法的第六种可能的实现方式中,损失函数可包括最小化熵项,最小化熵项可基于当前批次训练中训练样本的分类结果得到。
28.根据本技术实施例,通过使损失函数中包括最小化熵项,可以解决模型的预测结果过于平均的问题,在提升模型预测准确率的同时,使训练过程更加稳定,提升了模型的鲁棒性。
29.根据第一方面或第一方面的第一种或第二种或第三种或第四种或第五种或第六种可能的实现方式,在图像分类方法的第七种可能的实现方式中,神经网络模型可以基于两阶段学习训练得到,在第一阶段中对神经网络模型的特征提取器和分类器的参数进行更新,在第二阶段中对神经网络模型的分类器的参数进行微调更新。
30.根据本技术实施例,基于两阶段学习的框架对神经网络模型进行训练,将模型在不平衡分布的训练样本上的学习过程进行解耦,可以保证模型学习到的特征是优质的,同时对分类器进行了针对不平衡数据的调整,提升了模型的预测准确率。
31.第二方面,本技术的实施例提供了一种图像分类装置。该装置包括:
32.获取模块,用于获取待分类图像;
33.第一确定模块,用于利用神经网络模型对待分类图像进行处理,得到待分类图像的分类结果,神经网络模型基于不平衡分布的训练样本训练得到,待分类图像的分类结果包括基于极坐标系下神经网络模型的参数和极坐标系下待分类图像的特征向量确定的第一分类结果。
34.根据第二方面,在图像分类装置的第一种可能的实现方式中,第一分类结果可以基于极坐标系下神经网络模型的分类器的参数和极坐标系下待分类图像的特征向量之间的夹角确定,夹角的概率分布服从平滑分布。
35.根据第二方面或第二方面的第一种可能的实现方式,在图像分类装置的第二种可能的实现方式中,第一确定模块,可用于:
36.获取直角坐标系下神经网络模型的分类器的参数,将直角坐标系下神经网络模型的分类器的参数转换为极坐标系下神经网络模型的分类器的参数;
37.利用神经网络模型确定直角坐标系下待分类图像的特征向量,将直角坐标系下待
分类图像的特征向量转换为极坐标系下待分类图像的特征向量;
38.针对不同的类别,计算极坐标系下神经网络模型的分类器的参数和极坐标系下待分类图像的特征向量之间的夹角,根据不同类别的夹角大小确定第一分类结果。
39.根据第二方面或第二方面的第一种或第二种可能的实现方式,在图像分类装置的第三种可能的实现方式中,分类结果还可包括基于直角坐标系下神经网络模型的分类器的参数和直角坐标系下待分类图像的特征向量确定的第二分类结果。
40.根据第二方面或第二方面的第一种或第二种或第三种可能的实现方式,在图像分类装置的第四种可能的实现方式中,神经网络模型可以为训练后的神经网络模型,该装置还可包括:
41.第二确定模块,用于利用初始的神经网络模型对训练样本进行处理,确定训练样本的分类结果,训练样本的分类结果基于极坐标系下初始的神经网络模型的参数和极坐标系下训练样本的特征向量确定;
42.第三确定模块,用于基于上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果,对当前批次训练中训练样本的标签进行更新,得到当前批次训练中训练样本的更新后的标签;
43.第四确定模块,用于基于更新后的标签和训练样本的分类结果,计算损失函数的值,以对初始的神经网络模型的参数进行更新,确定训练后的神经网络模型。
44.根据第二方面的第四种可能的实现方式,在图像分类装置的第五种可能的实现方式中,第三确定模块,可用于:
45.将上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果相加后取平均,得到当前批次训练中训练样本的平滑函数值;
46.基于当前批次训练中训练样本的平滑函数值,确定当前批次训练中训练样本的更新后的标签。
47.根据第二方面的第四种或第五种可能的实现方式,在图像分类装置的第六种可能的实现方式中,损失函数可包括最小化熵项,最小化熵项可基于当前批次训练中训练样本的分类结果得到。
48.根据第二方面或第二方面的第一种或第二种或第三种或第四种或第五种或第六种可能的实现方式,在图像分类装置的第七种可能的实现方式中,神经网络模型可以基于两阶段学习训练得到,在第一阶段中对神经网络模型的特征提取器和分类器的参数进行更新,在第二阶段中对神经网络模型的分类器的参数进行微调更新。
49.第三方面,本技术的实施例提供了一种图像分类装置,该装置包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的图像分类方法。
50.第四方面,本技术的实施例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的图像分类方法。
51.第五方面,本技术的实施例提供了一种终端设备,该终端设备可以执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的图像分类方法。
52.第六方面,本技术的实施例提供了一种计算机程序产品,包括计算机可读代码,或
者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的图像分类方法。
53.本技术的这些和其他方面在以下(多个)实施例的描述中会更加简明易懂。
附图说明
54.包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本技术的示例性实施例、特征和方面,并且用于解释本技术的原理。
55.图1示出根据本技术一实施例的应用场景的示意图。
56.图2示出根据本技术一实施例的图像分类方法的流程图。
57.图3示出根据本技术一实施例的坐标形式变换的示意图。
58.图4示出根据本技术一实施例的图像分类方法的流程图。
59.图5示出根据本技术一实施例的图像分类方法的流程图。
60.图6示出根据本技术一实施例的图像分类方法的流程图。
61.图7示出根据本技术一实施例的图像分类装置的结构图。
62.图8示出根据本技术一实施例的电子设备800的结构图。
具体实施方式
63.以下将参考附图详细说明本技术的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
64.在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
65.另外,为了更好的说明本技术,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本技术同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本技术的主旨。
66.ai技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。ai中一个重要的研究方向是视觉场景中的不平衡数据识别。由于各种应用中采集到的数据急剧增加,构造的训练样本集合中的数据比例也逐渐逼近现实场景中各种样本的出现频率。这导致数据的类别急剧攀升,同时部分类别由于其稀有性样本数远远少于其它类别,造成识别任务的困难。除此之外,随着不断增加的任务需求,精细化的识别也越来越受到重视,大类别(例如狗)被分解为细粒度的小类别(例如柯基,阿拉斯加犬等),更是加重了类别间的样本数量不平衡。面对这种情况,当前通常是通过对样本数据进行重采样(包括过采样和欠采样),直接地将一个批次中不平衡分布的数据转化为平衡分布的数据,从而消除不平衡性。然而,过采样可能会导致模型泛化能力的降低,欠采样会导致对头部类别的欠拟合,使模型无法充分学习到头部类别所包含的信息。还存在一种分类器平衡方法,该方法应用了两阶段训练的框架,在不同的阶段使用不同的约束方法,通过各种网络训练约束来重新平衡不平衡数据训练所导致的网络参数不平衡。然而,这种方法针对不同的数据集需要制定不同
的约束并选择不同的超参数,在计算上耗费较大,且无法适用于不同结构的网络,不具有普遍性。因此,亟需一种新型的图像分类方法以简单快速地消除不平衡数据对神经网络模型预测结果的影响,提升预测的准确率。
67.为了解决上述技术问题,本技术提供了一种图像分类方法,本技术实施例的图像分类方法能够获取待分类图像,利用基于不平衡分布的训练样本训练得到的神经网络模型对待分类图像进行处理,得到分类结果,在此过程中,通过基于极坐标系下神经网络模型的参数和极坐标系下待分类图像的特征向量确定第一分类结果,能够消除在直角坐标系下进行分类时不平衡数据对预测结果的影响,提升预测结果的准确性,同时,由于可以直接利用训练后的神经网络模型的参数,将原本的预测空间从正交空间转化到极坐标空间,无需重新训练,简单快速,开销更小,更加灵活。
68.图1示出根据本技术一实施例的应用场景的示意图。本技术实施例的图像分类方法能够应用于诸如医疗、自动驾驶场景等各种场景下的图像分类任务中。如图1所示,以医疗场景为例,在其中一种医疗场景中,ai视觉识别可以对结构化的病例进行快速系统的识别,使得医疗人员可以以此为辅助大大减少所需花费的时间精力,避免出现诊断的错误。然而,在这种结构化病例识别的场景中,由于存在普遍病例(常见病的病例)和稀缺病例(罕见病的病例),神经网络模型通常是基于不平衡分布的病例样本训练得到的,可能使预测结果也呈现不平衡性。
69.基于本技术实施例的方法,训练后的神经网络模型通过获取病例图像,在对病例图像进行特征提取和分类的基础上,可以输出正交空间下的分类结果(即图中的第二分类结果),利用本技术实施例的方法,可以将原本的预测空间从正交空间转化到极坐标空间,基于极坐标系下神经网络模型分类器的参数和极坐标系下病例图像的特征向量确定极坐标空间下的分类结果(即图中的第一分类结果)。上述分类结果都可以用于指示病灶的类型,而第一分类结果较好地消除了第二分类结果中的不平衡性,更加准确。需要说明的是,基于本技术实施例的方法,可以仅输出第一分类结果,也可以同时输出第一分类结果和第二分类结果,从而,医疗人员可以结合第一分类结果和第二分类结果对病灶进行进一步定性,由此,可以辅助医疗人员进行工作。
70.基于本技术实施例的图像分类方法可形成相应的软件插件,以嵌入训练后的神经网络模型中,来帮助实现在相应任务的扩展,该方法可应用于服务器或终端设备。
71.本技术涉及的服务器可以位于云端(公有云/私有云/混合云),也可以位于本地,可以是实体设备,也可以是虚拟设备,如虚拟机、容器等,具有无线通信功能,其中,无线通信功能可设置于该服务器的芯片(系统)或其他部件或组件。无线通信功能例如可以通过2g/3g/4g/5g等移动通信技术,以及wi-fi、蓝牙、调频(frequency modulation,fm)、数传电台、卫星通信等方式实现。也可以通过有线连接的方式进行通信,以实现与其他设备的交互。
72.本技术涉及的终端设备可以是触屏的、也可以是非触屏的、也可以是没有屏幕的,触屏的可以通过手指、触控笔等在显示屏幕上点击、滑动等方式对终端设备进行控制,非触屏的设备可以连接鼠标、键盘、触控面板等输入设备,通过输入设备对终端设备进行控制,没有屏幕的设备比如说可以是没有屏幕的蓝牙音箱等。举例来说,本技术的终端设备可以是手机、可折叠电子设备、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电
脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、蜂窝电话、个人数字助理(personal digital assistant,pda)、增强现实(augmented reality,ar)设备、虚拟现实(virtual reality,vr)设备、ai设备、可穿戴式设备、车载设备中的至少一种。本技术实施例对终端设备的具体类型不作特殊限制。
73.以下通过图2-图6,对本技术实施例的图像分类方法进行详细的介绍。
74.图2示出根据本技术一实施例的图像分类方法的流程图。该方法可用于上述服务器或终端设备,如图2所示,该方法可包括:
75.步骤s201,获取待分类图像。
76.例如,在医疗诊断的场景中,待分类图像可以是病例图像;在自动驾驶的场景中,待分类图像可以是由传感器拍摄的图像(如车辆周围环境图像)。
77.步骤s202,利用神经网络模型对待分类图像进行处理,得到待分类图像的分类结果。
78.其中,神经网络模型可以基于不平衡分布的训练样本训练得到,不平衡分布可以是类别间样本数量分布不平衡。不平衡分布的训练样本可以包括头部类别(包含样本数较多的类别)、尾部类别(包含样本数较少的类别)和中间类别(除头部类别和尾部类别以外的其他类别),在不平衡分布的训练样本中,头部类别和尾部类别包含的样本数量之间的比例可以达到预定阈值。
79.可选地,该神经网络模型可以基于两阶段学习训练得到,在第一阶段中对神经网络模型的特征提取器和分类器的参数进行更新,在第二阶段中对神经网络模型的分类器的参数进行微调(fine-tuning)更新,此时可以固定特征提取器的参数。
80.对神经网络进行训练的可选过程将在后续进行详细介绍。
81.根据本技术实施例,基于两阶段学习的框架对神经网络模型进行训练,将模型在不平衡分布的训练样本上的学习过程进行解耦,可以保证模型学习到的特征是优质的,同时对分类器进行了针对不平衡数据的调整,提升了模型的预测准确率。
82.由于在模型利用不平衡分布的训练样本时,分类器的参数可能会呈现不平衡分布,使得对于相同的特征向量来说,模型预测为头部类别的倾向会大于尾部类别,这会加剧预测中的不平衡性。因此,本技术中通过引入极坐标预测,以改善正交空间(即直角坐标系)下进行预测的不平衡问题。
83.其中,待分类图像的分类结果可以包括基于极坐标系下神经网络模型的参数和极坐标系下待分类图像的特征向量确定的第一分类结果。
84.极坐标系下神经网络模型的参数和极坐标下待分类图像的特征向量可分别由直角坐标系下的参数和特征向量转换而来。该神经网络模型的参数可以包括神经网络模型的分类器的参数,分类器的参数可以视作由多个特征向量(数量为分类类别总量)构成的矩阵,矩阵的每一列可以表示针对每一个类别的向量。待分类图像的特征向量可由神经网络模型的特征提取器对待分类图像经过特征提取后得到。
85.根据本技术实施例,能够获取待分类图像,利用基于不平衡分布的训练样本训练得到的神经网络模型对待分类图像进行处理,得到分类结果,在此过程中,通过基于极坐标系下神经网络模型的参数和极坐标系下待分类图像的特征向量确定第一分类结果,能够消除在直角坐标系下进行分类时不平衡的数据对预测结果的影响,提升预测结果的准确性,
同时,由于可以直接利用训练后的神经网络模型的参数,将原本的预测空间从正交空间转化到极坐标空间,无需重新训练,简单快速,开销更小,更加灵活。
86.由于角度可以被用于衡量对输入的图像进行分类的难易程度,且在极坐标系下可以忽略向量的长度,因此,可以以极坐标系下参数与特征向量之间的夹角作为特征相关性的依据。基于此,可选地,第一分类结果可以基于极坐标系下神经网络模型的分类器的参数和极坐标系下待分类图像的特征向量之间的夹角确定,夹角的概率分布可以服从平滑分布。
87.为了使夹角的概率服从平滑分布,可以通过在对神经网络模型的训练过程中引入标签平滑方法,该过程将在后续进行介绍。
88.关于极坐标系下神经网络模型的分类器的参数和极坐标系下待分类图像的特征向量之间的夹角可参见图3,示出根据本技术一实施例的坐标形式变换的示意图。如图3右边所示的极坐标系下,可以表示极坐标系下待分类图像的特征向量,可以表示极坐标系下对应于头部类别的分类器的参数,以表示极坐标系下对应于尾部类别的分类器的参数。θh和θ
t
就可以分别表示相应的极坐标系下神经网络模型的分类器的参数和极坐标系下待分类图像的特征向量之间的夹角。
89.根据本技术实施例,通过基于极坐标系下分类器的参数和极坐标系下待分类图像的特征向量之间的夹角确定第一分类结果,可以忽略向量的长度,更合理地确定待分类图像与类别之间的特征相关性,消除了直角坐标系下预测的不平衡性问题,使预测结果更加准确,通过使夹角的概率分布服从平滑分布,能够提升模型的鲁棒性,使模型更加稳定。
90.确定第一分类结果的方式可参见图4中的详细介绍。图4示出根据本技术一实施例的图像分类方法的流程图。如图4所示,该步骤s202,可包括:
91.步骤s401,获取直角坐标系下神经网络模型的分类器的参数,将直角坐标系下神经网络模型的分类器的参数转换为极坐标系下神经网络模型的分类器的参数。
92.直角坐标系下神经网络模型的分类器的参数可参见图3,如图3左边所示的直角坐标系下,wh可以表示直角坐标系下对应于头部类别的分类器的参数,w
t
可以表示直角坐标系下对应于尾部类别的分类器的参数。将直角坐标系下分类器的参数转换为极坐标系下分类器的参数的方式可以是对参数进行归一化,并利用直角坐标系与极坐标之间的转换公式,将分类器的参数由直角坐标形式转换至极坐标形式,该转换公式可基于现有技术确定。
93.通过转换得到的极坐标系下分类器的参数的示例可参见图3右边所示的wh和w
t

94.步骤s402,利用神经网络模型确定直角坐标系下待分类图像的特征向量,将直角坐标系下待分类图像的特征向量转换为极坐标系下待分类图像的特征向量。
95.其中,直角坐标系下待分类图像的特征向量可由神经网络模型的特征提取器对待分类图像进行特征提取后得到。直角坐标系下待分类图像的特征向量可参见图3,如图3左边所示的直角坐标系下,φ(x
t
)可以表示直角坐标系下待分类图像的特征向量。将直角坐标系下待分类图像的特征向量转换为极坐标系下待分类图像的特征向量的方式可以是对特征向量进行归一化,并利用直角坐标系与极坐标之间的转换公式,将特征向量由直角坐标形式转换至极坐标形式,该转换公式可基于现有技术确定。
96.通过转换得到的极坐标系下待分类图像的特征向量的示例可参见图3右边所示的
97.步骤s403,针对不同的类别,计算极坐标系下神经网络模型的分类器的参数和极坐标系下待分类图像的特征向量之间的夹角,根据不同类别的夹角大小确定第一分类结果。
98.其中一个示例可参见图3,θh和θ
t
可以分别表示头部类别和尾部类别的夹角,由于在图3中存在π-θh《π-θ
t
,因此可以将x
t
分类至尾部类别,从而可以确定第一分类结果为尾部类别。
99.根据本技术实施例,通过将直角坐标系下神经网络模型的分类器的参数和直角坐标系下待分类图像的特征向量转换至极坐标下,计算不同类别下参数和特征向量之间的夹角以确定第一分类结果,可以在不对模型进行重新训练的情况下,消除正交空间下预测的不平衡性,得到更加准确的分类结果。
100.可选地,第一分类结果可以作为模型的附加输出,神经网络模型也可以输出原分类结果,后续可以综合原分类结果(即第二分类结果)和第一分类结果,以进行更全面的判断,参见下述。
101.该分类结果还可包括基于直角坐标系下神经网络模型的分类器的参数和直角坐标系下待分类图像的特征向量确定的第二分类结果。
102.其中,在直角坐标系下,可以基于神经网络模型的分类器的参数在待分类图像的特征向量上的投影,以确定第二分类结果。可参见图3,wh·
φ(x
t
)可以表示分类器中对应于头部类别的参数在特征向量上的投影,w
t
·
φ(x
t
)可以表示分类器中对应于尾部类别的参数在特征向量上的投影,由于在图3中存在wh·
φ(x
t
)》w
t
·
φ(x
t
),基于此可以将x
t
分类至头部类别,从而可以确定第二分类结果为头部类别。
103.根据本技术实施例,通过使分类结果包括直角坐标系下的第二分类结果,可以使分类结果更加全面,以更好地辅助相关工作人员。
104.为了进一步提升模型的预测准确度,本技术还可以通过标签平滑的方式对模型的训练过程进行改进,参见下述。
105.可选地,神经网络模型为训练后的神经网络模型,对模型进行训练的过程可以是上述两阶段学习中的第一阶段,也可以是上述两阶段学习中的第二阶段,本技术对此不作限制。
106.图5示出根据本技术一实施例的图像分类方法的流程图。如图5所示,该方法还可包括:
107.步骤s501,利用初始的神经网络模型对训练样本进行处理,确定训练样本的分类结果。
108.其中,训练样本可以包括头部类别、尾部类别和中间类别,训练样本的分类结果可以基于极坐标系下初始的神经网络模型的参数和极坐标系下训练样本的特征向量确定。
109.由于在不同批次的训练过程中,若训练样本的标签过于固定,将无法适应不同批次的训练过程,因此,本技术通过利用每一批次中训练样本的分类结果动态地更新标签,可以使标签更加符合当前批次的训练过程,从而可以得到更好的训练效果,参见下述。
110.步骤s502,基于上一批次训练中训练样本的平滑函数值和当前批次训练中训练样
本的分类结果,对当前批次训练中训练样本的标签进行更新,得到当前批次训练中训练样本的更新后的标签。
111.其中,可以根据上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果对应的概率值,对当前批次训练中训练样本的标签进行更新,该过程可参见图6,示出根据本技术一实施例的图像分类方法的流程图。如图6所示,该步骤s502,还可包括:
112.步骤s601,将上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果相加后取平均,得到当前批次训练中训练样本的平滑函数值。
113.该过程可参见公式(1):
[0114][0115]
其中,可以表示当前批次b中训练样本的平滑函数值,y可以表示相应的标签序号,可以表示上一批次b-1中训练样本的平滑函数值,可以表示在极坐标下确定的训练样本xi的分类结果对应的概率值,b可以表示训练时的批次总量(例如为128或256),f(
·
)可以表示极坐标下的预定函数,τ可以是预定参数。
[0116]
步骤s602,基于当前批次训练中训练样本的平滑函数值,确定当前批次训练中训练样本的更新后的标签。
[0117]
该过程可参见公式(2):
[0118][0119]
其中,可以表示当前批次b中训练样本的标签。
[0120]
根据本技术实施例,通过将前一批次的平滑函数值与当前批次的分类结果相加后取平均,可以使标签继承之前平滑函数值的计算结果,且将每一批次的极坐标预测结果动态地加入到标签中去,以更新标签使其更加符合当前批次的训练过程,得到更好的训练效果,且可以使得训练过程更加稳定,不会因为不同批次中随机采样的顺序变化而带来预测结果上的显著不同。
[0121]
步骤s503,基于更新后的标签和训练样本的分类结果,计算损失函数的值,以对初始的神经网络模型的参数进行更新,确定训练后的神经网络模型。
[0122]
其中,损失函数可以是二元交叉熵等损失函数,通过损失函数的值对初始的神经网络模型的参数进行更新的过程可以基于现有技术实现。
[0123]
根据本技术实施例,通过基于上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果,对当前批次训练中训练样本的标签进行更新,得到更新后的标签,可以在不同批次的训练过程中实现对标签进行动态更新,使得标签可以适应于不同批次的训练过程,可以训练得到预测准确率更高的神经网络模型。
[0124]
可选地,还可以通过在损失函数中加入正则项,以应对预测结果过于平均的问题,参见下述。
[0125]
损失函数可以包括最小化熵项,该最小化熵项可以基于当前批次训练中训练样本的分类结果得到。
[0126]
包括最小化熵项的损失函数的一个示例可参见公式(3):
[0127][0128]
其中,l(q,p)可以表示损失函数,qi可以表示第i个训练样本的标签,pi可以表示第i个训练样本的分类结果的概率值,m可以表示训练样本的总数,可以表示损失函数中的最小化熵项。
[0129]
根据本技术实施例,通过使损失函数中包括最小化熵项,可以解决模型的预测结果过于平均的问题,在提升模型预测准确率的同时,使训练过程更加稳定,提升了模型的鲁棒性。
[0130]
表1、表2和表3分别示出根据本技术一实施例的神经网络模型与基线模型在训练数据集cifar10-lt、训练数据集cifar100-lt和训练数据集imagenet-lt上的预测准确率对比。
[0131]
表1
[0132][0133]
表2
[0134][0135]
表3
[0136]
mislas
s1
44.34l2a
s1
51.16mislas
s2
49.53l2a
s2
50.66
[0137]
其中,β可以表示训练数据集的不平衡率,β的值越高可以表示训练数据集中的样本数量分布越不平衡。head、mid、tail、overall可以分别对应于模型在头部样本、中间样本、尾部样本和全部样本上的准确率。mislas
s1
和mislas
s2
可以分别表示经过两阶段学习中第一个阶段训练和第二个阶段训练后的基线模型。l2a
s1
和l2a
s2
可以分别表示经过两阶段学习中第一个阶段训练和第二个阶段训练后的本技术实施例的神经网络模型,从表1和表2中可以看出,本技术实施例的模型在不同数据集、不同不平衡性的设定下均可以获得表现提升,且准确率的提升在尾部样本上表现的最为明显。
[0138]
表4示出根据本技术一实施例的神经网络模型与其他模型在训练数据集cifar10-lt和训练数据集cifar100-lt上的top-1预测准确率(即在概率最大的结果中包含正确标签的占比)对比。
[0139]
表4
[0140] cifar10-ltcifar100-ltfocal loss70.338.4l2rw74.140.2cb loss74.539.6rcbm-ce76.443.3bbn79.842.5tsc79.743.8tde80.644.1mislas
s1
71.1938.87mislas
s2
81.0746.05l2a
s1
77.9439.83l2a
s2
82.1345.21atl
aem
78.2340.77atl
alas
82.3546.54atl
all
82.6047.11
[0141]
其中,focal loss、l2rw、cb loss、rcbm-ce、bbn、tsc、tde、mislas
s1
和mislas
s2
可以分别表示不同的模型,l2a
s1
和l2a
s2
可以分别表示经过两阶段学习中第一个阶段训练和第二个阶段训练后的本技术实施例的神经网络模型,atl
aem
、atl
alas
、和atl
all
可以分别表示应用了本技术实施例中的标签平滑操作、极坐标变换操作以及极坐标变换操作加标签平滑操作后的神经网络模型。从表4中可以看出,通过应用本技术实施例的方法得到的神经网络模型较其他模型能够取得更好的表现。
[0142]
表5示出根据本技术一实施例的神经网络模型与其他模型在训练数据集imagenet-lt上的top-1预测准确率对比。
[0143]
表5
[0144]
metasaug-ce47.3lws49.9mislas
s1
44.34mislas
s2
51.16l2a
s1
49.53l2a
s2
50.66atl
aem
49.35atl
alas
51.28atl
all
51.37
[0145]
其中,metasaug-ce、lws、mislas
s1
和mislas
s2
可以分别表示不同的模型,l2a
s1
和l2a
s2
可以分别表示经过两阶段学习中第一个阶段训练和第二个阶段训练后的本技术实施
例的神经网络模型,atl
aem
、atl
alas
、和atl
all
可以分别表示应用了本技术实施例中的标签平滑操作、极坐标变换操作以及极坐标变换操作加标签平滑操作后的神经网络模型。从表5中可以看出,通过应用本技术实施例的方法得到的神经网络模型较其他模型能够取得更好的表现。
[0146]
图7示出根据本技术一实施例的图像分类装置的结构图。如图7所示,该装置可包括:
[0147]
获取模块701,用于获取待分类图像;
[0148]
第一确定模块702,用于利用神经网络模型对待分类图像进行处理,得到待分类图像的分类结果,神经网络模型基于不平衡分布的训练样本训练得到,待分类图像的分类结果包括基于极坐标系下神经网络模型的参数和极坐标系下待分类图像的特征向量确定的第一分类结果。
[0149]
根据本技术实施例,能够获取待分类图像,利用基于不平衡分布的训练样本训练得到的神经网络模型对待分类图像进行处理,得到分类结果,在此过程中,通过基于极坐标系下神经网络模型的参数和极坐标系下待分类图像的特征向量确定第一分类结果,能够消除在直角坐标系下进行分类时不平衡的数据对预测结果的影响,提升预测结果的准确性,同时,由于可以直接利用训练后的神经网络模型的参数,将原本的预测空间从正交空间转化到极坐标空间,无需重新训练,简单快速,开销更小,更加灵活。
[0150]
可选地,神经网络模型可以基于两阶段学习训练得到,在第一阶段中对神经网络模型的特征提取器和分类器的参数进行更新,在第二阶段中对神经网络模型的分类器的参数进行微调更新。
[0151]
根据本技术实施例,基于两阶段学习的框架对神经网络模型进行训练,将模型在不平衡分布的训练样本上的学习过程进行解耦,可以保证模型学习到的特征是优质的,同时对分类器进行了针对不平衡数据的调整,提升了模型的预测准确率。
[0152]
可选地,第一分类结果可以基于极坐标系下神经网络模型的分类器的参数和极坐标系下待分类图像的特征向量之间的夹角确定,夹角的概率分布服从平滑分布。
[0153]
根据本技术实施例,通过基于极坐标系下分类器的参数和极坐标系下待分类图像的特征向量之间的夹角确定第一分类结果,可以忽略向量的长度,更合理地确定待分类图像与类别之间的特征相关性,消除了直角坐标系下预测的不平衡性问题,使预测结果更加准确,通过使夹角的概率分布服从平滑分布,能够提升模型的鲁棒性,使模型更加稳定。
[0154]
可选地,第一确定模块702,可用于:
[0155]
获取直角坐标系下神经网络模型的分类器的参数,将直角坐标系下神经网络模型的分类器的参数转换为极坐标系下神经网络模型的分类器的参数;
[0156]
利用神经网络模型确定直角坐标系下待分类图像的特征向量,将直角坐标系下待分类图像的特征向量转换为极坐标系下待分类图像的特征向量;
[0157]
针对不同的类别,计算极坐标系下神经网络模型的分类器的参数和极坐标系下待分类图像的特征向量之间的夹角,根据不同类别的夹角大小确定第一分类结果。
[0158]
根据本技术实施例,通过将直角坐标系下神经网络模型的分类器的参数和直角坐标系下待分类图像的特征向量转换至极坐标下,计算不同类别下参数和特征向量之间的夹角以确定第一分类结果,可以在不对模型进行重新训练的情况下,消除正交空间下预测的
不平衡性,得到更加准确的分类结果。
[0159]
可选地,分类结果还可包括基于直角坐标系下神经网络模型的分类器的参数和直角坐标系下待分类图像的特征向量确定的第二分类结果。
[0160]
根据本技术实施例,通过使分类结果包括直角坐标系下的第二分类结果,可以使分类结果更加全面,以更好地辅助相关工作人员。
[0161]
可选地,神经网络模型可以为训练后的神经网络模型,该装置还可包括:
[0162]
第二确定模块,用于利用初始的神经网络模型对训练样本进行处理,确定训练样本的分类结果,训练样本的分类结果基于极坐标系下初始的神经网络模型的参数和极坐标系下训练样本的特征向量确定;
[0163]
第三确定模块,用于基于上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果,对当前批次训练中训练样本的标签进行更新,得到当前批次训练中训练样本的更新后的标签;
[0164]
第四确定模块,用于基于更新后的标签和训练样本的分类结果,计算损失函数的值,以对初始的神经网络模型的参数进行更新,确定训练后的神经网络模型。
[0165]
根据本技术实施例,通过基于上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果,对当前批次训练中训练样本的标签进行更新,得到更新后的标签,可以在不同批次的训练过程中实现对标签进行动态更新,使得标签可以适应于不同批次的训练过程,可以训练得到预测准确率更高的神经网络模型。
[0166]
可选地,第三确定模块,可用于:
[0167]
将上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果相加后取平均,得到当前批次训练中训练样本的平滑函数值;
[0168]
基于当前批次训练中训练样本的平滑函数值,确定当前批次训练中训练样本的更新后的标签。
[0169]
根据本技术实施例,通过将前一批次的平滑函数值与当前批次的分类结果相加后取平均,可以使标签继承之前平滑函数值的计算结果,且将每一批次的极坐标预测结果动态地加入到标签中去,以更新标签使其更加符合当前批次的训练过程,得到更好的训练效果,且可以使得训练过程更加稳定,不会因为不同批次中随机采样的顺序变化而带来预测结果上的显著不同。
[0170]
可选地,损失函数可包括最小化熵项,最小化熵项可基于当前批次训练中训练样本的分类结果得到。
[0171]
根据本技术实施例,通过使损失函数中包括最小化熵项,可以解决模型的预测结果过于平均的问题,在提升模型预测准确率的同时,使训练过程更加稳定,提升了模型的鲁棒性。
[0172]
本技术的实施例提供了一种图像分类装置,包括:处理器以及用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令时实现上述方法。
[0173]
本技术的实施例提供了一种终端设备,该终端设备可以执行上述方法。
[0174]
本技术的实施例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
[0175]
本技术的实施例提供了一种计算机程序产品,包括计算机可读代码,或者承载有
计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。
[0176]
图8示出根据本技术一实施例的电子设备800的结构图。如图8所示,该电子设备800可以是服务器或终端设备。该电子设备800包括至少一个处理器1801,至少一个存储器1802、至少一个通信接口1803。此外,该电子设备还可以包括天线等通用部件,在此不再详述。
[0177]
下面结合图8对电子设备800的各个构成部件进行具体的介绍。
[0178]
处理器1801可以是通用中央处理器(cpu),微处理器,特定应用集成电路(application-specific integrated circuit,asic),或一个或多个用于控制以上方案程序执行的集成电路。处理器1801可以包括一个或多个处理单元,例如:处理器1801可以包括应用处理器(application processor,ap),调制解调处理器,图形处理器(graphics processing unit,gpu),图像信号处理器(image signal processor,isp),控制器,视频编解码器,数字信号处理器(digital signal processor,dsp),基带处理器,和/或神经网络处理器(neural-network processing unit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
[0179]
通信接口1803,用于与其他电子设备或通信网络通信,如以太网,无线接入网(ran),核心网,无线局域网(wireless local area networks,wlan)等。
[0180]
存储器1802可以是只读存储器(read-only memory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
[0181]
其中,所述存储器1802用于存储执行以上方案的应用程序代码,并由处理器1801来控制执行。所述处理器1801用于执行所述存储器1802中存储的应用程序代码。
[0182]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0183]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(random access memory,ram)、只读存储器(read only memory,rom)、可擦式可编程只读存储器(electrically programmable read-only-memory,eprom或闪存)、静态随机存取存储器(static random-access memory,sram)、便携式压缩盘只读存储器(compact disc read-only memory,cd-rom)、数字多功能盘(digital video disc,dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
[0184]
这里所描述的计算机可读程序指令或代码可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0185]
用于执行本技术操作的计算机程序指令可以是汇编指令、指令集架构(instruction set architecture,isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(local area network,lan)或广域网(wide area network,wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(field-programmable gate array,fpga)或可编程逻辑阵列(programmable logic array,pla),该电子电路可以执行计算机可读程序指令,从而实现本技术的各个方面。
[0186]
这里参照根据本技术实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本技术的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0187]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0188]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0189]
附图中的流程图和框图显示了根据本技术的多个实施例的装置、系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
[0190]
也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行相应的功能或动作的硬件(例如电路或asic(application specific integrated circuit,专用集成电路))来实现,或者可以用硬件和软件的组合,如固件等来实现。
[0191]
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其它变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
[0192]
以上已经描述了本技术的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

技术特征:
1.一种图像分类方法,其特征在于,所述方法包括:获取待分类图像;利用神经网络模型对所述待分类图像进行处理,得到所述待分类图像的分类结果,所述神经网络模型基于不平衡分布的训练样本训练得到,所述待分类图像的分类结果包括基于极坐标系下所述神经网络模型的参数和极坐标系下所述待分类图像的特征向量确定的第一分类结果。2.根据权利要求1所述的方法,其特征在于,所述第一分类结果基于极坐标系下所述神经网络模型的分类器的参数和极坐标系下所述待分类图像的特征向量之间的夹角确定,所述夹角的概率分布服从平滑分布。3.根据权利要求1或2所述的方法,其特征在于,所述利用神经网络模型对所述待分类图像进行处理,得到所述待分类图像的分类结果,包括:获取直角坐标系下所述神经网络模型的分类器的参数,将所述直角坐标系下所述神经网络模型的分类器的参数转换为极坐标系下所述神经网络模型的分类器的参数;利用所述神经网络模型确定直角坐标系下所述待分类图像的特征向量,将所述直角坐标系下所述待分类图像的特征向量转换为极坐标系下所述待分类图像的特征向量;针对不同的类别,计算极坐标系下所述神经网络模型的分类器的参数和极坐标系下所述待分类图像的特征向量之间的夹角,根据不同类别的夹角大小确定所述第一分类结果。4.根据权利要求1-3任一项所述的方法,其特征在于,所述分类结果还包括基于直角坐标系下所述神经网络模型的分类器的参数和直角坐标系下所述待分类图像的特征向量确定的第二分类结果。5.根据权利要求1-4任一项所述的方法,其特征在于,所述神经网络模型为训练后的神经网络模型,所述方法还包括:利用初始的神经网络模型对所述训练样本进行处理,确定所述训练样本的分类结果,所述训练样本的分类结果基于极坐标系下所述初始的神经网络模型的参数和极坐标系下所述训练样本的特征向量确定;基于上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果,对当前批次训练中训练样本的标签进行更新,得到当前批次训练中训练样本的更新后的标签;基于所述更新后的标签和训练样本的分类结果,计算损失函数的值,以对初始的神经网络模型的参数进行更新,确定所述训练后的神经网络模型。6.根据权利要求5所述的方法,其特征在于,所述基于上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果,对当前批次训练中训练样本的标签进行更新,得到当前批次训练中训练样本的更新后的标签,包括:将上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果相加后取平均,得到当前批次训练中训练样本的平滑函数值;基于当前批次训练中训练样本的平滑函数值,确定当前批次训练中训练样本的更新后的标签。7.根据权利要求5或6所述的方法,其特征在于,所述损失函数包括最小化熵项,所述最小化熵项基于当前批次训练中训练样本的分类结果得到。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述神经网络模型基于两阶段学习训练得到,在第一阶段中对神经网络模型的特征提取器和分类器的参数进行更新,在第二阶段中对神经网络模型的分类器的参数进行微调更新。9.一种图像分类装置,其特征在于,所述装置包括:获取模块,用于获取待分类图像;第一确定模块,用于利用神经网络模型对所述待分类图像进行处理,得到所述待分类图像的分类结果,所述神经网络模型基于不平衡分布的训练样本训练得到,所述待分类图像的分类结果包括基于极坐标系下所述神经网络模型的参数和极坐标系下所述待分类图像的特征向量确定的第一分类结果。10.根据权利要求9所述的装置,其特征在于,所述第一分类结果基于极坐标系下所述神经网络模型的分类器的参数和极坐标系下所述待分类图像的特征向量之间的夹角确定,所述夹角的概率分布服从平滑分布。11.根据权利要求9或10所述的装置,其特征在于,所述第一确定模块,用于:获取直角坐标系下所述神经网络模型的分类器的参数,将所述直角坐标系下所述神经网络模型的分类器的参数转换为极坐标系下所述神经网络模型的分类器的参数;利用所述神经网络模型确定直角坐标系下所述待分类图像的特征向量,将所述直角坐标系下所述待分类图像的特征向量转换为极坐标系下所述待分类图像的特征向量;针对不同的类别,计算极坐标系下所述神经网络模型的分类器的参数和极坐标系下所述待分类图像的特征向量之间的夹角,根据不同类别的夹角大小确定所述第一分类结果。12.根据权利要求9-11任一项所述的装置,其特征在于,所述分类结果还包括基于直角坐标系下所述神经网络模型的分类器的参数和直角坐标系下所述待分类图像的特征向量确定的第二分类结果。13.根据权利要求9-12任一项所述的装置,其特征在于,所述神经网络模型为训练后的神经网络模型,所述装置还包括:第二确定模块,用于利用初始的神经网络模型对所述训练样本进行处理,确定所述训练样本的分类结果,所述训练样本的分类结果基于极坐标系下所述初始的神经网络模型的参数和极坐标系下所述训练样本的特征向量确定;第三确定模块,用于基于上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果,对当前批次训练中训练样本的标签进行更新,得到当前批次训练中训练样本的更新后的标签;第四确定模块,用于基于所述更新后的标签和训练样本的分类结果,计算损失函数的值,以对初始的神经网络模型的参数进行更新,确定所述训练后的神经网络模型。14.根据权利要求13所述的装置,其特征在于,所述第三确定模块,用于:将上一批次训练中训练样本的平滑函数值和当前批次训练中训练样本的分类结果相加后取平均,得到当前批次训练中训练样本的平滑函数值;基于当前批次训练中训练样本的平滑函数值,确定当前批次训练中训练样本的更新后的标签。15.根据权利要求13或14所述的装置,其特征在于,所述损失函数包括最小化熵项,所述最小化熵项基于当前批次训练中训练样本的分类结果得到。
16.根据权利要求9-15任一项所述的装置,其特征在于,所述神经网络模型基于两阶段学习训练得到,在第一阶段中对神经网络模型的特征提取器和分类器的参数进行更新,在第二阶段中对神经网络模型的分类器的参数进行微调更新。17.一种图像分类装置,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令时实现权利要求1-8任意一项所述的方法。18.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1-8中任意一项所述的方法。19.一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,其特征在于,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行权利要求1-8中任意一项所述的方法。

技术总结
本申请涉及一种图像分类方法、装置和存储介质。该方法包括:获取待分类图像;利用神经网络模型对待分类图像进行处理,得到待分类图像的分类结果,神经网络模型基于不平衡分布的训练样本训练得到,待分类图像的分类结果包括基于极坐标系下神经网络模型的参数和极坐标系下待分类图像的特征向量确定的第一分类结果。根据本申请实施例,能够消除在直角坐标系下进行分类时不平衡的数据对预测结果的影响,提升预测结果的准确性,同时,由于可以直接利用训练后的神经网络模型的参数,将原本的预测空间从正交空间转化到极坐标空间,无需重新训练,简单快速,开销更小,更加灵活。更加灵活。更加灵活。


技术研发人员:王兴昊 张晓鹏 王皓轩 田奇
受保护的技术使用者:深圳华为云计算技术有限公司
技术研发日:2023.05.06
技术公布日:2023/8/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐