泳池防溺水水面人头跟踪方法、装置、计算机设备及存储介质与流程
未命名
07-12
阅读:146
评论:0

1.本发明涉及目标跟踪方法,更具体地说是指泳池防溺水水面人头跟踪方法、装置、计算机设备及存储介质。
背景技术:
[0002][0003]
现有的技术通过在泳池四周和底部安装水下摄像头,通过算法判断泳客的动作是否正常游泳或是在处于溺水挣扎的状态。但是,泳池场馆内相机的广角镜头得到的图像数据具有严重的透视畸变问题,这将给实时的检测跟踪任务带来极大的挑战,严重的透视畸变会引起图像中的目标以几何方式发生信息错位,造成图像模糊问题,此时某些信息和细节可能因分辨率的变化或因太多信息挤在单一像素上而丟失,在对泳池内水面人头进行检测时说,严重的透视畸变很容易造成人头目标信息错误、人头像素模糊、人头关键信息丢失等问题,从而影响目标检测以及目标跟踪的精度。
[0004]
因此,有必要设计一种新的方法,以解决图像的透视畸变问题,实现泳客头部小目标的精确检测跟踪。
技术实现要素:
[0005]
本发明的目的在于克服现有技术的缺陷,提供泳池防溺水水面人头跟踪方法、装置、计算机设备及存储介质。
[0006]
为实现上述目的,本发明采用以下技术方案:泳池防溺水水面人头跟踪方法,包括:
[0007]
获取泳池内相机拍摄的图像;
[0008]
将所述图像输入至跟踪模型中进行人头检测和跟踪,以得到跟踪结果;
[0009]
其中,所述跟踪模型是通过若干个带有人头真实框标签的图像形成的样本集对结合fam的深度学习网络所得的。
[0010]
其进一步技术方案为:所述跟踪模型是单阶段检测器以及检测框-level注意力机制结合形成的模型。
[0011]
其进一步技术方案为:所述跟踪模型包括五个检测层,每个检测层设定了对应尺寸的检测框。
[0012]
其进一步技术方案为:所述检测框的长宽比设置为1和1.5;所述检测框的尺寸为162mm2至4062mm2;对每个检测层的检测框的尺寸增加系数为2
1/3
。
[0013]
其进一步技术方案为:在所述跟踪模型的训练中,当检测框与其中一个人头真实框的iou的比值不小于第一阈值,则所述检测框用于人头预测;当检测框与所有人头真实框的iou的比值都小于第二阈值,则确定所述检测框为背景检测框,且剩余的检测框均不参与所述跟踪模型的训练。
[0014]
其进一步技术方案为:所述跟踪模型是在用于人头检测深度学习网络上添加了
fam分支;fam分支的标注值为对人头检测框的填充结果,且使用层次化的注意力图像。
[0015]
其进一步技术方案为:所述跟踪模型训练过程的损失值包括每个检测框的分类损失值、正例检测框的坐标损失值、逐像素点的sigmoid交叉熵损失的总和。
[0016]
本发明还提供了泳池防溺水水面人头跟踪装置,其特征在于,包括:
[0017]
图像获取单元,用于获取泳池内相机拍摄的图像;
[0018]
跟踪单元,用于将所述图像输入至跟踪模型中进行人头检测和跟踪,以得到跟踪结果,其中,所述跟踪模型是通过若干个带有人头真实框标签的图像形成的样本集对结合fam的深度学习网络所得的。
[0019]
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
[0020]
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
[0021]
本发明与现有技术相比的有益效果是:本发明通过采用跟踪模型对泳池内相机拍摄的图像进行跟踪,其中,跟踪模型采用对结合fam的深度学习网络进行训练形成的,且整个跟踪模型多尺度特征、多尺度检测框、基于语义分割的多尺度注意力机制,可以解决图像的透视畸变问题,实现泳客头部小目标的精确检测跟踪。
[0022]
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
[0023]
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]
图1为本发明实施例提供的泳池防溺水水面人头跟踪方法的应用场景示意图;
[0025]
图2为本发明实施例提供的泳池防溺水水面人头跟踪方法的流程示意图;
[0026]
图3为本发明实施例提供的跟踪模型的结构示意图;
[0027]
图4为本发明实施例提供的注意力函数的结构示意图;
[0028]
图5为本发明实施例提供的泳池防溺水水面人头跟踪装置的示意性框图;
[0029]
图6为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
[0030]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0031]
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0032]
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上
下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0033]
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0034]
请参阅图1和图2,图1为本发明实施例提供的泳池防溺水水面人头跟踪方法的应用场景示意图。图2为本发明实施例提供的泳池防溺水水面人头跟踪方法的示意性流程图。该泳池防溺水水面人头跟踪方法应用于服务器中。该服务器与终端进行数据交互,采用基于深度学习模型,融合镜头畸变和球极畸变矫正模块去除畸变,实现泳客头部小目标的精确检测跟踪,以解决图像的透视畸变问题,实现泳客头部小目标的精确检测跟踪。
[0035]
图2是本发明实施例提供的泳池防溺水水面人头跟踪方法的流程示意图。如图2所示,该方法包括以下步骤s110至s120。
[0036]
s110、获取泳池内相机拍摄的图像。
[0037]
在本实施例中,图像是指在泳池内布置的相机拍摄所得的照片。
[0038]
s120、将所述图像输入至跟踪模型中进行人头检测和跟踪,以得到跟踪结果。
[0039]
在本实施例中,首先通过使用深度网络对若干个带有真实框标签的图像样本集合学习得到鲁棒的跟踪模型,并使用学习得到的跟踪模型对人头跟踪得到跟踪路线。下面分两部分对本实施例进行介绍,首先对跟踪模型进行介绍,随后阐述训练方法。
[0040]
具体的跟踪模型请参阅图4,所述跟踪模型是单阶段检测器以及检测框-level注意力机制结合形成的模型。使用检测框-level注意力机制有三个目的:实现多尺度的人脸检测;强调图像中的人脸区域,弱化图像中的背景区域;生成更多的遮挡人脸用于训练。
[0041]
同时该跟踪模型引入lam(直线注意力模块,line attention module)和fam(脸部注意力模块,face attention module)两种注意力机制,通过对样本集合的自适应学习,分别对直线和人头特征进行变换,以此补偿图像的线性畸变和球极畸变等失真导致的信息丢失。两种注意力机制使用相同的网络结构,区别在于lam输入的是游泳人在水中的身体特征,fam输入的是游泳人的人脸特征。
[0042]
以fam为例,本实施例利用了特征金字塔进行了多尺度的人脸检测,fam的具体实施方案为对各尺度的图像特征分别使用注意力模块,以实现对人脸区域的特征增强,提升对人脸区域的识别准确度。
[0043]
另外,所述跟踪模型包括五个检测层,每个检测层设定了对应尺寸的检测框。
[0044]
在本实施例中,所述检测框的长宽比设置为1和1.5;所述检测框的尺寸为162mm2至4062mm2;对每个检测层的检测框的尺寸增加系数为2
1/3
。
[0045]
本实施例所述跟踪模型的训练过程如下:在计算模型预测框与真实框的损失中,当检测框与其中一个人头真实框的iou的比值不小于第一阈值,则所述检测框用于人头预测;当检测框与所有人头真实框的iou的比值都小于第二阈值,则确定所述检测框为背景检测框,且剩余的检测框均不参与所述跟踪模型的训练。
[0046]
fam中,本实施例使用人头检测框的填充结果作为真实结果与跟踪模型的预测结果计算损失,对于五个检测层都设定了对应尺度的检测框。各检测框的长宽比设置为1和1.5两种,这是因为正面人脸的长宽比接近1,侧面人脸的长宽比接近1.5。设置检测框的尺寸为162到4062之间并对每一层的检测框的尺寸增加系数为21/3,这样密集的检测框集能保证每一个真实框都有一个对应的iou大于0.6的检测框。
[0047]
如果某个检测框与一个真实框的iou最大且大于0.5,则让该检测框负责该人脸的预测;如果一个检测框和所有真实框的最大iou都小于0.4,则设置其为背景检测框,不负责人脸预测。剩余的检测框不参与训练过程。
[0048]
在本实施例中,请参阅图4,所述跟踪模型训练过程的损失值包括每个检测框的分类损失值、正例检测框的坐标损失值、逐像素点的sigmoid交叉熵损失的总和。
[0049]
损失函数:其中,其中k表示金字塔的层级,k∈[3,7];ak表示金字塔层,pk设置的检测框;pi、分别表示预测的各检测框包含人脸的置信度与其实际label;ti,表示各检测框学习的和标注的坐标值。
[0050]
损失包含各检测框的分类损失+正例检测框的坐标的smooth l1损失+逐像素点的sigmoid交叉熵损失作为注意力学习的损失。
[0051]
上述的深度学习网络增加lam的整个过程和细节可参阅上述深度学习网络增加fam的过程,此处不再赘述。
[0052]
上述的泳池防溺水水面人头跟踪方法,通过采用跟踪模型对泳池内相机拍摄的图像进行跟踪,其中,跟踪模型采用对结合fam的深度学习网络进行训练形成的,且整个跟踪模型多尺度特征、多尺度检测框、基于语义分割的多尺度注意力机制,可以解决图像的透视畸变问题,实现泳客头部小目标的精确检测跟踪。
[0053]
图5是本发明实施例提供的一种泳池防溺水水面人头跟踪装置300的示意性框图。如图5所示,对应于以上泳池防溺水水面人头跟踪方法,本发明还提供一种泳池防溺水水面人头跟踪装置300。该泳池防溺水水面人头跟踪装置300包括用于执行上述泳池防溺水水面人头跟踪方法的单元,该装置可以被配置于服务器中。具体地,请参阅图5,该泳池防溺水水面人头跟踪装置300包括图像获取单元301以及跟踪单元302。
[0054]
图像获取单元301,用于获取泳池内相机拍摄的图像;跟踪单元302,用于将所述图像输入至跟踪模型中进行人头检测和跟踪,以得到跟踪结果,其中,所述跟踪模型是通过若干个带有人头真实框标签的图像形成的样本集对结合fam的深度学习网络所得的。
[0055]
所述跟踪模型是单阶段检测器以及检测框-level注意力机制结合形成的模型。
[0056]
所述跟踪模型包括五个检测层,每个检测层设定了对应尺寸的检测框。
[0057]
所述检测框的长宽比设置为1和1.5;所述检测框的尺寸为162mm2至4062mm2;对每个检测层的检测框的尺寸增加系数为2
1/3
。
[0058]
在所述跟踪模型的训练中,当检测框与其中一个人头真实框的iou的比值不小于第一阈值,则所述检测框用于人头预测;当检测框与所有人头真实框的iou的比值都小于第二阈值,则确定所述检测框为背景检测框,且剩余的检测框均不参与所述跟踪模型的训练。
[0059]
所述跟踪模型是在用于人头检测深度学习网络上添加了fam分支;fam分支的标注值为对人头检测框的填充结果,且使用层次化的注意力图像。
[0060]
所述跟踪模型训练过程的损失值包括每个检测框的分类损失值、正例检测框的坐标损失值、逐像素点的sigmoid交叉熵损失的总和。
[0061]
需要说明的是,所属领域的技术人员可以清楚地了解到,上述泳池防溺水水面人头跟踪装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描
述的方便和简洁,在此不再赘述。
[0062]
上述泳池防溺水水面人头跟踪装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
[0063]
请参阅图6,图6是本技术实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
[0064]
参阅图6,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
[0065]
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种泳池防溺水水面人头跟踪方法。
[0066]
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
[0067]
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种泳池防溺水水面人头跟踪方法。
[0068]
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0069]
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
[0070]
获取泳池内相机拍摄的图像;将所述图像输入至跟踪模型中进行人头检测和跟踪,以得到跟踪结果;
[0071]
其中,所述跟踪模型是通过若干个带有人头真实框标签的图像形成的样本集对结合fam的深度学习网络所得的。
[0072]
所述跟踪模型是单阶段检测器以及检测框-level注意力机制结合形成的模型。
[0073]
所述跟踪模型包括五个检测层,每个检测层设定了对应尺寸的检测框。
[0074]
所述检测框的长宽比设置为1和1.5;所述检测框的尺寸为162mm2至4062mm2;对每个检测层的检测框的尺寸增加系数为2
1/3
。
[0075]
在所述跟踪模型的训练中,当检测框与其中一个人头真实框的iou的比值不小于第一阈值,则所述检测框用于人头预测;当检测框与所有人头真实框的iou的比值都小于第二阈值,则确定所述检测框为背景检测框,且剩余的检测框均不参与所述跟踪模型的训练。
[0076]
所述跟踪模型是在用于人头检测深度学习网络上添加了fam分支;fam分支的标注值为对人头检测框的填充结果,且使用层次化的注意力图像。
[0077]
所述跟踪模型训练过程的损失值包括每个检测框的分类损失值、正例检测框的坐标损失值、逐像素点的sigmoid交叉熵损失的总和。
[0078]
应当理解,在本技术实施例中,处理器502可以是中央处理单元(central processing unit,cpu),该处理器502还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,
asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0079]
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
[0080]
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
[0081]
获取泳池内相机拍摄的图像;将所述图像输入至跟踪模型中进行人头检测和跟踪,以得到跟踪结果;
[0082]
其中,所述跟踪模型是通过若干个带有人头真实框标签的图像形成的样本集对结合fam的深度学习网络所得的。
[0083]
所述跟踪模型是单阶段检测器以及检测框-level注意力机制结合形成的模型。
[0084]
所述跟踪模型包括五个检测层,每个检测层设定了对应尺寸的检测框。
[0085]
所述检测框的长宽比设置为1和1.5;所述检测框的尺寸为162mm2至4062mm2;对每个检测层的检测框的尺寸增加系数为2
1/3
。
[0086]
在所述跟踪模型的训练中,当检测框与其中一个人头真实框的iou的比值不小于第一阈值,则所述检测框用于人头预测;当检测框与所有人头真实框的iou的比值都小于第二阈值,则确定所述检测框为背景检测框,且剩余的检测框均不参与所述跟踪模型的训练。
[0087]
所述跟踪模型是在用于人头检测深度学习网络上添加了fam分支;fam分支的标注值为对人头检测框的填充结果,且使用层次化的注意力图像。
[0088]
所述跟踪模型训练过程的损失值包括每个检测框的分类损失值、正例检测框的坐标损失值、逐像素点的sigmoid交叉熵损失的总和。
[0089]
所述存储介质可以是u盘、移动硬盘、只读存储器(read-only memory,rom)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
[0090]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0091]
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
[0092]
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以
是两个或两个以上单元集成在一个单元中。
[0093]
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
[0094]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
技术特征:
1.泳池防溺水水面人头跟踪方法,其特征在于,包括:获取泳池内相机拍摄的图像;将所述图像输入至跟踪模型中进行人头检测和跟踪,以得到跟踪结果;其中,所述跟踪模型是通过若干个带有人头真实框标签的图像形成的样本集对结合fam的深度学习网络所得的。2.根据权利要求1所述的泳池防溺水水面人头跟踪方法,其特征在于,所述跟踪模型是单阶段检测器以及检测框-level注意力机制结合形成的模型。3.根据权利要求2所述的泳池防溺水水面人头跟踪方法,其特征在于,所述跟踪模型包括五个检测层,每个检测层设定了对应尺寸的检测框。4.根据权利要求3所述的泳池防溺水水面人头跟踪方法,其特征在于,所述检测框的长宽比设置为1和1.5;所述检测框的尺寸为162mm2至4062mm2;对每个检测层的检测框的尺寸增加系数为2
1/3
。5.根据权利要求1所述的泳池防溺水水面人头跟踪方法,其特征在于,在所述跟踪模型的训练中,当检测框与其中一个人头真实框的iou的比值不小于第一阈值,则所述检测框用于人头预测;当检测框与所有人头真实框的iou的比值都小于第二阈值,则确定所述检测框为背景检测框,且剩余的检测框均不参与所述跟踪模型的训练。6.根据权利要求1所述的泳池防溺水水面人头跟踪方法,其特征在于,所述跟踪模型是在用于人头检测深度学习网络上添加了fam分支;fam分支的标注值为对人头检测框的填充结果,且使用层次化的注意力图像。7.根据权利要求1所述的泳池防溺水水面人头跟踪方法,其特征在于,所述跟踪模型训练过程的损失值包括每个检测框的分类损失值、正例检测框的坐标损失值、逐像素点的sigmoid交叉熵损失的总和。8.泳池防溺水水面人头跟踪装置,其特征在于,包括:图像获取单元,用于获取泳池内相机拍摄的图像;跟踪单元,用于将所述图像输入至跟踪模型中进行人头检测和跟踪,以得到跟踪结果,其中,所述跟踪模型是通过若干个带有人头真实框标签的图像形成的样本集对结合fam的深度学习网络所得的。9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
技术总结
本发明实施例公开了泳池防溺水水面人头跟踪方法、装置、计算机设备及存储介质。所述方法包括:获取泳池内相机拍摄的图像;将所述图像输入至跟踪模型中进行人头检测和跟踪,以得到跟踪结果;其中,所述跟踪模型是通过若干个带有人头真实框标签的图像形成的样本集对结合FAM的深度学习网络所得的。通过实施本发明实施例的方法可以解决图像的透视畸变问题,实现泳客头部小目标的精确检测跟踪。现泳客头部小目标的精确检测跟踪。现泳客头部小目标的精确检测跟踪。
技术研发人员:任小枫 谢欣 郭羽 郭东岩 王振华 张剑华 张都思
受保护的技术使用者:杭州巨岩欣成科技有限公司
技术研发日:2023.02.16
技术公布日:2023/7/11
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/