基于机器视觉动态手势交互方法及智慧屏、存储介质与流程
未命名
07-15
阅读:99
评论:0
1.本说明书涉及通信技术领域,尤其涉及基于机器视觉动态手势交互方法及智慧屏、存储介质。
背景技术:
2.随着计算机性能以及ai领域的发展,人机交互领域出现了更多的交互方式,相较于传统的鼠标、键盘、触摸屏、遥控器等交互方式,基于视觉的手势操控将带来全新的操作体验。在大屏幕终端领域,手势操控已成为各个厂家旗下高端机必不可少的功能。
3.通常,基于机器视觉的手势交互往往只支持静态手势操作,即一段时间内用户手势保持不变,但静态手势往往只适用于简单的交互场景。为了适应更多的交互场景,在静态手势操作的基础上引入动态手势操作。动态手势操作即为一段时间内不同手势的组合形成的操作指令。这样就可以通过几个简单的手势组合出多种操作指令,从而满足一些复杂的交互场景。
4.依发明人所知,目前常见的实现动态手势操作有以下两种思路:
5.(1)通过统计一段时间内不同动作组合形成动态手势操作指令;
6.(2)采用深度学习等训练方法进行模型训练获得动态手势识别模型,再将多个连续帧手势图像数据输入到动态手势识别模型,经过模型内部的分类算法计算得到当前多帧手势图像对应的目标动态手势。
7.上述两种思路均存在不足:思路(1)需要对不同手势组合设定不同间隔时间,然而在实际应用中,用户手势操作时间具有随机性。例如,由两个手势组成的一组动态手势,不同人完成这两个手势的时间可能存在较大差异。思路(2)采用深度学习的方式,最大问题就是训练模型需要大量的数据,同时,每次变换不同手势组合时需要重新训练模型。另外用深度学习对动态手势进行分类将占用更多的计算机资源。
技术实现要素:
8.为克服相关技术中存在的问题,本说明书提供了基于机器视觉动态手势交互方法及智慧屏、存储介质。
9.根据本说明书实施例的第一方面基于机器视觉手势交互方法,应用于智慧屏,包括:
10.获取每帧视频图像中的手势;
11.对获取的手势与预设的行为进行行为匹配;
12.基于匹配的行为以及预设的指令进行指令匹配;
13.获取智慧屏屏幕上的光标位置;
14.基于光标位置以及手势的指令在智慧屏的屏幕上做出对应操作。
15.优选的,对获取的手势与预设的行为进行行为匹配之前包括:
16.对获取的手势进行手势过滤,获取到过滤后的手势;
17.将过滤后的手势与预设的手势进行行为匹配。
18.优选的,将匹配的行为与预设的指令进行指令匹配包括:
19.获取智慧屏当前操作环境以及当前匹配的行为;
20.基于当前操作环境以及匹配的行为查找对应指令表进行指令匹配。
21.优选的,对获取的手势进行手势过滤,获取到过滤后的手势包括:
22.将获取的每帧视频图像中的手势连续存储在智慧屏的内存中,内存中能连续存储2n+1个手势;
23.统计出当前连续存储的2n+1个手势中出现最多的手势,作为当前用于指令匹配的手势;
24.在后续连续帧存入新手势情况下,将最先存入的手势删除;
25.其中n是自然数。
26.优选的,将获取的每帧视频图像中的手势连续存储在智慧屏的内存中的方法包括:
27.在后续连续帧存入新手势情况下,先存入内存地址中的手势向后移动一个地址,新手势存入原内存地址。
28.优选的,视频图像的帧率为30帧/秒,且内存中可连续存储5个手势。
29.优选的,操作环境包括关闭状态、打开状态和点击状态。
30.优选的,预设的行为包括开启手势控制、关闭手势控制、移动、点击按下、点击移动和点击释放。
31.本技术第二方面提供了智慧屏,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时执行上述基于机器视觉动态手势交互方法。
32.本技术第三方面提供了存储介质,其上存储有计算机程序指令,程序指令被处理器执行时用于实现上述基于机器视觉动态手势交互方法。
33.本说明书的实施例提供的技术方案可以包括以下有益效果:
34.本说明书实施例实时性和实用性好,在手势变化的瞬间就能立刻执行相应的操作。且通过几种基本手势操作就能完成复杂的操作行为,解决了手势交互难题。
35.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
36.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
37.图1是本技术实施例实施一示意图;
38.图2是本技术获取每帧图像手势示意图;
39.图3是本技术手势与行为匹配之前流程示意图;
40.图4是本技术基于当前操作环境和匹配行为的指令状态转换图;
41.图5是本技术手势连续存储流程示意图;
42.图6是本技术手势在内存连续存储示意图;
43.图7是智慧屏硬件框架图。
具体实施方式
44.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
45.为了解决背景技术中存在的问题,本技术提供了本技术提供了实施例一:基于机器视觉动态手势交互方法,应用于智慧屏,如图1,包括:
46.101:获取每帧视频图像中的手势,如图2所示;
47.1011:通过摄像头进行视频图片采集;
48.1012:通过手部关键点模型对采集到的视频图像进行手部关键点识别和采集,通常采取21个手部关键点模型,当然也可根据实际需求增加或减少采样数量;
49.1013:对1012输出结果进行预处理以及控制权判断,输出拥有控制权的手的关键点坐标集合;
50.1014:将1013的输出传入训练好的手势分类模型中进行推理。输出当前手势对应的名称,比如five、fist、pointer等。
51.102:对获取的手势与预设的行为进行行为匹配;
52.如图3所示,对获取的手势与预设的行为进行行为匹配之前包括:
53.1021:对获取的手势进行手势过滤,获取到过滤后的手势;
54.1022:将过滤后的手势与预设的行为进行行为匹配。
55.预设的行为包括开启手势控制、关闭手势控制、移动、点击按下、点击移动和点击释放。
56.103:基于匹配的行为以及预设的指令进行指令匹配;
57.1031:获取智慧屏当前操作环境以及当前匹配的行为;
58.这里的操作环境包括关闭状态、打开状态和点击状态。
59.1032:基于当前的操作环境以及匹配的行为查找对应指令表进行指令匹配。
60.指令表基于操作环境和匹配行为得到,如表1所示:
61.表1
[0062][0063]
其状态转化图如图4所示。
[0064]
通过制定操作状态来管理操作行为的生命周期,不仅可靠性高,且大大简化了交
互逻辑。更好地兼容当前应用生态,以及用户操作习惯,即使有新的操作环境和预设的行为出现能够快速地兼容。
[0065]
104:获取智慧屏屏幕上的光标位置;
[0066]
光标位置为手势操作要执行的位置,可通过光标映射的方式得到。光标映射的方法可通过现有技术得到,在此不再赘述。在获取光标位置之前可对光标位置数据进行平滑处理,实现光标防抖的作用。
[0067]
105:基于光标位置以及手势的指令在智慧屏的屏幕上做出对应操作。
[0068]
实施二:在实施例一的基础上,对获取的手势进行手势过滤,获取到过滤后的手势的方法包括:
[0069]
201:将获取的每帧视频图像中的手势连续存储在智慧屏的内存中,内存中能连续存储2n+1个手势,如图5所示;
[0070]
手势存入内存的方式有多种:
[0071]
方式一:可以按照内存中地址从前到后的顺序依次存入。比如h0001手势1;h0002手势2等。
[0072]
方式二:在后续连续帧存入新手势情况下,先存入内存地址中的手势向后移动一个地址,新手势存入原内存地址,如图6所示。
[0073]
比如手势1存入时,存入地址h0001;手势2存入时,手势1移动到地址h0002,手势2存入地址h0001,以次类推,到手势5存入时,手势5存入h0001,手势4存入h0002,手势3存入h0003,手势2存入h0004,手势1存入h0005。当手势6存入时,手势5到手势1继续依次向后移动一侧地址,原先位于h0005中的手势1此时被删除,而手势6存入地址h0001。
[0074]
当然还可以是其他设定的方式。
[0075]
202:统计出当前连续存储的2n+1个手势中出现最多的手势,作为当前用于指令匹配的手势;
[0076]
统计出现最多的手势的方式可通过对连续存储的2n+1个手势进行计数,出现次数最多的作为指令匹配手势。
[0077]
203:在后续连续帧存入新手势情况下,将最先存入的手势删除;
[0078]
其中n是自然数。
[0079]
连续存储地址2n+1相当于滤波滑动窗口。我们把连续存储2n+1个手势叫做存储队列。用存储队列缓存每一帧手势识别结果,输出该存储队列出现次数最多的元素(过滤后的手势)即可达到手势滤波效果,增加手势操作稳定性。在这里采用2n+1奇数个连续存储地址的方式,因此出现相同手势的概率要小于偶数个的方式。
[0080]
若出现相同次数的手势,则可继续存入后续连续帧中的手势,判断手势次数是否发生变化,直到出现有最多次数手势的情况下,取出最多次数的手势为指令匹配的手势。
[0081]
由于存储队列的容量,即存储的个数将影响滤波性能和延迟性。存储队列容量过大,滤波效果增强但会导致延迟;存储队列容量过小,会降低延迟,但滤波效果下降。根据多次实验,当摄像头采集帧率为30帧/秒的情况下,将存储队列大小设置为5,可以有效平衡滤波效果和延迟性。因此可作为本技术一个优选设置。
[0082]
本技术实施例通过获取手势与预设的行为进行行为匹配,然后匹配行为与预设的指令进行指令匹配,实时性和实用性好,在手势变化的瞬间就能立刻执行相应的操作。且通
过几种基本手势操作就能完成复杂的操作行为,解决了手势交互难题。
[0083]
本技术第二方面提供了智慧屏,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时执行上述基于机器视觉动态手势交互方法。
[0084]
本技术第三方面提供了存储介质,其上存储有计算机程序指令,程序指令被处理器执行时用于实现上述基于机器视觉动态手势交互方法。
[0085]
上述实施方式阐明的系统,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
[0086]
本领域内的技术人员应明白,本公开的实施方式可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且,本公开实施方式可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0087]
本公开是参照根据本公开实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0088]
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
[0089]
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0090]
本领域技术人员应明白,本公开的实施方式可提供为方法、系统或计算机程序产品。因此,本公开可以采用完全硬件实施方式、完全软件实施方式、或者结合软件和硬件方面的实施方式的形式。而且,本公开可以采用在一个或者多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0091]
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
[0092]
以上仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的
精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
技术特征:
1.基于机器视觉动态手势交互方法,应用于智慧屏,其特征在于,包括:获取每帧视频图像中的手势;对获取的手势与预设的行为进行行为匹配;基于匹配的行为以及预设的指令进行指令匹配;获取智慧屏屏幕上的光标位置;基于光标位置以及手势的指令在智慧屏的屏幕上做出对应操作。2.根据权利要求1所述的基于机器视觉动态手势交互方法,其特征在于,所述对获取的手势与预设的行为进行行为匹配之前包括:对获取的手势进行手势过滤,获取到过滤后的手势;将过滤后的手势与预设的手势进行行为匹配。3.根据权利要求2所述的基于机器视觉动态手势交互方法,其特征在于,将匹配的行为与预设的指令进行指令匹配包括:获取智慧屏当前操作环境以及当前匹配的行为;基于所述当前操作环境以及匹配的行为查找对应指令表进行指令匹配。4.根据权利要求3所述的基于机器视觉动态手势交互方法,其特征在于,对获取的手势进行手势过滤,获取到过滤后的手势包括:将获取的每帧视频图像中的手势连续存储在智慧屏的内存中,所述内存中能连续存储2n+1个手势;统计出当前连续存储的2n+1个手势中出现最多的手势,作为当前用于指令匹配的手势;在后续连续帧存入新手势情况下,将最先存入的手势删除;其中n是自然数。5.根据权利要求4所述的基于机器视觉动态手势交互方法,其特征在于,将获取的每帧视频图像中的手势连续存储在智慧屏的内存中的方法包括:在后续连续帧存入新手势情况下,先存入内存地址中的手势向后移动一个地址,新手势存入原内存地址。6.根据权利要求5所述的基于机器视觉动态手势交互方法,其特征在于,所述视频图像的帧率为30帧/秒,且内存中可连续存储5个手势。7.根据权利要求6所述的基于机器视觉动态手势交互方法,其特征在于,所述操作环境包括关闭状态、打开状态和点击状态。8.根据权利要求7所述的基于机器视觉动态手势交互方法,其特征在于,预设的行为包括开启手势控制、关闭手势控制、移动、点击按下、点击移动和点击释放。9.智慧屏,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行权利要求1-8任意一项所述的基于机器视觉动态手势交互方法。10.存储介质,其上存储有计算机程序指令,其特征在于,所述程序指令被处理器执行时用于实现权利要求1-8任一项中所述的基于机器视觉动态手势交互方法。
技术总结
本申请提供基于机器视觉动态手势交互方法及智慧屏、存储介质,其中,基于机器视觉动态手势交互方法,包括获取每帧视频图像中的手势;对获取的手势与预设的行为进行行为匹配;基于匹配的行为以及预设的指令进行指令匹配;获取智慧屏屏幕上的光标位置;基于光标位置以及手势的指令在智慧屏的屏幕上做出对应操作。本申请实施例实时性和实用性好,在手势变化的瞬间就能立刻执行相应的操作。且通过几种基本手势操作就能完成复杂的操作行为,解决了手势交互难题。交互难题。交互难题。
技术研发人员:贺垟瑒
受保护的技术使用者:新华三智能终端有限公司
技术研发日:2023.03.10
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
