兼顾人体运动姿态质量和个性化的姿态数据处理方法
未命名
09-08
阅读:145
评论:0

1.本发明涉及一种兼顾人体运动姿态质量和个性化的姿态数据处理方法。
背景技术:
2.强化学习是对多种外部环境进行动态决策的一种较为有效的方法,它根据主体在一个环境中不同的行为所对应的收益值,做出针对某一外部环境的决策,从而实现累积收益最大化。强化学习应用场景包括对运动员的姿态识别。
3.相关技术中,对模型进行强化学习时,很大程度上强调采取收益值最高的行为以应对外部环境的改变,这就导致在某个特定的事件中,最终的训练结果都是相似的,千篇一律的。而实际上,不少的场景并不是绝对只追求最高收益,甚至还为此损失主体的特征、特性、个性等。
4.运动辅助系统能给用户提供一些个性化的指导意见,但依然存在许多问题:
5.1、运动辅助系统的建议方案大多是基于固定算法程序已经定义好且不支持用户自定义修改的运动视频课程,无法根据用户自身体能素质、行为习惯为其生成一套合理的、个性化运动辅助方案。
6.2、运动辅助系统的指导形式多为运动技巧的单方向展示以及通过运动手表、手环等电子设备对运动心率等人体生理参数的监控,间接分析用户的训练效果,无法对用户期望的形式、特有的行为做出反馈并修正自身的算法程序,也不能精确分析用户的运动体态这一直观数据,缺少宏观上的数据分析,运动员在运动过程中会产生丰富的、多维度的数据,然而传统运动辅助系统缺乏对用户运动数据的有效利用,忽视了运动数据累积后的价值。
7.3、传统运动辅助系统关注的只是从事某一运动项目的运动员共有特点和能力水平,要求其他参与者在训练过程中以此标准模版开展运动,忽略了运动员的个性特点、接受能力、以及运动员对该项运动逐渐产生的理解对运动训练工作的影响,优秀运动员训练中的多元化特征揭示出了不同运动员在运动理解、内容、方法等方面均存在明显的差异,这其中优秀的运动形式应当得到保留和鼓励。运动员运动姿态的准确性、正确性和专业性并不是绝对的标准,反而是能够体现个人特色的趣味性具有更高的价值。一味的追求算法中的收益,导致个性化特色被抹杀。
技术实现要素:
8.本发明提供了一种运动姿态数据处理方法、服务器、存储介质及客户端电子设备,兼顾了人体运动姿态质量和个性化。
9.根据本发明实施例第一方面,提供一种运动姿态数据处理方法,包括:
10.获取包含有运动姿态信息的参考数据,利用参考数据对第一强化学习模型进行训练,以获得对运动姿态的标准模型;
11.获取用户的生理参数以建立用户数据模型,将生理参数输入到第二强化学习模
型,获得生理参数下用户独特的鼓励系数;
12.使用标准模型处理表示用户行为的运动姿态图像,获得用户各运动姿态的初始收益值;
13.以初始收益值为基础,将用户在运动过程中各种外部环境状态下采取的行为输入第三强化学习模型,将用户数据模型中的鼓励系数代入第三强化学习模型训练迭代,得到用户各运动姿态的最终运动姿态收益,其中,初始收益值在迭代强化过程中根据第三强化学习模型发生改变,第三强化学习模型的奖励阈值的一个计算因子为:
[0014][0015]
表示在行为集合θ条件下和当前外部环境状态时,采取行为的概率,g为鼓励系数,p0为个性化行为概率阈值;
[0016]
向用户反馈第三强化学习模型输出的考虑其个性化的最终运动姿态收益。
[0017]
个性化运动技术强化学习模型的数学表达式为:
[0018][0019]
其中n为采样次数,即某一行为出现的次数;t为用户针对各种外部环境状态可能做出行为的总数;是某一外部环境状态;τn为状态下采取这一行为;r(τn)为状态下采取这一行为时,在未来整体情况中的预期收益值;b
l
为奖励阈值,用于过滤低于最低设定值但仍然为正的收益值,避免所有行为的收益值均为正值;表示在行为集合θ条件下和当前外部状态时,采取行为的概率;是在行为集合θ条件下和当前外部状态时,采取行为可在未来获得的收益值总和。
[0020]
生理参数包括性别、年龄、身高、体重、心率、体温、呼吸率和血氧浓度中的一种或多种的组合。
[0021]
第二强化学习模型为a3c算法优化的强化学习模型。
[0022]
对第三强化学习模型的权重参数进行修改。
[0023]
根据本发明实施例第二方面,提供一种服务器,包括:处理器;以及存储器,包括一个或多个程序模块;其中,所述一个或多个程序模块被存储在所述存储器中并被配置为由所述处理器执行,所述一个或多个程序模块包括用于实现所述的运动姿态数据处理方法的指令。
[0024]
根据本发明实施例第三方面,提供一种电子设备,从所述的服务器获取最终运动姿态收益及相对应的运动姿态并进行显示。
[0025]
电子设备向所述服务器发送修正第三强化学习模型的权重参数的信息。
[0026]
根据本发明实施例第四方面,提供一种存储介质,用于存储非暂时性指令,当所述非暂时性指令由处理器执行时能够实现所述的运动姿态数据处理方法。
附图说明
[0027]
为了更清楚说明本发明实施例的技术方案,下面将对实施例的附图作简单的介绍。
[0028]
图1是本发明一实施例的运动姿态数据处理方法流程图。
[0029]
图2是本发明一实施例的个性化运动技术强化学习算法与传统强化学习算法对比。
具体实施方式
[0030]
实施例1
[0031]
图1为一种兼顾人体运动姿态质量和个性化的姿态数据处理方法流程图。下面从五个步骤对图1所示的方法进行详细说明。
[0032]
s1,构建标准模型,获取大量具有权威性质的参考数据。
[0033]
对于不同的应用领域,其权威性质的参考数据不同。比如,对于运动健身领域,其一组权威性质的参考数据可以包括某一位教练员或职业运动员所处的比赛环境、周围环境信息以及其本身的运动姿态信息。周围环境信息包括天气状况、温度、湿度、风向、风速等会对运动员状态产生影响的因素。姿态数据是在图像上最直观、最宏观的参数,是一个人在各种因素(心情、行为习惯、体态等)的影响下,行为习惯最综合的一种反映。获取大量权威性质的参考数据的方式可以是从预先存储历史数据的数据库中获取,本实施例对权威性质的参考数据以及其获取方式不做限定,本领域技术人员可以根据需要确定。
[0034]
利用专业人士,如运动教练、职业运动员等人员的运动姿态对普通的强化学习模型(第一强化学习模型),进行大量训练,充分挖掘针对每个外部环境状态所采取的行为策略,并确保每一种情况下的行为策略具有其稳定的收益值,从而获得一个对姿态准确性、正确性极为敏感的标准模型,其中包括初始决策数据、重点运动姿态、收益值、更新该强化学习模型的模型参数。
[0035]
s2,建立用户数据模型,包含所适用领域的关键参数。
[0036]
该步骤使用传统的强化学习模型(第二强化学习模型)即可,可以使用具备a3c算法优化的强化学习算法,a3c基于多线程处理,同时在多个线程里面分别和环境进行交互学习,每个线程间共享迭代学习资源,指导本线程和其他线程的迭代学习。以运动健身为例,用户数据参数包含性别、年龄、身高、体重、心率、体温、呼吸率、血氧浓度等。在运动领域,运动员进行运动的物质基础主要包含身体生理构造中的呼吸系统、血液循环系统、运动系统、内分泌系统,生理系统发挥出的效能会因人的性别、年龄、身高、体重而异,当前较为直观、成熟、检测可行性高的生理参数包括心率、体温、呼吸率、血氧浓度等,这些参数可以更加精确的量化描述用户的特征,生成特征明显的用户数据模型,进而将用户自身生理特征纳入计算模型,更加具有针对性的生成个性化的训练算法。强化学习算法的鼓励系数g与上述参数间构成函数关系。在本发明所适用的范围中,适用对象较为广泛,适用对象个性化化的运动姿态能否鼓励必须综合考虑其身体生理特征与运动安全的关系方可确定。假设性别为s、年龄为t、身高为u、体重为v、心率为w、体温为x、呼吸率为y、血氧浓度为z,则鼓励系数g与上述参数间的函数关系可表示为:
[0037]
g=f(s,t,u,v,w,x,y,z)
[0038]
例如现有一位用户的鼓励系数g=f(1,20,175,65,85,36.5,18,96),则表示这是一位男性,20岁,身高175cm,体重65kg,心率80次/分钟,体温36.5℃,呼吸率18次/分钟,血氧浓度96%,并可以通过函数关系计算出g=0.5;若另一位用户的鼓励系数g=f(2,20,175,65,85,36.5,18,96),则表示这是一位女性,20岁,身高175cm,体重65kg,心率80次/分钟,体温36.5℃,呼吸率18次/分钟,血氧浓度96%,并可以通过函数关系计算出g=0.45。
[0039]
s3,构建用户初始数据库,根据标准模型赋予不同运动姿态参数的总收益初始预期值,即使用对姿态准确性、正确性极为敏感的标准模型处理运动员的运动姿态图像信息,处理次数为有限的若干次,从而获得运动员本人不同姿态的收益值。
[0040]
该步骤适用于用户接受个性化运动技术强化学习算法(第三强化学习模型)进行姿态识别之前,选取一段用户完整的运动姿态数据,尽可能多的覆盖用户的运动姿态。以运动健身为例,运动姿态包括:静止、前进、后退、跳跃、蹲伏、跨步、转体、前倾、后仰、加速、减速、单独肢体运动等,以及上述运动姿态的组合叠加动作。上述的运动姿态包含了运动的六自由度,比较全面。经查,关于运动动作没有绝对统一的专业名词,不同运动有不同的专业术语,此处采用较为通用、普适性强的词语。每一种运动姿态数据输入至标准模型,为不同状态下所做出的运动姿态赋予初始收益值。以羽毛球运动为例,在球朝向球员飞行时,球员做跳跃伸臂接球动作,收益初始值记为5,即该运动姿态是正收益的,是算法期望用户进行的运动姿态;而当球高空飞行有飞越球员趋势时,球员采取加速前进,收益初始值记为-10,即该运动姿态是负收益的,是算法不期望用户进行的运动姿态。有限次数的训练可以过滤用户质量过低的行为,尤其是负收益值的运动姿态,避免不良个性化行为在后续的强化学习中被错误地鼓励,例如用户在跳跃接球时,手臂习惯性收缩,不能做到伸直,且身躯呈前弯姿态,那么收益初始值将会是-20,甚至更低,这种行为即使属于用户的独特习惯,也会被算法否认,反馈给用户需要改正的要求。
[0041]
本发明定义用户行为
[0042]
θ={a1,a2,a3,a4,
…at
}
[0043]
其中,θ为用户行为集合,包含用户针对各种外部环境状态可能做出的行为。外部环境状态包括对手运动员位置和姿态、球离开用户的运动轨迹、球接近用户的轨迹、用户位置和姿态。需要说明的是,不同的运动项目外部环境状态一般是不同的,本发明不对其作具体限定。行为指前述的运动姿态,包括静止、前进、后退、跳跃、蹲伏、跨步、转体、前倾、后仰、加速、减速、单独肢体运动等,以及上述运动姿态的组合叠加动作。a1、a2、a3、a4……at
为用户的具体行为,例如前倾,后退,跳跃,起跑,击球等等。需要说明的是,不同的运动项目行为一般是不同的,本发明不对其作具体限定。
[0044]
则用户运动姿态初始收益值可由下式计算:
[0045][0046]
其中n为采样次数,即某一行为参数出现的次数;t为用户针对各种外部环境状态可能做出行为的总数;是某一外部环境状态(包括对手运动员位置和姿态、球体离开用户的运动轨迹、球体接近用户的轨迹、用户位置和姿态);τn为状态下采取这一行为,如“球飞来”这一状态下采取“接球”这一行为;r(τn)为状态下采取这一行为时,在未来整
体情况中的预期收益值;b
l
为奖励阈值,用于过滤较低但仍然为正的收益值(可以理解为低于设定的最低收益值但仍然为正的收益值,“较低”的程度根据实际情况确定),避免所有行为的收益值均为正值,因为如果所有行为的收益值均为正值,会导致某些未被采样到的行为参数概率降低,即使这种行为是正确的也会被算法错误地降低其出现概率;表示在行为集合θ条件下和当前外部状态时,采取行为的概率;是在行为集合θ条件下和当前外部状态时,采取行为可在未来获得的收益值总和,其优势在于不局限当前单一行为的收益,而是对未来所有情况综合考虑后的收益期望值,可以避免陷入某一行为的死循环。需要说明:r(τn)为正,则调整θ以提高r(τn)为负,则调整θ以降低以上均为传统的强化学习算法原理,追求最高收益值,不考虑用户的个性化特征。本发明使用这种方法获得不同状态下所做出的运动姿态的初始收益值。例如,以下表为例,说明初始收益值:
[0047]
表1各情况下的运动姿态初始收益值
[0048][0049]
s4,以用户初始数据库中的运动姿态初始收益值为基础,例如表1所述的当球从高空飞来,采取跳跃伸臂动作时,其运动姿态初始收益值为20。用户数据模型输入个性化运动技术强化学习模型(第三强化学习模型),其具体方法为:使用多角度高速摄影机,将用户在参与运动活动过程中各种外部环境状态下采取的行为源源不断地通过计算机输入个性化运动技术强化学习模型,并将用户独特的鼓励系数代入模型训练迭代,实现用户“个性化”作为更新所述强化学习算法的模型参数,其中运动姿态初始收益值会在迭代强化过程中根据个性化运动技术强化学习模型发生改变,例如:当球从高空飞来时,跳跃伸臂行为的收益值20是相同条件下最高的,那么算法将增大该行为的收益值,进一步提高该行为在算法中的收益值,促进用户向高收益行为靠近。本发明对传统强化学习模型中奖励阈值进行重新构建,综合考虑用户的生理特性及运动姿态个性化,其计算方法如下:
[0050][0051]
其中,表示在行为集合θ条件下和当前外部状态时,采取行为的概率,以此量化表示用户的某种特殊个性化行为,例如在连续采集用户运动1小时内产生的200000张运动姿态图像时,其中深蹲起跳并伸臂行为出现的概率达到30%,显著高于其他行为出现概率,且该行为达到的效果与标准行为差别不大,如都可以将球打回对手一方,那么就认定该行为属于此用户独具个性化的行为。p0为用户个性化行为概率阈值,由算法管理员根据用户实际情况设定,确定方法包括观看运动监控视频,统计某些具有个性化的运动姿态的出现频率,再决定是否将p0设置为小于该频率。则行为得到鼓励;反之,
时,行为得不到鼓励。由于计算因子的存在,当用户频繁进行某一运动姿态时,随着该行为出现概率的增加,个性化运动技术强化学习算法会降低该行为的奖励阈值,从而提升该行为的收益期望值。
[0052]
s5,足够的训练之后,向用户反馈考虑其“个性化”的运动姿态收益,收益值为正值的运动姿态可能并不是收益值最高的,但其中考虑了用户自身的运动个性化特征,依然采取鼓励,进而实现能够基于强化学习算法帮助用户提升运动姿态的专业性、准确性,同时保留具有用户个性化特征的运动姿态参数。用户可以根据收益值的高低、正负调整自己的行为,从而提升运动姿态的质量。例如,经过2个小时的球类运动后,算法反馈给用户这段时间内所有运动姿态的收益值,如接球时深蹲跳跃的收益值为30等,用户可根据具体数据进一步完善自身的运动姿态,提升运动姿态的质量。
[0053]
实施例2
[0054]
本发明还提供一种运动姿态数据处理系统,系统包括服务器、电子设备、图像识别系统。作为客户端的电子设备通过以太网与服务器双向连接,服务器与图像识别系统双向连接。
[0055]
服务器包括处理器和存储器。存储器用于存储非暂时性指令(例如一个或多个程序模块)。处理器用于运行非暂时性指令,非暂时性指令被处理器运行时可以执行上文所述的姿态数据处理方法中的一个或多个步骤。存储器和处理器可以通过总线系统和/或其它形式的连接机构互连。
[0056]
例如,处理器可以是中央处理单元(cpu)、图形处理单元(gpu)或者具有数据处理能力和/或程序执行能力的其它形式的处理单元。例如,中央处理单元(cpu)可以为x86或arm架构等。处理器可以为通用处理器或专用处理器,可以控制电子设备中的其它组件以执行期望的功能。
[0057]
例如,存储器可以是易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、可擦除可编程只读存储器(eprom)、紧凑型光盘只读储存器(cd-rom)、usb存储器、闪存等。在存储器上可以存储一个或多个程序模块,处理器可以运行一个或多个程序模块,以实现电子设备的各种功能。
[0058]
在一种实施方式中,服务器的处理器采用英特尔至强金牌6248r@3.0ghz,内存128gb,图形处理器采用rtx3090 24g显卡,储存容量为4tb。一般要保证服务器同时处理4~6个图像识别系统的数据,并将数据稳定传输至对应客户端。
[0059]
作为客户端的电子设备可以是智能手机、平板电脑、个人计算机。电子设备的显示器显示来自服务器处理后的数据,形成为用户提出的运动指导建议(运动姿态收益及相应的个性化运动姿态)。同时,用户可以通过电子设备选择自己期望保留的个性化运动姿态,用户反馈会修正服务器中自适应强化学习算法(第三强化学习模型)的权重参数。
[0060]
在一种实施方式中,图像识别系统包括数字工业相机,例如basler blaze time-of-flight 3d相机,其可生成3d点云、强度图像、范围图和置信图,为迭代分析提供多样化数据,提高系统适用范围。另外,可以使用绿联11269纯铜七类万兆网络线路,提供10gbps数据传输速度,及时将采集到的用户姿态数据传输至服务器中处理。
[0061]
本发明还提供一种存储介质的实施例,该存储介质用于存储非暂时性指令,当非暂时性指令由服务器执行时可以实现上述的姿态数据处理方法中的一个或多个步骤。也就是本发明实施例提供的姿态数据处理方法以软件的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。关于存储介质的相关说明可以参考上文服务器的存储器的相应描述,此处不再赘述。
[0062]
本发明通过综合量化用户生理参数和运动姿态个性化,可以有效的保证用户在正确的反馈下获得运动姿态准确性、正确性反馈的同时,鼓励用户进行具有自身个性化特征的行为,比如某位用户长期习惯于某一动作,该动作在外部环境中获得的收益预期值足够高,但不是最高,那么这一行为将得到个性化运动技术强化学习算法的鼓励。另外,本发明并非单纯的强调个性化鼓励,而是同时兼顾了用户运动姿态的正确性和准确性。利用传统强化学习算法对行为准确性敏感的特性,对用户行为进行初步分析并获得行为收益预期值,可以过滤掉绝对不正确,不应该被鼓励继续进行的行为,避免了错误的习惯被不断鼓励和放大,二者对比如图2所示。基于以上,本发明可以兼顾用户运动姿态的质量和用户的个性化需求。
技术特征:
1.一种运动姿态数据处理方法,包括:获取包含有运动姿态信息的参考数据,利用所述参考数据对第一强化学习模型进行训练,以获得对运动姿态的标准模型;获取用户的生理参数以建立用户数据模型,将所述生理参数输入到第二强化学习模型,获得所述生理参数下用户独特的鼓励系数;使用所述标准模型处理表示用户行为的运动姿态图像,获得用户各运动姿态的初始收益值;以所述初始收益值为基础,将用户在运动过程中各种外部环境状态下采取的行为输入第三强化学习模型,将所述用户数据模型中的所述鼓励系数代入所述第三强化学习模型训练迭代,得到用户各运动姿态的最终运动姿态收益,其中,所述初始收益值在迭代强化过程中根据所述第三强化学习模型发生改变,所述第三强化学习模型的奖励阈值的一个计算因子为:子为:表示在行为集合θ条件下和当前外部环境状态时,采取行为的概率,g为所述的鼓励系数,p0为个性化行为概率阈值;向用户反馈所述第三强化学习模型输出的考虑其个性化的所述最终运动姿态收益。2.根据权利要求1所述的运动姿态数据处理方法,其特征在于,所述第三强化学习模型的数学表达式为:其中n为采样次数,即某一行为出现的次数;t为用户针对各种外部环境状态可能做出行为的总数;是某一外部环境状态;τ
n
为状态下采取这一行为;r(τ
n
)为状态下采取这一行为时,在未来整体情况中的预期收益值;b
l
为奖励阈值,用于过滤低于最低设定值但仍然为正的收益值,避免所有行为的收益值均为正值;表示在行为集合θ条件下和当前外部状态时,采取行为的概率;是在行为集合θ条件下和当前外部状态时,采取行为可在未来获得的收益值总和。3.根据权利要求1所述的运动姿态数据处理方法,其特征在于,所述生理参数包括性别、年龄、身高、体重、心率、体温、呼吸率和血氧浓度中的一种或多种的组合。4.根据权利要求1所述的运动姿态数据处理方法,其特征在于,所述的第二强化学习模型为a3c算法优化的强化学习模型。5.根据权利要求1所述的运动姿态数据处理方法,其特征在于,对所述第三强化学习模型的权重参数进行修改。6.一种服务器,其特征在于,包括:处理器;以及存储器,包括一个或多个程序模块;
其中,所述一个或多个程序模块被存储在所述存储器中并被配置为由所述处理器执行,所述一个或多个程序模块包括用于实现权利要求1-5任一项所述的运动姿态数据处理方法的指令。7.一种电子设备,其特征在于,从权利要求6所述的服务器获取所述最终运动姿态收益及相对应的运动姿态并进行显示。8.根据权利要求7所述的电子设备,其特征在于,向所述服务器发送修正所述第三强化学习模型的权重参数的信息。9.一种存储介质,用于存储非暂时性指令,其特征在于,当所述非暂时性指令由处理器执行时能够实现权利要求1-5任一项所述的运动姿态数据处理方法。
技术总结
本发明公开了一种兼顾人体运动姿态质量和个性化的姿态数据处理方法,解决运动姿态处理过程中个性化特色被抹杀的问题。所述方法包括:获取包含有运动姿态信息的参考数据,利用参考数据对第一强化学习模型进行训练,以获得对运动姿态的标准模型;获取用户的生理参数以建立用户数据模型,将生理参数输入到第二强化学习模型,获得生理参数下用户独特的鼓励系数;使用标准模型处理表示用户行为的运动姿态图像,获得用户各运动姿态的初始收益值;以初始收益值为基础,将用户在运动过程中各种外部环境状态下采取的行为输入个性化运动技术强化学习模型,将鼓励系数代入个性化运动技术强化学习模型训练迭代,得到用户各运动姿态的最终运动姿态收益。终运动姿态收益。终运动姿态收益。
技术研发人员:文浩 刘林 贾孟尧 郑伟涛 马勇
受保护的技术使用者:武汉体育学院
技术研发日:2023.05.22
技术公布日:2023/9/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/