婴儿啼哭检测方法、检测装置、电子设备及存储介质与流程
未命名
07-22
阅读:74
评论:0

技术领域:
:,尤其涉及一种婴儿啼哭检测方法、检测装置、电子设备及存储介质。
背景技术:
::2.当今社会涉及婴儿看护的行业方兴未艾,雇佣保姆、育儿嫂等看护人员的昂贵成本也令很多普通家庭较难承受。而将婴儿交给老人看护时,往往由于老人年纪和身体等原因,也会出现婴儿哭闹未被及时护理、睡觉踢被子、婴儿身体不适未能及时获知等问题。因此,越来越多的家庭通过选用智能婴儿看护产品对婴儿进行智能看护,例如,越来越多的家庭通过选用智能婴儿看护产品对婴儿啼哭进行检测。3.目前对婴儿啼哭进行检测的过程,主要通过模板匹配、主成分分析、高斯混合模型(gaussianmixturemodel,gmm)、支持向量机(supportvectormachine,svm)等方法来建立声学模型对婴儿啼哭进行检测,然而,现有方法对婴儿啼哭进行检测时的检测准确率较低。技术实现要素:4.有鉴于此,本技术实施例提供了一种婴儿啼哭检测方法、检测装置、电子设备及存储介质,以克服或者至少部分地解决以上现有技术的问题。5.第一方面,本技术实施例提供了一种婴儿啼哭检测方法,包括:获取当前环境音频数据;输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭检测结果,婴儿啼哭检测结果包括婴儿啼哭结果以及婴儿未啼哭结果,目标婴儿啼哭检测模型基于时延神经网络和残差网络得到;接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果。6.其中,在一些可选实施例中,输入当前环境音频数据至目标婴儿啼哭检测模型之前,婴儿啼哭检测方法,还包括:根据历史婴儿啼哭音频数据,获取对应的样本集,样本集至少包括训练集;根据时延神经网络、残差网络以及训练集,获得目标婴儿啼哭检测模型;确定目标婴儿啼哭检测模型是否收敛;输入当前环境音频数据至目标婴儿啼哭检测模型,包括:当确定目标婴儿啼哭检测模型收敛时,输入当前环境音频数据至目标婴儿啼哭检测模型。7.其中,在一些可选实施例中,根据时延神经网络、残差网络以及训练集,获得目标婴儿啼哭检测模型,包括:融合时延神经网络以及残差网络,得到初始婴儿啼哭检测模型;将训练集输入至初始婴儿啼哭检测模型进行训练,获得目标婴儿啼哭检测模型。8.其中,在一些可选实施例中,将训练集输入至初始婴儿啼哭检测模型进行训练,获得目标婴儿啼哭检测模型之前,婴儿啼哭检测方法,还包括:对训练集进行数据增广处理,获得对应的增广训练集;将训练集输入至初始婴儿啼哭检测模型进行训练,获得目标婴儿啼哭检测模型,包括:将增广训练集输入至初始婴儿啼哭检测模型进行训练,获得目标婴儿啼哭检测模型。9.其中,在一些可选实施例中,根据历史婴儿啼哭音频数据,获取对应的样本集,包括:将历史婴儿啼哭音频数据进行滑动窗口处理,获得多个历史婴儿啼哭音频数据片段;对每个历史婴儿啼哭音频数据片段进行标注,获得对应的标注音频数据片段;按照预设划分规则,对多个标注音频数据片段进行划分,获得对应的样本集。10.其中,在一些可选实施例中,婴儿啼哭检测结果为婴儿啼哭结果,婴儿啼哭结果包括婴儿啼哭处置需求,接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果,包括:接收目标婴儿啼哭检测模型返回的婴儿啼哭结果;发送婴儿啼哭结果至与监护人关联的客户端,使得监护人根据婴儿啼哭处置需求对婴儿进行安抚。11.其中,在一些可选实施例中,输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭检测结果,包括:对当前环境音频数据进行流式计算处理,获得流式音频数据;输入流式音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据流式音频数据输出对应的婴儿啼哭检测结果。12.第二方面,本技术实施例提供了一种婴儿啼哭检测装置,包括当前数据获取模块、输入模块以及接收模块。当前数据获取模块,用于获取当前环境音频数据;输入模块,用于输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭检测结果,婴儿啼哭检测结果包括婴儿啼哭结果以及婴儿未啼哭结果,目标婴儿啼哭检测模型基于时延神经网络和残差网络得到;接收模块,用于接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果。13.第三方面,本技术实施例提供了一种电子设备,包括存储器;一个或多个处理器,与存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行如上述第一方面提供的婴儿啼哭检测方法。14.第四方面,本技术实施例提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行如上述第一方面提供的婴儿啼哭检测方法。15.第五方面,本技术实施例提供了一种计算机程序产品,计算机程序产品在计算机设备上运行时,使得计算机设备执行如上述第一方面提供的婴儿啼哭检测方法。16.本技术提供的方案,通过获取当前环境音频数据,并输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭检测结果,婴儿啼哭检测结果包括婴儿啼哭结果以及婴儿未啼哭结果,目标婴儿啼哭检测模型基于时延神经网络和残差网络得到,以及接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果,实现了根据时延神经网络以及残差网络构建的目标婴儿啼哭检测模型,对婴儿啼哭进行检测,目标婴儿啼哭检测模型的表达能力强,提高了对婴儿啼哭进行检测的检测准确率。附图说明17.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。18.图1示出了本技术实施例提供的婴儿啼哭检测系统的一种场景示意图。19.图2示出了本技术实施例提供的婴儿啼哭检测方法的一种流程示意图。20.图3示出了本技术实施例提供的婴儿啼哭检测方法的另一种流程示意图。21.图4示出了本技术实施例提供的婴儿啼哭检测装置的一种结构框图。22.图5示出了本技术实施例提供的电子设备的一种功能框图。23.图6示出了本技术实施例提供的用于保存或者携带实现根据本技术实施例提供的婴儿啼哭检测方法的程序代码的计算机可读存储介质。24.图7示出了本技术实施例提供的用于保存或者携带实现根据本技术实施例提供的婴儿啼哭检测方法的程序代码的计算机程序产品。具体实施方式25.为使得本技术的发明目的、特征、优点能够更加的明显和易懂,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本技术一部分实施例,而非全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。26.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。27.还应当理解,在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。28.还应当进一步理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。29.如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。[0030]另外,在本技术的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。[0031]当今社会涉及婴儿看护的行业方兴未艾,雇佣保姆、育儿嫂等看护人员的昂贵成本也令很多普通家庭较难承受。而将婴儿交给老人看护时,往往由于老人年纪和身体等原因,也会出现婴儿哭闹未被及时护理、睡觉踢被子、婴儿身体不适未能及时获知等问题。因此,越来越多的家庭通过选用智能婴儿看护产品对婴儿进行智能看护,例如,越来越多的家庭通过选用智能婴儿看护产品对婴儿啼哭进行检测。[0032]目前对婴儿啼哭进行检测的过程,主要通过模板匹配、主成分分析、高斯混合模型(gaussianmixturemodel,gmm)、支持向量机(supportvectormachine,svm)等方法来建立声学模型对婴儿啼哭进行检测。[0033]然而,现有声学模型的表达能力弱,在进行婴儿啼哭检测时,声学模型对国外婴儿啼哭的识别率较低以及嘈杂环境中的婴儿啼哭的识别率较低,导致现有方法对婴儿啼哭进行检测时的检测准确率较低。[0034]针对上述问题,发明人经过长时间的研究并提出了本技术实施例提供的婴儿啼哭检测方法、检测装置、电子设备及存储介质,婴儿啼哭检测方法包括获取当前环境音频数据,并输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭检测结果,婴儿啼哭检测结果包括婴儿啼哭结果以及婴儿未啼哭结果,目标婴儿啼哭检测模型基于时延神经网络和残差网络得到,以及接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果,实现了根据时延神经网络以及残差网络构建的目标婴儿啼哭检测模型,对婴儿啼哭进行检测,目标婴儿啼哭检测模型的表达能力强,提高了对婴儿啼哭进行检测的检测准确率。[0035]下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。[0036]请参阅图1,其示出了本技术实施例提供的婴儿啼哭检测系统的一种应用场景示意图,可以包括拾音设备100以及终端设备200,拾音设备100通信连接于终端设备200,并与终端设备200进行数据交互。[0037]拾音设备100可以用于对拾音设备100所处环境的环境音频数据进行采集,并将采集到的环境音频数据发送至终端设备200;终端设备200可以用于接收拾音设备100发送的环境音频数据,并对环境音频数据进行检测。[0038]拾音设备100可以为麦克风,或者内置有用于提取声音数据的应用程序的设备等;终端设备200可以为移动终端设备(例如,手机、掌上电脑(personaldigitalassistant,pda)、平板电脑(tabletpersonalcomputer,tabletpc)、笔记本电脑、智能手表、智能手环等)以及固定终端设备(例如,车载终端控制器、台式计算机、智能面板等)等;此处不限定拾音设备100以及终端设备200的类型,具体可以根据实际需求进行设置。[0039]在一些实施方式中,拾音设备100可以安装于终端设备200,并与终端设备200形成一个整体,例如,拾音设备100可以嵌设于终端设备200。[0040]在一些实施方式中,拾音设备100与终端设备200可以为独立的设备,拾音设备100通过无线网络或者通信线缆连接于终端设备200。[0041]在一种应用场景中,拾音设备100嵌设于终端设备200,并形成具有环境音频数据采集功能的整体设备,例如,具有环境音频数据采集功能的母婴看护器、母婴监护仪、婴儿床、监控摄像头、玩具、灯具等。[0042]请参阅图2,其示出了本技术一个实施例提供的婴儿啼哭检测方法的流程图。在具体的实施例中,婴儿啼哭检测方法可以应用于如图1所示的婴儿啼哭检测系统中的终端设备200,下面以终端设备200为例,对图2所示的流程进行详细阐述,婴儿啼哭检测方法可以包括以下步骤s110至步骤s130。[0043]步骤s110:获取当前环境音频数据。[0044]在本技术实施例中,拾音设备被设置于可采集到婴儿声音的环境位置,拾音设备可以用于对婴儿所处环境的当前环境音频数据进行采集,并将采集到的当前环境音频数据发送至终端设备。[0045]终端设备在接收到对婴儿啼哭进行检测的检测指令时,可以发送获取指令至拾音设备,拾音设备接收并响应获取指令,对婴儿所处环境的当前环境音频数据进行采集,并将采集到的当前环境音频数据发送至终端设备,终端设备接收拾音设备返回的当前环境音频数据。[0046]在一些实施方式中,终端设备可以对用户的操作进行检测,当根据检测到的用户操作确定用户输入了对婴儿啼哭进行检测的检测指令时,即接收到对婴儿啼哭进行检测的检测指令。例如,用户在需求对婴儿啼哭进行检测时,可以于终端设备的操作面板上进行触控操作,终端设备响应用户的触控操作,生成对应的触控信号,并对触控信号进行分析,当确定触控信号为预设检测信号时,则确定接收到对婴儿啼哭进行检测的检测指令。[0047]在一些实施方式中,终端设备可以设置有语音识别模块,当用户需求对婴儿啼哭进行检测时,用户可以于语音识别模块的语音采集范围内发送语音信息,语音识别模块对用户发出的语音信息进行采集,并对采集到的语音信息进行语音识别,并根据语音识别的识别结果,确定识别结果中包含用于指示对婴儿啼哭进行检测的关键词,例如“婴儿啼哭检测”,又例如,“婴儿啼哭”和“检测”等,则确定接收到对婴儿啼哭进行检测的检测指令。[0048]作为一种示例,用户发出的语音信息为:对婴儿啼哭进行检测,则语音识别的识别结果中包含关键词“婴儿啼哭检测”,则确定接收到对婴儿啼哭进行检测的检测指令。[0049]在一些实施方式中,婴儿啼哭检测系统还可以包括客户端,客户端可以通过网络连接于终端设备,并通过网络与终端设备进行数据交互。[0050]当用户需求对婴儿啼哭进行检测时,用户可以发送检测指令至客户端,客户端接收并响应检测指令,通过网络发送检测指令至终端设备,终端设备接收客户端发送的检测指令。[0051]其中,客户端可以为移动客户端(例如,手机客户端、pda客户端、tabletpc客户端、笔记本电脑客户端、智能手表客户端、智能手环客户端等)以及固定客户端(例如,台式计算机客户端、智能面板客户端等)等,此处不作限定。[0052]网络可以为紫蜂(zigbee)网络、蓝牙(bluetooth,bt)网络、无线保真(wirelessfidelity,wi-fi)网络、家庭物联网通讯协定技术(thread)网络、远距离无线电(longrangeradio,lora)网络、低功率广域网络(low-powerwide-areanetwork,lpwan)、红外网络、窄带物联网(narrowbandinternetofthings,nb-iot)、控制器局域网络(controllerareanetwork,can)、数字生活网络联盟(digitallivingnetworkalliance,dlna)网络、广域网(wideareanetwork,wan)、局域网(localareanetwork,lan)、城域网(metropolitanareanetwork,man)或者无线个人局域网(wirelesspersonalareanetwork,wpan)等中的任一种,此处不限定网络的类型,具体可以根据实际需求进行设置。[0053]步骤s120:输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭检测结果。[0054]在本技术实施例中,终端设备在获取到当前环境音频数据之后,可以输入当前环境音频数据至目标婴儿啼哭检测模型,目标婴儿啼哭检测模型接收并响应当前环境音频数据,对当前环境音频数据中的婴儿啼哭进行检测,并将当前环境音频数据对应的婴儿啼哭检测结果输出至终端设备,终端设备接收目标婴儿啼哭检测模型输出的婴儿啼哭检测结果,婴儿啼哭检测结果可以包括婴儿啼哭结果以及婴儿未啼哭结果,目标婴儿啼哭检测模型可以基于时延神经网络(timedelayneuralnetwork,tdnn)和残差网络(residualnetwork,resnet)得到。[0055]在一些实施方式中,终端设备在获取到当前环境音频数据之后,可以对当前环境音频数据进行滑动窗口处理,获得对应的窗口音频数据,并输入窗口音频数据至目标婴儿啼哭检测模型,目标婴儿啼哭检测模型接收并响应窗口音频数据,对窗口音频数据中的婴儿啼哭进行检测,并将窗口音频数据对应的婴儿啼哭检测结果输出至终端设备,终端设备接收目标婴儿啼哭检测模型输出的婴儿啼哭检测结果,通过对当前环境音频数据进行滑动窗口处理获得窗口音频数据,增加了用于婴儿啼哭检测的检测数据,有利于提高对婴儿啼哭进行检测的检测准确率。[0056]其中,当前环境音频数据为以时间为序列的音频数据,终端设备按照预设窗口时长,对当前环境音频数据进行滑动分割,得到对应的窗口音频数据。预设窗口时长可以为用户预先设定的时长,也可以为终端设备根据多次婴儿啼哭检测过程,自动生成的时长等,此处不限定预设窗口时长的设置方式,具体可以根据实际需求进行设置。[0057]例如,预设窗口时长可以为40毫秒(ms),预设窗口时长也可以为1s,预设窗口时长还可以为3s等,此处不作限定。[0058]在一些实施方式中,终端设备在获取到当前环境音频数据之后,可以对当前环境音频数据进行流式计算处理,获得流式音频数据,并输入流式音频数据至目标婴儿啼哭检测模型,目标婴儿啼哭检测模型接收并响应流式音频数据,对流式音频数据中的婴儿啼哭进行检测,并将流式音频数据对应的婴儿啼哭检测结果输出至终端设备,终端设备接收目标婴儿啼哭检测模型输出的婴儿啼哭检测结果,通过对当前环境音频数据进行流式计算处理获得流式音频数据,可避免在婴儿啼哭检测过程中,目标婴儿啼哭模型对当前环境音频数据进行重复计算,减少了目标婴儿啼哭模型的推理计算量。[0059]步骤s130:接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果。[0060]在本技术实施例中,终端设备在输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭检测结果之后,可以接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果,实现了根据时延神经网络以及残差网络构建的目标婴儿啼哭检测模型,对婴儿啼哭进行检测,目标婴儿啼哭检测模型的表达能力强,提高了对婴儿啼哭进行检测的检测准确率。[0061]在一些实施方式中,婴儿啼哭检测结果可以为婴儿啼哭结果,婴儿啼哭结果可以包括婴儿啼哭处置需求,终端设备在输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭结果之后,可以接收目标婴儿啼哭检测模型返回的婴儿啼哭结果,并发送婴儿啼哭结果至与监护人关联的客户端,使得监护人根据婴儿啼哭处置需求对婴儿进行安抚,有利于监护人对啼哭婴儿进行快速安抚,无需监护人员根据婴儿状态对婴儿啼哭处置需求进行分析,提升了婴儿啼哭检测过程中的用户体验。[0062]其中,婴儿啼哭处置需求可以包括饥饿处置需求、困倦处置需求、尿湿处置需求、打嗝处置需求、疼痛处置需求以及不舒服处置需求等中的至少任一种,此处不限定婴儿啼哭处置需求的类型,具体可以根据实际需求进行设置。[0063]在一些实施方式中,婴儿啼哭检测结果可以为婴儿未啼哭结果,终端设备在输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿未啼哭结果之后,可以接收目标婴儿啼哭检测模型返回的婴儿未啼哭结果,并返回执行步骤s110,实现了对婴儿啼哭的持续检测,提升了婴儿啼哭检测过程中的用户体验。[0064]本实施例提供的方案,通过获取当前环境音频数据,并输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭检测结果,婴儿啼哭检测结果包括婴儿啼哭结果以及婴儿未啼哭结果,目标婴儿啼哭检测模型基于时延神经网络和残差网络得到,以及接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果,实现了根据时延神经网络以及残差网络构建的目标婴儿啼哭检测模型,对婴儿啼哭进行检测,目标婴儿啼哭检测模型的表达能力强,提高了对婴儿啼哭进行检测的检测准确率。[0065]请参阅图3,其示出了本技术另一个实施例提供的婴儿啼哭检测方法的流程图。在具体的实施例中,婴儿啼哭检测方法可以应用于如图1所示的婴儿啼哭检测系统中的终端设备200,下面以终端设备200为例,对图3所示的流程进行详细阐述,婴儿啼哭检测方法可以包括以下步骤s210至步骤s260。[0066]步骤s210:获取当前环境音频数据。[0067]在本实施例中,步骤s210可以参阅前述实施例中相应步骤的内容,此处不再赘述。[0068]步骤s220:根据历史婴儿啼哭音频数据,获取对应的样本集。[0069]在本实施例中,终端设备可以根据历史婴儿啼哭音频数据,获取对应的样本集。其中,历史婴儿啼哭音频数据为拾音设备在历史时刻采集到的婴儿啼哭音频数据,样本集可以包括训练集和测试集,训练集可以用于对检测婴儿啼哭的模型进行训练,测试集可以用于对训练后的模型进行测试,并根据测试结果确定是否停止对模型的训练。[0070]测试结果可以包括收敛结果以及未收敛结果;当测试结果为收敛结果时,则停止对模型的训练;当测试结果为未收敛结果时,则继续对模型进行训练,直至测试结果为收敛结果。[0071]具体地,终端设备可以将历史婴儿啼哭音频数据进行滑动窗口处理,获得多个历史婴儿啼哭音频数据片段,并基于音频特征对每个历史婴儿啼哭音频数据片段进行标注,获得对应的标注音频数据片段,以及按照预设划分规则,对多个标注音频数据片段进行划分,获得对应的样本集。[0072]预设划分规则可以为人为规则,例如,预设划分规则可以为训练集:测试集=7:5的人为规则,当样本集包含12000个标注音频数据片段时,则训练集包含7000个标注音频数据片段,测试集包含5000个标注音频数据片段;预设划分规则也可以为训练集:测试集=1:1的人为规则,当样本集包含10000个标注音频数据片段时,则训练集包含5000个标注音频数据片段,测试集包含5000个标注音频数据片段。此处不限定预设划分规则的类型,具体可以根据实际需求进行设置。[0073]历史婴儿啼哭音频数据可以为多个不同类型的婴儿啼哭音频数据,多个不同类型的婴儿啼哭音频数据可以为多个不同性别的婴儿啼哭音频数据、多个不同年龄段的婴儿啼哭音频数据、多个不同国家的婴儿啼哭音频数据或者多个不同人种的婴儿啼哭音频数据等中的至少任一种,根据多个不同类型的婴儿啼哭音频数据获得对应的样本集,可以保证根据样本集训练的目标婴儿啼哭检测模型具有泛化性,增强了目标婴儿啼哭检测模型的鲁棒性,提高了对婴儿啼哭进行检测的检测准确率。[0074]终端设备在对多个历史婴儿啼哭音频数据片段进行标注时,主要对每个历史婴儿啼哭音频数据片段中的滤波器组(filterbank,fbank)特征或者梅尔频率倒谱系数(mel-frequencycepstralcoefficients,mfcc)特征等进行标注。[0075]在一种应用场景中,对历史婴儿啼哭音频数据进行滑动窗口处理的预设窗口时长为3s,终端设备按照3s对历史婴儿啼哭音频数据进行滑动分割,得到对应的多个分割音频数据,并对每个分割音频片段分别进行采样频率规整处理以及数据类型规整处理,例如,将每个分割音频片段的采样频率规整至16000赫兹(hz),及将每个分割音频片段的数据类型规整至16位整型,得到对应的历史婴儿啼哭音频数据片段。[0076]步骤s230:根据时延神经网络、残差网络以及训练集,获得目标婴儿啼哭检测模型。[0077]在本实施例中,终端设备在根据历史婴儿啼哭音频数据,获取对应的样本集之后,可以根据时延神经网络、残差网络以及训练集,获得目标婴儿啼哭检测模型。[0078]具体地,终端设备在根据历史婴儿啼哭音频数据,获取对应的样本集之后,可以融合时延神经网络以及残差网络,得到初始婴儿啼哭检测模型,以及将训练集输入至初始婴儿啼哭检测模型进行训练,获得目标婴儿啼哭检测模型。[0079]在一些实施方式中,现有市场公开的婴儿啼哭音频数据较少,在对婴儿啼哭检测模型进行训练时,需求大量的婴儿啼哭音频数据,需要用户事先花费大量时间采集大量婴儿啼哭音频数据,导致婴儿啼哭音频数据的获取成本增加。[0080]终端设备在根据历史婴儿啼哭音频数据,获取对应的样本集之后,可以融合时延神经网络以及残差网络,得到初始婴儿啼哭检测模型,并对训练集进行数据增广处理,获得对应的增广训练集,以及将增广训练集输入至初始婴儿啼哭检测模型进行训练,获得目标婴儿啼哭检测模型,无需用户事先采集大量用于模型训练的历史婴儿啼哭音频数据,降低了婴儿啼哭音频数据的获取成本。通过对训练集进行数据增广处理,增加了用于模型训练的训练数据,增强了目标婴儿啼哭检测模型的鲁棒性。[0081]其中,增广训练集可以包括数据增广处理前的训练集以及数据增广处理后的训练集。数据增广处理可以为对训练集进行噪声增广(例如,对训练集中的音频数据加入室内噪声或者室外噪声)、音频幅度增广(例如,加大训练集中的音频数据的音量、减小训练集中的音频数据的音量、加大训练集中的音频数据的响度、减小训练集中的音频数据的响度等)、音频音速增广(例如,加快训练集中的音频数据的音速、减慢训练集中的音频数据的音速)或者特征mask增广(例如,对训练集中的音频数据的fbank特征增加mask、对训练集中的音频数据的fbank特征去除mask、对训练集中的音频数据的mfcc特征增加mask、对训练集中的音频数据的mfcc特征去除mask等)等中的至少任一种。[0082]步骤s240:确定目标婴儿啼哭检测模型是否收敛。[0083]在本实施例中,为了获得稳定的目标婴儿啼哭检测模型,终端设备可以根据测试集确定目标婴儿啼哭检测模型是否收敛。具体地,终端设备可以输入测试集至目标婴儿啼哭检测模型,目标婴儿啼哭检测模型接收并响应测试集,对测试集进行测试,获得对应的预测信息,并将预测信息输出至终端设备,终端设备接收目标婴儿啼哭检测模型输出的预测信息,并确定测试集的真实信息与预测信息的差异值,以及根据差异值,确定目标婴儿啼哭检测模型是否收敛。[0084]其中,差异值为多个,当多个差异值均处于预设范围时,表示多个差异值达到稳定,则确定目标婴儿啼哭检测模型收敛;当多个差异值中存在未处于预设范围的差异值时,表示多个差异值未达到稳定,则确定目标婴儿啼哭检测模型未收敛。[0085]预设范围可以为用户预先设定的差异值范围,也可以为终端设备根据多次对初始婴儿啼哭检测模型进行训练的训练过程,自动生成的差异值范围等,此处不作限定。[0086]在一些实施方式中,为了提高对初始婴儿啼哭检测模型进行训练的训练效率,终端设备可以在对初始婴儿啼哭检测模型进行预设次数训练后,获得目标婴儿啼哭检测模型,并将测试集输入目标婴儿啼哭检测模型,目标婴儿啼哭检测模型接收并响应测试集,对测试集进行测试,获得预测信息,并将预测信息输出至终端设备,终端设备接收目标婴儿啼哭检测模型输出的预测信息,并确定测试集的真实信息与预测信息的差异值,以及根据差异值,确定目标婴儿啼哭检测模型是否收敛。[0087]预设次数可以为用户预先设定的次数,也可以为终端设备根据多次对初始婴儿啼哭检测模型进行训练的训练过程,自动生成的次数等,此处不作限定,具体可以根据实际需求进行设置。[0088]作为一种示例,预设次数可以为300次,终端设备可以在对初始婴儿啼哭检测模型进行300次训练后,获得目标婴儿啼哭检测模型,并将测试集输入目标婴儿啼哭检测模型,目标婴儿啼哭检测模型接收并响应测试集,对测试集进行测试,获得预测信息,并将预测信息输出至终端设备,终端设备接收目标婴儿啼哭检测模型输出的预测信息,并确定测试集的真实信息与预测信息的差异值,以及根据差异值,确定目标婴儿啼哭检测模型是否收敛。[0089]步骤s250:当确定目标婴儿啼哭检测模型收敛时,输入当前环境音频数据至目标婴儿啼哭检测模型。[0090]步骤s260:接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果。[0091]在本实施例中,步骤s250以及步骤s260可以参阅前述实施例中相应步骤的内容,此处不再赘述。[0092]本实施例提供的方案,通过获取当前环境音频数据,并根据历史婴儿啼哭音频数据,获取对应的样本集,并根据时延神经网络、残差网络以及训练集,获得目标婴儿啼哭检测模型,并确定目标婴儿啼哭检测模型是否收敛,并当确定目标婴儿啼哭检测模型收敛时,输入当前环境音频数据至目标婴儿啼哭检测模型,以及接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果,实现了根据时延神经网络以及残差网络构建的目标婴儿啼哭检测模型,对婴儿啼哭进行检测,目标婴儿啼哭检测模型的表达能力强,提高了对婴儿啼哭进行检测的检测准确率。[0093]进一步地,当确定目标婴儿啼哭检测模型收敛时,对当前环境音频数据进行婴儿啼哭检测,保证了检测当前环境音频数据的目标婴儿啼哭检测模型的稳定性,提高了婴儿啼哭检测的检测可信度。[0094]请参阅图4,其示出了本技术一个实施例提供的婴儿啼哭检测装置300,婴儿啼哭检测装置300可以应用于如图1所示的婴儿啼哭检测系统中的终端设备200,下面以终端设备200为例,对图4所示的婴儿啼哭检测装置300进行详细阐述,婴儿啼哭检测装置300可以包括当前数据获取模块310、输入模块320以及接收模块330。[0095]当前数据获取模块310可以用于获取当前环境音频数据;输入模块320可以用于输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭检测结果,婴儿啼哭检测结果可以包括婴儿啼哭结果以及婴儿未啼哭结果,目标婴儿啼哭检测模型可以基于时延神经网络和残差网络得到;接收模块330可以用于接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果。[0096]在一些实施方式中,婴儿啼哭检测装置300还可以包括样本获取模块、获得模块以及确定模块。[0097]样本获取模块可以用于输入模块320输入当前环境音频数据至目标婴儿啼哭检测模型之前,根据历史婴儿啼哭音频数据,获取对应的样本集,样本集至少包括训练集;获得模块可以用于根据时延神经网络、残差网络以及训练集,获得目标婴儿啼哭检测模型;确定模块可以用于确定目标婴儿啼哭检测模型是否收敛。[0098]在一些实施方式中,输入模块320可以包括第一输入单元。[0099]第一输入单元可以用于当确定目标婴儿啼哭检测模型收敛时,输入当前环境音频数据至目标婴儿啼哭检测模型。[0100]在一些实施方式中,获得模块可以包括融合单元以及训练单元。[0101]融合单元可以用于融合时延神经网络以及残差网络,得到初始婴儿啼哭检测模型;训练单元可以用于将训练集输入至初始婴儿啼哭检测模型进行训练,获得目标婴儿啼哭检测模型。[0102]在一些实施方式中,婴儿啼哭检测装置300还可以包括处理模块。[0103]处理模块可以用于训练单元将训练集输入至初始婴儿啼哭检测模型进行训练,获得目标婴儿啼哭检测模型之前,对训练集进行数据增广处理,获得对应的增广训练集。[0104]在一些实施方式中,训练单元可以包括训练子单元。[0105]训练子单元可以用于将增广训练集输入至初始婴儿啼哭检测模型进行训练,获得目标婴儿啼哭检测模型。[0106]在一些实施方式中,样本获取模块可以包括第一处理单元、标注单元以及划分单元。[0107]第一处理单元可以用于将历史婴儿啼哭音频数据进行滑动窗口处理,获得多个历史婴儿啼哭音频数据片段;标注单元可以用于对每个历史婴儿啼哭音频数据片段进行标注,获得对应的标注音频数据片段;划分单元可以用于按照预设划分规则,对多个标注音频数据片段进行划分,获得对应的样本集。[0108]在一些实施方式中,婴儿啼哭检测结果可以为婴儿啼哭结果,婴儿啼哭结果可以包括婴儿啼哭处置需求,接收模块330可以包括接收单元以及发送单元。[0109]接收单元可以用于接收目标婴儿啼哭检测模型返回的婴儿啼哭结果;发送单元可以用于发送婴儿啼哭结果至与监护人关联的客户端,使得监护人根据婴儿啼哭处置需求对婴儿进行安抚。[0110]在一些实施方式中,输入模块320还可以包括第二处理单元以及第二输入单元。[0111]第二处理单元可以用于对当前环境音频数据进行流式计算处理,获得流式音频数据;第二输入单元可以用于输入流式音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据流式音频数据输出对应的婴儿啼哭检测结果。[0112]本实施例提供的方案,通过获取当前环境音频数据,并输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭检测结果,婴儿啼哭检测结果包括婴儿啼哭结果以及婴儿未啼哭结果,目标婴儿啼哭检测模型基于时延神经网络和残差网络得到,以及接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果,实现了根据时延神经网络以及残差网络构建的目标婴儿啼哭检测模型,对婴儿啼哭进行检测,目标婴儿啼哭检测模型的表达能力强,提高了对婴儿啼哭进行检测的检测准确率。[0113]需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。对于方法实施例中的所描述的任意的处理方式,在装置实施例中均可以通过相应的处理模块实现,装置实施例中不再一一赘述。[0114]另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。[0115]请参阅图5,其示出了本技术一个实施例提供的电子设备400的功能框图,该电子设备400可以包括一个或多个如下部件:存储器410、处理器420、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器410中并被配置为由一个或多个处理器420执行,一个或多个应用程序配置用于执行如前述方法实施例所描述的方法。[0116]存储器410可以包括随机存储器(randomaccessmemory,ram),也可以包括只读存储器(read-onlymemory)。存储器410可用于存储指令、程序、代码、代码集或指令集。存储器410可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如获取当前环境音频数据、输入当前环境音频数据、输出婴儿啼哭检测结果、得到目标婴儿啼哭检测模型、接收婴儿啼哭检测结果、获取样本集、获得目标婴儿啼哭检测模型、确定目标婴儿啼哭检测模型是否收敛、确定目标婴儿啼哭检测模型收敛、融合时延神经网络以及残差网络、得到初始婴儿啼哭检测模型、训练初始婴儿啼哭检测模型、增广处理训练集、获得增广训练集、输入增广训练集、滑动窗口处理、获得多个历史婴儿啼哭音频数据片段、标注历史婴儿啼哭音频数据片段、获得标注音频数据片段、划分多个标注音频数据片段、获得样本集、接收婴儿啼哭结果、返回婴儿啼哭结果、发送婴儿啼哭结果、流式计算处理当前环境音频数据、获得流式音频数据以及输入流式音频数据等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备400在使用中所创建的数据(比如当前环境音频数据、目标婴儿啼哭检测模型、婴儿啼哭检测结果、婴儿啼哭结果、婴儿未啼哭结果、时延神经网络、残差网络、历史婴儿啼哭音频数据、样本集、训练集、初始婴儿啼哭检测模型、增广训练集、历史婴儿啼哭音频数据片段、标注音频数据片段、预设划分规则、婴儿啼哭处置需求、监护人、客户端以及流式音频数据)等。[0117]处理器420可以包括一个或者多个处理核。处理器420利用各种接口和线路连接整个电子设备400内的各个部分,通过运行或执行存储在存储器410内的指令、程序、代码集或指令集,以及调用存储在存储器410内的数据,执行电子设备400的各种功能和处理数据。可选地,处理器420可以采用数字信号处理(digitalsignalprocessing,dsp)、现场可编程门阵列(field-programmablegatearray,fpga)、可编程逻辑阵列(programmablelogicarray,pla)中的至少一种硬件形式来实现。处理器420可集成中央处理器(centralprocessingunit,cpu)、图像处理器(graphicsprocessingunit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器420中,单独通过一块通信芯片进行实现。[0118]请参考图6,其示出了本技术实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质500中存储有程序代码510,程序代码510可被处理器调用执行上述方法实施例中所描述的方法。[0119]计算机可读存储介质500可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质500包括非易失性计算机可读介质(non-transitorycomputer-readablestoragemedium)。计算机可读存储介质500具有执行上述方法中的任何方法步骤的程序代码510的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码510可以例如以适当形式进行压缩。[0120]请参考图7,其示出了本技术实施例提供的一种计算机程序产品600的结构框图。该计算机程序产品600包括计算机程序/指令610,计算机程序/指令610存储在计算机设备的计算机可读存储介质中。计算机程序产品600在计算机设备上运行时,计算机设备的处理器从计算机可读存储介质读取计算机程序/指令610,处理器执行计算机程序/指令610,使得该计算机设备执行上述方法实施例中所描述的方法。[0121]本实施例提供的方案,通过获取当前环境音频数据,并输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭检测结果,婴儿啼哭检测结果包括婴儿啼哭结果以及婴儿未啼哭结果,目标婴儿啼哭检测模型基于时延神经网络和残差网络得到,以及接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果,实现了根据时延神经网络以及残差网络构建的目标婴儿啼哭检测模型,对婴儿啼哭进行检测,目标婴儿啼哭检测模型的表达能力强,提高了对婴儿啼哭进行检测的检测准确率。[0122]最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。当前第1页12当前第1页12
技术特征:
1.一种婴儿啼哭检测方法,其特征在于,包括:获取当前环境音频数据;输入所述当前环境音频数据至目标婴儿啼哭检测模型,使得所述目标婴儿啼哭检测模型根据所述当前环境音频数据输出对应的婴儿啼哭检测结果,所述婴儿啼哭检测结果包括婴儿啼哭结果以及婴儿未啼哭结果,所述目标婴儿啼哭检测模型基于时延神经网络和残差网络得到;接收所述目标婴儿啼哭检测模型返回的所述婴儿啼哭检测结果。2.根据权利要求1所述的婴儿啼哭检测方法,其特征在于,所述输入所述当前环境音频数据至目标婴儿啼哭检测模型之前,所述婴儿啼哭检测方法,还包括:根据历史婴儿啼哭音频数据,获取对应的样本集,所述样本集至少包括训练集;根据时延神经网络、残差网络以及所述训练集,获得目标婴儿啼哭检测模型;确定所述目标婴儿啼哭检测模型是否收敛;所述输入所述当前环境音频数据至目标婴儿啼哭检测模型,包括:当确定所述目标婴儿啼哭检测模型收敛时,输入所述当前环境音频数据至所述目标婴儿啼哭检测模型。3.根据权利要求2所述的婴儿啼哭检测方法,其特征在于,所述根据时延神经网络、残差网络以及所述训练集,获得目标婴儿啼哭检测模型,包括:融合时延神经网络以及残差网络,得到初始婴儿啼哭检测模型;将所述训练集输入至所述初始婴儿啼哭检测模型进行训练,获得目标婴儿啼哭检测模型。4.根据权利要求3所述的婴儿啼哭检测方法,其特征在于,所述将所述训练集输入至所述初始婴儿啼哭检测模型进行训练,获得目标婴儿啼哭检测模型之前,所述婴儿啼哭检测方法,还包括:对所述训练集进行数据增广处理,获得对应的增广训练集;所述将所述训练集输入至所述初始婴儿啼哭检测模型进行训练,获得目标婴儿啼哭检测模型,包括:将所述增广训练集输入至所述初始婴儿啼哭检测模型进行训练,获得目标婴儿啼哭检测模型。5.根据权利要求2所述的婴儿啼哭检测方法,其特征在于,所述根据历史婴儿啼哭音频数据,获取对应的样本集,包括:将历史婴儿啼哭音频数据进行滑动窗口处理,获得多个历史婴儿啼哭音频数据片段;对每个历史婴儿啼哭音频数据片段进行标注,获得对应的标注音频数据片段;按照预设划分规则,对多个标注音频数据片段进行划分,获得对应的样本集。6.根据权利要求1所述的婴儿啼哭检测方法,其特征在于,所述婴儿啼哭检测结果为所述婴儿啼哭结果,所述婴儿啼哭结果包括婴儿啼哭处置需求,所述接收所述目标婴儿啼哭检测模型返回的所述婴儿啼哭检测结果,包括:接收所述目标婴儿啼哭检测模型返回的所述婴儿啼哭结果;发送所述婴儿啼哭结果至与监护人关联的客户端,使得所述监护人根据所述婴儿啼哭处置需求对婴儿进行安抚。
7.根据权利要求1至6中任一项所述的婴儿啼哭检测方法,其特征在于,所述输入所述当前环境音频数据至目标婴儿啼哭检测模型,使得所述目标婴儿啼哭检测模型根据所述当前环境音频数据输出对应的婴儿啼哭检测结果,包括:对所述当前环境音频数据进行流式计算处理,获得流式音频数据;输入所述流式音频数据至目标婴儿啼哭检测模型,使得所述目标婴儿啼哭检测模型根据所述流式音频数据输出对应的婴儿啼哭检测结果。8.一种婴儿啼哭检测装置,其特征在于,包括:当前数据获取模块,用于获取当前环境音频数据;输入模块,用于输入所述当前环境音频数据至目标婴儿啼哭检测模型,使得所述目标婴儿啼哭检测模型根据所述当前环境音频数据输出对应的婴儿啼哭检测结果,所述婴儿啼哭检测结果包括婴儿啼哭结果以及婴儿未啼哭结果,所述目标婴儿啼哭检测模型基于时延神经网络和残差网络得到;接收模块,用于接收所述目标婴儿啼哭检测模型返回的所述婴儿啼哭检测结果。9.一种电子设备,其特征在于,包括:存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,所述一个或多个应用程序被存储在所述存储器中并被配置为由一个或多个处理器执行,所述一个或多个应用程序配置用于执行如权利要求1至7中任一项所述的婴儿啼哭检测方法。10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至7中任一项所述的婴儿啼哭检测方法。
技术总结
本申请公开了一种婴儿啼哭检测方法、检测装置、电子设备及存储介质,婴儿啼哭检测方法,包括:获取当前环境音频数据;输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭检测结果,婴儿啼哭检测结果包括婴儿啼哭结果以及婴儿未啼哭结果,目标婴儿啼哭检测模型基于时延神经网络和残差网络得到;接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果。本方法实现了根据时延神经网络以及残差网络构建的目标婴儿啼哭检测模型,对婴儿啼哭进行检测,目标婴儿啼哭检测模型的表达能力强,提高了对婴儿啼哭进行检测的检测准确率。提高了对婴儿啼哭进行检测的检测准确率。提高了对婴儿啼哭进行检测的检测准确率。
技术研发人员:闫冰程 陈琳 王江 张家源 林友钦
受保护的技术使用者:漳州立达信光电子科技有限公司
技术研发日:2023.03.01
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种蒸汽式无烟烤盘的制作方法 下一篇:一种创业互动教育系统的制作方法