呼吸道健康状态评估方法、装置、电子设备及存储介质与流程

未命名 08-07 阅读:66 评论:0


1.本技术实施例涉及但不限于人工智能技术领域,尤其涉及一种呼吸道健康状态评估方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.随着经济的不断发展,科技的不断进步,人们的生活水平也在不断地提升,人们也越来越关注自身的健康状况;为了给自身和家人带来保障,人们也越来越热衷于购买保险,在购买保险的过程中往往需要进行健康检查;在进行呼吸道检查的过程中往往需要进行验血和拍片,这样就会给待检查人员带来了不适感,并且检查的效率较低。


技术实现要素:

3.以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
4.为了解决上述背景技术中提到的问题,本技术实施例提供了一种呼吸道健康状态评估方法、装置、电子设备及计算机可读存储介质,能够快速地评估待检查人员的呼吸道的健康状况,提高了初步检查的效率。
5.第一方面,本技术实施例提供了一种呼吸道健康状态评估方法,所述方法包括:
6.获取待评估的呼吸道语音信号集;
7.对所述呼吸道语音信号集进行第一预处理得到语音数据集;
8.对所述语音数据集进行第一特征提取得到第一梅尔频谱图;
9.将所述第一梅尔频谱图输入至预训练的深度学习评估网络模型中进行评估处理,得到呼吸道健康状态评估结果;
10.其中,所述深度学习评估网络模型包括残差神经网络模型、双向长短时记忆神经网络模型和全连接神经网络模型,所述深度学习评估网络模型的训练过程如下:
11.获取训练梅尔频谱图,其中,所述训练梅尔频谱图携带有标注信息;
12.将所述训练梅尔频谱图输入至所述残差神经网络模型进行第二特征提取,得到第一语音特征;
13.将所述语音特征输入至所述双向长短时记忆神经网络模型进行第三特征提取,得到第二语音特征;
14.将所述第一语音特征和所述第二语音特征输入至所述全连接神经网络模型进行预测处理,得到训练评估信息;
15.根据所述训练评估信息与所述标注信息确定损失值;
16.基于所述损失值对所述全连接神经网络模型、所述双向长短时记忆神经网络模型和所述残差神经网络模型进行训练处理。
17.根据本技术的一些实施例,所述对所述呼吸道语音信号集进行第一预处理得到语音数据集,包括:
18.对所述呼吸道语音信号集进行预加重处理得到第一语音处理信号集;
19.对所述第一语音处理信号集进行滤波处理得到第二语音处理信号集;
20.对所述第二语音处理信号集进行加窗分帧处理得到所述语音数据集。
21.根据本技术的一些实施例,所述对所述语音数据集进行第一特征提取得到第一梅尔频谱图,包括:
22.对所述语音数据集进行快速傅里叶变换得到第一语音频谱信号;
23.对所述第一语音频谱信号取绝对值得到第二语音频谱信号;
24.对所述第二语音频谱信号进行梅尔滤波处理得到所述第一梅尔频谱图。
25.根据本技术的一些实施例,所述呼吸道语音信号集包括咳嗽语音信号、呼吸语音信号和说话语音信号,所述第一梅尔频谱图包括第一梅尔频谱子图、第二梅尔频谱子图和第三梅尔频谱子图,所述第一梅尔频谱子图基于所述咳嗽语音信号而得到,所述第二梅尔频谱子图基于所述呼吸语音信号而得到,所述第三梅尔频谱子图基于所述说话语音信号而得到,所述将所述第一梅尔频谱图输入至预训练的深度学习评估网络模型中进行评估处理,得到呼吸道健康状态评估结果,包括:
26.将所述第一梅尔频谱子图、所述第二梅尔频谱子图和所述第三梅尔频谱子图分别输入至所述残差神经网络模型进行第二特征提取,得到与所述第一梅尔频谱子图对应的第一语音子特征、与所述第二梅尔频谱子图对应的第二语音子特征以及与所述第三梅尔频谱子图对应的第三语音子特征;
27.将所述第一语音子特征、所述第二语音子特征和所述第三语音子特征进行串联处理,得到多模态输入语音向量;
28.将所述多模态输入语音向量输入至所述双向长短时记忆神经网络模型进行第三特征提取,得到第三语音特征;
29.将所述第一语音子特征、所述第二语音子特征、所述第三语音子特征和所述第三语音特征输入至所述全连接神经网络模型进行预测处理,得到所述呼吸道健康状态评估结果。
30.根据本技术的一些实施例,所述残差神经网络模型包括输入模块、残差特征提取模块和输出模块,所述将所述训练梅尔频谱图输入至所述残差神经网络模型进行第二特征提取,得到第一语音特征,包括:
31.将所述训练梅尔频谱输入至所述输入模块进行第二预处理得到中间特征图;
32.将所述中间特征图输入至所述残差特征提取模块进行第四特征提取得到特征提取图;
33.将所述特征提取图输入至所述输出模块进行降维处理得到所述第一语音特征。
34.根据本技术的一些实施例,所述输入模块包括卷积层和最大池化层,所述将所述训练梅尔频谱输入至所述输入模块进行第二预处理得到中间特征图,包括:
35.将所述训练梅尔频谱输入至所述卷积层进行卷积处理得到第一特征图;
36.将所述第一特征图输入至所述最大池化层进行池化处理得到所述中间特征图。
37.根据本技术的一些实施例,所述输出模块包括平均池化层和全连接层,所述将所述特征提取图输入至所述输出模块进行降维处理得到所述第一语音特征,包括:
38.将所述特征提取图输入至所述平均池化层进行下采样处理得到第二特征图;
39.将所述第二特征图输入至所述全连接层进行分类处理得到所述第一语音特征。
40.第二方面,本技术实施例还提供了一种呼吸道健康状态评估装置,所述装置包括:
41.第一处理模块,用于获取待评估的呼吸道语音信号集;
42.第二处理模块,用于对所述呼吸道语音信号集进行第一预处理得到语音数据集;
43.第三处理模块,用于对所述语音数据集进行第一特征提取得到第一梅尔频谱图;
44.第四处理模块,用于将所述第一梅尔频谱图输入至预训练的深度学习评估网络模型中进行评估处理,得到呼吸道健康状态评估结果;
45.其中,所述深度学习评估网络模型包括残差神经网络模型、双向长短时记忆神经网络模型和全连接神经网络模型,所述深度学习评估网络模型的训练过程如下:
46.获取训练梅尔频谱图,其中,所述训练梅尔频谱图携带有标注信息;
47.将所述训练梅尔频谱图输入至所述残差神经网络模型进行第二特征提取,得到第一语音特征;
48.将所述语音特征输入至所述双向长短时记忆神经网络模型进行第三特征提取,得到第二语音特征;
49.将所述第一语音特征和所述第二语音特征输入至所述全连接神经网络模型进行预测处理,得到训练评估信息;
50.根据所述训练评估信息与所述标注信息确定损失值;
51.基于所述损失值对所述全连接神经网络模型、所述双向长短时记忆神经网络模型和所述残差神经网络模型进行训练处理。
52.第三方面,本技术实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面所述的呼吸道健康状态评估方法。
53.第四方面,本技术实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上第一方面所述的呼吸道健康状态评估方法。
54.根据本技术提供的实施例的呼吸道健康状态评估方法,至少具有如下有益效果:在进行呼吸道健康状态评估的过程中,可以首先获取待评估的呼吸道语音信号集;接着对呼吸道语音信号集进行第一预处理就可以得到语音数据集;接着对语音数据集进行第一特征提取处理就可以得到第一梅尔频谱图;最后将第一梅尔频谱图输入至预训练的深度学习评估网络模型中进行评估处理,就可以得到呼吸道健康状态评估结果。通过上述技术方案,能够快速地评估待检查人员的呼吸道的健康状况,提高了初步检查的效率。
附图说明
55.附图用来提供对本技术技术方案的进一步理解,并且构成说明书的一部分,与本技术的实施例一起用于解释本技术的技术方案,并不构成对本技术技术方案的限制。
56.图1是本技术一个实施例提供的呼吸道健康状态评估方法的流程图;
57.图2是本技术一个实施例提供的呼吸道健康状态评估方法中,深度学习评估网络模型的训练过程的流程图;
58.图3是本技术一个实施例提供的呼吸道健康状态评估方法中,对呼吸道语音信号进行第一预处理的流程图;
59.图4是本技术一个实施例提供的呼吸道健康状态评估方法中,对语音数据集进行第一特征提取的流程图;
60.图5是本技术一个实施例提供的呼吸道健康状态评估方法中,对第一梅尔频谱图进行评估处理的流程图;
61.图6是本技术一个实施例提供的利用残差神经网络模型进行第二特征提取的流程图;
62.图7是本技术一个实施例提供的对训练梅尔频谱进行第二预处理的流程图;
63.图8是本技术一个实施例提供的对特征提取图进行降维处理的流程图;
64.图9是本技术一个实施例提供的呼吸道健康状态评估装置的示意图;
65.图10是本技术一个实施例提供的电子设备的示意图。
具体实施方式
66.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
67.需要注意的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
68.需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
69.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
70.ai是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
71.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
72.人工智能即为ai,ai是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
73.人工智能技术所涉及的服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
74.本技术提供了一种呼吸道健康状态评估方法、装置、电子设备及计算机可读存储介质,在进行呼吸道健康状态评估的过程中,可以首先获取待评估的呼吸道语音信号集;接着对呼吸道语音信号集进行第一预处理就可以得到语音数据集;接着对语音数据集进行第一特征提取处理就可以得到第一梅尔频谱图;最后将第一梅尔频谱图输入至预训练的深度学习评估网络模型中进行评估处理,就可以得到呼吸道健康状态评估结果。通过上述技术方案,能够快速地评估待检查人员的呼吸道的健康状况,提高了初步检查的效率。
75.本技术实施例提供的呼吸道健康状态评估方法,涉及人工智能技术领域。本技术实施例提供的呼吸道健康状态评估方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现呼吸道健康状态评估方法的应用等,但并不局限于以上形式。
76.本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
77.需要说明的是,在本技术的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本技术实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本技术实施例能够正常运行的必要的用户相关数据。
78.下面结合附图,对本技术实施例作进一步阐述。
79.如图1所示,图1是本技术一个实施例提供的呼吸道健康状态评估方法的流程图,该呼吸道健康状态评估方法包括但不限于步骤s100至s400。
80.步骤s100,获取待评估的呼吸道语音信号集;
81.步骤s200,对呼吸道语音信号集进行第一预处理得到语音数据集;
82.步骤s300,对语音数据集进行第一特征提取得到第一梅尔频谱图;
83.步骤s400,将第一梅尔频谱图输入至预训练的深度学习评估网络模型中进行评估
处理,得到呼吸道健康状态评估结果。
84.需要说明的是,在进行呼吸道健康状态评估的过程中,可以首先获取待评估的呼吸道语音信号集;接着对呼吸道语音信号集进行第一预处理就可以得到语音数据集;接着对语音数据集进行第一特征提取处理就可以得到第一梅尔频谱图;最后将第一梅尔频谱图输入至预训练的深度学习评估网络模型中进行评估处理,就可以得到呼吸道健康状态评估结果。通过上述技术方案,能够快速地评估待检查人员的呼吸道的健康状况,提高了初步检查的效率。
85.如图2所示,深度学习评估网络模型包括残差神经网络模型、双向长短时记忆神经网络模型和全连接神经网络模型,深度学习评估网络模型的训练过程包括但不限于步骤s110至步骤s160:
86.步骤s110,获取训练梅尔频谱图,其中,训练梅尔频谱图携带有标注信息;
87.步骤s120,将训练梅尔频谱图输入至残差神经网络模型进行第二特征提取,得到第一语音特征;
88.步骤s130,将语音特征输入至双向长短时记忆神经网络模型进行第三特征提取,得到第二语音特征;
89.步骤s140,将第一语音特征和第二语音特征输入至全连接神经网络模型进行预测处理,得到训练评估信息;
90.步骤s150,根据训练评估信息与标注信息确定损失值;
91.步骤s160,基于损失值对全连接神经网络模型、双向长短时记忆神经网络模型和残差神经网络模型进行训练处理。
92.需要说明的是,在对深度学习评估网络模型进行训练的过程中,首先获取训练梅尔频谱图,其中,训练梅尔频谱图携带有标注信息;接着将训练梅尔频谱图输入至残差神经网络模型进行第二特征提取,得到第一语音特征;接着将语音特征输入至双向长短时记忆神经网络模型进行第三特征提取,得到第二语音特征;然后将第一语音特征和第二语音特征输入至全连接神经网络模型进行预测处理,得到训练评估信息;然后根据训练评估信息与标注信息确定损失值;最后基于损失值对全连接神经网络模型、双向长短时记忆神经网络模型和残差神经网络模型进行训练处理,以对全连接神经网络模型、双向长短时记忆神经网络模型和残差神经网络模型的网络参数进行调整处理,以便于后续利用深度学习网络模型进行呼吸道健康评估处理。
93.值得注意的是,在获取待评估的呼吸道语音信号集的过程中,均需要经过待检测人员的同意,并不会在没有取得待检测人员同意的情况下而对待检测人员的呼吸道的健康状态进行评估。当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本技术实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本技术实施例能够正常运行的必要的用户相关数据。
94.值得注意的是,梅尔频谱就是一般的频谱图加上梅尔滤波函数,梅尔频谱是为了模拟人耳听觉对实际频率的敏感程度;梅尔频谱对于语音合成的重要性,在现今深度学习
广为流行的时代,显得尤为重要。大部分主流的基于深度学习的语音合成系统,一般都把梅尔频谱作为模型生成的中间表示。在讯号处理中,梅尔倒频谱系一个可用来代表短期音讯的频谱,其原理根基于以非线性的梅尔刻度表示的对数频谱及其线性余弦转换之上。值得注意的是,本技术实施例中的第一梅尔频谱和第二梅尔频谱只是为了区分不同的对象,以便于对本技术的实施例进行解释说明,并不代表两者的组成形式有所不同。
95.值得注意的是,语音数据集是由多种不同类型的语音数据组合而成的。
96.需要说明的是,残差神经网络模型、双向长短时记忆神经网络模型和全连接神经网络模型均为现有的神经网络模型。神经网络是由大量的、简单的处理单元广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。
97.在一些实施例中,如图3所示,上述步骤s200可以包括但不限于步骤s210至s230。
98.步骤s210,对呼吸道语音信号集进行预加重处理得到第一语音处理信号集;
99.步骤s220,对第一语音处理信号集进行滤波处理得到第二语音处理信号集;
100.步骤s230,对第二语音处理信号集进行加窗分帧处理得到语音数据集。
101.需要说明的是,在对呼吸道信号集进行第一预处理的过程中,首先对呼吸道语音信号集进行预加重处理得到第一语音处理信号集;接着对第一语音处理信号集进行滤波处理就可以得到第二语音处理信号集;最后对第二语音处理信号集进行加窗分帧处理就能够得到语音数据集。
102.值得注意的是,预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加,信号在传输过程中受损很大,为了在接收终端能得到比较好的信号波形,就需要对受损的信号进行补偿,预加重技术的思想就是在传输线的始端增强信号的高频成分,以补偿高频分量在传输过程中的过大衰减。
103.值得注意的是,一段语音信号整体上看不是平稳的,但是在局部上可以看作是平稳的;在后期的语音处理中需要输入的是平稳信号,所以要对整段语音信号分帧,也就是切分成很多段,因此需要进行加窗分帧处理。
104.在一些实施例中,如图4所示,上述步骤s300可以包括但不限于步骤s310至步骤s330。
105.步骤s310,对语音数据集进行快速傅里叶变换得到第一语音频谱信号;
106.步骤s320,对第一语音频谱信号取绝对值得到第二语音频谱信号;
107.步骤s330,对第二语音频谱信号进行梅尔滤波处理得到第一梅尔频谱图。
108.需要说明的是,对语音数据集进行第一特征提取的过程中,首先对语音数据集进行快速傅里叶变换得到第一语音频谱信号;接着对第一语音频谱信号取绝对值得到第二语音频谱信号;最后对第二语音频谱信号进行梅尔滤波处理得到第一梅尔频谱图。
109.需要说明的是,梅尔频谱就是一般的频谱图加上梅尔滤波函数,梅尔频谱是为了模拟人耳听觉对实际频率的敏感程度;梅尔频谱对于语音合成的重要性,在现今深度学习广为流行的时代,显得尤为重要。大部分主流的基于深度学习的语音合成系统,一般都把梅尔频谱作为模型生成的中间表示。在讯号处理中,梅尔倒频谱系一个可用来代表短期音讯的频谱,其原理根基于以非线性的梅尔刻度表示的对数频谱及其线性余弦转换之上。值得
注意的是,本技术实施例中的第一梅尔频谱和第二梅尔频谱只是为了区分不同的对象,以便于对本技术的实施例进行解释说明,并不代表两者的组成形式有所不同。
110.在一些实施例中,如图5所示,呼吸道语音信号集包括咳嗽语音信号、呼吸语音信号和说话语音信号,第一梅尔频谱图包括第一梅尔频谱子图、第二梅尔频谱子图和第三梅尔频谱子图,第一梅尔频谱子图基于咳嗽语音信号而得到,第二梅尔频谱子图基于呼吸语音信号而得到,第三梅尔频谱子图基于说话语音信号而得到,上述步骤s400可以包括但不限于步骤s410至步骤s440。
111.步骤s410,将第一梅尔频谱子图、第二梅尔频谱子图和第三梅尔频谱子图分别输入至残差神经网络模型进行第二特征提取,得到与第一梅尔频谱子图对应的第一语音子特征、与第二梅尔频谱子图对应的第二语音子特征以及与第三梅尔频谱子图对应的第三语音子特征;
112.步骤s420,将第一语音子特征、第二语音子特征和第三语音子特征进行串联处理,得到多模态输入语音向量;
113.步骤s430,将多模态输入语音向量输入至双向长短时记忆神经网络模型进行第三特征提取,得到第三语音特征;
114.步骤s440,将第一语音子特征、第二语音子特征、第三语音子特征和第三语音特征输入至全连接神经网络模型进行预测处理,得到呼吸道健康状态评估结果。
115.需要说明的是,在对第一梅尔频谱图进行评估处理的过程中,首先将将第一梅尔频谱子图、第二梅尔频谱子图和第三梅尔频谱子图分别输入至残差神经网络模型进行第二特征提取,得到与第一梅尔频谱子图对应的第一语音子特征、与第二梅尔频谱子图对应的第二语音子特征以及与第三梅尔频谱子图对应的第三语音子特征;接着将第一语音子特征、第二语音子特征和第三语音子特征进行串联处理,得到多模态输入语音向量;然后将多模态输入语音向量输入至双向长短时记忆神经网络模型进行第三特征提取,得到第三语音特征;最后将第一语音子特征、第二语音子特征、第三语音子特征和第三语音特征输入至全连接神经网络模型进行预测处理,得到呼吸道健康状态评估结果。
116.值得注意的是,通过咳嗽语音信号、呼吸语音信号和说话语音信号三种不同的信号进行综合评估分析,使得后续的呼吸道健康状态评估具有较高的准确性。
117.在一些实施例中,如图6所示,残差神经网络模型包括输入模块、残差特征提取模块和输出模块,上述步骤s120可以包括但不限于步骤s121和步骤s123。
118.步骤s121,将训练梅尔频谱输入至输入模块进行第二预处理得到中间特征图;
119.步骤s122,将中间特征图输入至残差特征提取模块进行第四特征提取得到特征提取图;
120.步骤s123,将特征提取图输入至输出模块进行降维处理得到第一语音特征。
121.需要说明的是,在对训练梅尔频谱图进行第二特征提取的过程中,可以先将训练梅尔频谱输入至输入模块进行第二预处理得到中间特征图;接着将中间特征图输入至残差特征提取模块进行第四特征提取得到特征提取图;最后将特征提取图输入至输出模块进行降维处理得到第一语音特征。其中,残差神经网络模型包括输入模块、残差特征提取模块和输出模块。
122.在一些实施例中,如图7所示,输入模块包括卷积层和最大池化层,上述步骤s121
可以包括但不限于步骤s1211和步骤s1212。
123.步骤s1211,将训练梅尔频谱输入至卷积层进行卷积处理得到第一特征图;
124.步骤s1212,将第一特征图输入至最大池化层进行池化处理得到中间特征图。
125.需要说明的是,在进行第二预处理的过程中,首先将训练梅尔频谱输入至卷积层进行卷积处理得到第一特征图;接着将第一特征图输入至最大池化层进行池化处理从而得到中间特征图。
126.需要说明的是,卷积神经网络中每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网路能从低级特征中迭代提取更复杂的特征。
127.需要说明的是,最大池化层的作用可以进行下采样,还可以降维、去除冗余信息、对特征进行压缩、简化网络复杂度、减小计算量、减小内存消耗等。
128.在一些实施例中,如图8所示,输出模块包括平均池化层和全连接层,上述步骤s123可以包括但不限于步骤s1231和步骤s1232。
129.步骤s1231,将特征提取图输入至平均池化层进行下采样处理得到第二特征图;
130.步骤s1232,将第二特征图输入至全连接层进行分类处理得到第一语音特征。
131.需要说明的是,在对特征提取图进行降维处理的过程中,首先将特征提取图输入至平均池化层进行下采样处理得到第二特征图;接着将第二特征图输入至全连接层进行分类处理得到第一语音特征。
132.需要说明的是,平均池化层可以大幅度减少网络参数,同时还可以减少了过拟合的现象;全连接层还可以具有识别分类的效果。
133.另外,如图9所示,本技术的一个实施例还提供了一种呼吸道健康状态评估装置10,包括:
134.第一处理模块100,用于获取待评估的呼吸道语音信号集;
135.第二处理模块200,用于对呼吸道语音信号集进行第一预处理得到语音数据集;
136.第三处理模块300,用于对语音数据集进行第一特征提取得到第一梅尔频谱图;
137.第四处理模块400,用于将第一梅尔频谱图输入至预训练的深度学习评估网络模型中进行评估处理,得到呼吸道健康状态评估结果;
138.其中,深度学习评估网络模型包括残差神经网络模型、双向长短时记忆神经网络模型和全连接神经网络模型,深度学习评估网络模型的训练过程如下:
139.获取训练梅尔频谱图,其中,训练梅尔频谱图携带有标注信息;
140.将训练梅尔频谱图输入至残差神经网络模型进行第二特征提取,得到第一语音特征;
141.将语音特征输入至双向长短时记忆神经网络模型进行第三特征提取,得到第二语音特征;
142.将第一语音特征和第二语音特征输入至全连接神经网络模型进行预测处理,得到训练评估信息;
143.根据训练评估信息与标注信息确定损失值;
144.基于损失值对全连接神经网络模型、双向长短时记忆神经网络模型和残差神经网
络模型进行训练处理。
145.该呼吸道健康状态评估装置10的具体实施方式与上述呼吸道健康状态评估方法的具体实施例基本相同,在此不再赘述。
146.另外,如图10所示,本技术的一个实施例还提供了一种电子设备700,该设备包括:存储器720、处理器710及存储在存储器720上并可在处理器710上运行的计算机程序。
147.处理器710和存储器720可以通过总线或者其他方式连接。
148.实现上述实施例的呼吸道健康状态评估方法所需的非暂态软件程序以及指令存储在存储器720中,当被处理器710执行时,执行上述各实施例的呼吸道健康状态评估方法,例如,执行以上描述的图1中的方法步骤s100至s400、图2中的方法步骤s110至s160、图3中的方法步骤s210至s230、图4中的方法步骤s310至s330、图5中的方法步骤s410至s440、图6中的方法步骤s121至s123、图7中的方法步骤s1211至s1212和图8中的方法步骤s1231至s1232。
149.以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
150.此外,本技术的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器710或控制器执行,例如,被上述设备实施例中的一个处理器710执行,可使得上述处理器710执行上述实施例中的呼吸道健康状态评估方法,例如,执行以上描述的图1中的方法步骤s100至s400、图2中的方法步骤s110至s160、图3中的方法步骤s210至s230、图4中的方法步骤s310至s330、图5中的方法步骤s410至s440、图6中的方法步骤s121至s123、图7中的方法步骤s1211至s1212和图8中的方法步骤s1231至s1232。
151.上述各实施例可以结合使用,不同实施例之间名称相同的模块可相同可不同。
152.上述对本技术特定实施例进行了描述,其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
153.本技术中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
154.本技术实施例提供的装置、设备、计算机可读存储介质与方法是对应的,因此,装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备、计算机存储介质的有益技术效果。
155.在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。
设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmablelogicdevice,pld)(例如现场可编程门阵列(fieldprogrammablegatearray,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardwaredescriptionlanguage,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等,目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
156.控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
157.上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
158.为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
159.本领域内的技术人员应明白,本技术实施例可提供为方法、系统、或计算机程序产品。因此,本技术实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
160.本说明书是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
161.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
162.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
163.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
164.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
165.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
166.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
167.本技术实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示单独存在a、同时存在a和b、单独存在b的情况。其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
168.本技术实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
169.本技术中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
170.以上所述仅为本技术实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。

技术特征:
1.一种呼吸道健康状态评估方法,其特征在于,所述方法包括:获取待评估的呼吸道语音信号集;对所述呼吸道语音信号集进行第一预处理得到语音数据集;对所述语音数据集进行第一特征提取得到第一梅尔频谱图;将所述第一梅尔频谱图输入至预训练的深度学习评估网络模型中进行评估处理,得到呼吸道健康状态评估结果;其中,所述深度学习评估网络模型包括残差神经网络模型、双向长短时记忆神经网络模型和全连接神经网络模型,所述深度学习评估网络模型的训练过程如下:获取训练梅尔频谱图,其中,所述训练梅尔频谱图携带有标注信息;将所述训练梅尔频谱图输入至所述残差神经网络模型进行第二特征提取,得到第一语音特征;将所述语音特征输入至所述双向长短时记忆神经网络模型进行第三特征提取,得到第二语音特征;将所述第一语音特征和所述第二语音特征输入至所述全连接神经网络模型进行预测处理,得到训练评估信息;根据所述训练评估信息与所述标注信息确定损失值;基于所述损失值对所述全连接神经网络模型、所述双向长短时记忆神经网络模型和所述残差神经网络模型进行训练处理。2.根据权利要求1所述的呼吸道健康状态评估方法,其特征在于,所述对所述呼吸道语音信号集进行第一预处理得到语音数据集,包括:对所述呼吸道语音信号集进行预加重处理得到第一语音处理信号集;对所述第一语音处理信号集进行滤波处理得到第二语音处理信号集;对所述第二语音处理信号集进行加窗分帧处理得到所述语音数据集。3.根据权利要求1所述的呼吸道健康状态评估方法,其特征在于,所述对所述语音数据集进行第一特征提取得到第一梅尔频谱图,包括:对所述语音数据集进行快速傅里叶变换得到第一语音频谱信号;对所述第一语音频谱信号取绝对值得到第二语音频谱信号;对所述第二语音频谱信号进行梅尔滤波处理得到所述第一梅尔频谱图。4.根据权利要求1所述的呼吸道健康状态评估方法,其特征在于,所述呼吸道语音信号集包括咳嗽语音信号、呼吸语音信号和说话语音信号,所述第一梅尔频谱图包括第一梅尔频谱子图、第二梅尔频谱子图和第三梅尔频谱子图,所述第一梅尔频谱子图基于所述咳嗽语音信号而得到,所述第二梅尔频谱子图基于所述呼吸语音信号而得到,所述第三梅尔频谱子图基于所述说话语音信号而得到,所述将所述第一梅尔频谱图输入至预训练的深度学习评估网络模型中进行评估处理,得到呼吸道健康状态评估结果,包括:将所述第一梅尔频谱子图、所述第二梅尔频谱子图和所述第三梅尔频谱子图分别输入至所述残差神经网络模型进行第二特征提取,得到与所述第一梅尔频谱子图对应的第一语音子特征、与所述第二梅尔频谱子图对应的第二语音子特征以及与所述第三梅尔频谱子图对应的第三语音子特征;将所述第一语音子特征、所述第二语音子特征和所述第三语音子特征进行串联处理,
得到多模态输入语音向量;将所述多模态输入语音向量输入至所述双向长短时记忆神经网络模型进行第三特征提取,得到第三语音特征;将所述第一语音子特征、所述第二语音子特征、所述第三语音子特征和所述第三语音特征输入至所述全连接神经网络模型进行预测处理,得到所述呼吸道健康状态评估结果。5.根据权利要求1所述的呼吸道健康状态评估方法,其特征在于,所述残差神经网络模型包括输入模块、残差特征提取模块和输出模块,所述将所述训练梅尔频谱图输入至所述残差神经网络模型进行第二特征提取,得到第一语音特征,包括:将所述训练梅尔频谱输入至所述输入模块进行第二预处理得到中间特征图;将所述中间特征图输入至所述残差特征提取模块进行第四特征提取得到特征提取图;将所述特征提取图输入至所述输出模块进行降维处理得到所述第一语音特征。6.根据权利要求5所述的呼吸道健康状态评估方法,其特征在于,所述输入模块包括卷积层和最大池化层,所述将所述训练梅尔频谱输入至所述输入模块进行第二预处理得到中间特征图,包括:将所述训练梅尔频谱输入至所述卷积层进行卷积处理得到第一特征图;将所述第一特征图输入至所述最大池化层进行池化处理得到所述中间特征图。7.根据权利要求5所述的呼吸道健康状态评估方法,其特征在于,所述输出模块包括平均池化层和全连接层,所述将所述特征提取图输入至所述输出模块进行降维处理得到所述第一语音特征,包括:将所述特征提取图输入至所述平均池化层进行下采样处理得到第二特征图;将所述第二特征图输入至所述全连接层进行分类处理得到所述第一语音特征。8.一种呼吸道健康状态评估装置,其特征在于,所述装置包括:第一处理模块,用于获取待评估的呼吸道语音信号集;第二处理模块,用于对所述呼吸道语音信号集进行第一预处理得到语音数据集;第三处理模块,用于对所述语音数据集进行第一特征提取得到第一梅尔频谱图;第四处理模块,用于将所述第一梅尔频谱图输入至预训练的深度学习评估网络模型中进行评估处理,得到呼吸道健康状态评估结果;其中,所述深度学习评估网络模型包括残差神经网络模型、双向长短时记忆神经网络模型和全连接神经网络模型,所述深度学习评估网络模型的训练过程如下:获取训练梅尔频谱图,其中,所述训练梅尔频谱图携带有标注信息;将所述训练梅尔频谱图输入至所述残差神经网络模型进行第二特征提取,得到第一语音特征;将所述语音特征输入至所述双向长短时记忆神经网络模型进行第三特征提取,得到第二语音特征;将所述第一语音特征和所述第二语音特征输入至所述全连接神经网络模型进行预测处理,得到训练评估信息;根据所述训练评估信息与所述标注信息确定损失值;基于所述损失值对所述全连接神经网络模型、所述双向长短时记忆神经网络模型和所述残差神经网络模型进行训练处理。
9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的呼吸道健康状态评估方法。10.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行权利要求1至7中任意一项所述的呼吸道健康状态评估方法。

技术总结
本申请涉及人工智能技术领域,提供了一种呼吸道健康状态评估方法、装置、电子设备及计算机可读存储介质,方法包括:获取待评估的呼吸道语音信号集;对呼吸道语音信号集进行第一预处理得到语音数据集;对语音数据集进行第一特征提取得到第一梅尔频谱图;将第一梅尔频谱图输入至预训练的深度学习评估网络模型中进行评估处理,得到呼吸道健康状态评估结果。通过上述技术方案,能够快速地评估待检查人员的呼吸道的健康状况,提高了初步检查的效率。提高了初步检查的效率。提高了初步检查的效率。


技术研发人员:张旭龙 王健宗 程宁 赵金凤
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.05.06
技术公布日:2023/8/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐