语音输出装置的控制方法、装置及计算机可读存储介质与流程

未命名 10-19 阅读：70 评论：0

1.本发明涉及人工智能技术领域，尤其涉及一种语音输出装置的控制方法、装置及计算机可读存储介质。

背景技术：

2.失语症是指与语言功能有关的脑组织的病变，使得失语者对语言的理解和表达存在障碍。失语者能通过手语与外界进行交流，但是这种交流局限于系统学习过手语的人群，无法通过手语与没有学习过手语的人进行交流，导致失语者人群在进行社会活动时存在各种不便。相关技术中，根据脑电接口技术确定失语者的表达语言，并输出表达语言，使得失语者和普通人可以开展互动。但是，若根据脑电接口技术确定失语者的表达语言，存在表达语言失真的风险，失语者表达语言的准确性无法得到保障。

技术实现要素：

3.本技术实施例通过提供一种语音输出装置的控制方法、装置及计算机可读存储介质，旨在提高失语者表达语言的准确性。
4.本技术实施例提供了一种语音输出装置的控制方法，所述语音输出装置的控制方法，包括：
5.获取用户的脑部语言功能区域的脑电信号和用户的面部图像；
6.根据所述脑电信号和所述面部图像，确定所述用户的目标表达语言；
7.控制播音组件输出所述目标表达语言。
8.可选地，所述根据所述脑电信号和所述面部图像，确定所述用户的目标表达语言的步骤包括：
9.根据所述脑电信号确定所述用户的第一面部动作，并根据所述面部图像确定所述用户的第二面部动作；
10.根据所述第一面部动作和所述第二面部动作，确定所述用户的目标表达语言。
11.可选地，所述根据所述脑电信号确定所述用户的第一面部动作的步骤包括：
12.获取当前脑电信号的第一权重值和上一时刻的输出状态的第二权重值；
13.根据所述当前脑电信号和所述第一权重值的点积，及所述上一时刻的输出状态和所述第二权重值的点积，确定当前脑电信号对应的输出状态；
14.根据当前脑电信号对应的输出状态，确定所述用户的第一面部动作。
15.可选地，所述根据所述面部图像确定所述用户的第二面部动作的步骤包括：
16.提取所述面部图像中的多个关键特征点；
17.根据所述关键特征点与预设关键特征点之间的距离，确定各个所述关键特征点匹配的预设关键特征点；
18.将各个所述匹配的预设关键特征点对应的预设面部动作，确定为所述用户的第二面部动作。
19.可选地，所述根据所述第一面部动作和所述第二面部动作，确定所述用户的目标表达语言的步骤包括：
20.根据所述第一面部动作确定所述用户的第一表达语言，并根据所述第二面部动作确定所述用户的第二表达语言；
21.根据所述第一表达语言和所述第二表达语言的相似度，确定所述用户的目标表达语言。
22.可选地，所述根据所述第一表达语言和所述第二表达语言的相似度，确定所述用户的目标表达语言的步骤包括：
23.在所述第一表达语言和所述第二表达语言之间的相似度大于预设值时，将所述第一表达语言或所述第二表达语言确定为所述用户的目标表达语言。
24.可选地，所述根据所述第一面部动作确定所述用户的第一表达语言，并根据所述第二面部动作确定所述用户的第二表达语言的步骤包括：
25.确定与所述第一面部动作匹配的预设面部动作，将与所述第一面部动作匹配的预设面部动作关联的预设表达语言，作为所述用户的第一表达语言；
26.和，确定与所述第二面部动作匹配的预设面部动作，将所述第二面部动作匹配的预设面部动作关联的预设表达语言，作为所述用户的第二表达语言。
27.可选地，所述根据所述脑电信号和所述面部图像，确定所述用户的目标表达语言的步骤之前，还包括：
28.对所述脑电信号进行预处理，所述预处理依次包括：电极定位、剔除非脑部语言功能区域的脑电信号、滤波、分段和基线校准、剔除坏段和伪迹成分，以根据预处理后的脑电信号和面部图像确定所述用户的目标表达语言。
29.此外，为实现上述目的，本发明还提供了一种语音输出装置包括：
30.播音组件；
31.脑电帽，内侧设置有皮层脑电极片，用于采集用户的脑部语言功能区域的脑电信号；
32.图像采集装置，所述图像采集装置用于采集所述用户的面部图像；
33.处理器，用于根据所述脑电信号和所述面部图像，确定所述用户的表达语言，并控制所述播音组件输出所述表达语言。
34.此外，为实现上述目的，本发明还提供了一种计算机可读存储介质，其上存储有语音输出装置的控制程序，所述语音输出装置的控制程序被处理器执行时实现上述的语音输出装置的控制方法的步骤。
35.本技术实施例中提供的一种语音输出装置的控制方法、装置及计算机可读存储介质的技术方案，通过脑电帽捕捉失语者的脑电信号和通过图像采集装置捕捉失语者的面部图像，根据脑电信号和面部图像共同确定失语者的表达语言，并将失语者想要表达的内容通过扬声器进行语音输出。相比于相关技术仅根据脑电信号确定失语者的表达语言导致表达语言存在失真的风险，本技术通过脑电信号和面部图像对表达语言的相互验证和纠错，提高失语者表达语言的准确性。
附图说明
36.图1为本发明语音输出装置的控制方法第一实施例的流程示意图；
37.图2为本发明语音输出装置的结构示意图。
38.本技术目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明，上述附图只是一个实施例图，而不是发明的全部。
具体实施方式
39.目前，通过脑电接口技术确定失语者的表达语言，并输出表达语言，使得失语者和普通人可以开展互动。但是，目前脑电接口技术局限于实验室场景，用于失语者的康复治疗，需要将电极植入脑部，对失语者存在一定伤害。其次，脑电接口技术的连线较多，不利于移动场景下失语者和普通人的沟通交流。另外，不同失语者的症状不同，若仅根据脑电接口技术确定失语者的表达语言，表达语言存在失真的风险，失语者仍无法准确地向普通人传达自己想要表达的内容。
40.针对上述问题，本技术提出了一种新的语言输出装置的控制方法，用于帮助失语者向普通人准确地传达表达语言。本技术的语言输出装置的控制方法包括：获取用户的脑部语言功能区域的脑电信号和用户的面部图像；根据所述脑电信号和所述面部图像，确定所述用户的目标表达语言；控制播音组件输出所述目标表达语言。由于本技术通过脑电信号和面部图像对表达语言的相互验证和纠错，提高失语者表达语言的准确性。
41.另外，本技术的语音输出装置至少包括播音组件、脑电帽、图像采集装置和处理器，且各组成部分可以集成设置，不管是移动场景还是实验室场景，均能实现失语者与普通人之间的交流。
42.为了更好地理解上述技术方案，下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整地传达给本领域的技术人员。
43.如图1所示，在本技术的第一实施例中，本技术的语音输出装置的控制方法，包括以下步骤：
44.步骤s110，获取用户的脑部语言功能区域的脑电信号和用户的面部图像。
45.可选地，上述的用户可以是失语者，或者是听力障碍者或者视力障碍者。本技术以用于为失语者为例。
46.可选地，可通过脑电帽获取用户的脑部语言功能区域的脑电信号。脑电帽上内侧集成有多个高密度皮层脑电极片，脑电极片位于脑部语言功能区域，即脑部皮层控制言语和发音器官运动区域，失语者通过佩戴集成干式、高密度皮层脑电极片的脑电帽，对失语者的脑部语言功能区域的脑电信号进行采集。由于脑电极片集成在脑电帽内侧而无需植入失语者脑部，失语者佩戴脑电帽进行脑电信号采集，适用不同场景下的脑电信号的采集。
47.可选地，可实时采集失语者的脑部语言功能区域的脑电信号进行表达语言分析；也可以根据失语者的历史脑电信号的变化特征确定脑电信号的采集时间，从该采集时间开始，采集预设时段内失语者的脑电信号进行表达语言分析。其中，该变化特征可以是脑电信号的波动幅度。例如当历史脑电信号的波动幅度不在预设波动范围内时，表示失语者存在
想要表达的意图，此时，获取预设时段内失语者的脑电信号进行表达语言分析，能够分析得到失语者的表达语言。
48.可选地，面部图像可以是失语者整个面部的图像，也可以是失语者的局部面部图像，例如包含嘴唇和下颌的图像。当然，若采集的面部图像是失语者整个面部的图像，可以对整个面部的图像进行处理，从中提取出关键部分，例如从整体面部图像中提取只包含嘴唇和下颌的图像进行表达语言的分析，避免面部其他部分对表达语言分析结果的影响，提高表达语言分析结果的准确性。
49.可选地，可通过设置在脑电帽上的图像采集装置采集失语者的面部图像。可选地，所述脑电帽可设置成鸭舌帽的款式或者设置成头盔的款式，例如，图像采集装置可设置在鸭舌帽前沿的内侧，位于脸部的上方，以能够采集失语者的面部图像。
50.可选地，参照图2，还可在智能眼镜上设置图像采集装置，失语者佩戴智能眼镜时，通过智能眼镜上的图像采集装置采集失语者的面部图像进行表达语言分析。其中，智能眼镜可以是vr眼镜、mr眼镜等。图像采集装置的数量和设置位置可根据实际情况进行确定。本技术的智能眼镜整体佩戴方便，适用于室内、室外等各类移动型场景；另外，智能眼镜形态隐蔽，不易引来外界人群带有的有色眼光。
51.可选地，参照图2，本技术在智能眼镜侧设置处理器。各个脑电极片将各自采集的脑电信号传输至处理器。同时，图像采集装置将采集的面部图像也传输至处理器。智能眼镜的处理器用于对脑电信号进行预处理，并将预处理后的脑电信号和面部图像进行综合处理。通过智能眼镜的处理器就可对脑电信号和面部图像进行综合处理，降低语言输出装置的开发成本。
52.可选地，参照图2，本技术的脑电帽和智能眼镜可分别集成单独的处理器。各个脑电极片与脑电帽侧的处理器连接，用于将各自采集的脑电信号传输至脑电帽侧的处理器，脑电帽侧的处理器用于对各个脑电极片采集的脑电信号进行收集并统一进行预处理，再将预处理后的脑电信号传输至智能眼镜的处理器，智能眼镜的处理器用于对预处理后的脑电信号和面部图像进行综合处理。通过在脑电帽和智能眼镜分别集成单独的处理器，避免将各个脑电极片采集的脑电信号发送至智能眼镜处理时，在脑电信号传输过程中，数据丢失，导致表达语言分析结果不准确，脑电帽处理器对各个脑电极片采集的脑电信号进行预处理再统一发送至智能眼镜，保证脑电信号数据的完整性，提高表达语言分析结果的准确性。同时，降低智能眼镜侧的数据处理负担，提高智能眼镜的数据处理速度。
53.可选地，脑电帽和智能眼镜之间设置有信号传输模块，用于将脑电信号传输至智能眼镜。该信号传输模块可以是信号线也可以是无线传输模块。
54.示例性地，当该信号传输模块为信号线时，该信号线的一端与脑电帽固定连接，另一端与智能眼镜可拆卸连接例如磁吸连接，在信号线与脑电帽的连接处还设置有收纳空间，当信号线未与智能眼镜连接时，该信号线自动收缩于该收纳空间，实现信号线的收纳。可选地，该信号线还可以是一端与脑电帽可拆卸连接，另一端与智能眼镜固定连接。或者该信号线与脑电帽和智能眼镜均为固定连接或可拆卸连接，可根据实际情况进行设置。通过该信号线实现将脑电信号传输至智能眼镜。
55.示例性地，该信号传输模块还可以是无线传输模块，在脑电帽和智能眼镜处均设置有无线传输模块，通过无线传输模块实现脑电信号的传输。
56.可选地，在开机后，智能眼镜首先进行初始化，对当前的各个模块进行初始化检测，若存在任何问题，提报系统处理，若全部初始化通过，系统开始正式工作。需要注意的是，若需要使用此功能，需要通过信号传输模块连接到脑电帽，否则系统初始化不通过。启用紧贴头部的高密集皮层脑电极片，此电极片为非侵入式头皮eeg记录电极，电极表面镀agci，因为此材质记录到的脑电信号比较稳定。通过信号传输模块将数据传输到智能眼镜的主处理器进行处理。
57.步骤s120，根据所述脑电信号和所述面部图像，确定所述用户的目标表达语言。
58.可选地，由于不同失语者情况不同，例如有些失语者嘴唇不动，有些失语者时常处于癫痫状态，有些失语者佩戴口罩等。可针对不同失语者的情况单独捕捉失语者的脑部语言功能区域的脑电信号确定失语者的表达语言，或者单独捕捉失语者的面部图像确定失语者的表达语言，或者，根据失语者的脑部语言功能区域的脑电信号和失语者的面部图像共同确定失语者的表达语言。
59.示例性地，可获取失语者的特征信息；根据失语者的特征信息确定失语者的表达语言的确定方式；基于所述表达语言的确定方式确定所述失语者的目标表达语言。可选地，可预先对失语者的特征信息进行归类，建立特征信息类别与表达语言的确定方式之间的映射关系，使得能够针对不同失语者的特征确定相符的表达语言的确定方式以准确确定失语者的表达语言。
60.可选地，在失语者的特征信息为第一预设特征时，表达语言的确定方式为根据脑电信号确定失语者的表达语言；在失语者的特征信息为第二预设特征时，表达语言的确定方式为根据面部图像确定失语者的第二面部动作；在失语者的特征信息为第三预设特征时，表达语言的确定方式为根据脑电信号和面部图像确定失语者的表达语言。其中，第一预设特征、第二预设特征和第三预设特征可根据失语者的情况进行设置。例如第一预设特征可以是失语者佩戴口罩或者失语者嘴唇不动。第二预设特征可以是未佩戴口罩。第三预设特征可以是失语者未佩戴口罩且失语者时常处于癫痫状态。
61.例如，在失语者佩戴口罩或者失语者嘴唇不动时，可以仅通过脑电信号确定失语者的表达语言，适用于疫情场景或其他需要戴口罩场景下的失语者与普通人之间的交流。在失语者未佩戴口罩时，可以仅通过失语者的面部图像确定失语者的表达语言，适用于不需要戴口罩等普通场景下的失语者与普通人之间的交流。在失语者未佩戴口罩且失语者时常处于癫痫状态时，可以通过脑电信号和面部图像确定失语者的表达语言，适用于失语者面部表情变化较大场景下的失语者与普通人之间的交流。
62.可选地，根据脑电信号和面部图像确定失语者的目标表达语言包括：
63.步骤s121，根据脑电信号确定用户的第一面部动作，并根据面部图像确定用户的第二面部动作；
64.可选地，可根据循环卷积神经网络确定用户的第一面部动作。具体地，根据脑电信号确定用户的第一面部动作包括以下步骤：
65.步骤s1211，获取当前脑电信号的第一权重值和上一时刻的输出状态的第二权重值。
66.步骤s1212，根据所述当前脑电信号和所述第一权重值的点积，及所述上一时刻的输出状态和所述第二权重值的点积，确定当前脑电信号对应的输出状态。
67.步骤s1213，根据当前脑电信号对应的输出状态，确定所述用户的第一面部动作。
68.可选地，循环神经网络是一种具有记忆力的网络，它可以记忆前边的输入，使得前边的输入n对后边n+1的输出产生影响。可通过tan双曲函数，即先前状态关联权重的点积，以及关联权重与输入状态的点积，可以得到新状态值。其中，tan双曲函数表示为：
69.h
t
＝tanh(w
hh
.h
t-1
+w
xh
.x
t
)。
70.其中，rnn循环卷积神经网络是输入向量和前一状态的函数，它将使我们进入新状态ht。rnn循环卷积神经网络至少包括输入层、隐藏层和输出层。不同层存在对应的节点，节点之间的连接形成一个沿时间序列的有向图，它使之前的输出被用作输入。x
t
为当前脑电信号，h
t-1
为上一时刻脑电信号对应的输出状态，w
hh
为上一时刻的输出状态的第二权重值，w
xh
为当前脑电信号的第一权重值，h
t
为当前脑电信号对应的输出状态。
71.本实施例根据循环卷积神经网络确定用户的第一面部动作，提高第一面部动作的准确性。
72.可选地，还可通过cnn卷积神经网络确定用户的第一面部动作。
73.可选地，可通过cnn卷积神经网络确定用户的第二面部动作。具体地，根据面部图像确定用户的第二面部动作的步骤包括：
74.步骤s1214，提取所述面部图像中的多个关键特征点；
75.步骤s1215，根据所述关键特征点与预设关键特征点之间的距离，确定各个所述关键特征点匹配的预设关键特征点；
76.步骤s1216，将各个所述匹配的预设关键特征点对应的预设面部动作，确定为所述用户的第二面部动作。
77.可选地，卷积神经网络的基本结构大致包括：卷积层、激活函数、池化层、全连接层、输出层等。在卷积层中，可设置二维卷积、卷积步长、卷积模式、数据填充例如边缘填充和膨胀填充、感受野、卷积深度和卷积核尺寸对面部图像进行卷积处理。激活函数可以是relu函数、elu函数等。
78.可选地，对面部图像分别提取至少一个约束特征参数，获得与每个所述约束特征参数对应的特征图像；分别训练得到与每个所述特征图像对应的卷积神经网络cnn的网络结构模型；根据所有所述网络结构模型，确定特征识别模型的损失函数；根据所述损失函数，建立所述特征识别模型。在后续使用过程中，基于该特征识别模型确定用户的第二面部动作。
79.可选地，关键特征点可以是嘴唇和下颌处的特征点。该关键特征点进行标记。在特征识别模型过程中，存储有多张人脸样本，每张人脸样本标注有预设关键特征点均可形成对应的面部动作。可将当前提取的面部图像中的多个关键特征点与预设关键特征点进行匹配，确定与各个关键特征点匹配的预设关键特征点，进而将匹配的预设关键特征点对应的预设面部动作，确定为所述用户的第二面部动作。
80.可选地，可确定关键特征点与预设关键特征点之间的余弦距离，根据余弦距离确定匹配的预设关键特征点，例如可将余弦距离小于预设值的预设关键特征点确定为匹配的预设关键特征点。还可确定关键特征点与预设关键特征点之间的相似度，根据相似度确定匹配的预设关键特征点，例如可将相似度小于预设值的预设关键特征点确定为匹配的预设关键特征点。
81.可选地，还可根据rnn卷积神经网络确定用户的第二面部动作。
82.本实施例根据卷积神经网络确定用户的第二面部动作，提高第二面部动作的准确性。
83.步骤s122，根据第一面部动作和第二面部动作确定用户的目标表达语言。
84.可选地，脑电信号和面部图像各自处理之后，得到各自对应的面部动作，对比第一面部动作和第二面部动作之间的相似度，在相似度大于预设值时，根据第一面部动作或第二面部动作，确定用户的目标表达语言。还可以将第一面部动作和第二面部动作分别与预设面部动作进行比对，在第一面部动作和预设面部动作之间的相似度大于第二面部动作和预设面部动作之间的相似度时，根据第一面部动作确定用户的目标表达语言，反之，根据第二面部动作确定用户的目标表达语言。通过不同面部动作之间的差异性比较，实现面部动作之间的纠错，使得所确定的面部动作更加准确。
85.可选地，根据第一面部动作和第二面部动作确定用户的目标表达语言包括以下步骤：
86.步骤s1221，根据所述第一面部动作确定所述用户的第一表达语言，并根据所述第二面部动作确定所述用户的第二表达语言；
87.可选地，可预先建立面部动作与表达语言之间的映射关系，基于该映射关系和第一面部动作确定用户的第一表达语言，基于该映射关系和第二面部动作确定用户的第二表达语言。具体地，确定与所述第一面部动作匹配的预设面部动作，将与所述第一面部动作匹配的预设面部动作关联的预设表达语言，作为所述用户的第一表达语言；和，确定与所述第二面部动作匹配的预设面部动作，将所述第二面部动作匹配的预设面部动作关联的预设表达语言，作为所述用户的第二表达语言。
88.步骤s1222，根据所述第一表达语言和所述第二表达语言的相似度，确定所述用户的目标表达语言。
89.可选地，第一表达语言和第二表达语言可能存在差异。因此，需要对第一表达语言和第二表达语言进行纠偏，从而得到准确的目标表达语言。
90.可选地，对比第一表达语言和第二表达语言之间的相似度，在相似度大于预设值时，根据第一表达语言或第二表达语言，确定用户的目标表达语言。还可以将第一表达语言和第二表达语言分别与预设表达语言进行比对，在第一表达语言和预设表达语言之间的相似度大于第二表达语言和预设表达语言之间的相似度时，根据第一表达语言确定用户的目标表达语言，反之，根据第二表达语言确定用户的目标表达语言。通过不同表达语言之间的差异性比较，实现表达语言之间的纠错，使得所确定的表达语言更加准确。
91.可选地，还可根据脑电信号确定用户的第一面部动作，根据第一面部动作确定用户的目标表达语言。或者，根据面部图像确定用户的第二面部动作，根据第二面部动作确定用户的目标表达语言，实现不同场景下确定失语者的表达语言。
92.步骤s130，控制播音组件输出所述目标表达语言。
93.可选地，播音组件可设置在智能眼镜的镜腿上，可设置在左右镜腿处。左右镜腿处可拆卸的与智能眼镜本体连接，在不使用时，方便收纳。当失语者的脑神经信号及面部动作发生时，智能眼镜可将前面经过处理的目标表达语言通过位于智能眼镜左、右镜腿处的扬声器播放，从而帮助失语者以较高的准确率进行语音输出。
94.本实施例根据上述技术方案，由于本技术通过脑电信号和面部图像对表达语言的相互验证和纠错，提高失语者表达语言的准确性。另外，本技术的语音输出装置至少包括播音组件、脑电帽、图像采集装置和处理器，且各组成部分可以集成设置，不管是移动场景还是实验室场景，均能实现失语者与普通人之间的交流。
95.可选地，在获取脑电信号之后，在根据脑电信号和面部图像确定用户的目标表达语言之前，还需要对脑电信号进行预处理，以提高目标表达语言的精度。可选地，对脑电信号进行的预处理依次包括：电极定位、剔除非脑部语言功能区域的脑电信号、滤波、分段和基线校准、剔除坏段和伪迹成分。其中，滤波可采用0.1～40hz进行带通滤波。对脑电信号进行预处理之后，可根据预处理的脑电信号和面部图像确定用户的目标表达语言，提高目标表达语言的精度。
96.本发明实施例提供了语音输出装置的控制方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
97.如图2所示，图2为本发明实施例方案涉及的语音输出装置的结构示意图。该语音输出装置包括：
98.播音组件，所述播音组件可以设置在镜腿上，且该播音组件的数量可根据实际情况进行设置。例如在镜腿上设置播音组件4和播音组件5。
99.脑电帽，内侧设置有皮层脑电极片7，用于采集用户的脑部语言功能区域的脑电信号；
100.图像采集装置，所述图像采集装置用于采集所述用户的面部图像。可选地，该图像采集装置可以设置在脑电帽上，也可以如图2所示设置在智能眼镜上，例如智能眼镜上的图像采集装置1和图像采集装置2。
101.处理器，用于根据所述脑电信号和所述面部图像，确定所述用户的表达语言，并控制所述播音组件输出所述表达语言。
102.可选地，脑电帽和智能眼镜之间设置有信号传输模块，用于将脑电信号传输至智能眼镜。该信号传输模块可以是信号线也可以是无线传输模块。当该信号传输模块为如图2所示的信号线6时，该信号线6的一端与脑电帽固定连接，另一端与智能眼镜可拆卸连接例如通过磁吸件3磁吸连接。
103.可选地，在信号线6与脑电帽的连接处还设置有收纳空间，当信号线未与智能眼镜连接时，该信号线自动收缩于该收纳空间，实现信号线的收纳。可选地，该信号线还可以是一端与脑电帽可拆卸连接，另一端与智能眼镜固定连接。或者该信号线与脑电帽和智能眼镜均为固定连接或可拆卸连接，可根据实际情况进行设置。通过该信号线实现将脑电信号传输至智能眼镜。
104.可选地，本技术的语音输出装置还可以包括：存储器，存储器可以是高速ram存储器，也可以是稳定的存储器。存储器可选的还可以是独立于前述处理器的存储装置。
105.本领域技术人员可以理解，图2中示出的语音输出装置结构并不构成对语音输出装置限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
106.如图2所示，作为一种存储介质的存储器中可以包括操作系统、网络通信模块、用户接口模块以及语音输出装置的控制程序。其中，操作系统是管理和控制语音输出装置硬
件和软件资源的程序，语音输出装置的控制程序以及其他软件或程序的运行。
107.在图2所示的语音输出装置中，处理器可以用于调用存储器中存储的语音输出装置的控制程序。其中：
108.处理器调用存储器中存储的语音输出装置的控制程序时，执行以下操作：
109.获取用户的脑部语言功能区域的脑电信号和用户的面部图像；
110.根据所述脑电信号和所述面部图像，确定所述用户的目标表达语言；
111.控制播音组件输出所述目标表达语言。
112.处理器调用存储器中存储的语音输出装置的控制程序时，执行以下操作：
113.根据所述脑电信号确定所述用户的第一面部动作，并根据所述面部图像确定所述用户的第二面部动作；
114.根据所述第一面部动作和所述第二面部动作，确定所述用户的目标表达语言。
115.处理器调用存储器中存储的语音输出装置的控制程序时，执行以下操作：
116.获取当前脑电信号的第一权重值和上一时刻的输出状态的第二权重值；
117.根据所述当前脑电信号和所述第一权重值的点积，及所述上一时刻的输出状态和所述第二权重值的点积，确定当前脑电信号对应的输出状态；
118.根据当前脑电信号对应的输出状态，确定所述用户的第一面部动作。
119.处理器调用存储器中存储的语音输出装置的控制程序时，执行以下操作：
120.提取所述面部图像中的多个关键特征点；
121.根据所述关键特征点与预设关键特征点之间的距离，确定各个所述关键特征点匹配的预设关键特征点；
122.将各个所述匹配的预设关键特征点对应的预设面部动作，确定为所述用户的第二面部动作。
123.处理器调用存储器中存储的语音输出装置的控制程序时，执行以下操作：
124.根据所述第一面部动作确定所述用户的第一表达语言，并根据所述第二面部动作确定所述用户的第二表达语言；
125.根据所述第一表达语言和所述第二表达语言的相似度，确定所述用户的目标表达语言。
126.处理器调用存储器中存储的语音输出装置的控制程序时，执行以下操作：
127.在所述第一表达语言和所述第二表达语言之间的相似度大于预设值时，将所述第一表达语言或所述第二表达语言确定为所述用户的目标表达语言。
128.处理器调用存储器中存储的语音输出装置的控制程序时，执行以下操作：
129.确定与所述第一面部动作匹配的预设面部动作，将与所述第一面部动作匹配的预设面部动作关联的预设表达语言，作为所述用户的第一表达语言；
130.和，确定与所述第二面部动作匹配的预设面部动作，将所述第二面部动作匹配的预设面部动作关联的预设表达语言，作为所述用户的第二表达语言。
131.处理器调用存储器中存储的语音输出装置的控制程序时，执行以下操作：
132.对所述脑电信号进行预处理，所述预处理依次包括：电极定位、剔除非脑部语言功能区域的脑电信号、滤波、分段和基线校准、剔除坏段和伪迹成分，以根据预处理后的脑电信号和面部图像确定所述用户的目标表达语言。
133.基于同一发明构思，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有语音输出装置的控制程序，所述语音输出装置的控制程序被处理器执行时实现如上所述的语音输出装置的控制方法的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。
134.由于本技术实施例提供的存储介质，为实施本技术实施例的方法所采用的存储介质，故而基于本技术实施例所介绍的方法，本领域所属人员能够了解该存储介质的具体结构及变形，故而在此不再赘述。凡是本技术实施例的方法所采用的存储介质都属于本技术所欲保护的范围。
135.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
136.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
137.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，电视，或者网络设备等)执行本发明各个实施例所述的方法。
138.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

技术特征：
1.一种语音输出装置的控制方法，其特征在于，所述语音输出装置的控制方法包括：获取用户的脑部语言功能区域的脑电信号和用户的面部图像；根据所述脑电信号和所述面部图像，确定所述用户的目标表达语言；控制播音组件输出所述目标表达语言。2.如权利要求1所述的语音输出装置的控制方法，其特征在于，所述根据所述脑电信号和所述面部图像，确定所述用户的目标表达语言的步骤包括：根据所述脑电信号确定所述用户的第一面部动作，并根据所述面部图像确定所述用户的第二面部动作；根据所述第一面部动作和所述第二面部动作，确定所述用户的目标表达语言。3.如权利要求2所述的语音输出装置的控制方法，其特征在于，所述根据所述脑电信号确定所述用户的第一面部动作的步骤包括：获取当前脑电信号的第一权重值和上一时刻的输出状态的第二权重值；根据所述当前脑电信号和所述第一权重值的点积，及所述上一时刻的输出状态和所述第二权重值的点积，确定当前脑电信号对应的输出状态；根据当前脑电信号对应的输出状态，确定所述用户的第一面部动作。4.如权利要求2所述的语音输出装置的控制方法，其特征在于，所述根据所述面部图像确定所述用户的第二面部动作的步骤包括：提取所述面部图像中的多个关键特征点；根据所述关键特征点与预设关键特征点之间的距离，确定各个所述关键特征点匹配的预设关键特征点；将各个所述匹配的预设关键特征点对应的预设面部动作，确定为所述用户的第二面部动作。5.如权利要求2所述的语音输出装置的控制方法，其特征在于，所述根据所述第一面部动作和所述第二面部动作，确定所述用户的目标表达语言的步骤包括：根据所述第一面部动作确定所述用户的第一表达语言，并根据所述第二面部动作确定所述用户的第二表达语言；根据所述第一表达语言和所述第二表达语言的相似度，确定所述用户的目标表达语言。6.如权利要求5所述的语音输出装置的控制方法，其特征在于，所述根据所述第一表达语言和所述第二表达语言的相似度，确定所述用户的目标表达语言的步骤包括：在所述第一表达语言和所述第二表达语言之间的相似度大于预设值时，将所述第一表达语言或所述第二表达语言确定为所述用户的目标表达语言。7.如权利要求5所述的语音输出装置的控制方法，其特征在于，所述根据所述第一面部动作确定所述用户的第一表达语言，并根据所述第二面部动作确定所述用户的第二表达语言的步骤包括：确定与所述第一面部动作匹配的预设面部动作，将与所述第一面部动作匹配的预设面部动作关联的预设表达语言，作为所述用户的第一表达语言；和，确定与所述第二面部动作匹配的预设面部动作，将所述第二面部动作匹配的预设面部动作关联的预设表达语言，作为所述用户的第二表达语言。
8.如权利要求1所述的语音输出装置的控制方法，其特征在于，所述根据所述脑电信号和所述面部图像，确定所述用户的目标表达语言的步骤之前，还包括：对所述脑电信号进行预处理，所述预处理依次包括：电极定位、剔除非脑部语言功能区域的脑电信号、滤波、分段和基线校准、剔除坏段和伪迹成分，以根据预处理后的脑电信号和面部图像确定所述用户的目标表达语言。9.一种语音输出装置，其特征在于，所述语音输出装置包括：播音组件；脑电帽，内侧设置有皮层脑电极片，用于采集用户的脑部语言功能区域的脑电信号；图像采集装置，所述图像采集装置用于采集所述用户的面部图像；处理器，用于根据所述脑电信号和所述面部图像，确定所述用户的表达语言，并控制所述播音组件输出所述表达语言。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有语音输出装置的控制程序，所述语音输出装置的控制程序被处理器执行时实现权利要求1-8中任一项所述的语音输出装置的控制方法的步骤。

技术总结
本发明公开了语音输出装置的控制方法、装置及计算机可读存储介质，该方法包括：获取用户的脑部语言功能区域的脑电信号和用户的面部图像；根据所述脑电信号和所述面部图像，确定所述用户的目标表达语言；控制播音组件输出所述目标表达语言，通过脑电信号和面部图像对表达语言的相互验证和纠错，提高失语者表达语言的准确性。言的准确性。言的准确性。

技术研发人员：王文彦李兴旺尹伟
受保护的技术使用者：歌尔科技有限公司
技术研发日：2023.06.28
技术公布日：2023/10/15

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种基于物联网安全的独立式无人机运行识别系统的制作方法 下一篇：一种作业调度方法及调度系统与流程

语音输出装置的控制方法、装置及计算机可读存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

语音输出装置的控制方法、装置及计算机可读存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表