一种语音识别方法、系统、电子设备、存储介质及车辆与流程
未命名
09-17
阅读:91
评论:0

1.本发明涉及车辆技术领域,特别是涉及一种语音识别方法、系统、电子设备、存储介质及车辆。
背景技术:
2.目前大部分车辆都有语言识别功能。通过语音控制车内功能,已经成为当前车辆智能化的重要标志和技术手段。然而由于语音识别本身算法的局限性,还达不到100%准确识别车主语言的能力,具有一定的误识别率。
3.现有技术中的语音识别通常采用采集用户语音数据,然后通过对语音数据的处理来识别用户语音,识别方式较为单一,且误识别率较高。
4.因此,如何提供一种语音识别方法,以解决上述技术问题。
技术实现要素:
5.为解决现有技术中的语音识别方式较为单一,且误识别率高的技术问题,本发明提供一种语音识别方法、系统、电子设备、存储介质及车辆。
6.为实现本发明目的提供的一种语音识别方法,包括:
7.获取用户面部视频,其中,所述面部视频包括用户语音;
8.对所述用户语音进行语音识别,生成语音文本;
9.对所述用户面部视频进行唇语识别,生成唇语文本;
10.对所述语音文本进行语义识别,从所述语音文本中确定错误文本段;
11.基于所述错误文本段从所述唇语文本中提取对应的补正文本段;
12.基于所述补正文本段替换所述语音文本中的错误文本段。
13.在其中一些具体实施例中,基于所述补正文本段替换所述语音文本中的错误文本段之后,所述方法还包括:
14.将替换后的语音文本进行复制;
15.将复制后的语音文本转换为语音反馈至用户;
16.将替换后的语音文本通过车载终端进行显示。
17.在其中一些具体实施例中,对所述语音文本进行语义识别,从所述语音文本中确定错误文本段,具体包括:
18.预设常见词汇表,将语义识别后的所述语音文本中的词汇与所述常见词汇表中的词汇进行对比后确认错误文本段。
19.在其中一些具体实施例中,基于所述错误文本段从所述唇语文本中提取对应的补正文本段,具体包括:
20.基于语音文本和唇语文本的时间节点,将唇语文本与语音文本相对应;
21.基于错误文本段与唇语文本相对应的时间节点,从唇语文本中提取对应的补正文本段。
22.在其中一些具体实施例中,从唇语文本中提取对应的补正文本段后,所述方法还包括:
23.矫正所述错误文本段和对应的所述补正文本段的时间节点;
24.根据矫正结果,继续从唇语文本提取对应的补正文本段。
25.在其中一些具体实施例中,基于所述补正文本段替换所述语音文本中的错误文本段之前,所述方法还包括:
26.将所述对应的补正文本段与预设常见词汇表中的词汇进行比对,对所述对应的补正文本段进行修正。
27.基于同一构思,本发明还提供一种语音识别系统,包括:
28.面部视频获取模块,用于获取用户面部视频,其中,所述面部视频包括用户语音;
29.文本生成模块,用于对所述用户语音进行语音识别,生成语音文本;对所述用户面部视频进行唇语识别,生成唇语文本;
30.错误文本确认模块,用于对所述语音文本进行语义识别,从所述语音文本中确定错误文本段;
31.错误文本替换模块,用于基于所述错误文本段从所述唇语文本中提取对应的补正文本段;基于所述补正文本段替换所述语音文本中的错误文本段。
32.基于同一构思,本发明还提供一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述语音识别方法的步骤。
33.基于同一构思,本发明还提供一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述计算机程序在所述电子设备上运行时,使得所述电子设备执行上述语音识别方法的步骤。
34.基于同一构思,本发明还提供一种车辆,所述车辆搭载如上所述的语音识别系统。
35.与现有技术相比,本发明具有以下有益效果:
36.本发明公开了一种语音识别方法、系统、电子设备、存储介质及车辆,包括获取用户面部视频,其中,所述面部视频包括用户语音;对所述用户语音进行语音识别,生成语音文本;对所述用户面部视频进行唇语识别,生成唇语文本;对所述语音文本进行语义识别,从所述语音文本中确定错误文本段;基于所述错误文本段从所述唇语文本中提取对应的补正文本段;基于所述补正文本段替换所述语音文本中的错误文本段。通过上述方法,可有效减少语音识别的误识别率。
附图说明
37.图1是本发明一种语音识别方法在一些具体实施例的结构示意图;
38.图2是本发明一种语音识别方法在一些应用中的结构示意图;
39.图3是本发明一种语音识别系统在一些具体实施例的结构示意图;
40.图4是本发明一种电子设备在一些具体实施例的结构示意图。
具体实施方式
41.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
42.在本技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
43.应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
44.应当理解,尽管在本技术实施例中可能采用术语第一、第二、第三等来描述,但这些描述不应限于这些术语。这些术语仅用来将描述区分开。例如,在不脱离本技术实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
45.取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
46.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
47.特别需要说明的是,在说明书中存在的符号和/或数字,如果在附图说明中未被标记的,均不是附图标记。
48.参照图1,一种语音识别方法,包括:
49.s101,获取用户面部视频,其中,所述面部视频包括用户语音;
50.具体的,本步骤首先获取用户面部视频;
51.在其中一些应用中,面部视频可以通过车内的摄像装置进行获取。
52.s102,对所述用户语音进行语音识别,生成语音文本;对所述用户面部视频进行唇语识别,生成唇语文本;
53.在其中一些应用中,分别对用户面部视频中的语音和唇语进行识别,生成语音文本和唇语文本。
54.s103,对所述语音文本进行语义识别,从所述语音文本中确定错误文本段;
55.在其中一些应用中,语义识别可以将常见词汇作为基础进行识别,当识别出不是常见词汇或者具有明显错误的文本段时,将其确认为错误文本段。
56.s104,基于所述错误文本段从所述唇语文本中提取对应的补正文本段;基于所述补正文本段替换所述语音文本中的错误文本段。
57.在其中一些应用中,将错误文本段的时间与唇语文本中的时间进行对应提取补正
文本段,将错误本文段删除替换为补正文本段。
58.在本发明一些具体实施例中,为了在识别用户语音后反馈至用户,基于所述补正文本段替换所述语音文本中的错误文本段之后,所述方法还包括:
59.将替换后的语音文本进行复制;
60.将复制后的语音文本转换为语音反馈至用户;
61.将替换后的语音文本通过车载终端进行显示。
62.在其中一些应用中,将替换后的语音文本进行复制后分为两路,一路转换为语音通过扬声器进行反馈,另一路将语音文本直接显示在车载终端上。
63.在本发明一些具体实施例中,为了准确的确认错误文本段,对所述语音文本进行语义识别,从所述语音文本中确定错误文本段,具体包括:
64.预设常见词汇表,将语义识别后的所述语音文本中的词汇与所述常见词汇表中的词汇进行对比后确认错误文本段。
65.在其中一些应用,预设常见词汇表,常见词汇表可以包括生活中常见的词汇,也可包括一些具有明显错误的词汇,当识别出的词汇不是常见词汇,或者是明显错误的词汇,则确认为错误文本段。
66.在本发明一些具体实施例中,为了准确提取补正文本段,基于所述错误文本段从所述唇语文本中提取对应的补正文本段,具体包括:
67.基于语音文本和唇语文本的时间节点,将唇语文本与语音文本相对应;
68.基于错误文本段与唇语文本相对应的时间节点,从唇语文本中提取对应的补正文本段。
69.在其中一些应用中,首选将语音文本和唇语文本的时间节点进行对应,接着将与错误文本段对应的唇语文本中的时间节点作为补正文本段进行提取。
70.在本发明一些具体实施例中,为了使补正文本段的语义更为准确,从唇语文本中提取对应的补正文本段后,所述方法还包括:
71.矫正所述错误文本段和对应的所述补正文本段的时间节点;
72.根据矫正结果,继续从唇语文本提取对应的补正文本段。
73.在其中一些应用中,在提取补正文本段后,再次核对错误文本段与补正文本段的时间节点是否一致,当不一致时,进行矫正,根据矫正后的时间节点继续从唇语文本提取对应的补正文本段。
74.在本发明一些具体实施例中,为了使最终的识别文本更为准确,基于所述补正文本段替换所述语音文本中的错误文本段之前,所述方法还包括:
75.将所述对应的补正文本段与预设常见词汇表中的词汇进行比对,对所述对应的补正文本段进行修正。
76.在其中一些应用中,将最后确认的补正文本段与预设的常见词汇表进行比对,若发现错误,则进行修正。
77.下面将结合图2说明本发明一种语音识别方法在一些应用中的实施例,如图2所示:
78.1、高级辅助驾驶控制器接收驾驶员监控摄像头采集的人脸视频流数据,由yuv422uyvy格式转成h.265格式。
79.2、转完格式后,再通过千兆以太网传递给主机。
80.3、主机接收到h.265格式人脸视频流数据后,通过底层的视频流处理服务,向上传递给android系统。
81.4、唇语识别算法由唇语识别服务完成,并将识别出的唇语文字,发送给语音识别服务。
82.5、语音识别服务收到唇语文字,并根据驾驶员监控摄像头采集到语音识别服务收到唇语文字的时间,给予时间补偿,结合语音识别的识别文字,做融合识别,最终形成唯一识别文字,调用文字转语音的语音合成引擎,将文字转成语音,由主机传递给功放,功放传递给扬声器出声,同时在界面上呈现识别出的文字信息。
83.对于上述实施例公开的方法步骤,出于简单描述的目的将方法步骤表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
84.流程图或以其他方式描述的任何过程或方法描述可以被理解为:表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序执行并实现功能,或者按照循环、分支等程序结构执行计算机指令并实现相应的功能,这是本领域技术人员在实施本发明实施例时理所当然可以理解的。
85.如图3所示,本发明还提供一种语音识别系统,包括:
86.面部视频获取模块201,用于获取用户面部视频,其中,所述面部视频包括用户语音;
87.文本生成模块202,用于对所述用户语音进行语音识别,生成语音文本;对所述用户面部视频进行唇语识别,生成唇语文本;
88.错误文本确认模块203,用于对所述语音文本进行语义识别,从所述语音文本中确定错误文本段;
89.错误文本替换模块204,用于基于所述错误文本段从所述唇语文本中提取对应的补正文本段;基于所述补正文本段替换所述语音文本中的错误文本段。
90.具体的,本实施例提供的一种语音识别系统,包括面部视频获取模块201、文本生成模块202、错误文本确认模块203和错误文本替换模块204,其中面部视频获取模块201,用于获取用户面部视频,其中,所述面部视频包括用户语音;文本生成模块202,用于对所述用户语音进行语音识别,生成语音文本;对所述用户面部视频进行唇语识别,生成唇语文本;错误文本确认模块203,用于对所述语音文本进行语义识别,从所述语音文本中确定错误文本段;错误文本替换模块204,用于基于所述错误文本段从所述唇语文本中提取对应的补正文本段;基于所述补正文本段替换所述语音文本中的错误文本段。
91.值得注意的是,虽然在本发明实施例中只披露了一些基本功能模块,但并不意味着本系统的组成仅仅局限于上述基本功能模块,相反,本实施例所要表达的意思是:在上述基本功能模块的基础之上本领域技术人员可以结合现有技术任意添加一个或多个功能模
块,形成无穷多个实施例或技术方案,也就是说本系统是开放式而非封闭式的,不能因为本实施例仅仅披露了个别基本功能模块,就认为本发明权利要求的保护范围局限于所公开的基本功能模块。同时,为了描述的方便,描述以上装置时以功能分为各种单元、模块分别描述。当然在实施本发明时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。
92.以上所描述的系统的实施方式仅仅是示意性的,例如:其中作为系统中的各个功能模块、单元或子系统等可以是也可以不是物理上分开的,或者可以是或者也可以不是物理单元,即可以位于同一个地方,也可以分布到多个不同的系统及其子系统或模块上。本领域技术人员可以根据实际的需要选择其中的部分或者全部功能模块、单元或子系统来实现本发明实施例的目的,对于上述情形本领域普通技术人员在不付出创造性劳动的情况下即可以理解并实施。
93.如图4所示,本发明还提供一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述语音识别方法的步骤。
94.具体的,图4为本发明实施例提供的一种电子设备的结构示意图,图4示出了适于用来实现本发明实施例实施方式的示例性电子设备的框图。图4显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图4所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:一个或者多个处理单元或者处理器516,存储器528,连接不同系统组件(包括存储器528和处理器516)的总线518。总线518表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。电子设备500典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备500访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。存储器528可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)530和/或高速缓存存储器532。电子设备500可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统534可以用于读写不可移动的、非易失性磁介质(图中未显示,通常称为“硬盘驱动器”)。尽管图中未示出,存储系统534可以提供用于对可移动非易失性磁盘(例如:软盘、移动硬盘、可热拔插存储介质)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储器528可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明实施例各实施例的功能。具有一组(至少一个)程序模块542的程序/实用工具540,可以存储在例如存储器528中,这样的程序模块542包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明实施例所描述的实施例中的功能和/或方法。电子设备500也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通
信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口522进行。并且,电子设备500还可以通过网络适配器520与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图4所示,网络适配器520通过总线518与电子设备500的其它模块通信。应当明白,尽管图中未示出,但本领域技术人员可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。处理器516通过运行存储在存储器528中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意一个或多个实施例所提供的方法。
95.本发明还提供一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述计算机程序在所述电子设备上运行时,使得所述电子设备执行上述语音识别方法的步骤。
96.具体的,本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
97.本发明还提供一种车辆,所述车辆搭载如上所述的语音识别系统。
98.通过应用以上技术方案,一种语音识别方法、系统、电子设备、存储介质及车辆,包括获取用户面部视频,其中,所述面部视频包括用户语音;对所述用户语音进行语音识别,生成语音文本;对所述用户面部视频进行唇语识别,生成唇语文本;对所述语音文本进行语义识别,从所述语音文本中确定错误文本段;基于所述错误文本段从所述唇语文本中提取对应的补正文本段;基于所述补正文本段替换所述语音文本中的错误文本段。通过上述方法,可有效减少语音识别的误识别率。
99.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
100.此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如:在权利要求书中所要求保护的实施例的任意之一都可以以本发明实施例以任意的组合方式来使用。
101.在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。
而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
102.另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
103.本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。本说明书中公开的任一特征,除非特别叙述,均可被其它等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而己。在整个说明书中,同样的附图标记指示同样的元件。
104.本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括相应的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括相应的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
105.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
技术特征:
1.一种语音识别方法,其特征在于,包括:获取用户面部视频,其中,所述面部视频包括用户语音;对所述用户语音进行语音识别,生成语音文本;对所述用户面部视频进行唇语识别,生成唇语文本;对所述语音文本进行语义识别,从所述语音文本中确定错误文本段;基于所述错误文本段从所述唇语文本中提取对应的补正文本段;基于所述补正文本段替换所述语音文本中的错误文本段。2.根据权利要求1所述的语音识别方法,其特征在于,基于所述补正文本段替换所述语音文本中的错误文本段之后,所述方法还包括:将替换后的语音文本进行复制;将复制后的语音文本转换为语音反馈至用户;将替换后的语音文本通过车载终端进行显示。3.根据权利要求1所述的语音识别方法,其特征在于,对所述语音文本进行语义识别,从所述语音文本中确定错误文本段,具体包括:预设常见词汇表,将语义识别后的所述语音文本中的词汇与所述常见词汇表中的词汇进行对比后确认错误文本段。4.根据权利要求3所述的语音识别方法,其特征在于,基于所述错误文本段从所述唇语文本中提取对应的补正文本段,具体包括:基于语音文本和唇语文本的时间节点,将唇语文本与语音文本相对应;基于错误文本段与唇语文本相对应的时间节点,从唇语文本中提取对应的补正文本段。5.根据权利要求4所述的语音识别方法,其特征在于,从唇语文本中提取对应的补正文本段后,所述方法还包括:矫正所述错误文本段和对应的所述补正文本段的时间节点;根据矫正结果,继续从唇语文本提取对应的补正文本段。6.根据权利要求3所述的语音识别方法,其特征在于,基于所述补正文本段替换所述语音文本中的错误文本段之前,所述方法还包括:将所述对应的补正文本段与预设常见词汇表中的词汇进行比对,对所述对应的补正文本段进行修正。7.一种语音识别系统,其特征在于,包括:面部视频获取模块,用于获取用户面部视频,其中,所述面部视频包括用户语音;文本生成模块,用于对所述用户语音进行语音识别,生成语音文本;对所述用户面部视频进行唇语识别,生成唇语文本;错误文本确认模块,用于对所述语音文本进行语义识别,从所述语音文本中确定错误文本段;错误文本替换模块,用于基于所述错误文本段从所述唇语文本中提取对应的补正文本段;基于所述补正文本段替换所述语音文本中的错误文本段。8.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器中存储有计算机程序,
当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至6中任一项所述方法的步骤。9.一种计算机可读存储介质,其特征在于,其存储有可由电子设备执行的计算机程序,当所述计算机程序在所述电子设备上运行时,使得所述电子设备执行权利要求1至6中任一项所述方法的步骤。10.一种车辆,所述车辆搭载如权利要求7所述的语音识别系统。
技术总结
本申请公开了一种语音识别方法、系统、电子设备、存储介质及车辆,包括获取用户面部视频,其中,所述面部视频包括用户语音;对所述用户语音进行语音识别,生成语音文本;对所述用户面部视频进行唇语识别,生成唇语文本;对所述语音文本进行语义识别,从所述语音文本中确定错误文本段;基于所述错误文本段从所述唇语文本中提取对应的补正文本段;基于所述补正文本段替换所述语音文本中的错误文本段。通过上述方法,可有效减少语音识别的误识别率。可有效减少语音识别的误识别率。可有效减少语音识别的误识别率。
技术研发人员:李俊
受保护的技术使用者:中国第一汽车股份有限公司
技术研发日:2023.05.22
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/