车载多媒体语音指令处理方法、装置及电子设备与流程

未命名 10-18 阅读:140 评论:0


1.本技术涉及语音指令领域,尤其涉及车载多媒体语音指令处理方法、车载多媒体语音指令处理系统、车载多媒体语音指令处理装置、电子设备、存储介质及车辆。


背景技术:

2.车载智能语音功能是当前汽车的一个重要功能,在驾驶时提供了很大的便利。车机上的语音接收传感器接收到语音指令后,由车载语音应用发到语音云端识别后,再发给车载语音应用,转发给具体的车机应用,然后由具体的车机应用执行具体的功能。
3.但是车机应用更新迭代频率较高,如音乐或者视频等媒体类应用迭代周期短,在媒体应用更新后会有部分功能移除和新功能添加,就会需要语音应用与音视频应用同步迭代更新语音指令类型和回复的语音模版;语音功能的迭代和更新也会导致媒体应用的语音控制功能出现不匹配和播报语音模版与期望不一致。由于端侧应用耦合严重,增加了开发成本和整体功能出错率。
4.媒体应用集成了语音端侧提供的具体的控制指令和具体的语音播报模版,只能针对已定义好的话术进行回复,对于固定话术之外的指令执行的功能与实际期望执行的功能和语音播报模版差异较大,针对不能识别的指令,没有二次确认和指令记录学习的能力。语音指令发出到执行没有没有结合当前的具体场景进行二次更新或者确认,不够贴合具体的场景。
5.因此,需要一种可以适应媒体应用迭代的车载语音识别方案,跟随媒体应用迭代,自我迭代更新对语音指令的匹配和执行。
6.本发明的目的在于提供一种车载多媒体语音指令处理方法、车载多媒体语音指令处理系统、车载多媒体语音指令处理装置、电子设备、存储介质及车辆,至少解决上述的一个技术问题。
7.本发明提供了下述方案:
8.根据本发明的一个方面,提供一种车载多媒体语音指令处理方法,所述车载多媒体语音指令处理方法包括:
9.采集用户语音信息;
10.根据所述用户语音,解析控制车机应用的指令;
11.获取车机应用受控的历史信息和当前状态信息;
12.其中,根据车机所述应用受控的历史信息和当前状态信息,对解析的控制车机应用指令进行匹配;
13.根据所述控制车机应用指令的匹配结果,车机应用执行指令。
14.进一步的,所述根据车机所述应用受控的历史信息和当前状态信息,对解析的控制车机应用指令进行匹配包括:
15.获取指令规则列表;
16.根据预设匹配规则,在所述指令规则列表中匹配控制车机应用的指令;
17.若,在所述指令规则列表中匹配到对应的指令,则根据所述指令规则列表,车机应用执行指令;
18.若,在所述指令规则列表中未匹配到对应的指令,则播报控制车机应用指令所对应的语音。
19.进一步的,所述在所述指令规则列表中未匹配到对应的指令还包括:
20.获取车机应用场景信息;
21.所述车机应用场景信息包括,车机应用执行指令的历史信息和收藏信息;
22.所述车机应用场景信息还包括,车机应用当前状态的信息;
23.根据所述车机应用场景信息,匹配与当前控制车机应用指令近似的历史控制车机应用指令;
24.若,当前控制车机应用指令近似历史控制车机应用指令超过预设阈值,则根据当前控制车机应用指令近似历史控制车机应用指令,刷新所述指令规则列表。
25.进一步的,所述根据当前解析控制车机应用的指令刷新所述指令规则列表包括:
26.根据控制车机应用指令对应所述车机应用场景信息,刷新所述指令规则列表;
27.所述指令规则列表中包括,所述车机应用场景信息以及对应的语音信息和控制车机应用的指令。
28.根据本发明的二个方面,提供一种车载多媒体语音指令处理系统,所述车载多媒体语音指令处理系统包括:语音解析模块、指令处理模块和车机应用模块;
29.所述语音解析模块,用于将采集用户语音,解析成控制车机应用的指令;
30.所述指令处理模块,用于在所述指令规则列表下,匹配控制车机应用指令;
31.所述车机应用模块,用于执行控制车机应用指令;
32.所述语音解析模块发送解析的控制车机应用指令;
33.所述指令处理模块接收所述语音解析模块数据,根据所述指令规则列表,匹配控制车机应用指令;
34.若,匹配成功,则发送控制车机应用指令;
35.所述车机应用模块接收所述车机应用模块数据,执行所述控制车机应用指令。
36.进一步的,所述指令处理模块包括:场景数据模块和媒体云模块;
37.所述场景数据模块,用于获取车机应用执行指令的历史信息、收藏信息和车机应用当前状态的信息;
38.所述媒体云模块,用于查找与当前控制车机应用指令近似的历史控制车机应用指令;
39.若,所述指令规则列表匹配控制车机应用指令失败,则所述场景数据模块发送车机应用执行指令的历史信息、收藏信息和车机应用当前状态的信息;
40.所述媒体云模块接收所述场景数据模块数据,根据车机应用执行指令的历史信息、收藏信息和车机应用当前状态的信息,查找与当前控制车机应用指令近似的历史控制车机应用指令;
41.若,历史控制车机应用的指令与当前控制车机应用指令近似程度超过预设阈值,则根据当前控制车机应用指令近似历史控制车机应用指令,刷新所述指令规则列表。
42.根据本发明的三个方面,提供一种车载多媒体语音指令处理装置,所述车载多媒
体语音指令处理装置包括:
43.语音采集模块,用于采集用户语音信息;
44.指令解析模块,用于根据所述用户语音,解析控制车机应用的指令;
45.车机信息模块,用于获取车机应用受控的历史信息和当前状态信息;
46.指令匹配模块,用于根据车机所述应用受控的历史信息和当前状态信息,对解析的控制车机应用指令进行匹配;
47.指令执行模块,用于根据所述指令的匹配结果,车机应用执行指令。
48.根据本发明的四个方面,提供一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
49.所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行所述车载多媒体语音指令处理方法的步骤。
50.根据本发明的五个方面,提供一种计算机可读存储介质,包括:其存储有可由电子设备执行的计算机程序,当计算机程序在电子设备上运行时,使得电子设备执行所述车载多媒体语音指令处理方法的步骤。
51.根据本发明的六个方面,提供一种车辆,包括:
52.电子设备,用于实现所述车载多媒体语音指令处理方法的步骤;
53.处理器,处理器运行程序,当程序运行时从电子设备输出的数据执行所述车载多媒体语音指令处理方法的步骤;
54.存储介质,用于存储程序,程序在运行时对于从电子设备输出的数据执行所述车载多媒体语音指令处理方法的步骤。
55.通过上述方案,获得如下有益的技术效果:
56.本技术通过将车机受控的历史和当前状态,用于过滤匹配当前控制车机应用的指令,使车机应用出现迭代时,控制车机应用的指令可以通过车机受控的历史和当前状态,完成自我迭代。
57.本技术通过将匹配不成功的控制车机应用指令,与近似的历史控制车机应用指令对比,刷新指令规则列表,使匹配不成功的控制车机应用指令,可以与指令规则列表关联,完成自我迭代。
附图说明
58.图1是本发明一个或多个实施例提供的一种车载多媒体语音指令处理方法的流程图。
59.图2是本发明一个或多个实施例提供的一种车载多媒体语音指令处理系统的结构图。
60.图3是本发明一个或多个实施例提供的一种车载多媒体语音指令处理装置的结构图。
61.图4是本发明一个具体实施例的当前语音指令执行系统的示意图。
62.图5是本发明一个具体实施例的改进语音指令执行系统的示意图。
63.图6是本发明一个具体实施例的改进语音指令执行时序的示意图。
64.图7是本发明一个具体实施例的em算法流程的示意图。
65.图8是本发明一个具体实施例的维比特算法求解的示意图。
66.图9是本发明一个具体实施例的字符串状态序列的示意图。
67.图10是本发明一个或多个实施例提供的车载多媒体语音指令处理方法的一种电子设备结构框图。
具体实施方式
68.下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
69.图1是本发明一个或多个实施例提供的一种车载多媒体语音指令处理方法的流程图。
70.如图1所示,车载多媒体语音指令处理方法包括:
71.步骤s1,采集用户语音信息;
72.步骤s2,根据用户语音,解析控制车机应用的指令;
73.步骤s3,获取车机应用受控的历史信息和当前状态信息;
74.步骤s4,其中,根据车机应用受控的历史信息和当前状态信息,对解析的控制车机应用指令进行匹配;
75.步骤s5,根据控制车机应用指令的匹配结果,车机应用执行指令。
76.通过上述方案,获得如下有益的技术效果:
77.本技术通过将车机受控的历史和当前状态,用于过滤匹配当前控制车机应用的指令,使车机应用出现迭代时,控制车机应用的指令可以通过车机受控的历史和当前状态,完成自我迭代。
78.本技术通过将匹配不成功的控制车机应用指令,与近似的历史控制车机应用指令对比,刷新指令规则列表,使匹配不成功的控制车机应用指令,可以与指令规则列表关联,完成自我迭代。
79.具体而言,通常情况下,语音识别出控制指令后,对应车机应用,进行控制。如果车机应用更新迭代,对应的语音识别也要配套更新,端侧应用如果耦合过于严重,牵一发而动全身,对车机应用的迭代造成一定的开发成本阻力。
80.虽然车机应用迭代过程,使车机应用的功能出现了一些变更,但对于不同的使用者而言,选择某些功能是具有特定背景的。比如,原有语音指令“开窗通风”,车辆默认开启左侧车窗。车机应用后来添加了对车窗分别控制的功能,要求针对车窗左侧位置,来自司机位的语音指令为“开左窗通风”。原有“开窗通风”变成控制天窗。此时,如果直接根据语音指令控制车窗,则不能达成原有的目的或效果。但车机在以往多次使用过程中,留下了使用过程的痕迹信息,比如,在哪个室内温度下开车窗通风,习惯于开哪个车窗等。对应历史上出现的场景和车辆状态等信息,将原有当前“不标准”指令,与“标准”的指令视为同一种指令。实现语音识别自动跟随车机应用迭代进行自我迭代。
81.同时,对车机响应语音指令后的结果进行播报,播报过程中连同“标准”指令一同发出。如,用户说“开窗通风”,车机应用在开司机位左窗的同时,语音播报“开左窗通风”。用户在后续的使用中,可以跟随语音播报,纠正习惯。如果用户说“开左窗通风”,语音播报可
以停止播报校正用户的习惯。
82.在本实施例中,根据车机应用受控的历史信息和当前状态信息,对解析的控制车机应用指令进行匹配包括:
83.获取指令规则列表;
84.根据预设匹配规则,在指令规则列表中匹配控制车机应用的指令;
85.若,在指令规则列表中匹配到对应的指令,则根据指令规则列表,车机应用执行指令;
86.若,在指令规则列表中未匹配到对应的指令,则播报控制车机应用指令所对应的语音。
87.具体而言,指令规则列表包含对应一个应用操作的多个维度的信息,除了包括语音指令、车机应用所执行的功能、历史信息、收藏信息、车辆状态信息等,还包括语音指令解析过程信息。
88.语音指令经过解析,除了直接转为文本数据,还要对文本数据进行拆解,获得用户的真实意图。
89.如果用户使用了迭代前的语音指令,而在迭代后的指令规则列表中没有对应的记录,则车机应用不能准确的执行指令。因此,结合语音指令,在车机应用所执行的功能、历史信息、收藏信息、车辆状态信息中寻找共性,使当前用户所使用的语音指令可以控制迭代后的车机应用。
90.如果在指令规则列表中,确实没有找到与当前语音指令对应的数据,无法直接完成执行语音指令,则可以通过采集历史信息、收藏信息、车辆状态信息等,使指令具有指向性。比如,在多媒体应用中,针对一个歌曲,播放历史和歌曲收藏信息较多,即便因为多媒体的菜单界面层级变化,可以同过歌曲播放的历史信息、收藏信息、当时的车辆状态信息等,定位到播放歌曲的功能上。
91.在本实施例中,在指令规则列表中未匹配到对应的指令还包括:
92.获取车机应用场景信息;
93.车机应用场景信息包括,车机应用执行指令的历史信息和收藏信息;
94.车机应用场景信息还包括,车机应用当前状态的信息;
95.根据车机应用场景信息,匹配与当前控制车机应用指令近似的历史控制车机应用指令;
96.若,当前控制车机应用指令近似历史控制车机应用指令超过预设阈值,则根据当前控制车机应用指令近似历史控制车机应用指令,刷新指令规则列表。
97.具体而言,对于任何一种车机应用,比如对于功能和发挥功能的场景,隐含了用户的需求和对应用户需求,车机应用所能发挥的功能。为了使车机应用更为完善,或丰富,或简化。对应的语音指令,是延续以往的使用经历而发出的。通常一个车机应用不会突变成与原功能差异过大的版本,对应的语音指令虽然出现了偏差,如果按照严苛的“标注”语音指令,用户难以适应。而依靠车机应用执行指令的历史信息和收藏信息,可以还原当时可能触发的车机应用以及车机应用中的参数、功能等。可以随着使用次数的增多,通过播报控制车机应用指令所对应的语音,形成对使用者命令执行的反馈。假设在互动过程中,用户发现当前语音指令触发的应用与预期的不同,还可以及时终止当前的语音指令,诱导用户改为尝
试其他语音指令,完成语音指令的迭代。
98.在本实施例中,根据当前解析控制车机应用的指令刷新指令规则列表包括:
99.根据控制车机应用指令对应车机应用场景信息,刷新指令规则列表;
100.指令规则列表中包括,车机应用场景信息以及对应的语音信息和控制车机应用的指令。
101.具体而言,指令规则列表包含了语音指令对应车机应用的信息,还包含与之关联的其他信息,如场景信息,状态信息。原则上,通过语音指令直接实现车机应用的工作是理想的,通过查询指令规则列表,发现没有对应的语音指令时,转而在其他关联信息中,寻找对应的车机应用。
102.可以将当前语音指令,作为“标注”语音指令的“热词”,刷新指令规则列表。
103.不排除一种可能,车机应用进行了比较大的修改,增加了前所未有的功能,对应的语音指令没有被使用过,可以根据当前场景符合指令规则列表中的场景信息,主动语音播报,向用户推广新的迭代以及相应的语音指令。
104.图2是本发明一个或多个实施例提供的一种车载多媒体语音指令处理系统的结构图。
105.如图2所示,车载多媒体语音指令处理系统包括:语音解析模块、指令处理模块和车机应用模块;
106.语音解析模块,用于将采集用户语音,解析成控制车机应用的指令;
107.指令处理模块,用于在指令规则列表下,匹配控制车机应用指令;
108.车机应用模块,用于执行控制车机应用指令;
109.语音解析模块发送解析的控制车机应用指令;
110.指令处理模块接收语音解析模块数据,根据指令规则列表,匹配控制车机应用指令;
111.若,匹配成功,则发送控制车机应用指令;
112.车机应用模块接收车机应用模块数据,执行控制车机应用指令。
113.具体而言,在指令规则列表的语音数据部分,匹配控制车机应用指令,区分符合指令规则列表和符合指令规则列表记录的语音指令,对“标准”的或已经刷新过的语音指令,直接控制车机应用。
114.在本实施例中,指令处理模块包括:场景数据模块和媒体云模块;
115.场景数据模块,用于获取车机应用执行指令的历史信息、收藏信息和车机应用当前状态的信息;
116.媒体云模块,用于查找与当前控制车机应用指令近似的历史控制车机应用指令;
117.若,指令规则列表匹配控制车机应用指令失败,则场景数据模块发送车机应用执行指令的历史信息、收藏信息和车机应用当前状态的信息;
118.媒体云模块接收场景数据模块数据,根据车机应用执行指令的历史信息、收藏信息和车机应用当前状态的信息,查找与当前控制车机应用指令近似的历史控制车机应用指令;
119.若,历史控制车机应用的指令与当前控制车机应用指令近似程度超过预设阈值,则根据当前控制车机应用指令近似历史控制车机应用指令,刷新指令规则列表。
120.具体而言,对“不标准”的或没有刷新过的语音指令,按照历史信息、收藏信息和车机应用当前状态的信息,查找近似的车机应用经历。如果,得到了用户的认可,则可以刷新指令规则列表,相当于通过学习,迭代了语音指令。
121.历史控制车机应用的指令与当前控制车机应用指令近似程度超过预设阈值,可以将多个数据项,赋权重值,通过权重值设置预设阈值。比如,对使用次数频率较高的车机应用,可以在历史信息上赋值较高,比如,对特定场景的车机应用,在车机应用当前状态信息上赋值较高。
122.图3是本发明一个或多个实施例提供的一种车载多媒体语音指令处理装置的结构图。
123.如图3所示,车载多媒体语音指令处理装置包括:语音采集模块、指令解析模块、车机信息模块、指令匹配模块、指令执行模块;
124.语音采集模块,用于采集用户语音信息;
125.指令解析模块,用于根据用户语音,解析控制车机应用的指令;
126.车机信息模块,用于获取车机应用受控的历史信息和当前状态信息;
127.指令匹配模块,用于根据车机应用受控的历史信息和当前状态信息,对解析的控制车机应用指令进行匹配;
128.指令执行模块,用于根据指令的匹配结果,车机应用执行指令。
129.值得注意的是,虽然本系统只披露了语音采集模块、指令解析模块、车机信息模块、指令匹配模块、指令执行模块,但并不意味着本装置仅仅局限于上述基本功能模块,相对,本发明所要表达的意思是,在上述基本功能模块的基础之上,本领域技术人员可以结合现有技术任意添加一个或多个功能模块,形成无穷多个实施例或技术方案,也就是说本系统是开放式的而非封闭式的,不能因为本实施例仅披露了个别基本功能模块,就认为本发明权利要求的保护范围局限于上述公开的基本功能模块。
130.图4是本发明一个具体实施例的当前语音指令执行系统的示意图。
131.当前车载系统中语音和媒体应用端侧相互依赖比较严重,需要严格保持版本一致才能使所有功能可用,开发效率低,错出错率高;语音指令转发逻辑固定,当软件版本固定时,所有的指令都对应固定执行程序,对于固定话术之外的指令执行与期望执行的功能差异比较大,对于不确定的指令没有二次确认功能和指令记忆学习;没有结合当前场景,指令执行人性化有提升空间。
132.当前车机执行语音指令的大致流程如图4所示,首先是使用者语音输入,车机上声音采集传感器模块收到语音后通过语音应用上传到语音云端,对应图4的1-3步,语音云端分析后回复给车机语音解析结果,然后以这个结果为索引值,在语音应用的数据库中查找对应的接收应用(如音频和视频应用),然后调用应用的接口去执行结果,对应图4的4-5步,车机上其它应用在收到命令后执行对应逻辑,然后调用语音应用的播报功能反馈执行结果对应图4的第6步。
133.图5是本发明一个具体实施例的改进语音指令执行系统的示意图。
134.图6是本发明一个具体实施例的改进语音指令执行时序的示意图。
135.如图5、6所示,改进后的语音指令执行系统框图中,图5的第1-4步是和改进前的逻辑相同,是语音指令的识别过程;针对音视频媒体应用和语音识别的迭代频率不一致和相
互依赖程度高耦合严重的问题,引入了媒体指令处理引擎,以端侧服务的形式实现,该服务的匹配规则从媒体云端获取或者订阅更新,该指令规则表内包含了语音预先定义的媒体指令类型,指令类型对应的应用,和语音播报模版,用来做预制的指令处理逻辑,媒体应用只需只需提供功能力接口给媒体指令处理引擎服务,减少了语音指令变动对媒体应用变动的影响;图5的第5步,语音应用将媒体处理指令转发给媒体指令处理引擎服务,服务根据查询指令规则表,如果能匹配到具体的规则,则走图5第10步,调用媒体应用功能并将语音指令执行结果对应的播报模版在图5第11步返回到语音端侧应用进行播报,如果没有找到具体的规则,则从场景数据采集模块,获取当前场景信息,对应图5的第6-7步,场景信息采集模块包含了各应用主动更新的内容:比如各音视频在使用过程中的播放历史,收藏信息,上次播放内容和时间等相关内容以及主动采集的信息:如天气,驾驶时长相关疲劳状态和当前屏幕显示的内容等,然后在第7步将从场景数据采集模块拿到的信息和语音指令上传到媒体云端,匹配最接近的几条指令给到媒体指令处理引擎服务,服务通过将可选项通过视图呈现,并记录选择结果和对应指令并更新到指令规则表,供下次使用,接着是调用媒体应用功能接口和将语音播报模版反馈给语音应用对应图5的第10和第11步。图6中的时序对应图5。
136.图7是本发明一个具体实施例的em算法流程的示意图。
137.图8是本发明一个具体实施例的维比特算法求解的示意图。
138.图9是本发明一个具体实施例的字符串状态序列的示意图。
139.如图7所示,在语音指令和场景信息匹配过程中,可使用hmm(隐马尔可夫模型)进行分词。hmm是一种统计分析的模型,它被用来描述含有隐参数的马尔科夫过程。马尔可夫模型在二十世纪七十年代由baum提出,rabiner在数学上对马尔科夫进行了验证。此后,在八十年代得到了广泛传播和发展,在信号处理领域发挥了巨大作用,成为了信号处理的一个重要方向,hmm被广泛应用于语音识别,文字识别等领域。bell实验室将其成功运用于语言词汇识别,使得该模型在语音处理方面得到大量应用和研究。hmm通常由五个部分组成:隐状态、模型输出值、初始状态概率、状态之间转移概率和状态与输出对应的输出概率分布。隐含状态通常用s表示,是模型中实际要求的隐含状态,通常是无法通过直接通过观察得到;可观测输出用o来表示,是模型的观测输出量,与隐含状态相关联,可以看作隐含状态的外在表现;初始状态概率矩阵π表示初始时刻每个状态发生的概率;隐含状态之间转移概率a,表示隐含状态之间的转换概率;输出概率矩阵b,表示其中一个隐状态对应输出是某一个观测输出量的概率。hmm通常用θ=(π,a,b)表示。
140.n:隐含状态的个数,此处是状态值集合(b,m,e,s)的大小,{b:begin,m:middle,e:end,s:single}分别代表每个状态代表的是该字在词语中的位置,b代表该字是词语中的起始字,m代表是词语中的中间字,e代表是词语中的结束字,s则代表是单字成词,此处是4。
141.m:每一个状态对应的观察值集合的大小,在hmm模型中文分词中,我们的输入是一个句子(也就是观察值序列),输出是这个句子中每个字的值用(o1,o2,

,om)表示。
142.π:初始状态概率分布,也就是句子的第一个字属于{b,e,m,s}这四种状态的概率,是一个1x4的矩阵(πb,πm,πe,πs),满足1《=i《=n,n=4。
143.a:转移概率矩阵a(a
ij
)
n*n
,此处n为4,i,j∈{b,e,m,s},它其实就是一个4*4(4就是状态值集合的大小)的二维矩阵。矩阵的横坐标和纵坐标顺序是bems*bems。
144.b:发射概率矩阵b=((bj(k))
n*m
其中si属于{b,e,m,s},ok是语料库的其中一个语料,是一个4*n的矩阵。
145.第一步模型参数计算(模型参数计算是使用前完成,不是在使用时计算),使用em算法计算模型参数,数据集使用人民日报中文语料库。
146.第二步,字符串分词,使用为维比特算法计算具体字符属于(b,m,e,s)中的哪个状态。维比特算法在机器学习领域中使用广泛的动态规划算法,比如在条件随机场的预测和隐马尔可夫状态求解等问题中均有使用。在实际的应用中,维比特算法不仅可以用于自然语言的解码算法,而且在现代数字通信中使用广泛。根据第一步计算出的模型参数θ=(π,a,b)和实际输出字符串o={o1,o2,

,om},求解最可能的分词序列,即求解:{q1,q2,

,q
t
}=argmax{p(i|o,θ)}
147.其中i表示状态序列,o表示输出序列,求解过程如图8所示。
148.x
ij
,表示,假设第t个字符的状态对应的是状态是qj,第t-1个字符对应的状态是使得a
ij
b(o
t
)概率最大的状态,无论最优路径是哪条,每一个位置的字符串必定对应一个状态,即图中的每一列一定会经过,如果前一个位置的字符对应的路径是qi,只需记录路径qj,经过t(字符串长度)次迭代计算会得到n条(状态个数)路径,比较之后得到最优路径就可作为模型的状态序列i。如果用δ
t
(i)表示第t个位置字符状态为i(b,m,e,s其中一个取值)的所有路径的最大概率,ψ
t
(i)表示使概率最大的路径的前一个位置字符对应的状态,维特比算法的递推公式可以表示为:
[0149][0150][0151]
通过上述公式计算得到概率最大时最可能的状态序列,即最可能的分词序列。
[0152]
另一个具体实施例中,图9为对字符串“我要听昨天听过的歌曲”的分词结果。
[0153]
另一个具体实施例中,语意字符串与使用记录和场景信息匹配。
[0154]
字符串相似度计算可以使用挛生网络siamese network(简称sbert)来实现,sbert模型的子网络都使用bert模型,且两个bert模型共享参数。当对比a,b两个句子相似度时,它们分别输入bert网络,输出是两组表征句子的向量,然后计算二者的相似度。
[0155]
播放历史,收藏信息,上次播放内容,每次更新时把对应的时间以及场景信息天气,驾驶时长相关疲劳状态和当前屏幕显示的内容等作为附加字段一起更新。将分词后的分词序列l=(l1,l2,

,ln),分别与播放历史数据,收藏信息数据和上次播放内容数据进行字符串相似度匹配,计算平均匹配概率:
[0156][0157]
其中n是分词序列的长度。
[0158]
场景信息的引入在播放历史,收藏信息,上次播放内容匹配的基础上缩小范围并且更符合需要的结果,天气信息相关系数取λ
t
,天气匹配的概率计为p
t
,疲劳状态用λf表示,疲劳状态的匹配概率用pf,当前屏幕内容用λc表示,当前屏幕内容匹配的概率为pc,其他的
场景信息以同样的形式引入,最终加权后的概率值为:
[0159]
相关系数λ
t
,λf和λc通过em算法求解得到,p
t
,pf和pc通过字符串相似度计算得到。
[0160]
最终根据从大到小的顺序按实际需要列出部分数据供使用者选择。
[0161]
图10是本发明一个或多个实施例提供的车载多媒体语音指令处理方法的一种电子设备结构框图。
[0162]
如图10所示,本技术提供一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0163]
存储器中存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行一种车载多媒体语音指令处理方法的步骤。
[0164]
本技术还提供一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当计算机程序在电子设备上运行时,使得电子设备执行一种车载多媒体语音指令处理方法的步骤。
[0165]
本技术还提供一种车辆,包括:
[0166]
电子设备,用于实现车载多媒体语音指令处理方法的步骤;
[0167]
处理器,处理器运行程序,当程序运行时从电子设备输出的数据执行车载多媒体语音指令处理方法的步骤;
[0168]
存储介质,用于存储程序,程序在运行时对于从电子设备输出的数据执行车载多媒体语音指令处理方法的步骤。
[0169]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0170]
电子设备包括硬件层,运行在硬件层之上的操作系统层,以及运行在操作系统上的应用层。该硬件层包括中央处理器(cpu,central processing unit)、内存管理单元(mmu,memory management unit)和内存等硬件。该操作系统可以是任意一种或多种通过进程(process)实现电子设备控制的计算机操作系统,例如,linux操作系统、unix操作系统、android操作系统、ios操作系统或windows操作系统等。并且在本发明实施例中该电子设备可以是智能手机、平板电脑等手持设备,也可以是桌面计算机、便携式计算机等电子设备,本发明实施例中并未特别限定。
[0171]
本发明实施例中的电子设备控制的执行主体可以是电子设备,或者是电子设备中能够调用程序并执行程序的功能模块。电子设备可以获取到存储介质对应的固件,存储介质对应的固件由供应商提供,不同存储介质对应的固件可以相同可以不同,在此不做限定。电子设备获取到存储介质对应的固件后,可以将该存储介质对应的固件写入存储介质中,具体地是往该存储介质中烧入该存储介质对应固件。将固件烧入存储介质的过程可以采用现有技术实现,在本发明实施例中不做赘述。
[0172]
电子设备还可以获取到存储介质对应的重置命令,存储介质对应的重置命令由供应商提供,不同存储介质对应的重置命令可以相同可以不同,在此不做限定。
[0173]
此时电子设备的存储介质为写入了对应的固件的存储介质,电子设备可以在写入
了对应的固件的存储介质中响应该存储介质对应的重置命令,从而电子设备根据存储介质对应的重置命令,对该写入对应的固件的存储介质进行重置。根据重置命令对存储介质进行重置的过程可以现有技术实现,在本发明实施例中不做赘述。
[0174]
为了描述的方便,描述以上装置时以功能分为各种单元、模块分别描述。当然在实施本技术时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。
[0175]
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
[0176]
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0177]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器或者网络设备等)执行本技术各个实施方式或者实施方式的某些部分所述的方法。
[0178]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术特征:
1.一种车载多媒体语音指令处理方法,其特征在于,所述车载多媒体语音指令处理方法包括:采集用户语音信息;根据所述用户语音,解析控制车机应用的指令;获取车机应用受控的历史信息和当前状态信息;其中,根据车机所述应用受控的历史信息和当前状态信息,对解析的控制车机应用指令进行匹配;根据所述控制车机应用指令的匹配结果,车机应用执行指令。2.根据权利要求1所述的车载多媒体语音指令处理方法,其特征在于,所述根据车机所述应用受控的历史信息和当前状态信息,对解析的控制车机应用指令进行匹配包括:获取指令规则列表;根据预设匹配规则,在所述指令规则列表中匹配控制车机应用的指令;若,在所述指令规则列表中匹配到对应的指令,则根据所述指令规则列表,车机应用执行指令;若,在所述指令规则列表中未匹配到对应的指令,则播报控制车机应用指令所对应的语音。3.根据权利要求2所述的车载多媒体语音指令处理方法,其特征在于,所述在所述指令规则列表中未匹配到对应的指令还包括:获取车机应用场景信息;所述车机应用场景信息包括,车机应用执行指令的历史信息和收藏信息;所述车机应用场景信息还包括,车机应用当前状态的信息;根据所述车机应用场景信息,匹配与当前控制车机应用指令近似的历史控制车机应用指令;若,当前控制车机应用指令近似历史控制车机应用指令超过预设阈值,则根据当前控制车机应用指令近似历史控制车机应用指令,刷新所述指令规则列表。4.根据权利要求3所述的车载多媒体语音指令处理方法,其特征在于,所述根据当前解析控制车机应用的指令刷新所述指令规则列表包括:根据控制车机应用指令对应所述车机应用场景信息,刷新所述指令规则列表;所述指令规则列表中包括,所述车机应用场景信息以及对应的语音信息和控制车机应用的指令。5.一种车载多媒体语音指令处理系统,其特征在于,所述车载多媒体语音指令处理系统包括:语音解析模块、指令处理模块和车机应用模块;所述语音解析模块,用于将采集用户语音,解析成控制车机应用的指令;所述指令处理模块,用于在所述指令规则列表下,匹配控制车机应用指令;所述车机应用模块,用于执行控制车机应用指令;所述语音解析模块发送解析的控制车机应用指令;所述指令处理模块接收所述语音解析模块数据,根据所述指令规则列表,匹配控制车机应用指令;若,匹配成功,则发送控制车机应用指令;
所述车机应用模块接收所述车机应用模块数据,执行所述控制车机应用指令。6.根据权利要求5所述的车载多媒体语音指令处理系统,其特征在于,所述指令处理模块包括:场景数据模块和媒体云模块;所述场景数据模块,用于获取车机应用执行指令的历史信息、收藏信息和车机应用当前状态的信息;所述媒体云模块,用于查找与当前控制车机应用指令近似的历史控制车机应用指令;若,所述指令规则列表匹配控制车机应用指令失败,则所述场景数据模块发送车机应用执行指令的历史信息、收藏信息和车机应用当前状态的信息;所述媒体云模块接收所述场景数据模块数据,根据车机应用执行指令的历史信息、收藏信息和车机应用当前状态的信息,查找与当前控制车机应用指令近似的历史控制车机应用指令;若,历史控制车机应用的指令与当前控制车机应用指令近似程度超过预设阈值,则根据当前控制车机应用指令近似历史控制车机应用指令,刷新所述指令规则列表。7.一种车载多媒体语音指令处理装置,其特征在于,所述车载多媒体语音指令处理装置包括:语音采集模块,用于采集用户语音信息;指令解析模块,用于根据所述用户语音,解析控制车机应用的指令;车机信息模块,用于获取车机应用受控的历史信息和当前状态信息;指令匹配模块,用于根据车机所述应用受控的历史信息和当前状态信息,对解析的控制车机应用指令进行匹配;指令执行模块,用于根据所述指令的匹配结果,车机应用执行指令。8.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至4任一项所述车载多媒体语音指令处理方法的步骤。9.一种计算机可读存储介质,其特征在于,包括:其存储有可由电子设备执行的计算机程序,当计算机程序在电子设备上运行时,使得电子设备执行权利要求1至4任一项所述车载多媒体语音指令处理方法的步骤。10.一种车辆,其特征在于,包括:电子设备,用于实现权利要求1至4任一项所述车载多媒体语音指令处理方法的步骤;处理器,处理器运行程序,当程序运行时从电子设备输出的数据执行权利要求1至4任一项所述车载多媒体语音指令处理方法的步骤;存储介质,用于存储程序,程序在运行时对于从电子设备输出的数据执行权利要求1至4任一项所述车载多媒体语音指令处理方法的步骤。

技术总结
本申请公开了一种车载多媒体语音指令处理方法、车载多媒体语音指令处理系统、车载多媒体语音指令处理装置、电子设备、存储介质及车辆,方法包括,采集用户语音信息;根据所述用户语音,解析控制车机应用的指令;获取车机应用受控的历史信息和当前状态信息;其中,根据车机所述应用受控的历史信息和当前状态信息,对解析的控制车机应用指令进行匹配;根据所述控制车机应用指令的匹配结果,车机应用执行指令。通过上述方案,将车机受控的历史和当前状态,用于过滤匹配当前控制车机应用的指令,使车机应用出现迭代时,控制车机应用的指令可以通过车机受控的历史和当前状态,完成自我迭代。代。代。


技术研发人员:郭向阳
受保护的技术使用者:一汽(北京)软件科技有限公司
技术研发日:2023.06.20
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐