响应于能够限于参数的用户输入对非助理应用操作的自动助理执行的制作方法
未命名
09-09
阅读:114
评论:0

响应于能够限于参数的用户输入对非助理应用操作的自动助理执行
背景技术:
1.人类可以用在本文中称为“自动助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“谈话代理”等)的交互式软件应用参与人机对话。例如,人类(其在他们与自动助理交互时可以被称为“用户”)可以使用口头自然语言输入(即,话语)和/或通过提供文本(即,打字的)自然语言输入来提供命令和/或请求,所述口头自然语言输入可以在一些情况下被转换成文本然后被处理。
2.在一些实例中,即使当用户正在其计算设备的前台中与单独的应用交互时,自动助理也能够提供能够被初始化的各种特征。例如,用户能够利用自动助理来在单独的前台应用内执行搜索。例如,响应于当单独的餐厅评论应用在前台中时针对自动助理的“search for asian fusion(搜索亚洲融合菜)”的口头话语,自动助理能够(例如,直接和/或经由模拟用户输入)与前台应用交互,以使得利用餐厅评论应用的搜索界面来提交对“asian fusion(亚洲融合菜)”的搜索。同样,例如,响应于当单独的日历应用在前台中时针对自动助理的“add acalendar entry of patent meeting for 2:00tomorrow(添加明天2:00的专利会议的日历条目)”的口头话语,自动助理能够与前台应用交互,以使得创建针对“明天”2:00并且标题为“patent meeting(专利会议)”的日历条目。
3.然而,在利用自动助理来与前台应用交互时,用户必须在口头话语中指定意图(例如,前面示例中的“search for(搜索)”或“add a calendar entry(添加日历条目)”)和意图的参数(例如,“asian fusion(亚洲融合菜)”或“patent meeting for 2:00tomorrow(明天2:00的专利会议)”)两者。同样,在一些情形下,用户可能不得不为自动助理提供口头调用短语,或者在提供口头话语之前提供其他自动助理调用输入。
4.此外,在一些情形下,用户可能不知道自动助理如用户所期望的并且响应于用户的口头话语来与前台应用交互的能力。因此,用户可以替代地在直接与应用交互时利用更大量的输入和/或在直接与应用交互时利用针对应用的较长持续时间的输入。例如,假定用户不知道向自动助理讲出“add a calendar entry of patent meeting for 2:00tomorrow(添加明天2:00的专利会议的日历条目)”会使自动助理如上所述与日历应用交互。在这样的情形下,为了在日历应用处添加对应日历条目,用户可能替代地不得不定位并轻敲日历应用的“添加日历条目”界面元素,这使日历应用的条目界面被呈现——然后点击并填充(例如,使用虚拟键盘和/或选择菜单)条目界面的日期字段、时间字段和标题字段。
5.此外,在一些情形下,自动助理可能无法正确地探知口头话语是否寻求控制前台应用,或者替代地,寻求独立于前台应用并且在没有对前台应用任何控制的情况下生成的一般自动助理响应。例如,再次假定当单独的餐厅评论应用在前台中同针对自动助理的“search for asian fusion(搜索亚洲融合菜)”的口头话语。在这样的示例中,可能不清楚用户是寻求助理在餐厅评论应用内搜索“asian fusion(亚洲融合菜)”餐厅还是替代地想要自动助理执行一般搜索(独立于餐厅评论应用)并且返回对什么构成“asian fusion(亚洲融合菜)”菜肴的一般说明。
技术实现要素:
6.本文阐述的实现方式涉及一种自动助理,该自动助理在用户正在与能够经由该自动助理控制的应用交互时提供可选gui元素。能够在自动助理确定应用界面识别能够经由自动助理初始化或以其他方式控制的操作(例如,搜索功能)时渲染可选gui元素。可选gui元素能够包括识别操作和/或恳求用户为操作提供一个或多个参数的内容,诸如文本内容和/或图形内容。当可选gui元素被渲染时,能够在来自用户的先前许可的情况下激活麦克风和/或相机,以使用户识别一个或多个操作参数——而不用用户显式地识别自动助理或意图/操作。当用户已经提供了一个或多个操作参数时,自动助理能够控制应用使用该一个或多个操作参数(例如,搜索词项)来执行操作(例如,搜索功能)。
7.以这些和其他方式,能够以减少的输入和/或更简洁的用户输入执行应用与自动助理之间的交互。例如,用户的口头话语能够仅指定意图或操作的参数,而不指定意图或操作。这产生更简洁的口头话语,并且相应地减少自动语音辨识组件和/或其他组件对口头话语的处理。同样,用户不需要提供明确的调用短语(例如,“assistant...(助理...)”),从而进一步减少口头话语的持续时间和人类/助理交互的总体持续时间。此外,通过用户对gui元素的选择,用户的意图是清楚的,从而防止自动助理将口头话语误解为一般助理请求,而不是对助理的要控制前台应用的请求。再进一步地,通过gui元素的呈现,用户将知道经由针对自动助理的口头话语而不是与前台应用的更复杂的直接交互来控制前台应用的能力,并且/或者用户将通过口头话语(例如,在对gui元素的选择之后提供)更频繁地控制前台应用。
8.在一些实现方式中,自动助理能够确定应用界面是否包括与和自动助理和/或助理操作兼容的相应操作相对应的特征。在一些实例中,能够针对应用界面识别多个不同的兼容操作,从而使自动助理渲染一个或多个可选gui元素以达到相应操作。由自动助理渲染的可选gui元素的类型可能取决于由自动助理识别的对应操作。例如,当用户正在访问包括用于控制家庭的温度的刻度盘gui元素的家庭控制应用时,自动助理能够渲染识别用于调整温度的命令短语的可选gui元素。在一些实现方式中,可选gui元素能够包括诸如“将温度设定为_____”的文本,这能够指示可选gui元素对应于用于设定家庭的温度的操作。
9.可选gui元素的空白区域或占位符区域(例如,“____”)能够恳求用户和/或以其他方式提供用户能够提供口头话语或其他输入的指示,以识别用于完成命令短语和/或初始化对应操作的执行的参数。例如,用户能够在可选gui元素上轻敲和/或随后提供诸如“65degrees(65度)”的口头话语,以便完成可选gui元素的文本中阐述的命令短语。响应于接收到口头话语,自动助理能够控制应用使应用的温度设定被调整为“65”度。在一些实现方式中,当可选gui元素由自动助理渲染时,自动助理也能够使计算设备的音频接口(例如,一个或多个麦克风)变得活动。因此,不是用户在可选gui元素上轻敲,而是用户能够在不用识别要执行的操作(例如,“change the temperature(改变温度)”)的情况下并且在不用识别助理(例如,“assistant(助理)”)的情况下提供识别参数值(例如,“65degrees(65度)”)的口头话语。
10.在一些实现方式中,可选gui元素能够由自动助理渲染在计算设备的显示界面的前台中达阈值持续时间。能够根据与用户和应用之间的交互相关联的一个或多个特征来选择持续时间。例如,当应用的主屏幕被渲染在显示界面处并且用户尚未以其他方式向应用
提供输入时,可选gui元素能够被渲染达静态持续时间(例如,3秒钟)。然而,与在应用界面上方渲染可选gui元素同时,当用户正在与应用交互(例如,滚动应用界面)时,能够在基于用户有多频繁地向应用提供输入的持续时间内渲染可选gui元素。替换地或附加地,可选gui元素被渲染的持续时间可以是基于对应应用界面元素正在被渲染在应用界面处或者预期被呈现在应用界面处的时间量。例如,如果用户通常在查看主屏幕的时间t内提供将应用从主屏幕转变为登录屏幕的应用输入,则能够在基于时间t的持续时间内在主屏幕上方渲染可选gui元素。
11.在一些实现方式中,对要渲染的可选gui元素的类型的选择可以是基于启发式过程和/或一个或多个经训练的机器学习模型。例如,计算设备的自动助理和/或操作系统能够处理与应用的应用界面相关联的数据,以便识别能够经由用户与应用界面的交互被初始化的一个或多个操作。在来自用户的先前许可的情况下,数据能够包括应用界面的屏幕截图、与界面的图形元素相对应的链接、与应用和/或界面相关联的库数据和/或其他功能数据、和/或能够指示能够经由应用界面被初始化的操作的任何其他信息。
12.取决于针对应用界面识别的一个或多个操作,自动助理能够选择和/或生成与相应操作相对应的可选gui元素。可选gui元素能够被选择以便提供相应操作能够经由自动助理被控制的指示。例如,自动助理能够确定设置在应用界面的空白文本字段(例如,搜索字段)上方或与之相邻的放大镜图标(例如,搜索图标)能够指示应用界面能够控制应用的搜索操作。基于此确定,自动助理能够渲染包括相同或不同的放大镜图标和/或包括与词项“搜索”同义的一个或多个自然语言词项的可选gui元素(例如,“搜索______”)。在一些实现方式中,当可选gui元素时,用户能够通过提供识别搜索参数的口头话语(例如,“nearby restaurant(附近餐厅”)或者通过轻敲可选gui元素然后提供识别搜索参数的口头话语来选择可选gui元素。
13.在一些实现方式中,在来自用户的先前许可的情况下,在用户选择可选gui元素之后,正在渲染可选gui元素的计算设备的麦克风能够保持活动。替换地或附加地,当应用界面响应于对可选gui元素的选择和/或口头话语而改变时,自动助理能够选择要渲染的不同的可选gui元素。自动助理能够基于应用转变到的下一个应用界面来选择要渲染的另一可选gui元素。例如,当用户发出针对可选gui元素的搜索参数时,应用能够渲染搜索结果的列表。来自搜索结果的列表的搜索结果能够由用户可选择,以便使应用执行特定操作。自动助理能够确定特定操作与助理操作(例如,能够由自动助理执行的操作)兼容并且使另一可选gui元素(例如,食指朝向对应搜索结果延伸的手)被渲染在对应搜索结果上方或与对应搜索结果相邻地渲染。替换地或附加地,其他可选gui元素能够包括例如识别与搜索结果相对应的词项的文本字符串(例如,“time four thai restaurant(time four泰餐厅)”)。当用户提供包括识别对应搜索结果的一个或多个词项的口头话语(例如,“thai restaurant(泰餐厅)”)时,自动助理能够使对应搜索结果被选择,而用户不必显式地识别“选择”操作或自动助理。以这种方式,随着自动助理继续在应用的每个界面处识别兼容操作,用户能够通过提供参数值(例如,“nearby restaurants...thai restaurant...menu...(附近餐厅...泰餐厅...菜单...)”)来导航界面。在一些实现方式中,用户能够最初通过经由第一口头命令自动助理打开特定应用(例如,“assistant,open my recipe application...(助理,打开我的食谱应用...)”)来开始交互。随后,当自动助理识别兼容应用操作时,用户能够经由第
二口头话语提供另一命令,以便自动助理根据参数来控制特定应用(例如,用户可以念出“pad thai”以便使自动助理在他们的食谱应用中搜索“pad thai”)。此后,至少当自动助理将一个或多个应用操作辨识为兼容的和/或经由一个或多个相应的自动助理操作可控制时,用户能够继续使用这些简要的口头话语来导航特定应用。
14.以上描述是作为本公开的一些实现方式的概述来提供的。在下面更详细地描述对这些实现方式和其他实现方式的进一步描述。
15.其他实现方式可以包括非暂时性计算机可读存储介质,该非暂时性计算机可读存储介质存储由一个或多个处理器(例如,中央处理单元(cpu)、图形处理单元(gpu)和/或张量处理单元(tpu))可运行以执行诸如在上面和/或在本文中别处描述的一种或多种方法的方法的指令。然而其他实现方式可以包括一个或多个计算机的系统,该一个或多个计算机包括可操作来运行存储的指令以执行诸如在上面和/或在本文中别处描述的一种或多种方法的方法的一个或多个处理器。
16.应该理解,本文更详细地描述的上述构思和其他构思的所有组合都被设想为是本文公开的主题的部分。例如,在本公开末尾处出现的要求保护的主题的所有组合都被设想为是本文公开的主题的部分。
附图说明
17.图1a、图1b和图1c图示用户在第三方应用界面处与辨识和建议助理兼容操作的自动助理交互的视图。
18.图2a、图2b和图2c图示用户与提供能够由自动助理控制的一个或多个操作的应用交互的视图。
19.图3图示具有自动助理的系统,该自动助理在用户正在访问经由该自动助理可控制的第三方应用时能够提供可选动作意图建议,该可选动作意图建议包括用户应该提供一个或多个参数来控制操作的指示。
20.图4图示用于在计算设备的界面处在与自动助理兼容的应用操作经由所述界面可运行时提供可选gui元素的方法。
21.图5是示例计算机系统的框图。
具体实施方式
22.图1a、图1b和图1c分别图示用户102在第三方应用界面处与辨识和建议助理兼容操作的自动助理交互的视图100、视图120和视图140。当在应用界面处检测到助理兼容操作时,自动助理能够提供用户能够提供一个或多个参数来初始化兼容操作的执行的指示。以这种方式,用户能够绕过提供助理调用短语和/或其他输入,否则这些助理调用短语和/或其他输入可能是控制自动助理和/或第三方应用所必需的。
23.例如,用户102可能正在与诸如计算设备104的支持助理的设备交互,以便改变家庭控制应用108的设定。最初,用户102能够响应于可以为由用户102的手116提供的触摸输入的用户输入106来初始化家庭控制应用108。当家庭控制应用108被启动时,用户102能够选择控制用户102的家庭内的某些设备,诸如家庭的加热、通风和空调(hvac)系统。为了控制hvac系统,家庭控制应用108能够渲染能够包括恒温器gui 112的应用界面110。
24.当正在计算设备104的显示界面118处渲染应用界面110时,自动助理能够识别一个或多个助理兼容操作114。当助理兼容操作被识别为与可选gui元素相关联时,自动助理能够使一个或多个图形元素被渲染在显示界面118处。例如,并且如图1b的视图120中提供的那样,自动助理能够使可选gui元素122和/或建议元素126被渲染在显示界面118处。在一些实现方式中,可选gui元素122能够被渲染在前台中和/或被渲染在家庭控制应用108上方。可选gui元素122能够向用户提供自动助理当前被初始化并且在可选gui元素122正在被渲染时不必需要调用短语的指示。替换地或附加地,建议元素126能够提供表征能够被提供给自动助理以便控制家庭控制应用108的口头话语的自然语言内容。此外,建议元素126的存在能够指示自动助理被初始化并且在确认口头输入之前不必需要调用短语。替换地或附加地,建议元素126的自然语言内容能够包括建议口头话语的至少一部分并且也包括空白空间,该空白空间可以是助理兼容操作的一个或多个参数的占位符。
25.例如,并且如图1b中提供的那样,自动助理能够使得请可选gui元素122被渲染在家庭控制应用108上方,以便指示自动助理能够接收温度输入。在一些实现方式中,能够选择与助理兼容操作相对应的图标以用于利用可选gui元素122渲染。对图标的选择可以是基于能够由用户102提供以便控制恒温器gui 112的参数。例如,能够选择温度计图标以指示用户能够为温度指定值,以便控制应用界面110并且调整恒温器gui 112。用户102然后能够提供诸如“65degrees(65度)”的口头话语124,从而向自动助理指示用户希望自动助理将家庭控制应用108的温度设定从72度修改为65度。
26.响应于口头话语124,自动助理能够初始化助理兼容操作144。例如,自动助理能够向家庭控制应用108生成要将恒温器的当前设定从72度修改为65度的请求。在一些实现方式中,能够使用应用编程接口(api)在自动助理与家庭控制应用108之间对接。家庭控制应用108能够处理来自自动助理的请求并且相应地修改恒温器的设定。附加地,更新后的恒温器gui 142能够作为更新146被渲染在应用界面110处,以便向用户102指示自动助理和家庭控制应用108成功地执行了操作。在一些实现方式中,在已经发生阈值持续时间之后,和/或不论用户102是与可选gui元素122还是建议元素126交互,能够从显示界面118中去除可选gui元素122和/或建议元素126。例如,能够在从家庭控制应用108最初被渲染在显示界面118处时起的阈值持续时间内渲染可选gui元素122。如果用户102在阈值持续时间内未与可选gui元素122交互,则自动助理能够使可选gui元素122不再被渲染在显示界面118处,和/或提供这些可选gui元素122将在一段时间之后被去除的通知。
27.图2a、图2b和图2c分别图示用户202与提供能够由自动助理控制的一个或多个操作的应用交互的视图200、视图220和视图240。例如,用户202能够使用计算设备204来访问信息传递应用208。响应于用户202启动消息传递应用208,经由计算设备204可访问的自动助理能够确定是否能够通过自动助理来控制消息传递应用208的特征。在一些实现方式中,自动助理能够确定能够使用由用户202识别的特定参数来执行一个或多个操作。例如,自动助理能够确定为了回复消息,必须为特定消息选择复选框212,然后选择回复图标218。在一些实现方式中,自动助理能够基于启发式过程和/或一个或多个经训练的机器学习模型做出此确定。例如,用于一个或多个经训练的机器学习模型的训练数据能够表征在复选框212未被选择的情况下选择回复图标218的实例,以及在复选框212被选择时选择回复图标218的其他实例。在一些实现方式中,一个或多个经训练的机器学习模型能够用于在来自用户
的先前许可的情况下处理应用界面的屏幕截图和/或其他图像,以便使某些可选gui元素和/或可选建议被渲染在计算设备204处。
28.当计算设备204响应于用户输入206已经初始化了消息传递应用208时,自动助理能够识别经由消息传递应用208的应用界面210可利用的助理兼容操作。当一个或多个助理兼容操作被识别时,自动助理能够使一个或多个可选gui元素222和/或一个或多个可选建议224被渲染214在计算设备204处。可选gui元素222能够被渲染成指示自动助理和/或音频接口已经被初始化并且用户202能够识别参数,以便使自动助理使用该参数来控制消息传递应用208。
29.例如,可选gui元素222能够包括人或联系人的图形表示,从而指示用户202应该识别用户202想要将消息发送到的人的名字。替换地或附加地,可选建议224能够包括识别能够被发出给自动助理但是也遗漏一个或多个参数的命令的文本标识符和/或图形内容。例如,可选建议224能够包括能够短语“回复来自_____的消息”,其能够指示如果用户202识别与特定消息相关联的联系人,则自动助理能够回复在应用界面210中识别的消息。用户202然后能够提供识别助理兼容操作的参数的口头话语226。响应于口头话语226,自动助理能够对与由用户202识别的参数(例如,“linus”)相对应的复选框212做出选择。附加地,响应于口头话语226,自动助理能够选择回复图标218,以便使消息传递应用208回复来自由用户202识别的联系人的消息。替换地或附加地,作为后端进程,自动助理能够向消息传递应用208传递api调用,以便初始化回复来自由用户202识别的联系人的消息。
30.响应于来自用户202的口头话语226,自动助理能够使消息传递应用208处理要回复来自由用户202识别的联系人(例如,linus)的消息的请求。当消息传递应用208从自动助理接收到请求时,消息传递应用208能够渲染更新后的应用界面248。应用界面248能够对应于能够由用户202修改的草稿回复消息。自动助理能够处理应用界面248的内容和/或与应用界面248关联地存储的其他数据,以便确定是否给用户202提供附加建议。例如,自动助理能够使一个或多个附加可选gui元素242被渲染在应用界面248的前台中。能够在操作244处渲染可选gui元素242,以便向用户202指示自动助理是活动的并且用户202能够提供详述回复消息的组成的口头话语。例如,当可选gui元素242正在被渲染时,用户202能够为消息的组成提供诸如“yeah,see you there(是的,那里见)”的另一口头话语246,而不用显式地识别操作和/或识别自动助理。
31.作为响应,自动助理能够向消息传递应用208传递另一请求,以便使消息传递应用208执行用于将文本“yeah,see you there(是的,那里见)”输入到消息的主体中的一个或多个操作。此后,用户202能够提供针对自动助理和单独的可选gui元素250的另一口头话语(例如,“send(发送)”)。以这种方式,用户202能够在不用显式地识别自动助理的情况下并且在不用向计算设备204和消息传递应用208提供触摸输入的情况下,使消息传递应用208发送消息。这能够减少需要直接从用户202向第三方应用提供的输入的数目。此外,当与可能未采用基于与用户202的实际交互训练的经训练的机器学习模型的大多数其他应用交互时,用户202将能够依靠自动助理。
32.图3图示具有自动助理304的系统300,该自动助理在用户正在访问经由该自动助理可控制的第三方应用时能够提供可选动作意图建议,该可选动作意图建议包括用户应该提供一个或多个参数以便初始化动作的指示。在用户不一定识别自动助理304或第三方应
用的情况下,能够响应于用户提供识别一个或多个参数的输入(例如,口头话语)来初始化与动作意图相关联的一个或多个操作。自动助理304能够作为在诸如计算设备302和/或服务器设备的一个或多个计算设备处提供的助理应用的部分运行。用户能够经由助理接口320与自动助理304交互,该助理接口可以是麦克风、相机、触摸屏显示器、用户界面和/或能够在用户与应用之间提供接口的任何其他装置。例如,用户能够通过向助理接口320提供言语输入、文本输入和/或图形输入来初始化自动助理304,以使自动助理304初始化一个或多个动作(例如,提供数据、控制外围设备、访问代理、生成输入和/或输出等)。替换地,能够基于使用一个或多个经训练的机器学习模型对场境数据336进行的处理来初始化自动助理304。场境数据336能够表征自动助理304可访问的环境的一个或多个特征,和/或被预测为正打算与自动助理304交互的用户的一个或多个特征。计算设备302能够包括显示设备,该显示设备可以是显示面板,该显示面板包括用于接收触摸输入和/或手势的触摸界面,以便允许用户经由该触摸界面控制计算设备302的应用334。在一些实现方式中,计算设备302可能缺少显示设备,从而提供可听的用户接口输出,而不提供图形用户界面输出。此外,计算设备302能够提供用于从用户接收口头自然语言输入的用户接口,诸如麦克风。在一些实现方式中,计算设备302能够包括触摸界面而可能缺少相机,但是能够可选地包括一个或多个其他传感器。
33.计算设备302和/或其他第三方客户端设备能够通过诸如互联网的网络与服务器设备进行通信。附加地,计算设备302和任何其他计算设备能够通过诸如wi-fi网络的局域网(lan)彼此通信。计算设备302能够将计算任务卸载到服务器设备,以便保存计算设备302处的计算资源。例如,服务器设备能够托管自动助理304,和/或计算设备302能够向服务器设备传送在一个或多个助理接口320处接收到的输入。然而,在一些实现方式中,自动助理304能够被托管在计算设备302处,并且能够在计算设备302处执行能够与自动助理操作相关联的各种进程。
34.在各种实现方式中,能够在计算设备302上实现自动助理304的全部或不到全部方面。在那些实现方式中的一些中,自动助理304的方面经由计算设备302实现并且能够与服务器设备对接,该服务器设备能够实现自动助理304的其他方面。服务器设备能够可选地经由多个线程为多个用户及他们关联的助理应用服务。在自动助理304的全部或不到全部方面都经由计算设备302实现的实现方式中,自动助理304可以是与计算设备302的操作系统分开(例如,安装在操作系统“之上”)的应用——或者替换地能够直接由计算设备302的操作系统实现(例如,被认为是操作系统的应用,但是与操作系统集成)。
35.在一些实现方式中,自动助理304能够包括输入处理引擎306,其能够采用多个不同模块用于为计算设备302和/或服务器设备处理输入和/或输出。例如,输入处理引擎306能够包括语音处理引擎308,其能够处理在助理接口320处接收到的音频数据,以执行语音辨识和/或识别音频数据中体现的文本。音频数据能够被从例如计算设备302传送到服务器设备,以便保存计算设备302处的计算资源。附加地或替换地,能够在计算设备302处排他地处理音频数据。
36.用于将音频数据转换为文本的进程能够包括语音辨识算法,其能够采用神经网络,和/或用于识别与单词或短语相对应的音频数据组的统计模型。从音频数据转换的文本能够由数据解析引擎310解析并且作为文本数据提供给自动助理304,该文本数据能够用于
生成和/或识别命令短语、意图、动作、槽值和/或由用户指定的任何其他内容。在一些实现方式中,由数据解析引擎310提供的输出数据能够被提供给参数引擎312,以确定用户是否提供了对应于能够由自动助理304和/或能够经由自动助理304访问的应用或代理执行的特定意图、动作和/或例程的输入。例如,助理数据338能够被存储在服务器设备和/或计算设备302处,并且能够包括定义了能够由自动助理304执行的一个或多个动作的数据,以及执行动作所必需的参数。参数引擎312能够为意图、动作和/或槽值生成一个或多个参数,并且将该一个或多个参数提供给输出生成引擎314。输出生成引擎314能够使用一个或多个参数来与助理接口320进行通信以便向用户提供输出,并且/或者与一个或多个应用334进行通信以便向一个或多个应用334提供输出。
37.在一些实现方式中,自动助理304可以是能够被安装在计算设备302的操作系统“之上”的应用,并且/或者它本身能够形成计算设备302的操作系统的部分(或全体)。自动助理应用包括和/或能够访问设备上语音辨识、设备上自然语言理解和设备上实行。例如,设备上语音辨识能够使用设备上语音辨识模块来执行,所述设备上语音辨识模块使用在本地存储在计算设备302处的端到端语音辨识机器学习模型来处理音频数据(由麦克风检测)。设备上语音辨识针对存在于音频数据中的口头话语(若有的话)生成辨识文本。同样,例如,能够使用设备上nlu模块来执行设备上自然语言理解(nlu),所述设备上nlu模块处理使用设备上语音辨识生成的辨识文本以及可选地场境数据,以生成nlu数据。
38.nlu数据能够包括对应于口头话语的意图以及可选地意图的参数(例如,槽值)。能够使用设备上实行模块来执行设备上实行,所述设备上实行模块利用nlu数据(来自设备上nlu)和可选地其他本地数据,以确定要采取来分辨口头话语的意图(和可选地意图的参数)的动作。这能够包括确定对口头话语的本地响应和/或远程响应(例如,回答)、要基于口头话语执行的与在本地安装的应用的交互、要基于口头话语(直接或经由对应远程系统)传送到物联网(iot)设备的命令、和/或要基于口头话语执行的其他解决动作。设备上实行然后能够发起对所确定的动作的本地执行/运行和/或远程执行/运行以分辨口头话语。
39.在各种实现方式中,能够至少选择性地利用远程语音处理、远程nlu和/或远程实行。例如,辨识文本能够被至少选择性地传送到远程自动助理组件以进行远程nlu和/或远程实行。例如,能够可选地传送辨识文本以供与设备上执行并行地或者响应于设备上nlu和/或设备上实行的失败进行远程执行。然而,设备上语音处理、设备上nlu、设备上实行和/或设备上运行可能至少由于它们在分辨口头话语时提供的延时减少(由于不需要客户端-服务器往返来分辨口头话语而导致)被优先考虑。此外,设备上功能可以是在没有网络连接或网络连接有限的情形下可利用的唯一功能。
40.在一些实现方式中,计算设备302能够包括能够由与提供了计算设备302和/或自动助理304的实体不同的第三方实体提供的一个或多个应用334。自动助理304和/或计算设备302的应用状态引擎能够访问应用数据330以确定能够由一个或多个应用334执行的一个或多个动作,以及一个或多个应用334中的每个应用的状态和/或与计算设备302相关联的相应设备的状态。自动助理304和/或计算设备302的设备状态引擎能够访问设备数据332以确定能够由计算设备302和/或与计算设备302相关联的一个或多个设备执行的一个或多个动作。此外,应用数据330和/或任何其他数据(例如,设备数据332)能够由自动助理304访问以生成场境数据336,该场境数据能够表征特定应用334和/或设备正在其中运行的场境,
和/或特定用户正在其中访问计算设备302、访问应用334和/或任何其他设备或模块的场境。
41.当一个或多个应用334正在计算设备302处运行时,设备数据332能够表征在计算设备302处运行的每个应用334的当前运行状态。此外,应用数据330能够表征运行应用334的一个或多个特征,诸如正在一个或多个应用334指示下渲染的一个或多个图形用户界面的内容。替换地或附加地,应用数据330能够表征动作模式,该动作模式能够由相应应用和/或由自动助理304基于相应应用的当前运行状态来更新。替换地或附加地,一个或多个应用334的一个或多个动作模式能够保持静态,但是能够由应用状态引擎访问,以便确定要经由自动助理304初始化的合适的动作。
42.计算设备302能够进一步包括助理调用引擎322,其能够使用一个或多个经训练的机器学习模型来处理应用数据330、设备数据332、场境数据336和/或可被计算设备302利用的任何其他数据。助理调用引擎322能够处理此数据,以便确定是否等待用户显式地讲出调用短语来调用自动助理304,或者认为所述数据指示用户调用自动助理的意图——代替要求用户显式地讲出调用短语。例如,能够使用基于用户位于多个设备和/或应用正在显示出各种运行状态的环境中的场景的训练数据的实例来训练一个或多个经训练的机器学习模型。能够生成训练数据的实例以便捕获表征用户调用自动助理的场境和用户未调用自动助理的其他场境的训练数据。
43.当根据训练数据的这些实例来训练一个或多个经训练的机器学习模型时,助理调用引擎322能够使自动助理304基于场境和/或环境的特征来检测或限制检测来自用户的口头调用短语。附加地或替换地,助理调用引擎322能够使自动助理304基于场境和/或环境的特征来检测或限制检测来自用户的一个或多个助理命令。在一些实现方式中,能够基于计算设备302检测到来自另一计算设备的助理抑制输出来禁用或限制助理调用引擎322。以这种方式,当计算设备302正检测到助理抑制输出时,将不会基于场境数据336调用自动助理304——如果没有检测到助理抑制输出,则这否则将使自动助理304被调用。
44.在一些实现方式中,系统300能够包括操作检测引擎316,其能够识别能够由应用334运行并且经由自动助理304控制的一个或多个操作。例如,操作检测引擎316能够处理应用数据330和/或设备数据332,以便确定应用是否正在计算设备302处运行。自动助理304能够确定是否能够经由自动助理304控制应用,并且能够识别能够经由自动助理304控制的一个或多个应用操作。例如,应用数据330识别正在计算设备302的界面处渲染的一个或多个应用gui元素,并且能够处理应用数据330以识别能够经由应用gui元素控制的一个或多个操作。当操作被识别为与自动助理304兼容时,操作检测引擎316能够与gui元素内容引擎318进行通信,以便生成与操作相对应的可选gui元素。
45.gui元素内容引擎318能够识别自动助理304已经确定了与自动助理304兼容的一个或多个操作,并且基于该一个或多个操作生成一个或多个相应的可选gui元素。例如,当搜索图标和/或搜索文本字段被确定为由应用可用,并且应用搜索操作与自动助理304兼容时,gui元素内容引擎318能够生成用于在计算设备302的显示界面处渲染的内容。内容能够包括可以是基于兼容操作(例如,应用搜索操作)的文本内容(例如,自然语言内容)和/或图形内容。在一些实现方式中,能够生成和渲染用于指示自动助理304初始化操作的命令短语,以便使用户注意到已经被识别的兼容操作。替换地或附加地,命令短语可以是省略操作
的一个或多个参数的部分命令短语,从而向用户指示用户能够向自动助理304提供一个或多个参数以用于初始化操作。能够在计算设备302的显示界面处与应用渲染一个或多个附加gui元素同时渲染文本内容和/或图形内容。用户能够通过轻敲显示界面以选择可选gui元素和/或向自动助理304提供指定一个或多个参数的口头话语来初始化兼容操作的执行。
46.在一些实现方式中,系统300能够包括gui元素持续时间引擎326,其能够控制可选gui元素由自动助理304渲染在显示界面处的持续时间。在一些实现方式中,可选gui元素被渲染的时间量可以是基于用户与自动助理304之间的交互量,和/或用户和与可选gui元素相关联的应用之间的交互量。例如,当用户自可选gui元素被渲染以来仍然尚未向应用提供输入时,gui元素持续时间引擎326能够为可选gui元素建立显示时间的较长持续时间。当用户已经向应用(不是自动助理304)提供了输入时,此较长持续时间相对于正在渲染的可选gui元素的显示时间的持续时间可能较长。替换地或附加地,对于用户过去先前已经与之交互的可选gui元素而言,用于可选gui元素的显示时间的持续时间可能较长。此较长持续时间可以是相对于先前已经被呈现给用户但是用户先前尚未与之交互或者以其他方式表达感兴趣的其他可选gui元素的持续时间。
47.在一些实现方式中,系统300能够包括操作运行引擎324,其能够响应于用户识别操作的一个或多个参数来初始化识别的应用的一个或多个操作。例如,当可选gui元素正在被自动助理304渲染在应用界面上方时,用户能够选择该可选gui元素和/或提供识别参数的口头话语。操作运行引擎324然后能够处理选择和/或口头话语,并且基于由用户识别的一个或多个参数生成对应用的一个或多个请求。例如,由输入处理引擎306处理的口头话语能够产生对一个或多个特定参数值的识别。参数值能够由操作运行引擎324使用来生成对与用户识别的可选gui元素相对应的应用的一个或多个请求。例如,由自动助理304生成的请求能够识别要执行的操作、由自动助理304识别的一个或多个参数、和/或由用户识别的一个或多个参数。在一些实现方式中,自动助理304能够为操作选择一个或多个参数,并且用户能够识别一个或多个附加参数以让操作被初始化。例如,当应用是旅行预订应用时,自动助理304能够假定日期参数(例如,月份为“一月”)并且用户能够经由口头话语(例如,“nairobi(内罗毕)”)指定目的地城市。基于此数据以及正在显示界面处渲染的对应可选gui元素,操作运行引擎324能够生成对旅行预订应用的要初始化操作的执行的请求(例如,application.travel.com[search.setcity(“nairobi”),search.settime(“january”)])。此请求能够由旅行预订应用从自动助理304接收,并且,作为响应,旅行预订应用能够渲染包括操作的结果(例如,一月内罗毕的可用酒店的结果的列表)的不同应用界面。
[0048]
图4图示用于在计算设备的界面处在与自动助理兼容的应用操作经由所述界面可运行时提供可选gui元素的方法400。方法400能够由一个或多个应用、设备和/或能够与自动助理交互的任何其他装置或模块执行。在一些实现方式中,方法400能够包括确定非助理应用是否正在计算设备的界面处运行的操作402。计算设备能够提供对自动助理的访问,该自动助理能够对来自用户的自然语言输入做出响应,以便控制多个不同的应用和/或设备。自动助理能够处理指示某些应用是否正在计算设备处运行的数据。例如,基于正在界面处渲染的内容的数据能够由自动助理处理,以便识别能够经由界面被初始化的应用操作。当确定非助理应用正在诸如计算设备的显示界面的界面处运行时,方法400能够从操作402进行到操作404。否则,自动助理能够继续确定应用是否正在计算设备的界面处运行。
[0049]
操作404能够包括确定应用操作是否与自动助理兼容。换句话说,自动助理能够确定能够由应用执行的操作是否能够由自动助理控制或以其他方式初始化。例如,当应用是家庭控制应用并且应用界面包括控制刻度盘gui时,自动助理能够确定由控制刻度盘gui控制的操作与自动助理的一个或多个功能兼容。因此,自动助理能够运行来控制控制刻度盘gui和/或对应的应用操作。当应用操作被确定为与自动助理兼容时,方法400能够从操作404进行到操作406。否则,自动助理能够继续确定任何其他应用操作是否与自动助理兼容,或者任何其他非助理应用是正在计算设备还是单独的计算设备处运行。
[0050]
操作406能够包括使可选gui元素被渲染在界面处,并且也使音频接口在计算设备处活动。可选gui元素能够提供自动助理是活动的以用于接收一个或多个输入参数的指示。在一些实现方式中,可选gui元素能够包括基于在操作404处识别的应用操作的文本内容和/或图形内容。以这种方式,至少当正在界面处渲染可选gui时,用户能够注意到自动助理能够接收识别特定应用操作的一个或多个参数的输入。在一些实现方式中,可选gui元素的图形内容和/或文本内容能够指示麦克风是活动的以用于从用户接收用户输入。例如,可选gui元素能够具有指示与计算设备相关联的一个或多个传感器活动的动态属性。替换地或附加地,可选gui元素的文本内容能够识别缺少应该针对要执行的一个或多个相应的应用操作识别的一个或多个相应的参数的一个或多个部分助理命令短语。
[0051]
当可选gui元素被渲染在界面处时,方法400能够从操作406进行到可选操作408,该可选操作包括确定用户是否提供了针对可选gui元素的触摸输入或另一输入。当确定用户已经提供了针对可选gui元素的输入时,方法400能够从操作408进行到可选操作410。操作410能够包括初始化对与应用操作的参数相对应的音频数据的检测。例如,自动助理能够识别用于识别与应用操作相关联的一个或多个参数的一个或多个语音处理模型。在一些实例中,当应用操作包括一个或多个数字作为潜在参数时,能够采用用于识别各种大小的数字的语音处理模型。替换地或附加地,当应用操作包括一个或多个专有名词作为可能的参数时,能够采用用于识别语音中的专有名词的语音处理模型。
[0052]
方法400能够从操作410或操作408进行到操作412,操作412能够包括确定用户是否向自动助理提供了与应用操作相关联的输入参数。例如,用户能够通过识别控制刻度盘gui的值来提供与应用操作相关联的输入。替换地或附加地,用户能够通过识别能够被用作应用操作的一个或多个参数的一个或多个其他值来提供与应用操作相关联的输入。例如,当应用操作经由应用的控制刻度盘gui可控制时,用户能够向自动助理提供诸如“10percent(10%)”的口头话语。此口头话语能够指示用户正在将“10percent(10%)”指定为应用操作的参数,并且自动助理应该基于此识别的参数初始化应用操作。当应用操作例如对应于用户的家庭中的灯的亮度时,用户为参数指定值能够使自动助理经由应用(例如,控制支持wi-fi的灯泡的iot应用)调整灯的亮度。
[0053]
当确定用户已经提供了识别应用操作的一个或多个参数的输入时,方法400能够从操作412进行到操作414。操作414能够包括使自动助理根据由用户识别的输入参数来控制非助理应用。例如,当用户提供诸如“10percent(10%)”的口头话语时,自动助理能够控制非助理应用,以便使与非助理应用相关联的一个或多个灯被调整到10%亮度水平。这能够在用户未在口头话语中显式地识别助理或非助理应用的情况下执行。这能够保存计算资源并且限制某些干扰(例如,背景噪声)影响由自动助理捕获的音频数据的可能性。当用户
在阈值持续时间内未提供识别参数的输入时,方法400能够从操作412进行到操作416,这能够包括在阈值持续时间之后使可选gui元素被从界面中去除。方法400能够从操作414进行到操作416,此后,方法400能够返回到操作402或另一操作。
[0054]
图5是示例计算机系统510的框图500。计算机系统510通常包括经由总线子系统512与许多外围设备进行通信的至少一个处理器514。这些外围设备可以包括存储子系统524(例如,包括存储器子系统525和文件存储子系统526)、用户接口输出设备520、用户接口输入设备522和网络接口子系统516。输入设备和输出设备允许用户与计算机系统510交互。网络接口子系统516提供到外部网络的接口并且耦接到其他计算机系统中的对应接口设备。
[0055]
用户接口输入设备522可以包括键盘、诸如鼠标、轨迹球、触摸板或图形平板的指点设备、扫描仪、并入到显示器中的触摸屏、诸如语音辨识系统、麦克风和/或其他类型的输入设备的音频输入设备。一般而言,术语“输入设备”的使用旨在包括用于将信息输入到计算机系统510中或到通信网络上的所有可能类型的设备和方式。
[0056]
用户接口输出设备520可以包括显示子系统、打印机、传真机或诸如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(crt)、诸如液晶显示器(lcd)的平板设备、投影设备、或用于创建可见图像的某种其他机制。显示子系统也可以提供诸如经由音频输出设备的非视觉显示。一般而言,术语“输出设备”使用旨在包括用于从计算机系统510向用户或者向另一机器或计算机系统输出信息的所有可能类型的设备和方式。
[0057]
存储子系统524存储提供本文描述的一些或所有模块的功能的编程和数据构造。例如,存储子系统524可以包括用于执行方法400的选定方面和/或实现系统300、计算设备104、计算设备204、自动助理和/或本文讨论的任何其他应用、设备、装置和/或模块中的一者或多者的逻辑。
[0058]
这些软件模块通常由处理器514单独或与其他处理器相结合地运行。存储子系统524中使用的存储器525能够包括许多存储器,包括用于在程序运行期间存储指令和数据的主随机存取存储器(ram)530以及存储有固定指令的只读存储器(rom)532。文件存储子系统526能够为程序和数据文件提供持久存储,并且可以包括硬盘驱动器、软盘驱动器以及相关可移动介质、cd-rom驱动器、光驱或可移动介质盒。实现某些实现方式的功能的模块可以由文件存储子系统526存储在存储子系统524中,或者存储在处理器514可访问的其他机器中。
[0059]
总线子系统512提供用于让计算机系统510的各种组件和子系统按预期彼此通信的机制。尽管总线子系统512被示意性地示出为单条总线,但是总线子系统的替代实现方式可以使用多条总线。
[0060]
计算机系统510可以具有各种类型,包括工作站、服务器、计算集群、刀片服务器、服务器场、或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质,图5中描绘的计算机系统510的描述仅出于图示一些实现方式的目的旨在作为具体示例。计算机系统510的许多其他配置相比于图5中描绘的计算机系统可能具有更多或更少的组件。
[0061]
在本文描述的系统收集关于用户(或如本文常常提及的,“参与者”)的个人信息或者可以利用个人信息的情形下,可以给用户提供用于控制程序或特征是否收集用户信息(例如,关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前地理位置的信息)或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容的机会。同样,
某些数据可以在被存储或使用之前被以一种或多种方式处理,使得个人可识别信息被去除。例如,用户的身份可以被处理,使得对于该用户而言不能确定个人可识别信息,或者可以在获得地理位置信息的情况下使用户的地理位置一般化(诸如到城市、邮政编码或州级别),使得不能确定用户的特定地理位置。因此,用户可以控制信息如何关于用户被收集和/或使用。
[0062]
虽然已经在本文中描述和说明了若干实现方式,但是可以利用用于执行功能和/或获得结果和/或本文描述的一个或多个优点的各种其他手段和/或结构,并且此类变化和/或修改中的每一者被视为在本文描述的实现方式的范围内。更一般地,本文描述的所有参数、尺寸、材料和配置都意在为示例性的,并且实际参数、尺寸、材料和/或配置将取决于教导被用于的一个或多个具体应用。本领域的技术人员将认识到或者能够使用仅仅例行实验来探知本文描述的具体实现方式的许多等同物。因此,应当理解,上述实现方式仅通过示例呈现,并且在所附权利要求及其等同物的范围内,可以以其它方式而不是如具体地描述和要求保护的那样实践实现方式。本公开的实现方式针对本文描述的每个单独特征、系统、制品、材料、套件和/或方法。另外,两个或更多个此类特征、系统、制品、材料、套件和/或方法的任何组合在此类特征、系统、制品、材料、套件和/或方法不相互不一致的情况下,被包括在本公开的范围内。
[0063]
在一些实现方式中,由一个或多个处理器实现的方法被阐述为包括诸如确定助理操作与正在计算设备处运行的应用兼容的操作,其中,应用与经由计算设备可访问的自动助理分开。该方法能够进一步包括以下操作:基于助理操作与应用兼容,使可选图形用户界面(gui)元素被渲染在计算设备的显示界面处,其中,可选gui元素识别助理操作并且被渲染在计算设备的显示界面的前台中。该方法能够进一步包括以下操作:由自动助理检测用户经由计算设备的显示界面对可选gui元素的选择。该方法能够进一步包括以下操作:在对可选gui元素的选择之后,对音频数据执行语音辨识,所述音频数据捕获由用户提供并且在计算设备的音频接口处被接收的口头话语,其中,口头话语在不用显式地识别助理操作的情况下为助理操作的参数指定特定值。该方法能够进一步包括以下操作:响应于来自用户的口头话语,使自动助理基于助理操作和参数的特定值控制应用。
[0064]
在一些实现方式中,使可选gui元素被渲染在计算设备的显示界面处包括:生成利用可选gui元素渲染的内容,其中,内容包括:助理操作的文本标识符或图形表示,以及指示用户能够为参数指定值的占位符区域。在一些实现方式中,使可选gui元素被渲染在计算设备的显示界面处包括:使可选gui元素被渲染在应用的应用界面上方达阈值持续时间,其中,阈值持续时间基于用户与应用之间的交互量。在一些实现方式中,当用户在阈值持续时间之后提供口头话语并且不再在计算设备的显示界面处渲染可选gui元素时,自动助理对口头话语没有响应。
[0065]
在一些实现方式中,确定助理操作与正在计算设备处运行的应用兼容包括:确定正在被渲染在应用的应用界面处的附加可选gui元素对应于能够响应于初始化助理操作被运行的应用操作。在一些实现方式中,其中,确定助理操作与正在计算设备处运行的应用兼容包括:确定附加可选gui元素包括搜索图标或搜索字段,并且应用操作对应于搜索操作。在一些实现方式中,其中,使自动助理基于助理操作和参数的特定值控制应用包括:由自动助理使应用提供搜索结果,所述搜索结果是基于如从用户到自动助理的口头话语中指定的
参数的特定值。
[0066]
在其他实现方式中,由一个或多个处理器实现的方法被阐述为包括诸如确定用户已经向经由计算设备可访问的自动助理提供了第一口头话语,其中,第一口头话语包括要初始化与自动助理分开的应用的请求。该方法能够进一步包括以下操作:响应于第一口头话语,使应用初始化并且在计算设备的显示界面的前台中渲染应用界面,其中,应用界面包括识别能够经由自动助理控制的操作的内容。该方法能够进一步包括以下操作:基于操作经由自动助理可控制,使可选gui元素被渲染在应用的应用界面上方,其中,可选gui元素包括能够由自动助理控制的操作的文本标识符或图形表示。该方法能够进一步包括以下操作:确定用户已经向自动助理提供了第二口头话语,其中,第二口头话语识别能够由应用在操作的运行期间利用的参数,并且其中,第二口头话语不显式地识别操作。该方法能够进一步包括以下操作:响应于第二口头话语,使自动助理经由应用使用在第二口头话语中识别的参数来初始化操作的执行。
[0067]
在一些实现方式中,使可选gui元素被渲染在应用的应用界面上方包括:使文本标识符利用命令短语被渲染,所述命令短语包括识别操作的词项以及指示用户可识别参数被从命令短语中省略的空白空间。在一些实现方式中,该方法能够进一步包括以下操作:基于操作经由自动助理可控制,使得初始化计算设备的音频接口以用于从用户接收特定口头话语,其中,当音频接口被初始化时,用户能够在不用显式地识别自动助理的情况下提供用于控制自动助理的特定口头话语。在一些实现方式中,使可选gui元素被渲染在应用的应用界面上方包括:生成利用可选gui元素被呈现的内容,其中,内容包括助理操作的经由对计算设备的显示界面的触摸输入可选择的图形表示。
[0068]
在一些实现方式中,使可选gui元素被渲染在应用的应用界面处包括:使可选gui元素被渲染在应用的应用界面上方达阈值持续时间,其中,阈值持续时间是基于自可选gui元素被渲染在应用界面上方以来用户与自动助理之间的交互量。在一些实现方式中,当用户在不再在应用界面上方渲染可选gui元素之后提供了附加口头话语时,自动助理对附加口头话语没有响应。在一些实现方式中,该方法能够进一步包括以下操作:基于操作经由自动助理可控制,使计算设备的音频接口被初始化以用于检测识别操作的一个或多个参数的另一口头话语。
[0069]
在仍然其他的实现方式中,由一个或多个处理器实现的方法被阐述为包括诸如确定助理操作与正在计算设备处运行的应用兼容的操作,其中,应用与经由计算设备可访问的自动助理分开。该方法能够进一步包括以下操作:基于助理操作与应用兼容,使可选图形用户界面(gui)元素被渲染在计算设备的显示界面处,其中,可选gui元素识别助理操作并且被渲染在计算设备的显示界面的前台中。该方法能够进一步包括以下操作:当可选gui元素正在被渲染在计算设备的显示界面处时,确定用户已经提供了针对自动助理的口头话语,其中,该口头话语在不用显式地识别助理操作的情况下为助理操作的参数指定特定值。该方法能够进一步包括以下操作:响应于来自用户的口头话语,使自动助理基于助理操作和参数的特定值控制应用。
[0070]
在一些实现方式中,使可选gui元素被渲染在计算设备的显示界面处包括:生成利用可选gui元素渲染的内容,其中,内容包括基于助理操作选择的并且经由对计算设备的显示界面的触摸输入可选择的图标。在一些实现方式中,使可选gui元素被渲染在计算设备的
显示界面处包括:生成利用可选gui元素渲染的内容,其中,内容包括表征省略助理操作的一个或多个参数值的部分命令短语的自然语言内容。在一些实现方式中,确定助理操作与正在计算设备处运行的应用兼容包括:确定正在由应用渲染的附加可选gui元素控制能够由自动助理初始化的应用操作。在一些实现方式中,使自动助理基于助理操作和参数的特定值控制应用包括:使应用渲染由应用基于参数的特定值而生成的另一应用界面。在一些实现方式中,使可选gui元素被渲染在计算设备的显示界面处包括:使可选gui元素与应用渲染应用的一个或多个应用gui元素同时被渲染。
技术特征:
1.一种由一个或多个处理器实现的方法,所述方法包括:确定助理操作与正在计算设备处运行的应用兼容,其中,所述应用与经由所述计算设备可访问的自动助理分开;基于所述助理操作与所述应用兼容,使可选图形用户界面gui元素被渲染在所述计算设备的显示界面处,其中,所述可选gui元素识别所述助理操作并且被渲染在所述计算设备的所述显示界面的前台中;由所述自动助理检测用户经由所述计算设备的所述显示界面对所述可选gui元素的选择;在对所述可选gui元素的选择之后,对音频数据执行语音辨识,所述音频数据捕获由所述用户提供并且在所述计算设备的音频接口处接收的口头话语,其中,所述口头话语在不显式地识别所述助理操作的情况下指定所述助理操作的参数的特定值;以及响应于来自所述用户的所述口头话语,使所述自动助理基于所述助理操作和所述参数的特定值控制所述应用。2.根据权利要求1所述的方法,其中,使所述可选gui元素被渲染在所述计算设备的所述显示界面处包括:生成利用所述可选gui元素渲染的内容,其中,所述内容包括:所述助理操作的文本标识符或图形表示以及指示所述用户能够指定所述参数的值的占位符区域。3.根据权利要求1或权利要求2所述的方法,其中,使所述可选gui元素被渲染在所述计算设备的所述显示界面处包括:使所述可选gui元素被渲染在所述应用的应用界面上方达阈值持续时间,其中,所述阈值持续时间是基于所述用户与所述应用之间的交互量。4.根据权利要求3所述的方法,其中,当所述用户在所述阈值持续时间之后提供所述口头话语并且不再在所述计算设备的所述显示界面处渲染所述可选gui元素时,所述自动助理对所述口头话语没有响应。5.根据前述权利要求中任一项所述的方法,其中,确定所述助理操作与正在所述计算设备处运行的所述应用兼容包括:确定正在被渲染在所述应用的应用界面处的附加可选gui元素对应于能够响应于初始化所述助理操作而运行的应用操作。6.根据权利要求5所述的方法,其中,确定所述助理操作与正在所述计算设备处运行的所述应用兼容包括:确定所述附加可选gui元素包括搜索图标或搜索字段,并且所述应用操作对应于搜索操作。7.根据权利要求6所述的方法,其中,使所述自动助理基于所述助理操作和所述参数的特定值控制所述应用包括:由所述自动助理使所述应用提供搜索结果,所述搜索结果是基于如从所述用户对所述自动助理的所述口头话语中指定的所述参数的特定值。
8.一种由一个或多个处理器实现的方法,所述方法包括:确定用户已经向经由计算设备可访问的自动助理提供了第一口头话语,其中,所述第一口头话语包括要初始化与所述自动助理分开的应用的请求;响应于所述第一口头话语,使所述应用初始化并且在所述计算设备的显示界面的前台中渲染应用界面,其中,所述应用界面包括识别能够经由所述自动助理控制的操作的内容;基于所述操作经由所述自动助理可控制,使可选gui元素被渲染在所述应用的所述应用界面上方,其中,所述可选gui元素包括能够由所述自动助理控制的所述操作的文本标识符或图形表示;确定所述用户已经向所述自动助理提供了第二口头话语,其中,所述第二口头话语识别能够由所述应用在所述操作的运行期间利用的参数,并且其中,所述第二口头话语不显式地识别所述操作;以及响应于所述第二口头话语,使所述自动助理经由所述应用使用在所述第二口头话语中识别的所述参数来初始化所述操作的执行。9.根据权利要求8所述的方法,其中,使所述可选gui元素被渲染在所述应用的所述应用界面上方包括:使所述文本标识符利用命令短语被渲染,所述命令短语包括识别所述操作的词项以及指示用户可识别参数被从所述命令短语中省略的空白空间。10.根据权利要求8或权利要求9所述的方法,进一步包括:基于所述操作经由所述自动助理可控制,使初始化所述计算设备的音频接口以用于从所述用户接收特定口头话语,其中,当所述音频接口被初始化时,所述用户能够提供所述特定口头话语以用于在不显式地识别所述自动助理的情况下控制所述自动助理。11.根据权利要求8至10中的任一项所述的方法,其中,使所述可选gui元素被渲染在所述应用的所述应用界面上方包括:生成利用所述可选gui元素渲染的内容,其中,所述内容包括所述助理操作的经由对所述计算设备的所述显示界面的触摸输入可选择的所述图形表示。12.根据权利要求8至11中的任一项所述的方法,其中,使所述可选gui元素被渲染在所述应用的应用界面上方包括:使所述可选gui元素被渲染在所述应用的所述应用界面上方达阈值持续时间,其中,所述阈值持续时间基于自所述可选gui元素被渲染在所述应用界面上方以来所述用户与所述自动助理之间的交互量。13.根据权利要求12所述的方法,其中,当所述用户在不再在所述应用界面上方渲染所述可选gui元素之后提供附加口头话语时,所述自动助理对所述附加口头话语没有响应。14.根据权利要求8所述的方法,进一步包括:基于所述操作经由所述自动助理可控制,使所述计算设备的音频接口被初始化以用于
检测识别用于所述操作的一个或多个参数的另一口头话语。15.一种由一个或多个处理器实现的方法,所述方法包括:确定助理操作与正在计算设备处运行的应用兼容,其中,所述应用与经由所述计算设备可访问的自动助理分开;基于所述助理操作与所述应用兼容,使可选图形用户界面gui元素被渲染在所述计算设备的显示界面处,其中,所述可选gui元素识别所述助理操作并且被渲染在所述计算设备的所述显示界面的前台中;当所述可选gui元素正在被渲染在所述计算设备的所述显示界面处时,确定用户已经提供了针对所述自动助理的口头话语,其中,所述口头话语在不显式地识别所述助理操作的情况下指定所述助理操作的参数的特定值;以及响应于来自所述用户的所述口头话语,使所述自动助理基于所述助理操作和所述参数的特定值控制所述应用。16.根据权利要求15所述的方法,其中,使所述可选gui元素被渲染在所述计算设备的所述显示界面处包括:生成利用所述可选gui元素渲染的内容,其中,所述内容包括基于所述助理操作选择的并且经由对所述计算设备的所述显示界面的触摸输入可选择的图标。17.根据权利要求15所述的方法,其中,使所述可选gui元素被渲染在所述计算设备的所述显示界面处包括:生成利用所述可选gui元素渲染的内容,其中,所述内容包括表征省略所述助理操作的一个或多个参数值的部分命令短语的自然语言内容。18.根据权利要求15至17中的任一项所述的方法,其中,确定所述助理操作与正在所述计算设备处运行的所述应用兼容包括:确定正在由所述应用渲染的附加可选gui元素控制能够由所述自动助理初始化的应用操作。19.根据权利要求15至18中的任一项所述的方法,其中,使所述自动助理基于所述助理操作和所述参数的特定值控制所述应用包括:使所述应用渲染由所述应用基于所述参数的特定值而生成的另一应用界面。20.根据权利要求15至19中的任一项所述的方法,其中,使所述可选gui元素被渲染在所述计算设备的显示界面处包括:使与所述应用渲染所述应用的一个或多个应用gui元素同时地渲染所述可选gui元素。21.一种包括指令的计算机程序,所述指令当由计算系统的一个或多个处理器运行时使所述计算系统执行根据前述权利要求中任一项所述的方法。22.一种计算设备,所述计算设备被配置成执行根据权利要求1至20中的任一项所述的方法。
技术总结
本文阐述的实现方式涉及一种自动助理,该自动助理能够在用户正在访问经由该自动助理可控制的第三方应用时提供可选动作意图建议。用户能够在不使用例如调用短语(例如,“Assistant...”)显式地调用自动助理的情况下初始化动作意图。相反,用户能够通过识别一个或多个动作参数来初始化对应动作的执行。在一些实现方式中,可选建议能够指示麦克风是活动的以便用户提供识别参数的口头话语。当响应于来自用户的口头话语来初始化动作意图时,自动助理能够根据动作意图和任何识别的参数来控制第三方应用。制第三方应用。制第三方应用。
技术研发人员:约瑟夫
受保护的技术使用者:谷歌有限责任公司
技术研发日:2021.12.15
技术公布日:2023/9/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:听诊声音的解析系统的制作方法 下一篇:恢复图像特征的制作方法