用于空中交通管制音频的语义解析的系统和/或方法与流程
未命名
07-23
阅读:77
评论:0

用于空中交通管制音频的语义解析的系统和/或方法
1.相关申请的交叉引用
2.本技术要求于2020年10月13日提交的第63/090,898号美国临时申请的权益,该美国临时申请通过本引用以其整体并入本文。
技术领域
3.本发明总体上涉及航空领域,并且更具体地涉及航空领域中的新的和有用的语义解析器。
4.附图简述
5.图1是系统的变型的示意表示。
6.图2是方法的变型的图解表示。
7.图3是方法的变型的图解表示。
8.图4是在该方法的变型中训练asr模型的示例的图解表示。
9.图5是在该方法的变型中训练语言模型的示例的图解表示。
10.图6是在该方法的变型中训练问题/答案模型的示例的图解表示。
11.图7是系统的示例的示意表示。
12.图8是在该方法的变型中领域专家评估工具的示例的图形表示。
13.图9是该方法的变型的图解表示。
14.图10a-图10d分别是该系统的第一、第二、第三和第四变型的图解表示。
15.图11a-图11c分别是基于树的查询结构的第一、第二和第三示例。
16.图12是系统和/或方法的变型的图解表示。
17.优选实施例的描述
18.本发明的优选实施例的以下描述并不意欲将本发明限制到这些优选实施例,而是意欲使本领域中的任何技术人员能够制造并使用本发明。
19.1.综述
20.该方法(图2中示出了该方法的示例)可以包括使用系统执行推断s200;并且可以可选地包括训练系统部件s100。该方法用于自动解释来自空中交通管制(atc)无线电通信流的飞行命令。该方法可以附加地或替代地用于基于atc通信来训练和/或更新自然语言处理系统。
21.执行推断s200可以包括:在航空器处,从空中交通管制接收音频话语s210,将音频话语转换成预定的格式s215,使用问题和答案模型确定命令s240,以及可选地基于命令管制航空器s250(图3中示出的示例)。该方法用于自动解释来自空中交通管制(atc)流的飞行命令。飞行命令可以是:自动用于控制航空器飞行;呈现给用户(例如,飞行员、远程遥控机械手);响应于用户(例如,飞行员)确认而中继到自动驾驶系统(auto-pilot system);和/或以其他方式使用。
22.在说明性示例中,该方法可以接收atc音频流,将atc音频流转换为atc文本,并将atc文本(作为参考文本)和预定的查询集合(每个查询与不同的飞行命令参数相关联)提供
给atc调节的问题和答案模型(例如atc调节的bert),该atc调节的问题和答案模型分析atc文本以获得查询答案。查询答案(例如,问题和答案模型的响应)然后可以用于选择后续查询和/或填写命令参数值,该命令参数值可以用于直接或间接航空器管制。可以使用atc调节的集成语句边界检测和自动语音识别模型(sbd/asr模型)和atc调节的语言模型将atc音频流转换成atc文本,其中可以基于来自sbd/asr模型和语言模型的联合分数来选择话语假设(例如,语句假设、单独的说话者的话语等)以包括在atc文本中。
23.s200可以使用包括语音到文本模块以及问题和答案(q/a)模块(例如,协作地形成语义解析器)的系统100来执行。该系统用于将音频空中交通管制(atc)音频解释为飞行命令,并且可以可选地基于飞行命令集合来管制航空器。
24.系统100优选地安装到任何合适的运载工具(vehicle)(例如,系统可以包括运载工具)、安装在任何合适的运载工具(例如,系统可以包括运载工具)上、集成到任何合适的运载工具(例如,系统可以包括运载工具)中和/或配置成与任何合适的运载工具(例如,系统可以包括运载工具)一起操作。优选地,运载工具是航空器,但是可以可替代地是船只、陆基运载工具、航天器和/或任何其他合适的运载工具。该系统可以与任何合适的航空器集成,该航空器例如为旋翼机(例如直升机、多旋翼直升机)、固定翼航空器(例如飞机)、vtol、stol、轻于空气的航空器、多旋翼直升机和/或任何其他合适的航空器。然而,运载工具可以是自主(autonomous)航空器、无人驾驶航空器(uav)、有人驾驶航空器(例如,由飞行员、由不熟练的操作员执行主要航空器管制)、半自主航空器和/或任何其他合适的航空器。在下文中,术语“运载工具”可以指任何合适的航空器,而术语“航空器”同样可以指任何其他合适的运载工具。
25.该系统优选地装备在自主航空器上,该自主航空器被配置成在没有用户(例如,飞行员)干预的情况下使用飞行处理系统根据飞行命令集合来管制航空器。可替代地,该系统可以装备在半自主运载工具和/或人类操作的运载工具上作为飞行辅助设备。在第一变型中,系统可以响应于用户(例如,飞行员)的确认而向用户(例如,飞行员)显示atc命令和/或向自动驾驶系统中继atc命令。
26.如关于神经网络、语言模型或其它方面引用的术语“调节(tune)”可以理解为涉及使用训练数据调节(例如,调整)模型参数。因此,atc调节的网络可以理解为具有基于atc音频和/或atc特定语义训练数据调节的参数(与专用于特定射频频带的网络相反)。
27.2.益处
28.该技术的变型可以提供几个益处和/或优点。
29.首先,系统和方法的变型可以通过利用多查询(或重复的问题和答案)方法(例如通过神经网络(例如,bert))赋予比传统系统更高的语义解析准确度,因为现有的深度神经网络模型在响应这些类型的问题时具有高的固有准确度。
30.第二,利用多查询方法的该技术的变型可以提高语义解析器的可解释性和/或可审核性,该多查询方法询问神经网络的自然语言问题(例如,“预期针对dal 456的消息?”;“主题?”;“航向值(heading values)?”;等等)。在这样的变型中,当用户拒绝命令时,系统的特定模块/模型/查询可以被识别为故障点,这可以用于进一步训练/改进系统。在一些变型中,多查询方法可以附加地使得语义解析器的部分能够基于部分和/或不完整的标记响应(例如,其可以足以回答用于从atc抄本提取命令的查询的子集)来训练。例如,当在训练
数据集中没有识别和/或验证值和/或航空器尾号时,可以使用训练数据。
31.第三,这种技术的变型可以在不使用语法规则或句法的情况下实现atc话语的语义解析——这可能需要花费大量时间来开发,执行缓慢,并且产生不准确的结果(特别是在处理边缘情况场景或不寻常的语音模式时)。在示例中:当atc和航空器之间的对话继续进行时,atc管制员和飞行员经常缩短短语和/或偏离标准语音模板,这可能严重影响基于语法/句法的nlp方法的效用。在变型中,该系统和/或方法可以将未格式化的音频、句法上不一致(非标准化)的音频和/或非统一的音频数据或对应的atc抄本转换成标准化/格式化的数据输入(例如,如可以由认证的航空器处理器接受/解释)。在变型中,标准化的输入可以用于以确定性可测试的方式认证航空器系统。例如,该技术可以用于将任意大量的音频信号转换成基本上有限的命令集合(例如,具有对应于预定的航空器命令参数集合的有界范围的值,其可以被确定性地测试和/或可重复地演示)。
32.第四,这种技术的变型可以包括必须植根于计算机技术的方法,用于克服在计算机网络领域中具体出现的问题。在示例中,该技术可以自动将音频转化成计算机可读格式,该计算机可读格式可以由航空器处理器解释。在示例中,该技术可基于与atc操作员的通信实现对部分和/或完全自主系统的管制。在这样的示例中,系统/方法可以代替丧失能力的飞行员(例如,对于有人驾驶的航空器)和/或替换机载飞行员(例如,对于无人驾驶的航空器)来起作用。
33.第五,该技术的变型可以通过利用在其他数据集上预训练、然后根据atc特定的语义进行调节的神经网络模型(例如,预训练的模型)来实现空中交通管制(atc)话语的高速和/或高准确度的自然语言处理(nlp)。这些atc调节的模型可以在有噪声、多说话者atc信道的情况下提高系统的速度/准确度。这些atc调节的模型还可以保留对预先存在的模型的广泛的“常识”理解,并避免使系统过度偏向传统的atc语言,从而使系统能够有效地响应atc通信中不经常出现的边缘情况场景或语音模式。
34.然而,该技术的变型可以附加地或可替代地提供任何其他合适的益处和/或优点。
35.3.系统
36.系统100(图1中示出了该系统100的示例)可以包括:语音到文本模块120以及问题和答案(q/a)模块130(例如,协作地“语义解析器”)。该系统可以可选地包括通信子系统110和飞行处理系统140。然而,系统100可以附加地或可替代地包括任何其他合适的部件集合。系统100用于根据音频输入102(例如,接收的atc无线电传输)确定飞行命令106,该音频输入102可以用于运载工具引导、导航和/或管制。
37.音频输入102可以包括单一话语(例如,语句)、多个话语(例如,在预定窗口上(例如30秒),在连续音频流内,在滚动窗口上)、静默周期、连续音频流(例如,在特定无线电信道上,例如基于当前航空器位置或专用atc通信信道)、和/或任何其他合适的音频输入。在第一示例中,音频输入可以作为连续流来提供。在第二示例中,可以本地存储连续atc射频流,并且可以从该连续射频流中分析特定持续时间的滚动窗口(例如,最后30秒、基于先前话语检测确定大小的动态窗口等)。
38.音频输入优选地是数字信号的形式(例如,通过a/d转换器和/或无线通信芯片组的无线电传输),然而可以是任何合适的数据格式。在特定示例中,音频输入是来自atc站的数字格式的无线电流。在变型中,该系统可以直接接收来自atc塔台的无线电通信,并将通
信转化成可以由飞行处理系统解释的命令。在第一“人机回圈(human in the loop)”示例中,用户(例如,机长(pilot in command)、无技能要求的操作员、远程仲裁者(remote moderator)等)可以在命令被发送到飞行处理系统和/或由飞行处理系统执行之前确认和/或验证命令。在第二“自主”示例中,命令可以被发送到飞行处理系统和/或由飞行处理系统执行,而无需人类的直接参与。然而,系统100可以以其它方式根据音频输入适当地确定命令。
39.系统100优选地安装到任何合适的运载工具(例如,系统可以包括运载工具)、安装在任何合适的运载工具上、集成到任何合适的运载工具中和/或配置成与任何合适的运载工具一起操作。系统100优选地特定于运载工具(例如,针对运载工具专门训练模块,在特定于运载工具的数据集上训练模块),但是可以是跨多个运载工具通用的。运载工具优选地是航空器(例如,货机、自主航空器、客机、手动驾驶航空器、有人驾驶航空器、无人驾驶航空器等),但是可以可替代地是船只、陆基运载工具、航天器和/或任何其他合适的运载工具。在具体示例中,航空器可以包括恰好一个飞行员/pic,其中该系统可以在唯一飞行员/pic丧失能力的情况下用作备用或故障保护(例如,自主副驾驶,实现远程验证航空器管制等)。
40.系统100可以包括任何合适的数据处理器和/或处理模块。用于各种系统和/或方法元素的数据处理优选地在航空器上本地发生,但是可以附加地或可替代地分布在远程处理系统之间(例如,用于主要和/或冗余处理操作)(例如在远程验证站点、在atc数据中心、在云计算系统上和/或在任何其他合适的位置)。针对语音到文本模块和q/a模块的数据处理可以是集中式的或分布式的。在特定示例中,针对语音到文本模块和q/a模块的数据处理可以发生在与飞行处理系统分离的处理系统处(例如,不由fms或fcs处理系统执行;语音到文本模块和q/a模块可以与fms/fcs处理解耦;图12中示出了示例),但是可以附加地或可替代地发生在相同的计算节点处和/或在相同的(认证的)航空器系统内。数据处理可以在冗余端点(例如,冗余机载/航空器端点)处执行,或者对于系统/方法的各种实例可以是单一的。在第一变型中,系统可以包括第一自然语言处理(nlp)系统,该第一自然语言处理(nlp)系统包括语音到文本模块和q/a模块,该语音到文本模块和q/a模块可以与第二飞行处理系统一起使用,该第二飞行处理系统包括飞行处理系统和/或通信系统(例如,atc无线电)。在第二变型中,航空器可以包括用于所有运行时/推断处理操作的统一“机载”处理系统。在第三变型中,远程(例如,云)处理可用于语音到文本操作和/或q/a响应生成。然而,系统100可以包括任何其他合适的数据处理系统/操作。
41.系统100可以可选地包括通信子系统,该通信子系统用于将atc通信(例如,无线电信号)转换成可以由asr模块处理的音频输入。附加地或可替代地,通信子系统可以被配置成向atc传送响应。通信子系统可以包括天线、无线电接收器(例如,atc无线电接收器)、无线电发射器、a/d转换器、滤波器、放大器、混频器、调制器/解调器、检测器、无线(射频)通信芯片组和/或任何其他合适的部件。通信子系统包括:atc无线电设备、蜂窝通信设备、vhf/uhf无线电设备和/或任何其他合适的通信设备。在特定示例中,通信子系统被配置为执行s210。然而,通信子系统可以包括任何其他合适的部件,和/或以其他方式适当地建立与空中交通管制(atc)的通信。
42.系统100的语音到文本模块用于将音频输入(例如,atc无线电信号)转换成诸如文本(例如,atc抄本)和/或字母数字字符形式的话语假设104。话语假设优选地是文本流(例
如,动态抄本),但可以可替代地可以是文本文档(例如,静态抄本)、字母数字字符串(例如,ascii字符)或具有任何其他合适的人类可读和/或机器可读格式。语音到文本模块优选地在航空器上,但是可以附加地或可替代地是远程的。语音到文本模块优选地是atc调节的语音到文本模块,其包括在atc音频数据上预训练的一个或更多个模型,但是可以附加地或可替代地包括一个或更多个通用模型/网络和/或在广义训练数据(例如,不与atc通信相关联的自然语言话语)上预训练的模型/网络。
43.语音到文本模块可以包括:集成的自动语音识别(asr)模块122、语句边界检测(sbd)模块124、语言模块126和/或其他模块和/或其组合。在特定示例中,语音到文本模块可以包括集成的asr/sbd模块125。语音到文本模块(和/或其子模块)可以包括神经网络(例如,dnn、cnn、rnn等)、神经网络的级联、组合网络、贝叶斯网络、马尔可夫链(markov chain)、预定的规则、概率分布、基于注意力的模型、启发式算法、概率图形模型或其他模型。语音到文本模块(和/或其子模块)可以是预训练模型的调节版本(例如,使用不同的训练数据针对另一领域或用例进行预训练),是先前未训练模型的训练版本,和/或以其他方式构造。
44.在变型中,语音到文本模块(例如,asr模块和/或sbd模块)的子模块可以摄取音频输入(例如,音频流、音频剪辑)并生成语言假设集合(例如,加权或未加权),其可以用作中间数据格式,例如可以用于审核语音到文本模块、审核其中的子模块/模型和/或选择单一话语假设。该语言假设集合可以包括针对音频片段的重叠/可替代的假设,或者可以是单一的(例如,针对单独的音频片段或时间段的单个假设)。该语言假设集合可以包括:话语假设(例如,话语假设候选者)、字母、分词(word-segment)流、音素、单词、语句片段(例如,文本格式)、单词序列(例如,短语)、语句、说话者变化、话语中断(例如,开始、停止等)和/或任何其他合适的假设。在音频流包括多个说话者/话语的变型中,语言假设集合可以附加地包括话语边界假设,该话语边界假设可以区分多个说话者和/或识别话语的开始和终止,具有相关联的权重和/或说话者假设(例如,识别特定说话者的标签,识别特定航空器/塔台的标签)。附加地或可替代地,话语边界假设可以识别说话者中的话语边界和/或变化,而不识别单独的说话者。每个语言假设优选地包括与话语(和/或话语边界)相关联的相关权重/分数,该相关权重/分数根据相对置信度(例如,统计的;例如使用asr模型、sbd模型和/或语言模型确定的;等等)来分配。语言假设的集合优选地是与接收时间相关联地排序的、顺序的和/或有时间戳的,但是可以以其他方式适当地相关。
45.然而,语音到文本模块可以生成、存储和/或输出任何其他合适的假设集合。例如,语言假设可以包括多个话语假设,其中可以基于所生成集合的话语假设的集合来选择单个话语假设。作为第二示例,具有相应权重/分数的语言假设的子集(例如,完整的集合)可以由语音到文本模块输出。
46.语音到文本模块可以包括asr模块,该asr模块用于从音频输入中提取语言假设。使用音频输入,asr模块可以确定语言假设的序列,例如:字母、分词流、音素、单词、语句片段(例如,文本格式)、单词序列(例如,短语)、语句和/或任何其他合适的语言假设(例如,具有相应的权重)。asr模块优选地是神经网络(例如,wav2letter、kaldi、botium等),但是可以可替代地是任何其他合适的模型。在示例中,预训练的神经网络可以针对atc音频来调节和/或使用atc音频(例如,具有相关联的抄本)来训练。在第二示例中,asr模块可以包括由
s110和/或s120训练的asr模型。在特定示例中,asr模块被配置为执行该方法的s220。asr模块可以可选地包括集成的sbd模块。在asr模块输出低级别语言成分(例如,音素、语音等)的变型中,系统可以可选地包括辅助变换模块(例如,音素到单词的变换),其将低级别语言成分转换为与语言模块和/或其他系统模块兼容的语言成分。
47.语音到文本模块可以包括sbd模块,该sbd模块用于识别多话语音频输入的话语边界和/或说话者变化。使用音频输入,sbd模块可以确定语言假设的序列,例如:话语边界假设、说话者假设(例如,识别特定说话者的标签、识别特定航空器/塔台的标签)和/或任何其他合适的假设。sbd模块优选地与asr模块集成(图10a中示出了示例),但是可以以其它方式与asr模块分离,例如与asr模块顺序地操作(例如,将单个话语输入传递到asr模块中,标记asr模块的输出等;在图10c-图10d中示出了示例)或者与asr模块并行地操作(例如,通过时间戳等方式单独提供说话者变化和/或话语边界注释;图10b中示出了示例)。sbd模块优选地是神经网络(例如,wav2letter、kaldi、botium等),但是可以可替代地是任何其他合适的模型。在示例中,预训练的sbd神经网络可以针对atc音频进行调节和/或使用atc音频(例如,具有相关联的抄本)进行训练。在第二示例中,sbd神经网络可以与asr模块分开训练(例如,使用不同的训练集合、使用包括无线电静默和/或音频伪影(audio artifact)的周期的训练集合等)。在第三示例中,sbd模型可以针对atc音频进行调节和/或使用atc音频进行训练,例如训练以识别静默说话者和/或话语边界字符(例如,过渡说话者、过渡音频伪影)。然而,语音到文本模块可以包括任何其他合适的sbd模块。
48.语音到文本模块的语言模块用于基于语言假设的集合选择话语假设,然后可以将其传递到q/a模块中。语言模块从asr模块接收语言假设的集合(例如,音素、单词、语句子集等)并返回与单个话语相关联的话语假设(例如,语句、一系列语言假设等)。语言模块优选地仅仅从语言假设确定话语假设,但是可以可替代地或附加地摄取音频输入和/或其他辅助数据。辅助数据可以包括:航空器id、上下文信息(例如,运载工具状态、地理位置、atc管制塔台id和/或位置等)、天气数据和/或任何其他合适的信息。话语假设优选地是文本(例如,文本串或话语抄本),但是可以可替代地是音素索引的集合、音频或任何合适的数据格式。
49.语言模块优选地通过在整个话语和/或atc语言模式的上下文中加权各种“基于声音的”语言解释的可能性来从语言假设集合中选择话语假设。在第一变型中,语言模块使用针对atc语言调节的神经网络语言模型(例如,lstm网络、cnn、fairseq convlm等)(例如,使用atc抄本等训练的神经网络;例如,根据s140训练的语言模型)将语言权重/分数分配给每个话语假设。在第二变型中,语言模块根据基于语法的语言模型(例如,根据启发式算法、语法规则等的集合)分配语言权重/分数。在第三变型中,语言模块可以与asr模块紧密集成。在示例中,可以在搜索期间、在第一趟次(pass)期间和/或重新排序期间使用语言模型。然而,语言模块可以以任何其他合适的方式分配权重/分数。在特定示例中,语言模块被配置为执行方法的s230。
50.在示例中,语音到文本模块将atc音频流变换成提供给q/a模块的自然语言文本抄本,保留如由atc说话者传达的句法(例如,任意的、不一致的、非统一的句法)。
51.可替代地,语音到文本模块可以包括神经网络,该神经网络被训练(例如,使用用音频抄本标记的音频数据)以基于音频输入输出话语假设(例如,由话语边界分离的一个或
更多个系列的语言成分)。然而,语音到文本模块可以包括:仅自动语音识别模块、仅语言模块和/或以其他方式构造。
52.然而,该系统可以包括任何其他合适的语音到文本模块。
53.系统100可以包括问题和答案(q/a)模块(图7中示出的示例),该模块用于使用飞行命令查询的集合从所选择的假设(例如,文本抄本)确定命令的集合。q/a模块优选地从语音到文本模块接收文本形式的话语假设,但是可以可替代地接收音频和/或任何其他合适的输入。
54.q/a模块优选地包括一个或更多个q/a模型(例如,bert、根据atc应用进行调节的bert等),但是可以附加地或可替代地包括分类器或其他模型。q/a模型优选地是针对atc抄本调节的预训练的语言模型,但可以是未训练的或具有另一种格式。q/a模型可以是:卷积神经网络、(预训练的)大型神经语言模型、来自变换器的双向编码器表示(bert)、生成式预训练变换器(gpt)和/或任何其他合适的语言模型。然而,q/a模块可以包括任何其他合适的神经语言模型。
55.q/a模块优选地回答飞行命令查询的集合(例如,自然语言查询)。飞行命令查询优选地是预定的(例如,手动确定、从命令模板提取等),但是可以动态地确定。飞行命令查询优选地是人类可读格式的语义查询,但是可以附加地或可替代地以机器可读格式提供。命令查询优选地是自然语言(“阅读理解”),但是可以可替代地是向量、张量和/或具有另一种格式。飞行命令查询的集合优选地以分层结构(例如,具有父子查询关系)来组织,但是可以可替代地以串行结构来组织,或者以其他方式来组织。飞行命令查询可以以列表、树来组织或以其他方式组织。在变型中,飞行命令查询可以被提供为链式节点的序列/系列(在图11a-图11c中示出了示例),每个节点对应于预定查询,其中节点包括独立节点的集合和从属节点的集合,每个从属节点链接到更广泛/更高级别的父语义查询(例如,其中查询具有有限的答案集合或封闭的答案范围)的特定答案/响应(例如,特定答案值)。因此,可以响应于在更高级别的链接节点处确定预定答案而触发相关查询。可替代地,预定飞行命令查询的集合可以以串联和/或并行的任何合适组合/排列同步地或异步地提供。
56.命令查询可以被配置为具有二元答案(例如,“是”、“否”)、离散答案(例如,字母、整数等)、连续答案(例如,坐标值等)和/或任何其他合适类型的答案值。不同类型的命令可以具有不同的查询结构。例如,高关键度查询(例如航空器标识符)可以被构造为二元查询。在另一个示例中,具有多个潜在答案的属性可以被构造为开放式问题(例如,“主题?”)而不是二元问题(例如,“话语包括航向么?”、“话语包括海拔?”)。然而,可以以其他方式构造查询。命令查询的示例包括:航空器是否是话语假设的预期接收者,什么或是否命令参数或主题(例如,航向、海拔等)被包括在话语假设中,什么或是否命令参数值(例如,海拔方向、海拔水平等)被包括在话语假设中,和/或其他查询。在第一示例中,q/a模块确定该话语是预期针对航空器的(例如,问题:“是否旨在针对dal 456?”;答案:“是”)。在第二示例中,q/a模块确定话语的主题(例如,问题:
[0057]“主题?”;答案:“航向、海拔”)。在第三示例中,q/a确定与话语的主题相关联的值(例如,问题:“海拔值?”;答案:方向:向下,水平:2000”)。在示例中,q/a模块可以被配置为执行s240。
[0058]
基于查询,q/a模块输出飞行命令的集合,飞行命令的集合可以包括引导命令(例
如,导航指令;航路点序列、接近着陆点等)、运载工具状态命令(例如,修改运载工具状态参数、将海拔增加到5000英尺等的指令)、效应器状态命令(例如,效应器指令;展开(deploy)起落架等)、飞行路径命令(例如,航路点之间的轨迹等)和/或任何其他合适的命令。命令优选地基于由q/a模块生成的答案以规定的格式输出,该规定的格式例如为标准化的人类可读格式(例如,允许人类验证)和/或机器可读格式(例如,允许人类对命令进行解释/验证)。在特定示例中,命令可以被提供为命令参数识别查询的答案和至少一个命令参数值查询的答案(例如,对应于命令参数识别查询的答案)的并集。在第二示例中,命令可以直接认作如由q/a模块生成的每个答案/响应的组合。输出命令优选地是基于文本的和/或字母数字的,但是可以以其他方式适当地提供(例如,文本到语音验证等)。在一些变型中,命令可以根据任何合适的启发式算法、语法规则或格式化协议进行后处理,但是可以以其他方式直接作为q/a模块的输出提供给飞行员和/或飞行处理系统。在特定示例中,q/a模块可以将话语假设转换成标准化数据格式的命令(例如,如可以由认证的航空器处理器接受/解释)。在变型中,命令可以包括对应于预定主题集合的基本上有限的命令参数集合(例如,海拔、航向等)。另外,命令参数可以在基本上有限和/或有界的范围内(例如,航向受限于罗盘方向,海拔受限于物理航空器约束,命令协作受限于飞行包线等)。然而,命令参数可以附加地或可替代地是任意的、无界的和/或基本上不受约束的。然而,q/a模块可以生成任何其他合适的命令。
[0059]
然而,该系统可以包括任何其他合适的q/a模块。
[0060]
系统100可以可选地包括飞行处理系统和/或与飞行处理系统一起使用,飞行处理系统用于根据命令管制航空器的各种效应器。飞行处理系统可以包括航空器飞行管理系统(fms)、飞行管制系统(fcs)、飞行引导/导航系统和/或任何其他合适的处理器和/或管制系统。飞行处理系统可以在运载工具的正常操作、起飞、着陆和/或持续飞行期间管制飞行效应器/致动器。可替代地,飞行处理系统可以被配置成在飞行辅助配置中实现传统的手动飞行管制。该系统可以包括单个飞行处理系统、多个(例如,三个)冗余飞行处理系统和/或任何其他合适数量的飞行处理系统。飞行处理系统可以位于航空器上,分布在航空器和远程系统之间,远离航空器,和/或以其他方式适当分布。在特定示例中,飞行处理系统被配置为执行s250。
[0061]
在变型中,飞行处理系统可以被配置(例如,认证)为仅接受预定的命令输入集合和/或具有预定格式的输入,其中q/a模型的输出以预定格式提供和/或是预定命令集合的子集。
[0062]
然而,该系统可以包括任何其他合适的部件和/或以其他方式被适当地配置为执行该方法的s200。
[0063]
4.方法
[0064]
方法(图2中示出了该方法的示例)可以可选地包括训练系统部件s100;以及使用系统s200执行推断。该方法用于自动解释来自空中交通管制(atc)无线电通信流的飞行命令。该方法可以附加地或可替代地用于基于atc通信来训练和/或更新自然语言处理系统。
[0065]
4.1训练
[0066]
训练系统部件s100(图9中示出的示例)用于生成能够将atc音频信号解释为飞行命令的atc调节的系统。s100可以包括训练语音到文本模型和训练问题和答案(q/a)模型
s150。s100可以可选地包括生成扩充的atc抄本s130。然而,训练语义解析器s100可以包括任何其他合适的元素。s100优选地离线和/或由远程计算系统执行,但是可以可替代地在航空器上(例如,本地、在飞行期间、与航空器飞行异步)执行。
[0067]
训练语音到文本模型用于生成特定于atc通信的抄本模型,考虑atc特定的语法、词典、语音模式和其他特性。训练语音到文本模型可以包括训练asr模型s110、训练sbd模型s120、训练语言模型s140和/或任何其他合适的元素。训练可以包括:调节网络权重、重新确定权重和/或以其他方式训练网络。训练(和/或推断)可以利用:基于梯度的方法(例如,随机梯度下降)、信念传播(belief propagation)(例如,和积消息传递;最大乘积消息传递等),和/或任何其他合适的训练方法。
[0068]
训练自动语音识别(asr)模块s110用于训练神经网络以识别atc通信中的自然语言。asr模型优选地从预先存在的asr模型(例如,wav2letter)中训练(例如,使用监督训练、半监督训练),并且可以通过向神经网络提供atc训练音频与对应的atc抄本和原始训练数据(例如,来自预先存在的模型)的混合(例如,50/50、60/40、70/30、预定混合、100/0等)来“调节”。在图4中示出了示例。具有抄本的atc训练音频优选地被手动确定(例如,由人类、由领域专家确定),但是可以被验证/审核atc通信音频/抄本(例如,从现有asr模型生成),和/或以其他方式确定。atc训练音频可以包括单个话语、多个话语、通过atc通信信道的无线电通信流和/或任何其他合适的训练音频。优选地,话语(例如,来自单独的说话者的陈述、语句等)单独地与作为训练数据的一部分的抄本相关联。然而,asr模型可以以其它方式被训练用于atc语音识别。
[0069]
训练语句边界检测(sbd)模块s120用于训练语音到文本模块以识别话语边界(例如,语句片段边界、语句边界)。s120可以可选地训练语音到文本模块以区分来自不同说话者/实体的独特的话语和/或话语。s120可以训练现有的asr模型(例如,如在s110中确定的,其生成集成的asr/sbd模型)或单独的模型以生成sbd模块。优选地,sbd模型可以使用时间长度级联音频和相关联的多话语训练抄本来训练,该时间长度级联音频包括一系列多话语和其间的静默周期(例如,不说话的周期)。用于训练sbd模型的atc音频和抄本可以与asr模型相同和/或不同于asr模型。
[0070]
多话语训练抄本优选地包括边界注释(例如,具有独特的边界字符或其他标识符;使用“/”或“%”字符;等等),其可以描绘独特的说话者、独特的话语、话语之间的中断、静默周期、音频伪影(例如,当atc说话者开始和/或开始广播时的“静噪(squelch)”)和/或任何其他适当的边界。边界注释优选地在抄本连接期间自动添加,但是可以手动插入、从音频确定和/或以其他方式添加。
[0071]
在特定的示例中,asr模型是通过在音频和/或抄本中分配独特的“静默说话者”和/或独特的“过渡说话者”来训练的,这在用于atc无线电通信的sbd中尤其有利,通常在话语前表现出特征性的无线电“静噪”声音。通过将这些音频片段分配给独特的“过渡说话者”(或“静噪说话者”),sbd模型可以更准确地区分背对背的话语(back-to-back utterance)(例如,具有最小的中间静默),这通常发生在嘈杂的atc无线电信道中。
[0072]
然而,sbd模型可以以其他方式进行训练。
[0073]
训练语言模型s140用于训练语言模型以区分atc语言模式。在变型中,语言模型可以确定抄本在上下文上是否正确/符合逻辑(例如,基于atc语法等句法上是否正确),确定
抄本的语言/句法分数,和/或以其他方式确定抄本是否有意义。优选地,s140调节预先存在的语言模型(例如,卷积神经网络、fairseq convlm等),但是可以交替地训练未训练的语言模型。现有的语言模型可以基于atc抄本来调节,atc抄本可以是单话语atc抄本、多话语atc抄本和/或边界注释的atc抄本(例如,诸如在s120中用于训练sbd模型的那些抄本),然而语言模型可以使用任何合适的atc抄本来训练。s140优选地不在atc音频上进行训练,但是可以可替代地在atc音频上进行训练。在变型中,可以使用实体标记的atc抄本来训练语言模型,该实体标记的atc抄本识别抄本中的atc特定实体。标记的实体可以包括:承运人(carrier)、航空器、航路点、机场、号码、方向和/或任何其他合适的实体。实体标记可以手动地、自动地(例如,无监督地)、利用半监督的hmm标记器(例如,使用领域专家评估工具等)和/或以任何其他合适的方式来分配。出现在抄本中的单个单词或短语可以根据其出现的上下文被分配给多个实体(即,实体标记词典可以包括发音和/或拼写基本相同的多个语音上和/或词典上冲突的实体)。在示例中,“southwest”可以被标记为(和/或传送)方向或承运人,这取决于其出现的上下文。类似地,在第二示例中,“delta”可以被标记为航空器名称(例如,dal 456=“delta alpha lima four five six”)、承运人的一部分,和/或未被标记(例如,指值或参数的变化),这取决于其出现的上下文。在第三示例中,“lima”可以是机场、航路点、航空器名称的一部分和/或以其他方式标记。在第四示例中,航路点可以发音基本相同(例如,“海洋”),同时根据它们出现的上下文对应于不同的航路点实体。然而,语言模型可以用任何其他合适的抄本和/或信息来训练。
[0074]
在变型中,为训练语言模型而提供的训练文本的一部分与用于最初训练预先存在的语言模型(例如,fairseq convlm)的训练文本的一部分相同。因此,语言模型可以通过向神经网络提供atc训练抄本和原始训练数据(例如,来自预先存在的模型)的混合(例如,50/50、60/40、70/30、预定的混合等)来“调节”。然而,语言模型可以针对atc语言模式以其它方式进行训练。
[0075]
s100可以可选地包括生成扩充的atc抄本s130(例如,合成抄本),其用于扩展可用于训练s140中的语言模型的atc训练抄本的数目/数量,其示例示于图5中。在变型中,这可能是有益的,以便提供特定于实体已知(例如,机场名称、航路点、承运人等)但atc抄本不可用的区域/区的训练抄本。附加地或可替代地,s130可以通过增加训练数据集的大小(例如,可用话语抄本的数量)来提高语言模型的准确度。s130优选地用来自atc实体词典的不同实体值替换标记实体的值(例如,在实体标记的atc抄本内的标记实体的值)。atc实体词典可以手动生成、由领域专家(例如,飞行员)生成、随机生成(例如,数字替换)、使用历史飞行日志、航空器数据库、机场数据库生成、随机生成和/或以其他方式生成。在变型中,扩充的atc抄本可以优先地(例如,以更高的速率;以更高的频率;以大于阈值数量的实例发生——例如训练集中的3个或更多个)替换语音上和/或词典上冲突的实体名称(例如,由不同上下文中的多个标签识别的实体名称),例如“southwest”和“delta”。然后,扩充的atc抄本可以用于训练s140中的语言模型和/或s150中的问题和答案模型(例如,训练atc调节的语言模型的示例在图5中示出)。
[0076]
但是,可以通过其他方式生成atc抄本。可替代地,系统(和/或其中的神经网络模型)可以完全用真实的atc通信抄本来训练。
[0077]
s100可以包括训练问题和答案(q/a)模块s150,其用于训练模型来回答atc特定的
查询。s150优选地包括调节预训练的语言模型,但是可以包括训练未训练的模型。语言模型可以使用以下项来训练:atc抄本、相关联的解析含义(例如,参考输出;对查询的回答;从atc抄本等确定的命令参数的值)、命令查询集合和/或其他数据。在变型中,s150还可以提供与特定话语相关的语言模型上下文信息——例如特定航空器的尾号或承运人、航空器的飞行计划、特定话语之前的话语抄本集合、和/或任何其他合适的上下文信息。
[0078]
用于训练q/a模型的文本抄本可以是用于训练asr和/或sbd模型的相同atc抄本、用于训练语言模型的相同atc抄本(和/或扩充的atc抄本)、由语音到文本模块输出的话语假设和/或其他抄本。然而,可以使用任何合适的atc抄本来训练q/a模型。
[0079]
用于训练q/a模型的解析的含义可以是:手动确定的、由领域专家手动审核的、由参考atc语法的语法语义解析器(例如,sempre,比系统准确度低的解析器、系统的先前迭代等;图6中示出了示例)提供的(例如,手动确定的、迭代确定的、学习的等等)和/或以其他方式适当确定的。
[0080]
在特定示例中,语法语义解析器解析来自atc抄本的命令参数值,其中解析的值(例如,命令假设)、源抄本、可选的atc音频和/或其他数据在领域评估工具(图8中示出了示例)上呈现给领域专家。领域专家可以:标记模型输出(例如,标记为“正确”、“不完整”、“不正确”等),纠正解析的值,和/或以其他方式与解析器输出交互。在变型中,标记为“不正确”和/或“不完整”的参考输出可以被检查并用于更新或改进语法语义解析器的语法规则。在变型中,标记为“不正确”的参考输出不用于训练q/a模型,但是可以交替地用于训练q/a模型(例如,“不正确”标记用于通过反例进行训练)。在变型中,标记为“正确”和/或“不完整”的参考输出可以在s150期间传递到q/a模型中。在变型中,不完整的标签数据可以用于训练与特定话语相关联的查询的子集(例如,基于抄本的正确标记的部分)。例如,在参数值可能未标记且主题已识别的情况下,主题可以用于训练命令识别(例如,“主题?”)查询。同样,在航空器尾号被标记/识别的情况下,不完整的标签数据可以用于训练飞机特定的说话者识别查询。然而,可以以其他方式使用标签,并且可以以其他方式适当地确定模型输出。
[0081]
然而,问题和答案模型可以以其它方式被适当地训练。
[0082]
在变型中,asr模型、sbd模型、语言模型和/或q/a模型可以可选地基于飞行员/pic验证以任何合适的更新频率进行重新训练和/或更新。模型可以基于对中间输出的审核独立地、同步地、异步地、周期性地(例如,以共同的更新频率、不同的频率)、从不(例如,在确定性模型被认证的情况下,这可能是期望的)更新/重新训练,和/或可以以其他方式适当地更新或训练。模型可以在本地、在航空器上、通过远程/云(推送)更新周期性地更新,和/或可以以其他方式适当地更新/重新训练。
[0083]
在变型中,模型可以基于最终输出参数的飞行员拒绝来审核,以便定位数据管线内的误差来源(例如,作为根本原因分析的一部分),其可以用作改进网络的训练输入。例如:错误的中间参数(例如在话语假设或语言假设中)可能导致q/a模块的不正确输出,即使在q/a模块正确执行的情况下也是如此。在变型中,每个模型/模块的输出可以附加地针对为每个步骤规定的格式化模板进行审核(例如,以实现系统的认证合规性)。然而,系统和/或各种子部件可以以其它方式被适当地审核。
[0084]
然而,系统部件可以以其它方式被适当地训练。
[0085]
4.2运行时/推断
[0086]
s200可以包括:在航空器处,从空中交通管制接收音频话语s210,将音频话语转换成预定格式s215,使用问题和答案模型确定命令s240,以及基于命令管制航空器s250。然而,该方法s200可以附加地或可替代地包括任何其他合适的元素。s200用于自动解释来自空中交通管制(atc)流的飞行命令。飞行命令可以自动用于管制航空器飞行;呈现给用户(例如,飞行员、远程遥控机械手);响应于用户(例如,飞行员)确认而中继到自动驾驶系统;和/或以其他方式使用。
[0087]
s200的全部或部分可以连续地、周期性地、零星地、响应于无线电接收的传输、在航空器飞行期间、在准备飞行时和/或在飞行之后、在所有时间和/或以任何其他定时执行。s200可以实时或接近实时地执行,或者与航空器飞行或音频话语接收异步地执行。s200优选地在航空器上执行,但是可以可替代地部分地或完全地远程执行。
[0088]
从空中交通管制接收音频话语s210用于在航空器处接收通信信号和/或将通信信号转换成音频输入,该音频输入可以由asr模块处理。在特定示例中,s210使用a/d转换器(和/或其他合适的无线通信芯片组)将模拟无线电信号转换成数字信号,并将数字信号发送到asr模块(例如,经由有线连接)作为音频输入。s210优选地监测单个无线电信道(例如,与特定航空器相关联),但是可以交替地扫描多个信道(例如,以收集更大量的atc音频数据)。然而,s210可以以其它方式适当地接收话语。
[0089]
将音频话语转换成预定格式s215用于从atc音频生成抄本。这可以由语音到文本模块或其他系统部件来执行。将音频话语转换成预定(例如,文本)格式可以包括:确定话语的话语假设集合s220,并从话语假设集合中选择话语假设s230;然而,atc音频可以以其他方式进行转换。
[0090]
确定话语的话语假设集合s220用于识别话语内的音频模式(例如,诸如字母、音素、单词、短的短语等)。在特定示例中,s220可以由语音到文本模块、asr模块(和/或其中的asr模型)、集成的asr/sbd模块(例如,其中具有集成的asr/sbd模型)、语言模块和/或其组合来执行。s220可以可选地包括使用asr模块和/或其他模块向每个音频模式(又称为语言假设)分配权重或分数。话语假设可以是:语言假设、一系列语言假设和/或任何其他合适的假设。
[0091]
在第一变型中,asr和/或集成的sbd/asr模块生成语言假设集合,其中语言模块接收语言假设并为语言假设的每个串或序列生成分数(例如,asr分数;与语言权重/分数相同或不同)。可以从同一音频剪辑生成一个或更多个语言假设集合。sbd/asr模块还可以输出每个语言假设、假设序列和/或语言假设集合的分数(asr分数或asr权重)。然而,话语假设集合可以以其他方式确定。
[0092]
从话语假设集合中选择话语假设s230用于在整个话语的上下文中从语言假设集合中检测语言模式。附加地或交替地,s230可以用于选择语言假设的最高概率串/序列作为话语假设。s230可以由语言模块、q/a模块和/或另一模块来执行。
[0093]
在第一变型中,语言模块可以选择具有最高组合语言权重(或分数)和asr权重(或分数)的语言假设的串或序列作为话语假设。
[0094]
在第二变型中,多个模块的输出被协作地用于选择话语假设。例如,选择具有由语言模型和集成的asr/sbd模型协作地确定的最高组合假设分数和/或最大假设权重的话语假设。在第一示例中,选择使语言权重乘以话语的asr权重最大化的话语假设。在第二示例
中,假设使话语的语言分数和asr分数之和最大化。
[0095]
然而,话语假设可以以其他方式进行选择。
[0096]
使用问题和答案模型从话语假设中确定命令s240用于从话语假设中提取飞行命令,其可以由飞行处理系统解释和/或实现。s240优选地由q/a模块的一个或更多个实例来执行,但是可以由另一个部件来执行。s240优选地使用飞行命令查询集合和话语假设来执行,但是可以以其他方式执行。
[0097]
s240可以包括向q/a模块提供除了作为输入的话语假设之外的命令查询集合,其中q/a模块使用作为参考文本的话语假设来回答命令查询。在第一实施例中,串行提供查询,其中基于先前的答案确定连续的查询。查询系列可以从命令查询集合结构(例如,列表、树等)确定、随机确定或以其他方式确定。在特定的示例中,s240包括查询话语假设内的主题存在,然后仅查询确认在话语内的主题的值。在第二特定示例中,s240包括最初确定航空器(和/或飞行员)是否是话语的预期接收者(与话语假设相关联),并且仅进一步查询话语是否是预期针对航空器/飞行员的(例如,不是预期针对航空器/飞行员的话语被忽略和/或其中的任何命令不被传递到飞行处理系统;可以忽略对应于过渡说话者检测的话语;等等)。可替代地,q/a模型(或其不同版本或实例)可以用多个并行查询来查询,或者可以以其他方式来查询。
[0098]
在第二变型中,q/a模块包括预嵌入的查询,其中q/a模块基于话语假设回答预定的问题集合。例如,q/a模块可以是多类分类器,该多类分类器为“类”的集合中的每一个类输出从话语假设确定的值,其中每一个类代表命令参数。然而,s240可以以其它方式适当地确定命令参数值。
[0099]
s200可以可选地包括基于命令管制航空器s250,其用于根据话语(例如,atc指令)修改航空器状态。在特定的示例中,s250根据命令自主地管制航空器的效应器和/或推进系统(例如,以实现命令值)。在第二示例中,飞行处理系统可以基于命令改变航路点和/或自动驾驶仪输入。在变型中,s200可以包括以标准化格式(例如,标准化机器可读格式)向飞行处理系统(例如,fcs)提供命令。
[0100]
然而,s250可以以其它方式基于命令适当地管制航空器。可替代地,该系统可以完全以辅助能力使用(例如,不向航空器处理器传递命令或管制航空器,例如使听力受损的飞行员能够管制航空器),和/或可以以其他方式使用。
[0101]
然而,s200可以包括任何其他合适的元素。
[0102]
可替代的实施例在存储计算机可读指令的非暂时性计算机可读介质中实现上述方法和/或处理模块。指令可以由与计算机可读介质和/或处理系统集成的计算机可执行部件来执行。计算机可读介质可以包括任何合适的计算机可读介质,例如ram、rom、闪存、eeprom、光学设备(cd或dvd)、硬盘驱动器、软盘驱动器、非暂时性计算机可读介质或任何合适的设备。计算机可执行部件可以包括连接到诸如cpu、gpu、tpu、微处理器或asic的非暂时性计算机可读介质的计算系统和/或处理系统(例如,包括一个或更多个并置或分布式、远程或本地处理器),但是指令可以可替代地或附加地由任何合适的专用硬件设备执行。
[0103]
系统和/或方法的实施例可以包括各种系统部件和各种方法过程的每种组合和置换,其中本文描述的方法和/或过程的一个或更多个实例可以通过和/或使用本文描述的系统、元件和/或实体的一个或更多个实例异步地(例如顺序地)、同时地(例如并行地)或以任
何其他合适的顺序来执行。
[0104]
如本领域中的技术人员将从先前的详细描述以及从附图和权利要求中认识到的,可以对本发明的优选实施例做出修改和改变而不偏离在随附权利要求中限定的本发明的范围。
技术特征:
1.一种用于航空器的用于空中交通管制(atc)话语的语义解析的系统,所述系统包括:所述航空器上的通信系统,所述通信子系统被配置为接收atc无线电信号并将所述atc无线电信号转换成音频信号;连接到所述通信系统的第一处理系统,其包括:语音到文本模块,其被配置为根据所述音频信号确定话语假设;以及问题和答案(q/a)模块,其被配置为使用多个自然语言查询基于所述话语假设来确定航空器命令;以及第二处理系统,其连接到所述第一处理系统并被配置为基于所述航空器命令来管制所述航空器,其中,所述atc话语在句法上是非标准化的,其中,所述第一处理系统被配置为以标准化格式自动向所述第二处理系统提供所述命令。2.根据权利要求1所述的系统,其中,所述第一处理系统被配置成将所述句法上非标准化的话语转换成所述标准化格式。3.根据权利要求1所述的系统,其中,利用所述q/a模型确定航空器命令包括:根据所述自然语言查询的结构化序列查询预训练的神经网络模型。4.根据权利要求3所述的系统,其中,所述预训练的神经网络模型根据atc音频进行调节。5.根据权利要求3所述的系统,其中,所述结构化序列包括基于树的序列,所述基于树的序列具有多个相关性,所述多个相关性将一个或更多个自然语言查询链接到所述航空器是对应于所述话语假设的话语的预期接收者的确定。6.根据权利要求5所述的系统,其中,所述话语假设包括说话者识别,其中,所述航空器是所述预期接收者的所述确定是基于所述说话者识别。7.根据权利要求3所述的系统,其中,每个命令包括命令参数和对应于所述命令参数的值的集合,其中,所述命令参数选自预定的命令参数集合,其中,所述值的集合和所述命令参数经由所述结构化序列的不同自然语言查询来确定。8.根据权利要求7所述的系统,其中,所述结构化序列包括基于树的序列,其中,响应于所述命令参数是所述话语的主题的确定而查询对应于所述命令参数的值。9.根据权利要求1所述的系统,其中,所述多个自然语言查询选自预定的集合。10.一种用于航空器的用于空中交通管制(atc)话语的语义解析的系统,所述系统包括:所述航空器上的通信系统,所述通信子系统被配置为接收atc无线电信号并将所述atc无线电信号变换成音频信号;以及连接到所述通信系统的第一处理系统,其包括:语音到文本模块,其被配置为根据所述音频信号确定话语假设;以及问题和答案(q/a)模块,其被配置为使用多个自然语言查询基于所述话语假设来确定航空器命令。11.根据权利要求10所述的系统,其中,每个话语假设包括边界假设,其中,所述语音到文本模块包括语句边界检测(sbd)模型,所述语句边界检测(sbd)模型被配置成标记所述音频信号内的实体并基于所标记的实体生成所述边界假设。12.根据权利要求11所述的系统,其中,所述实体包括过渡说话者,其中,所述sbd模型
是预训练为基于音频伪影注释识别多话语atc音频内的所述过渡说话者的神经网络。13.根据权利要求10所述的系统,其中,所述语音到文本模块包括集成的自动语音识别(asr)和语句边界检测(sbd)模块。14.根据权利要求13所述的系统,其中,所述集成的asr/sbd模块包括针对atc音频调节的预训练的神经网络。15.根据权利要求13所述的系统,其中,所述语音到文本模块还包括atc调节的语言模型,其中,确定所述话语假设包括:利用所述集成的asr/sbd模块为每个话语生成多个语言假设;使用所述atc调节的语言模型为所述多个语言假设中的每一个确定语言分数;以及基于对应的语言分数从所述多个语言假设中选择话语假设。16.根据权利要求15所述的系统,其中,所述集成的asr/sbd模块被配置为将语音分数分配给所述多个语言假设中的每一个,其中,所述话语假设是基于对应的语言分数和语音分数的组合来选择的。17.根据权利要求10所述的系统,其中,确定所述话语假设包括:利用所述语音到文本模块的asr模块为所述音频信号内的话语生成多个话语假设;使用语言模型来选择所述多个话语假设中的话语假设。18.根据权利要求17所述的系统,其中,所述语言模型包括使用实体标记的atc抄本预训练的神经网络。19.根据权利要求18所述的系统,其中,所述实体标记的atc抄本包括对应于语音上冲突实体的标签。20.根据权利要求10所述的系统,其中,所述话语假设包括文本抄本。21.一种方法,包括:接收音频话语;将所述音频话语转换成预定格式,包括:确定话语假设的集合;以及从所述集合中选择话语假设;以及基于所选择的话语假设,使用问题和答案模型确定命令。22.根据权利要求21所述的方法,其中,所述方法是使用根据权利要求1-20中任一项所述的系统来执行的。
技术总结
方法S200可以包括:在航空器处,从空中交通管制接收音频话语S210,将音频话语转换成文本,使用问题和答案模型从文本确定命令S240,以及可选地基于命令管制航空器S250。该方法用于自动解释来自空中交通管制(ATC)流的飞行命令。令。令。
技术研发人员:迈克尔
受保护的技术使用者:梅林实验室公司
技术研发日:2021.10.13
技术公布日:2023/7/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/