飞机装配排程数据的生成方法、装置及存储介质与流程

未命名 09-17 阅读:106 评论:0


1.本技术涉及飞机装配生产调度技术领域,尤其涉及一种飞机装配排程数据的生成方法、装置及存储介质。


背景技术:

2.飞机总装过程是指将飞机的各个零部件进行组装的过程,总装生产线要求飞机成批量流水线式的总装,其装配排程具有复杂性高、技术含量高、装配周期长等特点。
3.相关技术通过构建排程调度模型,将飞机装配排程问题转换为数学问题进行求解,得到所需时间最少的排程调度方案。当排程调度的规模较小时,可以采用精确算法求解。但当排程调度的规模逐渐变大,求解就变得十分困难,甚至不能在可忍受的时间范围内求到一个可行解。
4.亟需一种高效的排程调度模型的求解方法,提高排程调度方案的制定效率和精确程度。


技术实现要素:

5.本技术的主要目的在于提供一种飞机装配排程数据的生成方法、装置及存储介质,旨在提高排程调度方案的制定效率和精确程度。
6.为实现上述目的,本技术提供一种飞机装配排程数据的生成方法,包括:建立关于目标飞机的装配排程的milp模型,milp模型包括目标函数和约束函数,目标函数包括目标飞机的飞机装配的最大完成时间与飞机装配过程中所需的资源的关系;约束函数包括飞机装配过程中所需的资源的约束条件;最小化目标函数,并利用训练好的目标强化学习模型求解milp模型,得到资源的目标配置参数,目标强化学习模型是基于融合gomory切平面法搭建,并基于历史装配排程数据训练获得;根据目标配置参数,确定目标飞机的飞机装配排程。
7.可选的,利用训练好的目标强化学习模型求解milp模型,得到资源的目标配置参数,包括:获取milp模型的状态函数,状态函数包括约束函数的松弛解以及可选切平面的集合;判断可选切平面的集合是否满足终止条件;若否,利用训练好的目标强化学习模型从可选切平面的集合中选择一目标切平面加入约束函数,以更新状态函数;并基于更新的状态函数,返回判断可选切平面的集合是否满足终止条件的步骤,循环至可选切平面的集合满足终止条件时得到目标松弛解;根据目标松弛解,确定资源的目标配置参数。
8.可选的,终止条件包括:可选切平面的集合为空集,或,循环迭代的次数达到设定次数。
9.可选的,训练好的目标强化学习模型是根据以下方法得到的:构建基于融合gomory切平面法的初始强化学习模型;利用历史装配排程数据,对初始强化学习模型进行训练,以获得训练好的目标强化学习模型。
10.可选的,构建基于融合gomory切平面法的初始强化学习模型,包括:定义初始强化
学习模型的状态空间,状态空间中的函数包括:约束函数的可行域、目标函数的价值向量、milp模型的松弛解以及可选切平面的集合;定义初始强化学习模型的动作空间,动作空间中的函数包括从可选切平面的集合中选择一切平面加入约束函数;定义初始强化学习模型的状态转移方式,状态转移方式包括一切平面加入约束函数后,更新得到新的状态空间;定义初始强化学习模型的奖励函数,奖励函数与状态空间和新的状态空间中的松弛解的差值呈正相关。
11.可选的,利用历史装配排程数据,对初始强化学习模型进行训练,以获得训练好的目标强化学习模型,包括:利用长短时记忆lstm网络完成对初始强化学习模型的约束标准化,得到标准化的初始强化学习模型;利用注意力机制attention网络完成对标准化的初始强化学习模型的约束评分,得到约束后的初始强化学习模型;利用历史装配排程数据,采取进化策略训练约束后的初始强化学习模型的策略参数,获得训练好的目标强化学习模型。
12.可选的,利用lstm网络完成对初始强化学习模型的约束标准化,得到标准化的初始强化学习模型,包括:利用lstm网络处理约束函数中的每一约束条件,并压缩约束函数的维度。
13.可选的,利用attention网络完成对标准化的初始强化学习模型的约束评分,得到约束后的初始强化学习模型,包括:设定参数函数,并利用参数函数计算标准化的初始强化学习模型中的约束函数对应的投影;根据投影和设定策略,计算并标定每一可选择切平面的评分。
14.可选的,利用历史装配排程数据,采取进化策略训练约束后的初始强化学习模型的策略参数,获得训练好的目标强化学习模型,包括:采用近似梯度下降法构建策略参数的近似梯度函数;最小化近似梯度函数的因变量,以更新策略参数,完成策略参数的训练。
15.此外,为实现上述目的,本技术还提供一种飞机装配排程数据的生成装置,包括:建模模块,用于建立关于目标飞机的装配排程的milp模型,milp模型包括目标函数和约束函数,目标函数包括目标飞机的飞机装配的最大完成时间与飞机装配过程中所需的资源的关系;约束函数包括飞机装配过程中所需的资源的约束条件;生成模块,用于最小化目标函数,并利用训练好的目标强化学习模型求解milp模型,得到资源的目标配置参数,目标强化学习模型是基于融合gomory切平面法搭建,并基于装配排程的milp模型或历史装配排程数据训练获得,能够为约束函数选择优选切平面;确定模块,用于根据目标配置参数,确定目标飞机的飞机装配排程。
16.本技术还提供一种电子设备,包括:存储器,处理器;存储器,用于存储程序指令;处理器,用于调用程序指令,以执行如上述飞机装配排程数据的生成方法中任一项的生成方法。
17.本技术还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如飞机装配排程数据的生成方法中任一项的生成方法。
18.本技术还提供一种计算机程序产品,包括计算机程序;计算机程序被执行时,实现如上述飞机装配排程数据的生成方法中的任一项生成方法。
19.本技术基于飞机装配的实际生产过程中的人力和物力资源(班组约束、设备约束、工艺约束和物料到达时间等等)的约束构条件建飞机总装排程问题的混合整数规划模型,
以最小化最大完成时间为目标,利用一种深度强化学习模型为约束条件优择切平面,进而求解规划模型。深度强化学习模型具备从环境中自主学习并从根据奖励反馈调整策略的能力,训练好的深度强化学习模型能够在执行切平面选择和加入动作时,优选能够最快求解的切平面,从而提高规划模型的求解效率,尤其是在求解中高规模的milp模型时,能够加快整体规划问题的求解速率,从而加速推进飞机装配排程方案的制定效率,节约时间成本,有利提高生产效率效能。此外,基于本方法训练的强化学习模型在应对同一milp问题模型的不同参数配置情形时,具有良好的适应性,无需对求解模型修改调整即可完成问题求解,增强了对生产排程过程中实际问题高频多样的适应能力。
20.本技术实施例提出的一种飞机装配排程数据的生成方法、装置及存储介质,通过建立关于目标飞机的装配排程的milp模型,milp模型包括目标函数和约束函数,目标函数包括目标飞机的飞机装配的最大完成时间与飞机装配过程中所需的资源的关系;约束函数包括飞机装配过程中所需的资源的约束条件;最小化目标函数,并利用训练好的目标强化学习模型求解milp模型,得到资源的目标配置参数,目标强化学习模型是基于融合gomory切平面法搭建,并基于历史装配排程数据训练获得;根据目标配置参数,确定目标飞机的飞机装配排程。本技术通过构建一种基于融合gomory切平面法的深度强化学习模型,求解目标飞机的装配排程的milp模型,显著提高了求解效率和精度,加快了目标飞机的装配排程方案的制定速率,有效缩短了目标飞机的装配时间,从而优化产能,提高生产效率。
附图说明
21.图1为本技术实施例提供的应用场景示意图;
22.图2为本技术实施例提供的飞机装配排程数据的生成方法的流程示意图一;
23.图3为本技术实施例提供的飞机装配排程数据的生成方法的流程示意图二;
24.图4为本技术实施例提供的构建初始强化学习模型的流程示意图;
25.图5为本技术实施例提供的训练初始强化学习模型的流程示意图;
26.图6为本技术实施例提供的飞机装配排程数据的生成装置的功能模块示意图;
27.图7为本技术实施例提供的电子设备的结构示意图。
28.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
29.应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
30.本技术实施例的主要解决方案是:构建一种以深度强化学习算法为框架,以gomory切平面法为基础的混合整数规划问题求解方法,在面临中等规模问题时,该算法可以提高求解效率和求解精度。
31.由于飞机总装过程中构型更改频繁、缺件严重、计划调整和主要依靠人工经验的生产调度模式,导致总装车间计划执行效率较低。在依靠人工经验安排生产调度时,面临着排程难度大、装配工艺复杂多变、供应链不稳定等问题,使得人工经验排程在实际应用中存在很多的漏洞和不足。
32.为实现智能化排程,通过构建一个以最小化最大完成时间为目标,考虑实际生产过程中的班组约束、设备约束、工艺约束和物料到达时间约束等约束条件的飞机总装排程
问题的混合整数规划模型,可以通过数学问题求解的方式产生排程方案。
33.本技术提供一种解决方案,提高混合整数规划模型的求解效率和准确度,以提高排程调度方案的制定效率和精确程度。
34.图1为本技术实施例提供的应用场景示意图。如图1所示,该应用场景涉及装配问题101、排程调度模型102以及求解模型103。
35.装配问题101是指在考虑能力和设备的前提下,在物料数量一定的情况下,安排各生产任务的生产顺序,优化生产顺序,优化选择生产设备,使得减少等待时间,平衡各机器和工人的生产负荷,从而优化产能,提高生产效率。装配问题101示例性的包括飞机装配问题、汽车装配问题和船只装配问题等等。
36.以飞机装配问题为例,在飞机整体装配过程中,是将飞机的机身组装完成,将上班的基准部件组装之后,需要将飞机的起落架组装上,再将飞机两旁的中翼组装上,这些是飞机整体装配的大框,是将飞机整体支撑起来,这些组装完成之后对内部系统进行组装,将电气设备和液压控制系统还有冷却系统组装进去,然后在组装飞机发动机,最后将一些特征设备和尾翼、机翼组装上,总装过程完成。而在飞机总装上,对于总装生产线的要求是要使飞机成批量的总装,不能单独对一个飞机进行装配,要实现流水线形式的总装,所以一般在飞机制造厂,对飞机总装生产线设计上,一般采用串行式的飞机总装线,并行式的飞机总装线和斜排式的飞机总装线。此时,如何排布这些装配步骤和顺序等问题,即为一种装配问题101。
37.排程调度模型102是为了解决装配问题101而基于装配问题101构建的模型,通常包括装配过程中所涉及的物料资源和人力资源的约束条件,以及装配完成时间与这些资源的数量、分组及排布顺序等要素的关系等等。排程调度模型102的解为装配排程数据,可用于指定装配问题101的解决方案/排程方案。在本技术实施例中,排程调度模型102采用混合整数规划模型为框架,最小化最大完成时间为目标。
38.求解模型103用于求解排程调度模型102,不同的求解模型103具有不同的求解速度、求解精度和适用场景。在采用混合整数规划模型的实施例中,求解模型103可以示例性的包括分支定界法、割平面法、隐枚举法、匈牙利法以及蒙特卡罗法等等。
39.上述对本技术提供的应用场景进行了简要的阐述,下面将结合具体的实施例对本技术技术方案进行详细的解释。
40.图2为本技术实施例提供的飞机装配排程数据的生成方法的流程示意图一。如图2所示,该生成方法包括:
41.s201:建立关于目标飞机的装配排程的milp模型,milp模型包括目标函数和约束函数,目标函数包括目标飞机的飞机装配的最大完成时间与飞机装配过程中所需的资源的关系;约束函数包括飞机装配过程中所需的资源的约束条件。
42.混合整数线性规划(mixed integer linear programming,简称milp)模型指的是目标函数是线性的,所有约束函数也是线性的,决策变量必须是整数的规划模型。目标飞机可以是同一流水线的一个或多个待装配飞机。飞机装配过程中所需的资源包括人力资源和物料资源,示例性的,包括工作包种类、加工设备和班组数量、前驱工序、关键物料以及加工时间等等。
43.在本技术实施例中,milp模型的目标函数的因变量为目标飞机的飞机装配的最大
完成时间,自变量为飞机装配过程中所需的各项资源的数量、种类、顺序及时间数据等等。约束函数包括上述多种资源各自的约束条件和/或相互之间的约束条件。
44.s202:最小化目标函数,并利用训练好的目标强化学习模型求解milp模型,得到资源的目标配置参数,目标强化学习模型是基于融合格莫理(gomory,此种切平面法由ralph gomory提出,便以其命名)切平面法搭建,并基于历史装配排程数据训练获得。
45.gomory切平面法也称gomory割平面法,其用于求解整数规划问题的基本思路是:先不考虑整数性约束,求解相应的线性规划问题,若线性规划问题的最优解恰好是整数解,则此解即为整数规划问题的最优解;否则,就增加一个新的约束条件,称为切平面/割平面。切平面必须满足:从线性规划问题的可行域中至少割掉的非整数最优解;不割掉任何整数可行域,然后在缩小的可行域上继续解线性规划问题。重复以上做法,经有限次切割后,必可在缩小的可行域的一个整数极点上达到整数规划问题的最优解。
46.本技术实施例中的目标强化学习模型是基于深度强化学习策略的模型,主要应用于融合gomory切平面法中选择切片面的阶段,通过选择高效的切片面,加快整体规划问题的求解速率。其中,训练目标强化学习模型的历史装配排程数据可以包括与本milp模型的架构相类似的历史milp模型,目标强化学习模型通过训练过程获得目标切平面的选择能力,能够高效地求解milp模型,以获得资源的目标配置参数。另外,本技术实施例的历史装配排程数据还可以包括本次需要求解的milp模型,也即,利用本milp模型训练得到的目标强化学习模型求解本milp模型。其中,资源的目标配置参数是指与配置资源排程相关的数据,对应着milp模型中的决策变量。
47.s203:根据目标配置参数,确定目标飞机的飞机装配排程。
48.示例性的,可以将目标配置参数直接确定为飞机装配排程中资源的配置参数,也可以根据实际应用场景对目标配置参数进行适当的调整,以得到目标飞机的飞机装配排程方案,在此不做限定。
49.本技术实施例通过建立关于目标飞机的装配排程的milp模型,milp模型包括目标函数和约束函数,目标函数包括目标飞机的飞机装配的最大完成时间与飞机装配过程中所需的资源的关系;约束函数包括飞机装配过程中所需的资源的约束条件;最小化目标函数,并利用训练好的目标强化学习模型求解milp模型,得到资源的目标配置参数,目标强化学习模型是基于融合gomory切平面法搭建,并基于历史装配排程数据训练获得;根据目标配置参数,确定目标飞机的飞机装配排程。本技术通过构建一种基于融合gomory切平面法的深度强化学习模型,求解中高规模的目标飞机的装配排程的milp模型,显著提高了求解效率和精度,加快了目标飞机的装配排程方案的制定速率,有效缩短了目标飞机的装配时间,从而优化产能,提高生产效率。
50.在上述实施例的基础上,作为一种可选的实施方式,利用训练好的目标强化学习模型求解milp模型,得到资源的目标配置参数,包括:获取milp模型的状态函数,状态函数包括约束函数的松弛解以及可选切平面的集合;判断可选切平面的集合是否满足终止条件;若否,利用训练好的目标强化学习模型从可选切平面的集合中选择一目标切平面加入约束函数,以更新状态函数;并基于更新的状态函数,返回判断可选切平面的集合是否满足终止条件的步骤,循环至可选切平面的集合满足终止条件时得到目标松弛解;根据目标松弛解,确定资源的目标配置参数。
51.图3为本技术实施例提供的飞机装配排程数据的生成方法的流程示意图二。结合图3对本技术实施例得到目标松弛解的方法作进一步解释,在本实施例中,可选切平面的集合的终止条件为可选切平面的集合为空集。如图3所示,流程开始,首先初始化关于目标飞机的装配排程的milp模型,初始化milp模型的可行域c
(t)
,得到milp模型中的约束函数的松弛解和可选切平面的集合d
(t)
;判断可选切平面的集合是否为空集;若是,则输出松弛解若否,则利用训练好的目标强化学习模型从可选切平面的集合中选择一目标切平面加入约束函数,以更新状态函数,得到新的松弛解和可选切平面的集合d
(t)
;基于更新的状态函数,返回判断可选切平面的集合d
(t)
是否为空集的步骤,循环至可选切平面的集合d
(t)
为空集时得到目标松弛解
52.作为一种可选的实施方式,终止条件包括:可选切平面的集合为空集,或,循环迭代的次数达到设定次数。其中,设定次数可以认为设定,并根据不同的应用场景进行更改调整。
53.在上述实施例的基础上,作为一种可选的实施方式,训练好的目标强化学习模型是根据以下方法得到的:构建基于融合gomory切平面法的初始强化学习模型;利用历史装配排程数据,对初始强化学习模型进行训练,以获得训练好的目标强化学习模型。下述将对本实施例展开解释。
54.图4为本技术实施例提供的构建初始强化学习模型的流程示意图。如图4所示,该构建流程包括定义状态空间、动作空间、状态转移方式以及奖励函数,形成初始强化学习模型的框架。
55.具体的,构建基于融合gomory切平面法的初始强化学习模型,包括:
56.s401:定义初始强化学习模型的状态空间,状态空间中的函数包括:约束函数的可行域、目标函数的价值向量、milp模型的松弛解以及可选切平面的集合。
57.初始强化学习模型的状态空间包括约束方程(即约束函数)定义的线性规划问题可行域其中n
t
为约数个数;目标函数价值向量c;当前线性规划问题最优解松弛解产生的可选gomory切平面的集合d
(t)

58.s402:定义初始强化学习模型的动作空间,动作空间中的函数包括从可选切平面的集合中选择一切平面加入约束函数。
59.初始强化学习模型的动作空间是指一个切平面的加入过程,在第t轮迭代过程中,可选的动作集为gomory切平面集合d
(t)
,每一个动作对应其中的一个切平面
60.s403:定义初始强化学习模型的状态转移方式,状态转移方式包括一切平面加入约束函数后,更新得到新的状态空间。
61.初始强化学习模型的状态转移方式是指当给定第t轮状态后,采取一个具体行动a
t
(即对应一个切平面),将新的切平面加入约束方程中,可得到
62.s404:定义初始强化学习模型的奖励函数,奖励函数与状态空间和新的状态空间
中的松弛解的差值呈正相关。
63.初始强化学习模型奖励函数是指将加入切平面前后最优目标值(即目标松弛解)之间的差距作为对应切平面的奖励,即在第t轮中,对应切平面的奖励
64.图5为本技术实施例提供的训练初始强化学习模型的流程示意图。如图5所示,初始强化学习模型(对应图5中的强化学习模型)循环迭代地判断gomory切平面的集合(简称gomory切集)d
(t)
是否为空集,若是则输出松弛解为目标松弛解若否则从gomory切集d
(t)
中选择一切平面加入约束函数,即采取a
t
=e
t
x≤b得到更新后的状态函数/状态空间,得到新的约束集c
(t)
,进而得到新的松弛解和切平面切集d
(y)
,从而返回执行判断gomory切集d
(t)
是否为空集的步骤。同时,强化学习模型基于采取的a
t
=e
t
x≤b更新得到约束集c
(t+1)
,进而得到松弛解利用奖励函数,根据采取a
t
=e
t
x≤b动作前后的松弛解和计算奖励r
t
,并反馈给强化学习模型以形成训练。
65.在上述步骤中,作为一种可选的实施方式,利用历史装配排程数据,对初始强化学习模型进行训练,以获得训练好的目标强化学习模型,包括:利用长短时记忆(long short-term memory,简称lstm)网络完成对初始强化学习模型的约束标准化,得到标准化的初始强化学习模型;利用注意力机制(attention mechanism,简称attention)网络完成对标准化的初始强化学习模型的约束评分,得到约束后的初始强化学习模型;利用历史装配排程数据,采取进化策略训练约束后的初始强化学习模型的策略参数,获得训练好的目标强化学习模型。
66.其中,作为一种可选的实施方式,利用lstm网络完成对初始强化学习模型的约束标准化,得到标准化的初始强化学习模型,包括:利用lstm网络处理约束函数中的每一约束条件,并压缩约束函数的维度。具体的,首先利用lstm网络处理约束c
(t)
,利用lstm网络lstm
θ
处理每一个约束,并将其压缩到n+1维,其中n是一个固定值,约束本身维度记为且可以得到:其中就是lstm网络最后一层的状态。
67.作为一种可选的实施方式,利用attention网络完成对标准化的初始强化学习模型的约束评分,得到约束后的初始强化学习模型,包括:设定参数函数,并利用参数函数计算标准化的初始强化学习模型中的约束函数对应的投影;根据投影和设定策略,计算并标定每一可选择切平面的评分。具体的,利用attention网络进一步处理约束c
(t)
,设定一个参数函数f
θ
:r
n+1
→rk
,其中k为一个给定参数,利用这个函数计算约束方程对应的投影,即hi=f
θ
([ai,bi]),i∈[n
t
],gj=f
θ
([ei,di]),i∈[i
t
],其中n
t
为约束个数,i
t
为不满足整数约束的变量个数,利用公式计算每一个可选择的切平面的评分sj。
[0068]
作为一种可选的实施方式,利用历史装配排程数据,采取进化策略训练约束后的初始强化学习模型的策略参数,获得训练好的目标强化学习模型,包括:采用近似梯度下降法构建策略参数的近似梯度函数;最小化近似梯度函数的因变量,以更新策略参数,完成策
略参数的训练。采用进化策略方法训练模型策略参数θ,采用近似梯度下降法完成策略参数θ的学习,用代表近似梯度,其中εi~n(0,i),θ
′i=θ+σεi,σ》0为一个固定常数,可以通过计算得到。在完成近似梯度计算后,通过完成策略参数θ的更新过程。
[0069]
初始强化学习模型训练完成后得到训练好的目标强化学习模型,利用训练好的目标强化学习模型(以下简称为求解算法)求解上述milp问题。通过输入初始策略参数θ,milp问题对应矩阵c、b和a,迭代轮次t完成初始化。求解算法初始运行时计数器t=0;求解算法循环迭代计算,直至满足终止条件。求解算法每次计算当前状态基于策略选择一个切平面{e
t
x≤d}。
[0070]
求解算法新的约束c
(t+1)
是原有约束和新增的切平面的并集c
(t+1)
=c
(t)
∪{e
t
x≤d}。求解算法基于新的约束条件,求解问题得到新解并生成新的切平面集d
(t+1)
。求解算法计算新的解和上一步解之间的奖励差距
[0071][0072]
求解算法轮次计数器加1;计算完全满足整数条件且t≥t达到结束条件,否则仍然循环迭代计算。
[0073]
在一个具体的实施例中,飞机装配排程数据的生成步骤包括:
[0074]
s1:初始化飞机总装排程问题的混合整数规划模型(milp)模型;
[0075]
s2:构建融合gomory切平面法的初始强化学习模型;
[0076]
a:定义状态空间;
[0077]
b:定义动作空间;
[0078]
c:定义状态转移方式;
[0079]
d:定义奖励函数。
[0080]
s3:训练策略参数θ;
[0081]
a:利用lstm网络处理约束c
(t)
,完成约束标准化;
[0082]
b:利用attention网络处理约束c
(t)
,完成约束评分;
[0083]
c:采取进化策略方法训练模型参数θ。
[0084]
s4:输入初始策略参数θ,milp模型对应矩阵c、b和a,迭代轮次t;
[0085]
s5:初始化迭代轮次计数器t=0;
[0086]
s6:循环计算;
[0087]
s7:构建状态
[0088]
s8:利用策略π
θ
从切平面集合中选择一个行动,记作a
t
~π
θ
(
·
|s
t
);
[0089]
s9:将切平面加入约束中,得到c
(t+1)

(t)
∪{e
t
x≤d};
[0090]
s10:求解该问题得到并生成新的切平面集d
(t+1)

[0091]
s11:计算奖励r
t

[0092]
s12:迭代轮次计数器加1;
[0093]
s13:如果不完全满足整数条件,同时t《t,转入s6,否则转入s13;
[0094]
s14:结束。
[0095]
上述实施例对本技术提供的飞机装配排程数据的生成方法进行了详细的说明,下面将具体解释本技术实施例提供的飞机装配排程数据的生成装置、电子设备、存储介质和程序产品。
[0096]
图6为本技术实施例提供的飞机装配排程数据的生成装置的功能模块示意图。如图6所示,该飞机装配排程数据的生成装置600包括:
[0097]
建模模块601,用于建立关于目标飞机的装配排程的milp模型,milp模型包括目标函数和约束函数,目标函数包括目标飞机的飞机装配的最大完成时间与飞机装配过程中所需的资源的关系;约束函数包括飞机装配过程中所需的资源的约束条件;
[0098]
生成模块602,用于最小化目标函数,并利用训练好的目标强化学习模型求解milp模型,得到资源的目标配置参数,目标强化学习模型是基于融合gomory切平面法搭建,并基于装配排程的milp模型或历史装配排程数据训练获得,能够为约束函数选择优选切平面;
[0099]
确定模块603,用于根据目标配置参数,确定目标飞机的飞机装配排程。
[0100]
作为一种可选的实施方式,生成模块602可以用于获取milp模型的状态函数,状态函数包括约束函数的松弛解以及可选切平面的集合;判断可选切平面的集合是否满足终止条件;若否,利用训练好的目标强化学习模型从可选切平面的集合中选择一目标切平面加入约束函数,以更新状态函数;并基于更新的状态函数,返回判断可选切平面的集合是否满足终止条件的步骤,循环至可选切平面的集合满足终止条件时得到目标松弛解;根据目标松弛解,确定资源的目标配置参数。
[0101]
作为一种可选的实施方式,终止条件包括:可选切平面的集合为空集,或,循环迭代的次数达到设定次数。
[0102]
作为一种可选的实施方式,训练好的目标强化学习模型是根据以下方法得到的:构建基于融合gomory切平面法的初始强化学习模型;利用历史装配排程数据,对初始强化学习模型进行训练,以获得训练好的目标强化学习模型。
[0103]
作为一种可选的实施方式,构建基于融合gomory切平面法的初始强化学习模型,包括:定义初始强化学习模型的状态空间,状态空间中的函数包括:约束函数的可行域、目标函数的价值向量、milp模型的松弛解以及可选切平面的集合;定义初始强化学习模型的动作空间,动作空间中的函数包括从可选切平面的集合中选择一切平面加入约束函数;定义初始强化学习模型的状态转移方式,状态转移方式包括一切平面加入约束函数后,更新得到新的状态空间;定义初始强化学习模型的奖励函数,奖励函数与状态空间和新的状态空间中的松弛解的差值呈正相关。
[0104]
作为一种可选的实施方式,利用历史装配排程数据,对初始强化学习模型进行训练,以获得训练好的目标强化学习模型,包括:利用长短时记忆lstm网络完成对初始强化学习模型的约束标准化,得到标准化的初始强化学习模型;利用注意力机制attention网络完成对标准化的初始强化学习模型的约束评分,得到约束后的初始强化学习模型;利用历史装配排程数据,采取进化策略训练约束后的初始强化学习模型的策略参数,获得训练好的目标强化学习模型。
[0105]
作为一种可选的实施方式,利用lstm网络完成对初始强化学习模型的约束标准
化,得到标准化的初始强化学习模型,包括:利用lstm网络处理约束函数中的每一约束条件,并压缩约束函数的维度。
[0106]
作为一种可选的实施方式,利用attention网络完成对标准化的初始强化学习模型的约束评分,得到约束后的初始强化学习模型,包括:设定参数函数,并利用参数函数计算标准化的初始强化学习模型中的约束函数对应的投影;根据投影和设定策略,计算并标定每一可选择切平面的评分。
[0107]
作为一种可选的实施方式,利用历史装配排程数据,采取进化策略训练约束后的初始强化学习模型的策略参数,获得训练好的目标强化学习模型,包括:采用近似梯度下降法构建策略参数的近似梯度函数;最小化近似梯度函数的因变量,以更新策略参数,完成策略参数的训练。
[0108]
本技术实施例提供的装置可用于执行上述的飞机装配排程数据的生成方法,其实现方式和技术效果类似,此处不再赘述。
[0109]
图7为本技术实施例提供的电子设备的结构示意图。如图7所示,该电子设备700包括:处理器701、存储器702、通信接口703和系统总线704。其中,存储器702,用于存储程序指令;处理器701,用于调用程序指令,以执行如上述实施例中任一项的生成方法。
[0110]
本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如上述实施例中任一项的生成方法。
[0111]
本技术实施例还提供一种计算机程序产品,包括计算机程序;计算机程序被执行时,实现如上述方法实施例中的生成方法的方案。
[0112]
以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。

技术特征:
1.一种飞机装配排程数据的生成方法,其特征在于,包括:建立关于目标飞机的装配排程的milp模型,所述milp模型包括目标函数和约束函数,所述目标函数包括所述目标飞机的飞机装配的最大完成时间与飞机装配过程中所需的资源的关系;所述约束函数包括所述飞机装配过程中所需的所述资源的约束条件;最小化所述目标函数,并利用训练好的目标强化学习模型求解所述milp模型,得到所述资源的目标配置参数,所述目标强化学习模型是基于融合gomory切平面法搭建,并基于历史装配排程数据训练获得;根据所述目标配置参数,确定所述目标飞机的飞机装配排程。2.如权利要求1所述的生成方法,其特征在于,所述利用训练好的目标强化学习模型求解所述milp模型,得到所述资源的目标配置参数,包括:获取所述milp模型的状态函数,所述状态函数包括所述约束函数的松弛解以及可选切平面的集合;判断所述可选切平面的集合是否满足终止条件;若否,利用训练好的目标强化学习模型从所述可选切平面的集合中选择一目标切平面加入所述约束函数,以更新所述状态函数;并基于更新的所述状态函数,返回判断所述可选切平面的集合是否满足终止条件的步骤,循环至所述可选切平面的集合满足终止条件时得到目标松弛解;根据所述目标松弛解,确定所述资源的目标配置参数。3.如权利要求2所述的生成方法,其特征在于,所述终止条件包括:所述可选切平面的集合为空集,或,所述循环迭代的次数达到设定次数。4.如权利要求1至3中任一项所述的生成方法,其特征在于,所述训练好的目标强化学习模型是根据以下方法得到的:构建基于融合gomory切平面法的初始强化学习模型;利用历史装配排程数据,对所述初始强化学习模型进行训练,以获得所述训练好的目标强化学习模型。5.如权利要求4所述的生成方法,其特征在于,所述构建基于融合gomory切平面法的初始强化学习模型,包括:定义所述初始强化学习模型的状态空间,所述状态空间中的函数包括:所述约束函数的可行域、所述目标函数的价值向量、所述milp模型的松弛解以及可选切平面的集合;定义所述初始强化学习模型的动作空间,所述动作空间中的函数包括从所述可选切平面的集合中选择一切平面加入所述约束函数;定义所述初始强化学习模型的状态转移方式,所述状态转移方式包括所述一切平面加入所述约束函数后,更新得到新的状态空间;定义所述初始强化学习模型的奖励函数,所述奖励函数与所述状态空间和所述新的状态空间中的松弛解的差值呈正相关。6.如权利要求5所述的生成方法,其特征在于,所述利用历史装配排程数据,对所述初始强化学习模型进行训练,以获得所述训练好的目标强化学习模型,包括:利用长短时记忆lstm网络完成对所述初始强化学习模型的约束标准化,得到标准化的初始强化学习模型;
利用注意力机制attention网络完成对所述标准化的初始强化学习模型的约束评分,得到约束后的初始强化学习模型;利用历史装配排程数据,采取进化策略训练所述约束后的初始强化学习模型的策略参数,获得所述训练好的目标强化学习模型。7.如权利要求6所述的生成方法,其特征在于,所述利用lstm网络完成对所述初始强化学习模型的约束标准化,得到标准化的初始强化学习模型,包括:利用所述lstm网络处理所述约束函数中的每一约束条件,并压缩所述约束函数的维度。8.如权利要求7所述的生成方法,其特征在于,所述利用attention网络完成对所述标准化的初始强化学习模型的约束评分,得到约束后的初始强化学习模型,包括:设定参数函数,并利用所述参数函数计算所述标准化的初始强化学习模型中的所述约束函数对应的投影;根据所述投影和设定策略,计算并标定每一所述可选择切平面的评分。9.如权利要求8所述的生成方法,其特征在于,所述利用历史装配排程数据,采取进化策略训练所述约束后的初始强化学习模型的策略参数,获得所述训练好的目标强化学习模型,包括:采用近似梯度下降法构建所述策略参数的近似梯度函数;最小化所述近似梯度函数的因变量,以更新所述策略参数,完成所述策略参数的训练。10.一种飞机装配排程数据的生成装置,其特征在于,包括:建模模块,用于建立关于目标飞机的装配排程的milp模型,所述milp模型包括目标函数和约束函数,所述目标函数包括所述目标飞机的飞机装配的最大完成时间与飞机装配过程中所需的资源的关系;所述约束函数包括所述飞机装配过程中所需的所述资源的约束条件;生成模块,用于最小化所述目标函数,并利用训练好的目标强化学习模型求解所述milp模型,得到所述资源的目标配置参数,所述目标强化学习模型是基于融合gomory切平面法搭建,并基于所述装配排程的milp模型或历史装配排程数据训练获得,能够为所述约束函数选择优选切平面;确定模块,用于根据所述目标配置参数,确定所述目标飞机的飞机装配排程。11.一种电子设备,其特征在于,包括:存储器,处理器;所述存储器,用于存储程序指令;所述处理器,用于调用所述程序指令,以执行如权利要求1至10中任一项所述的生成方法。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至10中任一项所述的生成方法。

技术总结
本申请公开了一种飞机装配排程数据的生成方法、装置及存储介质,涉及飞机装配生产调度技术领域。通过建立关于目标飞机的装配排程的MILP模型,MILP模型包括目标函数和约束函数;最小化目标函数,并利用训练好的目标强化学习模型求解MILP模型,得到资源的目标配置参数,目标强化学习模型是基于融合Gomory切平面法搭建,并基于历史装配排程数据训练获得;根据目标配置参数,确定目标飞机的飞机装配排程。本申请通过构建一种基于融合Gomory切平面法的深度强化学习模型,求解目标飞机的装配排程的MILP模型,显著提高了求解效率和精度,加快了目标飞机的装配排程方案的制定速率,有效缩短了目标飞机的装配时间,从而优化产能,提高生产效率。高生产效率。高生产效率。


技术研发人员:王攀 谢敏 张越 况林 余志强 杨晶 李仁宏
受保护的技术使用者:成都飞机工业(集团)有限责任公司
技术研发日:2023.05.24
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐