柔性作业车间调度方法、装置、设备及介质与流程
未命名
08-19
阅读:116
评论:0
1.本技术实施例属于制造技术领域,具体涉及柔性作业车间调度方法、装置、设备及介质。
背景技术:
2.随着科技的发展和人们生活水平的提高,人们对于产品生产的数量和速度有了更高的要求。所以在产品生产过程中,车间调度方案受到人们的关注。柔性作业车间调度方法是具有一般性的车间调度方法,广泛存在于半导体制造、汽车组装和纺织等行业,是现代工业制造环境中最常见的调度模式之一,在实际的生产生活中有很多应用。
3.柔性作业车间调度问题通常被描述为多个工件要在多台机器上加工;每个工件包含一道或多道工序;每个工件的工序顺序是预先确定的;每道工序可以在至少一台加工机器上进行加工;工序的加工时间随加工机器的不同而不同。现有技术中,对于柔性作业车间调度方法,通常采用运筹学或线性规划方法,确定出约束条件后进行求解,在工件和机器较多时,确定调度方案较慢。
4.综上所述,现有的车间调度方法在工件和机器数量较多时,导致确定调度结果的效率较低。
技术实现要素:
5.为了解决现有技术中的上述问题,即为了解决现有技术在工件和机器数量较多时,导致调度结果的效率较低的问题,本技术实施例提供了一种柔性作业车间调度方法、装置、设备及介质。
6.第一方面,本技术实施例提供一种柔性作业车间调度方法,包括:
7.获取加工信息和工件状态信息,所述加工信息包括工件数量、机器数量、每个工件的工序、每个工件的每道工序可选的机器标识、每个工件的每道工序在可选机器上的加工时间,所述工件状态信息包括每个工件的分组标识、在当前工序的运输时间邻接矩阵、工序数量、工序间时长限定信息、在当前机器的加工次序标识、当前时间、当前工序特征信息、当前机器特性信息、当前机器处理时长、在当前机器的运输时间邻接矩阵;
8.将所述加工信息和所述工件状态信息输入至近端策略优化模型中,得到调度结果,其中,所述近端策略优化模型是预先训练的用于根据加工信息和工件状态信息确定调度结果的计算模型。
9.在上述柔性作业车间调度方法的优选技术方案中,所述将所述加工信息和所述工件状态信息输入至近端策略优化模型中,得到调度结果,包括:
10.根据所述加工信息、所述工件状态信息和已确定出的调度信息,从所有工件中确定出一个待加工工件和所述待加工工件的调度信息;
11.更新所述工件状态信息和待加工工件数量;
12.若更新后的待加工工件数量等于所述工件数量,根据每个待加工工件的调度信
息,生成所述调度结果。
13.在上述柔性作业车间调度方法的优选技术方案中,所述方法还包括:
14.若更新后的待加工工件数量小于所述工件数量,重新根据所述加工信息、更新后的工件状态信息和已确定出的调度信息,从除所述待加工工件外的所有工件中,重新确定除一个待加工工件和对应的调度信息,更新工件状态信息和待加工工件数量,直到更新后的待加工工件数量等于所述工件数量,根据每个待加工工件的调度信息,生成所述调度结果。
15.在上述柔性作业车间调度方法的优选技术方案中,所述根据所述加工信息、所述工件状态信息和已确定出的调度信息,从所有工件中确定出一个待加工工件和所述待加工工件的调度信息,包括:
16.根据所述加工信息、所述工件状态信息和所述已确定出的调度信息,确定每个工件采用多个预设调度规则进行调度对应的多个奖励值;
17.将所有工件对应的所有奖励值中,最大的奖励值对应的工件,确定为所述待加工工件;
18.根据所述最大的奖励值对应的预设调度规则,生成所述调度信息。
19.在上述柔性作业车间调度方法的优选技术方案中,所述获取加工信息和工件状态信息之前,所述方法还包括:
20.获取多组训练数据,每组训练数据包括加工信息和工件状态信息;
21.根据所述多组训练数据以及初始强化学习模型进行模型训练,直至训练次数等于预设训练次数,得到所述近端策略优化模型。
22.在上述柔性作业车间调度方法的优选技术方案中,所述根据所述多组训练数据以及初始强化学习模型进行模型训练,直至训练次数等于预设训练次数,得到所述近端策略优化模型,包括:
23.从所述多组训练数据中选择一组训练数据;
24.将所述训练数据输入至所述初始强化学习模型,得到调度训练结果;
25.更新训练次数;
26.若更新后的训练次数等于所述预设训练次数,得到所述近端策略优化模型;
27.若更新后的训练次数小于所述预设训练次数,则更新所述初始强化学习模型,得到训练后的强化学习模型;并重新从所述多组训练数据中选择一组训练数据输入训练后强化学习模型,更新训练次数,直至更新后的训练次数等于所述预设训练次数,得到所述近端策略优化模型。
28.第二方面,本技术实施例提供一种柔性作业车间调度装置,包括:
29.获取模块,用于获取加工信息和工件状态信息,所述加工信息包括工件数量、机器数量、每个工件的工序、每个工件的每道工序可选的机器标识、每个工件的每道工序在可选机器上的加工时间,所述工件状态信息包括每个工件的分组标识、在当前工序的运输时间邻接矩阵、工序数量、工序间时长限定信息、在当前机器的加工次序标识、当前时间、当前工序特征信息、当前机器特性信息、当前机器处理时长、在当前机器的运输时间邻接矩阵;
30.处理模块,用于将所述加工信息和所述工件状态信息输入至近端策略优化模型中,得到调度结果,其中,所述近端策略优化模型是预先训练的用于根据加工信息和工件状
态信息确定调度结果的计算模型。
31.第三方面,本技术实施例提供一种电子设备,包括:
32.处理器,存储器,通信接口;
33.所述存储器用于存储所述处理器的可执行指令;
34.其中,所述处理器配置为经由执行所述可执行指令来执行第一方面任一项所述的柔性作业车间调度方法。
35.第四方面,本技术实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述的柔性作业车间调度方法。
36.第五方面,本技术实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时用于实现第一方面任一项所述的柔性作业车间调度方法。
37.本领域技术人员能够理解的是,本技术实施例提供的柔性作业车间调度方法、装置、设备及介质,通过获取到加工信息和工件状态信息后,将加工信息和工件状态信息输入至近端策略优化模型中,得到调度结果,其中近端策略优化模型是预先训练的用于根据加工信息和工件状态信息确定调度结果的计算模型。本方案通过近端策略优化模型对工件进行调度,有效提高了得到调度结果的效率。
附图说明
38.下面参照附图来描述本技术的柔性作业车间调度方法的优选实施方式。附图为:
39.图1a是本技术提供的柔性作业车间调度方法实施例一的流程示意图;
40.图1b为本技术提供的甘特图;
41.图2为本技术提供的柔性作业车间调度方法实施例二的流程示意图;
42.图3为本技术提供的柔性作业车间调度方法实施例三的流程示意图;
43.图4为本技术提供的柔性作业车间调度装置实施例的结构示意图;
44.图5为本技术提供的电子设备的结构示意图。
具体实施方式
45.首先,本领域技术人员应当理解的是,这些实施方式仅仅用于解释本技术的技术原理,并非旨在限制本技术的保护范围。本领域技术人员可以根据需要对其作出调整,以便适应具体的应用场合。
46.其次,需要说明的是,在本技术实施例的描述中,术语“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或构件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。
47.此外,还需要说明的是,在本技术实施例的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个构件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本技术实施例中的具体含义。
48.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例
中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
49.随着科技的发展,车间生产产品的数量越来越多,这对于生产效率就提出了更高的要求,为了提高生产效率,好的调度方法是不可缺少的,柔性作业车间调度方法就是对工件进行调度的一种方法。
50.对于柔性作业车间问题进行求解,即可得到调度方法,柔性作业车间调度问题通常被描述为多个工件要在多台机器上加工;每个工件包含一道或多道工序;每个工件的工序顺序是预先确定的;每道工序可以在至少一台加工机器上进行加工;工序的加工时间随加工机器的不同而不同。现有技术中,对于柔性作业车间调度方法,通常采用运筹学或线性规划方法,确定出约束条件后进行求解,在工件和机器较多时,确定调度方案较慢。
51.因此,现有的车间调度方法使用运筹学或线性规划方法,在工件和机器数量较多时,导致确定调度结果的效率较低的问题。
52.本实施例提供一种柔性作业车间调度方法,为了提高确定调度结果的效率,可根据用于训练的加工信息和工件状态信息训练出近端策略优化模型,进而将需要调度的工件的加工信息和工件状态信息输入至近端策略优化模型中,得到调度结果。通过近端测量优化模型,可有效提高确定出调度结果的效率。
53.以下结合附图对本技术实施例的原理和特征进行描述,所举实例只用于解释本技术实施例,并非用于限定本技术实施例的范围。
54.需要说明的是,本技术的执行主体可以是计算机、服务器,还可以是终端设备等可以进行模型训练和模型应用的设备,本技术实施例不对其进行限定,可根据实际情况进行选择。
55.下面对本技术提供的柔性作业车间调度方法的应用场景进行说明。
56.在该场景中,用户有一批工件需要在车间进行加工,由于多个工件要在多台机器上加工;每个工件包含一道或多道工序;每个工件的工序顺序是预先确定的;每道工序可以在至少一台加工机器上进行加工;工序的加工时间随加工机器的不同而不同,所以需要进行柔性作业车间调度方法确定出调度结果。
57.用户将这一批工件对应的加工信息和工件状态信息输入至计算机中的近端策略优化模型中,加工信息包括工件数量、机器数量、每个工件的工序、每个工件的每道工序可选的机器标识、每个工件的每道工序在可选机器上的加工时间,工件状态信息包括每个工件的分组标识、在当前工序的运输时间邻接矩阵、工序数量、工序间时长限定信息、在当前机器的加工次序标识、当前时间、当前工序特征信息、当前机器特性信息、当前机器处理时长、在当前机器的运输时间邻接矩阵。
58.近端策略优化模型根据加工信息、工件状态信息和已确定出的调度信息,从所有工件中确定出一个待加工工件和待加工工件的调度信息;进而更新工件状态信息和待加工工件数量。
59.判断更新后的待加工工件数量是否等于工件数量;若更新后的待加工工件数量等于工件数量,说明对每个工件已经调度完成,根据每个待加工工件的调度信息,生成调度结果。
60.若更新后的待加工工件数量小于工件数量,重新根据加工信息、更新后的工件状态信息和已确定出的调度信息,从除待加工工件外的所有工件中,重新确定除一个待加工工件和对应的调度信息,更新工件状态信息和待加工工件数量,更新后的待加工工件数量等于工件数量,根据每个待加工工件的调度信息,生成调度结果。
61.计算机可能根据调度结果控制机器对工件进行加工。进而计算机还可生成调度结果的甘特图进行显示,以便用户查看。
62.需要说明的是,本技术实施例不对应用场景中的各种设备的实际形态进行限定,也不对设备之间的交互方式进行限定,在方案的具体应用中,可以根据实际需求设定。
63.下面,通过具体实施例对本技术的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
64.图1a是本技术提供的柔性作业车间调度方法实施例一的流程示意图,本技术实施例对计算机将工件的加工信息和工件状态信息输入近端策略优化模型中,得到调度结果的情况进行说明。本实施例中的方法可以通过软件、硬件或者软硬件结合的方式来实现。如图1a所示,该柔性作业车间调度方法具体包括以下步骤:
65.s101:获取加工信息和工件状态信息。
66.用户有一批工件需要进行加工,可使用柔性作业车间调度方法得到调度结果后,根据调度结果进行加工,所以用户需要将加工信息和工件状态信息输入至计算机。
67.在本步骤中,用户将加工信息和工件状态信息输入至计算机后,计算机即可获取到加工信息和工件状态信息。加工信息包括工件数量、机器数量、每个工件的工序、每个工件的每道工序可选的机器标识、每个工件的每道工序在可选机器上的加工时间。工件状态信息包括每个工件的分组标识、在当前工序的运输时间邻接矩阵、工序数量、工序间时长限定信息、在当前机器的加工次序标识、当前时间、当前工序特征信息、当前机器特性信息、当前机器处理时长、在当前机器的运输时间邻接矩阵。
68.s102:将加工信息和工件状态信息输入至近端策略优化模型中,得到调度结果。
69.在本步骤中,计算机获取到加工信息和工件状态信息后,将其输入至近端策略优化模型中,由于近端策略优化模型是预先训练的用于根据加工信息和工件状态信息确定调度结果的计算模型,所以可以得到调度结果。
70.计算机可根据加工信息、工件状态信息,从所有工件中确定出一个待加工工件,以及得到对其进行调度的调度信息,进而更新工件状态信息,也就是将待加工工件的相关信息去除,并根据当前情况更新其余工件对应的工件状态信息。进而再确定出一个待加工工件和调度信息、更新工件状态信息,直至将所有工件都处理完成,得到每个工件的调度信息,即可得到调度结果。
71.另外,计算机还可以根据调度结果生成甘特图以便用户查看,示例性的,图1b为本技术提供的甘特图,如图1b所示,有3个工件需要在3台机器上进行加工,白色块表示工件a,黑色块表示工件b,阴影块表示工件c,三个工件需要再机器1、机器2和机器3上进行加工,将3个工件的加工信息和工件状态信息输入至近端策略优化模型中,得到调度结果后即可生成图1b的甘特图。
72.本实施例提供的柔性作业车间调度方法,通过将工件的加工信息和工件状态信息
输入至近端测量优化模型中,可得到调度结果。相较于现有技术中使用运筹学或线性规划确定调度结果,本方案使用近端策略优化模型即可得到调度结果,有效提高了计算效率和得到调度结果的效率。另外,现有技术在加工不同批次工件时,加工信息会发生改变,这样就需要调整运筹学或线性规划方法中的参数并重新进行计算,本方案无需调整近端策略优化模型,适用性更高,也提高了整体效率。
73.图2为本技术提供的柔性作业车间调度方法实施例二的流程示意图,在上述实施例的基础上,本技术实施例对计算机将所述加工信息和所述工件状态信息输入至近端策略优化模型中,得到调度结果的情况进行说明,如图2所示,该柔性作业车间调度方法具体包括以下步骤:
74.s201:根据加工信息、工件状态信息和已确定出的调度信息,从所有工件中确定出一个待加工工件和待加工工件的调度信息。
75.在本步骤中,计算机将加工信息和工件状态信息输入至近端策略优化模型中,近端策略优化模型:根据加工信息、工件状态信息和已确定出的调度信息,从所有工件中确定出一个待加工工件和待加工工件的调度信息。
76.具体的,根据加工信息、工件状态信息和已确定出的调度信息,确定每个工件采用多个预设调度规则进行调度对应的多个奖励值。
77.先根据已确定出的调度信息,确定出最大完工时长,也就是根据已确定出调度信息,确定出对应的完工时长,将其中最大的完工时长作为最大完工时长。示例性的,已确定出3个工件为待加工工件,根据这3个工件的调度信息,确定出对应的完工时长,将3个完工时长中最大的完工时长作为最大完工时长。
78.进而,对于每个工件,由于近端策略优化模型中存在多和预设调度规则,所以,对于该工件,采用这些预设调度规则和加工信息、工件状态信息,可确定出对应的调度信息,进而根据这些调度信息,确定出对应的待选完工时长,再计算最大完工时长与待选完工时长的差值,得到奖励值,这样即可得到每个工件采用多个预设调度规则进行调度对应的多个奖励值。
79.计算奖励值公式为:r
t
=c
mint-c
jk
,其中,r
t
表示奖励值,c
mint
表示最大完工时长,c
jk
表示待选完工时长。
80.将所有工件对应的所有奖励值中,最大的奖励值对应的工件,确定为待加工工件,这样可保证加工时长较小,提高加工效率;根据最大的奖励值对应的预设调度规则,生成调度信息。
81.需要说明的是,预设调度规则可以是先进先出规则、后进先出规则、最短处理时间规则、最长处理时间规则、最短处理工序数规则、最长处理工序数规则、最短剩余处理时间规则、最长剩余处理时间规则等,本技术实施例不对预设调度规则进行限定,可根据实际情况进行选择。
82.s202:更新工件状态信息和待加工工件数量。
83.在本步骤中,计算机得到一个待加工工件和对应的调度信息后,为了得到下一个待加工工件,需要更新工件状态信息和待加工工件数量。
84.更新工件状态信息需要将原工件状态信息中,计算机确定出的待加工工件对应的信息删除,进而对于未确定为待加工工件的工件,根据当前运行情况,更新对应的工件状态
信息。
85.更新待加工工件数量就是将待加工工件数量加一。
86.s203:判断更新后的待加工工件数量是否等于工件数量;若更新后的待加工工件数量等于工件数量,执行步骤s204;若更新后的待加工工件数量小于工件数量,执行步骤s205。
87.在本步骤中,计算机更新工件状态信息和待加工工件数量后,为了确定出是否有工件未确定出调度信息,需要判断更新后的待加工工件数量是否等于工件数量;若更新后的待加工工件数量等于工件数量,说明所有工件都生成了调度信息;若更新后的待加工工件数量小于工件数量,说明有工件未确定出调度信息。
88.s204:根据每个待加工工件的调度信息,生成调度结果。
89.在本步骤中,若更新后的待加工工件数量等于工件数量,说明所有工件都生成了调度信息,根据每个待加工工件的调度信息,生成调度结果。将每个待加工工件的调度信息进行合并,即可生成调度结果。
90.s205:重新根据加工信息、更新后的工件状态信息和已确定出的调度信息,从除待加工工件外的所有工件中,重新确定除一个待加工工件和对应的调度信息,更新工件状态信息和待加工工件数量,直到更新后的待加工工件数量等于工件数量,根据每个待加工工件的调度信息,生成调度结果。
91.在本步骤中,若更新后的待加工工件数量小于工件数量,说明有工件未确定出调度信息,还需要继续确定待加工工件和对应的调度信息,这就需要重新根据加工信息、更新后的工件状态信息和已确定出的调度信息,从除待加工工件外的所有工件中,重新确定除一个待加工工件和对应的调度信息,更新工件状态信息和待加工工件数量,直到更新后的待加工工件数量等于工件数量,根据每个待加工工件的调度信息,生成调度结果。
92.本实施例提供的柔性作业车间调度方法,通过根据加工信息、工件状态信息和已确定出的调度信息,依次确定出每个待加工工件和对应的调度信息,进而生成调度结果,有效提高了得到调度结果的效率。
93.图3为本技术提供的柔性作业车间调度方法实施例三的流程示意图,在上述实施例的基础上,本技术实施例对近端策略优化模型的训练过程进行说明。如图3所示,该柔性作业车间调度方法具体包括以下步骤:
94.s301:获取多组训练数据。
95.在本步骤中,用户想要使用近端策略优化模型,需要使用训练数据对初始强化学习模型进行训练,将多组训练数据输入至计算机。计算机即可获取到多组训练数据,每组训练数据包括加工信息和工件状态信息。
96.s302:根据多组训练数据以及初始强化学习模型进行模型训练,直至训练次数等于预设训练次数,得到近端策略优化模型。
97.在本步骤中,计算的得到多组训练数据后,根据多组训练数据以及初始强化学习模型进行模型训练,直至训练次数等于预设训练次数,得到近端策略优化模型。
98.具体的,从多组训练数据中选择一组训练数据。将训练数据输入至初始强化学习模型,得到调度训练结果。进而更新训练次数。
99.若更新后的训练次数等于预设训练次数,得到近端策略优化模型。
100.若更新后的训练次数小于预设训练次数,则更新初始强化学习模型,得到训练后的强化学习模型;并重新从多组训练数据中选择一组训练数据输入训练后强化学习模型,更新训练次数,直至更新后的训练次数等于预设训练次数,得到近端策略优化模型。
101.需要说明的是,预设训练次数可以是30000次、50000次,还可以是70000次,本技术实施例不对其进行限定,可根据实际情况进行设置。
102.需要说明的是,对初始强化学习模型进行更新的过程,需要计算优势函数、折扣回报,进而计算评价者网络损失函数值;再计算概率比(ratio),进而计算行动者网络损失函数值,再根据评价者网络损失函数值和行动者网络损失函数值更新初始强化学习模型。
103.近端策略优化模型的训练过程可看做一个马尔科夫决策过程,可用一个五元组(s,a,p,r,γ)表示,其中s代表有限状态集,a代表有限动作集,p代表状态转移概率,r代表奖励函数,γ代表折扣因子。在马尔科夫决策过程需定义状态空间、动作空间、奖励函数。状态空间大小为n*10,其中n表示工件数量,10表示工件状态信息中包括的信息数量,每个工件由10个状态特征描述,10个状态特征为工件状态信息中包括的信息。动作空间为所有的工件标识和一个空操作。奖励函数为r
t
=c
mint-c
jk
,其中,r
t
表示奖励值,c
mint
表示最大完工时长,c
jk
表示待选完工时长。在智能体与调度环境之间的交互中,环境向智能体发送状态观测和奖励,后者发送回动作与环境进行交互,并转移到新的状态。从进入第一个状态起,到最后一次发送行动,称为一个训练回合。每个回合结束后,生产调度模型重置,进入下一个回合。
104.本实施例提供的柔性作业车间调度方法,通过根据多组加工信息和工件状态信息对初始强化学习模型进行模型训练,直至训练次数等于预设训练次数,得到近端策略优化模型,使用近端策略优化模型进行柔性作业车间调度,可有效提高饿到调度结果的效率。
105.下述为本技术装置实施例,可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术方法实施例。
106.图4为本技术提供的柔性作业车间调度装置实施例的结构示意图。如图4所示,该柔性作业车间调度装置40包括:
107.获取模块41,用于获取加工信息和工件状态信息,所述加工信息包括工件数量、机器数量、每个工件的工序、每个工件的每道工序可选的机器标识、每个工件的每道工序在可选机器上的加工时间,所述工件状态信息包括每个工件的分组标识、在当前工序的运输时间邻接矩阵、工序数量、工序间时长限定工序间时长限定信息、在当前机器的加工次序标识、当前时间、当前工序特征信息、当前机器特性信息、当前机器处理时长、在当前机器的运输时间邻接矩阵;
108.处理模块42,用于将所述加工信息和所述工件状态信息输入至近端策略优化模型中,得到调度结果,其中,所述近端策略优化模型是预先训练的用于根据加工信息和工件状态信息确定调度结果的计算模型
109.进一步地,所述处理模块42,具体用于:
110.根据所述加工信息、所述工件状态信息和已确定出的调度信息,从所有工件中确定出一个待加工工件和所述待加工工件的调度信息;
111.更新所述工件状态信息和待加工工件数量;
112.若更新后的待加工工件数量等于所述工件数量,根据每个待加工工件的调度信
息,生成所述调度结果。
113.进一步地,所述处理模块42,还用于:
114.若更新后的待加工工件数量小于所述工件数量,重新根据所述加工信息、更新后的工件状态信息和已确定出的调度信息,从除所述待加工工件外的所有工件中,重新确定除一个待加工工件和对应的调度信息,更新工件状态信息和待加工工件数量,直到更新后的待加工工件数量等于所述工件数量,根据每个待加工工件的调度信息,生成所述调度结果。
115.进一步地,所述处理模块42,还用于:
116.根据所述加工信息、所述工件状态信息和所述已确定出的调度信息,确定每个工件采用多个预设调度规则进行调度对应的多个奖励值;
117.将所有工件对应的所有奖励值中,最大的奖励值对应的工件,确定为所述待加工工件;
118.根据所述最大的奖励值对应的预设调度规则,生成所述调度信息。进一步地,所述获取模块41,还用于获取多组训练数据,每组训练数据包括加工信息和工件状态信息;
119.进一步地,所述处理模块42,还用于根据所述多组训练数据以及初始强化学习模型进行模型训练,直至训练次数等于预设训练次数,得到所述近端策略优化模型。
120.进一步地,所述处理模块42,还用于:
121.从所述多组训练数据中选择一组训练数据;
122.将所述训练数据输入至所述初始强化学习模型,得到调度训练结果;
123.更新训练次数;
124.若更新后的训练次数等于所述预设训练次数,得到所述近端策略优化模型;
125.若更新后的训练次数小于所述预设训练次数,则更新所述初始强化学习模型,得到训练后的强化学习模型;并重新从所述多组训练数据中选择一组训练数据输入训练后强化学习模型,更新训练次数,直至更新后的训练次数等于所述预设训练次数,得到所述近端策略优化模型。
126.本实施例提供的柔性作业车间调度装置,用于执行前述任一方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
127.图5为本技术提供的电子设备的结构示意图。如图5所示,该电子设备50包括:
128.处理器51,存储器52,通信接口53;
129.所述存储器52用于存储所述处理器51的可执行指令;
130.其中,所述处理器51配置为经由执行所述可执行指令来执行前述任一方法实施例中的技术方案。
131.可选的,存储器52既可以是独立的,也可以跟处理器51集成在一起。
132.可选的,当所述存储器52是独立于处理器51之外的器件时,所述电子设备50还可以包括:
133.总线54,存储器52和通信接口53通过总线54与处理器51连接并完成相互间的通信,通信接口53用于和其他设备进行通信。
134.可选的,通信接口53具体可以通过收发器实现。通信接口用于实现数据库访问装
置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory,ram),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
135.总线54可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
136.上述的处理器可以是通用处理器,包括中央处理器cpu、网络处理器(network processor,np)等;还可以是数字信号处理器dsp、专用集成电路asic、现场可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
137.该电子设备用于执行前述任一方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
138.本技术实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述任一实施例提供的技术方案。
139.本技术实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时用于实现前述任一方法实施例提供的技术方案。
140.最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
技术特征:
1.一种柔性作业车间调度方法,其特征在于,包括:获取加工信息和工件状态信息,所述加工信息包括工件数量、机器数量、每个工件的工序、每个工件的每道工序可选的机器标识、每个工件的每道工序在可选机器上的加工时间,所述工件状态信息包括每个工件的分组标识、在当前工序的运输时间邻接矩阵、工序数量、工序间时长限定信息、在当前机器的加工次序标识、当前时间、当前工序特征信息、当前机器特性信息、当前机器处理时长、在当前机器的运输时间邻接矩阵;将所述加工信息和所述工件状态信息输入至近端策略优化模型中,得到调度结果,其中,所述近端策略优化模型是预先训练的用于根据加工信息和工件状态信息确定调度结果的计算模型。2.根据权利要求1所述的方法,其特征在于,所述将所述加工信息和所述工件状态信息输入至近端策略优化模型中,得到调度结果,包括:根据所述加工信息、所述工件状态信息和已确定出的调度信息,从所有工件中确定出一个待加工工件和所述待加工工件的调度信息;更新所述工件状态信息和待加工工件数量;若更新后的待加工工件数量等于所述工件数量,根据每个待加工工件的调度信息,生成所述调度结果。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:若更新后的待加工工件数量小于所述工件数量,重新根据所述加工信息、更新后的工件状态信息和已确定出的调度信息,从除所述待加工工件外的所有工件中,重新确定除一个待加工工件和对应的调度信息,更新工件状态信息和待加工工件数量,直到更新后的待加工工件数量等于所述工件数量,根据每个待加工工件的调度信息,生成所述调度结果。4.根据权利要求2所述的方法,其特征在于,所述根据所述加工信息、所述工件状态信息和已确定出的调度信息,从所有工件中确定出一个待加工工件和所述待加工工件的调度信息,包括:根据所述加工信息、所述工件状态信息和所述已确定出的调度信息,确定每个工件采用多个预设调度规则进行调度对应的多个奖励值;将所有工件对应的所有奖励值中,最大的奖励值对应的工件,确定为所述待加工工件;根据所述最大的奖励值对应的预设调度规则,生成所述调度信息。5.根据权利要求1所述的方法,其特征在于,所述获取加工信息和工件状态信息之前,所述方法还包括:获取多组训练数据,每组训练数据包括加工信息和工件状态信息;根据所述多组训练数据以及初始强化学习模型进行模型训练,直至训练次数等于预设训练次数,得到所述近端策略优化模型。6.根据权利要求5所述的方法,其特征在于,所述根据所述多组训练数据以及初始强化学习模型进行模型训练,直至训练次数等于预设训练次数,得到所述近端策略优化模型,包括:从所述多组训练数据中选择一组训练数据;将所述训练数据输入至所述初始强化学习模型,得到调度训练结果;更新训练次数;
若更新后的训练次数等于所述预设训练次数,得到所述近端策略优化模型;若更新后的训练次数小于所述预设训练次数,则更新所述初始强化学习模型,得到训练后的强化学习模型;并重新从所述多组训练数据中选择一组训练数据输入训练后强化学习模型,更新训练次数,直至更新后的训练次数等于所述预设训练次数,得到所述近端策略优化模型。7.一种柔性作业车间调度装置,其特征在于,包括:获取模块,用于获取加工信息和工件状态信息,所述加工信息包括工件数量、机器数量、每个工件的工序、每个工件的每道工序可选的机器标识、每个工件的每道工序在可选机器上的加工时间,所述工件状态信息包括每个工件的分组标识、在当前工序的运输时间邻接矩阵、工序数量、工序间时长限定信息、在当前机器的加工次序标识、当前时间、当前工序特征信息、当前机器特性信息、当前机器处理时长、在当前机器的运输时间邻接矩阵;处理模块,用于将所述加工信息和所述工件状态信息输入至近端策略优化模型中,得到调度结果,其中,所述近端策略优化模型是预先训练的用于根据加工信息和工件状态信息确定调度结果的计算模型。8.一种电子设备,其特征在于,包括:处理器,存储器,通信接口;所述存储器用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6任一项所述的柔性作业车间调度方法。9.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的柔性作业车间调度方法。10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时用于实现权利要求1至6任一项所述的柔性作业车间调度方法。
技术总结
本申请属于制造技术领域,具体涉及一种柔性作业车间调度方法、装置、设备及介质。本申请旨在解决现有的车间调度方法在工件和机器数量较多时,导致确定调度结果的效率较低的问题。本申请提供的柔性作业车间调度方法、装置、设备及介质,通过获取到加工信息和工件状态信息后,将加工信息和工件状态信息输入至近端策略优化模型中,得到调度结果,其中近端策略优化模型是预先训练的用于根据加工信息和工件状态信息确定调度结果的计算模型。本方案通过近端策略优化模型对工件进行调度,有效提高了得到调度结果的效率。得到调度结果的效率。得到调度结果的效率。
技术研发人员:谢海琴 谈晟 吴佳霖 王杉杉
受保护的技术使用者:海尔数字科技(上海)有限公司
技术研发日:2023.03.30
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
