基于强化学习的金属材料加工工艺参数的逆向设计方法
未命名
08-07
阅读:173
评论:0

1.本发明涉及金属材料制备技术领域,具体涉及一种基于强化学习的金属材料加工工艺参数的逆向设计方法。
背景技术:
2.金属材料作为一种重要的功能结构材料,被广泛应用于能源化工、电子信息、航空航天以及交通运输等领域,在社会生产中占据重要地位。随着航空航天等高端制造业领域的飞速发展,对钛合金、镁合金、铜合金、铝合金及高熵合金等关键金属材料的性能要求日益严苛和多样化,而对于金属材料而言,加工工艺参数可通过控制显微组织结构显著影响材料性能。因此,通过合理选择工艺参数实现面向给定性能要求的金属材料的研发是推动金属材料进一步广泛应用的关键。
3.目前,金属材料的研发仍主要依赖传统“炒菜”法,即当实际需要提出后,工人凭经验制定材料加工工艺进行样品制备并分析制件显微组织结构及性能,若性能无法满足要求,则需反复多次调整工艺直至实现目标性能,最终还需摸索适合批量生产的工艺参数,以实现高效率低成本生产目标。由此可见,这种传统的高性能材料研发方法存在周期长、成本高的问题。此外,金属材料制备过程往往是多工艺参数耦合作用的复杂非线性过程,而传统“炒菜”法仅能在一个相对狭窄的范围内对工艺参数进行设计优化,难以对其多参数空间进行灵活高效探索,并且不同材料体系的优选工艺参数差别较大,这些因素均阻碍金属材料的快速响应制备,成为制约金属材料进一步发展的“瓶颈”。
技术实现要素:
4.为了克服现有技术中的不足,本发明的主要目的在于提供一种基于强化学习的金属材料加工工艺参数的逆向设计方法,该逆向设计方法基于数据集构建工艺参数-材料性能gbdt最佳模型,利用q-learning强化学习算法构建能够输出工艺参数的智能体模型,并将gbdt模型与智能体模型进行融合和应用,进而实现按照给定性能需求实时优化加工工艺参数以快速精准设计最佳工艺路径。
5.为了实现上述目的,本发明提供了一种基于强化学习的金属材料加工工艺参数的逆向设计方法。
6.该基于机器学习的金属材料加工工艺参数的逆向设计方法包括以下步骤:
7.s1,建立数据集;其中,所述数据集分为训练集、验证集和测试集;
8.s2,利用所述训练集、所述验证集进行模型训练,生成工艺参数-材料性能gbdt初始模型;
9.s3,采用random search结合k-fold cross validation算法对所述gbdt初始模型超参数进行优化设计,得到gbdt改进模型;其中,k=5、10,所述超参数包括树的数量(n_estimator)、学习速率(learning_rate)、最大树深度(max_depth)和子采样比例(subsample);
10.s4,利用所述测试集对所述gbdt改进模型进行预测效果评估及优化设计,得到gbdt最佳模型;其中,所采用的评价指标为决定系数r2、平均绝对百分比误差mape;
11.s5,利用q-learning强化学习算法构建智能体模型,向所述智能体模型中输入预设目标性能数据,所述智能体模型与所述gbdt最佳模型进行融合应用,获得最佳工艺参数。
12.进一步的,所述预设目标性能数据为致密度、硬度、抗拉强度、延伸率中的一项或多项的组合。
13.进一步的,步骤s5中,向所述智能体模型中输入预设目标性能数据,所述智能体模型与所述gbdt最佳模型进行融合应用,获得最佳工艺参数具体包括:
14.s5-1,向所述智能体模型中输入预设目标性能数据,智能体通过与环境进行交互获得与输入预设目标性能数据相对应的初始预测工艺参数;
15.s5-2,将所述初始预测工艺参数输入所述gbdt最佳模型,输出与所述初始预测工艺参数相对应的初始材料性能预测数据,计算材料性能预测数据与预设目标性能数据之间的距离;
16.s5-3,智能体根据所述距离、工艺参数与目标性能的相关性,进行当前t时刻的初始动作选取;其中,所述动作为对工艺参数的调整行为;
17.s5-4,智能体根据所述t时刻的初始动作与环境进行交互,得到新的状态与奖励r;
18.s5-5,智能体通过新的状态和奖励r获得新的当前t时刻动作指导策略,若r》0时表示智能体的当前行为对结果有益处,则智能体将执行新的动作;若r≤0时表示智能体的当前行为对结果无益处,则智能体将重新回到原状态,重复s5-4~s5-5;
19.s5-6,智能体不断重复s5-3~s5-5步骤,直至迭代训练次数p达到预设次数阈值,以从当前时刻到最终时刻累积奖励最大时对应的工艺参数作为最佳工艺参数;其中p=100~1000,设定每次迭代中共有t个时刻,每一时刻t,智能体更新一次,直至t=t时,本次迭代结束。
20.进一步的,所述材料性能预测数据与预设目标性能数据之间的距离表示为:
[0021][0022]
其中,为预测值与目标值之间的距离;为目标值;y为t时刻的预测值;yt为通过gbdt最佳模型预测的t时刻的工艺参数对应的预测值。
[0023]
优选的,所述奖励r为下一时刻(t+1)距离的倒数与当前时刻(t)距离的倒数之差,具体表示为:
[0024][0025]
式中,γ是对未来时间步奖励值的折扣因子,γ∈[0,1]。
[0026]
进一步的,步骤s1中建立数据集包括:
[0027]
s1-1,获取工艺参数、材料性能数据,建立基本数据集;
[0028]
s1-2,对所述基本数据集中的数据进行分类,并根据材料类型及工艺类型选择与之相对应的数据作为初始数据集;
[0029]
s1-3,对所述初始数据集进行归一化处理,获得所述数据集。
[0030]
进一步的,所述工艺类型包括但不限于热等静压技术、增材制造技术、粉末注射成形技术;
[0031]
优选的,所述材料类型包括但不限于钛合金、不锈钢、铜合金、锌合金、高熵合金;
[0032]
优选的,所述材料性能数据包括但不限于致密度、硬度、抗拉强度、延伸率。
[0033]
进一步的,所述训练集中数据量占所述数据集总数据量的40~90%,所述验证集中数据量占所述数据集总数据量的5~30%,所述测试集中数据量占所述数据集总数据量的5~30%,并且所述训练集、所述验证集和所述测试集的数据量百分比之和始终为100%。
[0034]
进一步的,步骤s4中,采用决定系数r2和平均绝对百分比误差mape判断所述gbdt改进模型是否达到模型精度以完成优化设计:
[0035]
当决定系数r2≥预设阈值且平均绝对百分比误差mape≤预设阈值,达到模型精度,获得所述gbdt最佳模型;
[0036]
当决定系数r2<预设阈值或者平均绝对百分比误差mape>预设阈值,重设rs算法优化所述超参数区间及迭代次数(n_iter)并继续优化模型。
[0037]
进一步的,所述决定系数r2和平均绝对百分比误差mape的预设阈值分别为0.95和5%。
[0038]
进一步的,所述超参数中树的数量(n_estimator)、学习速率(learning_rate)、最大树深度(max_depth)和子采样比例(subsample)优化区间分别为1~1000、0.01~0.5、1~10和0~1,所述迭代次数(n_iter)为200~1500。
[0039]
本发明具有以下优势:
[0040]
1)本发明将加工工艺参数-材料性能gbdt最佳模型与q-learning强化学习算法融合,从而提供了一种基于强化学习的加工工艺参数的逆向设计方法,该方法可以针对给定的目标性能要求,智能优化加工工艺参数,从而得到实现目标性能的最佳工艺路径,完成面向性能需求的金属材料快速响应制备,速度快、准确性高、可靠性强。
[0041]
2)相比于lr模型(线性回归模型),本发明提出的gbdt模型在学习复杂多维度样本及复杂非线性关系时具有更高预测精度;相比于dnn(深度神经网络)模型,本发明提出的gbdt预测模型,在保证预测准确度的基础上大幅度降低了模型训练耗时,实现了快速精准预测。
[0042]
3)相比于传统基于统计学策略的浅层机器学习模型,本发明提出的利用random search结合k-fold cross validation算法进行gbdt预测模型双重优化方法,可大幅提升预测精度高且无需人工干预调参,从而有效减少人工成本、缩短预测周期。
[0043]
4)本发明提出的距离函数是计算初始时刻至某一时刻的累计距离,充分考虑了当前时刻和上一时刻的误差,有助于寻找最佳工艺路径;所提出的奖励函数充分考虑前后时刻的误差,得到一个更密集的学习奖励信息,有助于强化学习过程的准确寻优。
附图说明
[0044]
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0045]
图1为本发明提供的实施例中逆向设计方法的流程图;
[0046]
图2为本发明提供的实施例中逆向设计方法的原理图。
具体实施方式
[0047]
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0048]
本发明设计一种面向性能要求的金属材料加工工艺参数逆向设计新方法,以提高材料研发过程中的预见性和针对性,是金属材料研发和工程化应用领域亟待突破的技术难题。
[0049]
本发明中面向目标性能增材制造工艺参数逆向设计方法,以任一给定材料性能作为目标,输出预测工艺参数,该预测工艺参数即可作为最佳工艺参数。具体的,强化学习智能体模型与gbdt最佳模型进行融合应用,输出该预测工艺参数前系统会自动将预测工艺参数输入gbdt最佳模型,输出材料性能预测值,计算材料性能预测数据与预设目标性能数据之间的距离,并根据上述距离值、工艺参数与目标性能的相关性对工艺参数进行调整行为,直至迭代训练次数达到预设阈值,最终输出最佳工艺参数以实现对制件性能的智能精准调控。
[0050]
本发明中基于强化学习的金属材料加工工艺参数的逆向设计方法包括以下步骤:
[0051]
s1,建立数据集;其中,数据集分为训练集、验证集和测试集。
[0052]
在本发明的实施例中,训练集用于gbdt模型训练,验证集用于控制训练过程以防止gbdt模型过拟合,测试集用于测试模型精度;其中,训练集和验证集用于模型训练过程中,测试集用于模型训练结束后的模型优化改进。
[0053]
数据集的建立具体包括:
[0054]
s1-1,从材料数据库、公开发表的高质量文献、实验数据中获取工艺参数、材料性能数据,建立基本数据集;
[0055]
s1-2,对基本数据集中的数据进行分类,并根据材料类型及工艺类型选择与之相对应类型的数据作为初始数据集;
[0056]
s1-3,对初始数据集进行归一化处理,获得数据集。
[0057]
在本发明的实施例中,材料性能数据包括但不限于致密度、硬度、抗拉强度、延伸率。
[0058]
在本发明的实施例中,材料类型包括但不限于钛合金、不锈钢、铜合金、锌合金、高熵合金。
[0059]
在本发明的实施例中,工艺类型包括但不限于热等静压技术、增材制造技术、粉末注射成形技术。
[0060]
作为本发明的实施方式,训练集中数据量占数据集总数据量的40~90%,验证集中数据量占数据集总数据量的5~30%,测试集中数据量占数据集总数据量的5~30%,并且训练集、验证集和测试集的数据量百分比之和始终为100%。
[0061]
s2,利用训练集、验证集进行模型训练,生成工艺参数-材料性能gbdt初始模型。
[0062]
在本发明的实施例中,验证集控制训练过程是通过采用early stopping策略,即当验证集误差连续下降设定的若干次后,停止训练,可有效防止过拟合并节省训练时间。
[0063]
在本发明的实施例中,训练集中含有多组训练数据,且每组训练数据均包括工艺参数以及与其相对应的材料性能数据。以训练集中工艺参数数据作为输入数据、材料性能数据作为输出数据,设置超参数n_estimator、learning_rate、max_depth和subsample的取值,建立工艺参数-材料性能gbdt初始模型。
[0064]
s3,采用随机搜索(random search,rs)结合交叉验证(k-fold cross validation,k-cv)算法对gbdt初始模型超参数进行优化设计,得到gbdt改进模型;其中,k=5、10,所述超参数包括树的数量(n_estimator)、学习速率(learning_rate)、最大树深度(max_depth)和子采样比例(subsample)。
[0065]
需要说明的是,k值可以取5或10,当然k取值可以根据实际需要进行设计,不作具体限定。
[0066]
s4,利用测试集对gbdt改进模型进行预测效果评估及优化设计,得到gbdt最佳模型。
[0067]
在本发明的实施例中,测试集中含有多组测试数据,且每组测试数据均包括工艺参数(为了进行更好的区别,记为第二工艺参数)以及与其相对应的材料性能数据(记为第二材料性能数据)。
[0068]
利用测试集对gbdt改进模型进行预测效果评估及优化设计包括以下步骤:
[0069]
s4-1,将测试集中工艺参数(第二工艺参数)输入gbdt改进模型,得到与其相对应的材料性能第二预测数据;
[0070]
s4-2,利用该材料性能第二预测数据与第二材料性能数据,计算得到决定系数r2和平均绝对百分比误差mape;
[0071]
s4-3,当决定系数r2≥预设阈值且平均绝对百分比误差mape≤预设阈值,达到模型精度,获得gbdt最佳模型;
[0072]
当决定系数r2<预设阈值或者或平均绝对百分比误差mape>预设阈值,重新设置rs算法优化参数(n_estimator、learning_rate、max_depth、subsample)区间及迭代次数(n_iter)并重复优化设计步骤s3~s4-2,直至决定系数r2≥预设阈值且平均绝对百分比误差mape≤预设阈值,完成优化设计。
[0073]
在本发明的实施例中,r2和mape的预设阈值分别可以为0.95和5%。
[0074]
值得一提的是,所述超参数n_estimator、learning_rate、max_depth和subsample优化区间分别为1~1000、0.01~0.5、1~10和0~1,迭代次数n_iter为200~1500。
[0075]
在本发明中,采用决定系数r2和平均绝对百分比误差mape判断gbdt改进模型是否达到模型精度,r2值在0~1范围内,且越接近1表明模型精度越高,mape其值越小表明模型精度越高。
[0076]
s5,利用q-learning强化学习算法构建智能体模型,向智能体模型中输入预设目标性能数据,智能体模型与gbdt最佳模型进行融合应用,获得最佳工艺参数,具体包括:
[0077]
s5-1,向智能体模型中输入预设目标性能数据,智能体通过与环境进行交互获得与其输入预设目标性能数据相对应的初始预测工艺参数;
[0078]
s5-2,将所述初始预测工艺参数输入gbdt最佳模型,输出与初始预测工艺参数相
对应的初始材料性能预测数据(为了进行更好的区别,记为材料性能第一预测数据),计算材料性能预测数据与预设目标性能数据之间的距离;
[0079]
s5-3,智能体根据对环境观测情况,即根据上述距离、工艺参数与目标性能的相关性,进行当前t时刻的初始动作选取;其中所述动作为对工艺参数的调整行为;
[0080]
s5-4,智能体根据上述t时刻的初始动作与环境进行交互,得到新的状态与奖励r;
[0081]
s5-5,智能体通过新的状态和奖励r获得新的当前t时刻动作指导策略,若r》0时表示智能体的当前行为对结果有益处,则将使智能体执行新的动作,若r≤0时表示智能体的当前行为对结果无益处,则将使智能体重新回到原状态,重复s5-4~s5-5;
[0082]
s5-6,智能体不断重复s5-3~s5-5步骤,直至迭代训练次数p达到预设次数阈值,以从当前时刻到最终时刻累积奖励最大时对应的工艺参数作为最佳工艺参数;其中p=100~1000,设定每次迭代中共有t个时刻,每一时刻t,智能体会更新一次,直至t=t时,本次迭代结束。
[0083]
在本发明的实施例中,材料性能预测数据与预设目标性能数据之间的距离具体表示为:
[0084][0085]
其中,为预测值与目标值之间的距离;为目标值;y为t时刻的预测值;yt为通过gbdt最佳模型预测的t时刻的工艺参数对应的预测值。
[0086]
奖励函数r奖励r为下一时刻(t)距离的倒数与当前时刻(t)距离的倒数之差,具体表示为:
[0087][0088]
γ是对未来时间步奖励值的折扣因子,γ∈[0,1]。
[0089]
在本发明的实施例中,预设目标性能数据为致密度、硬度、抗拉强度、延伸率中的一项或多项的组合。
[0090]
以下将通过具体实施例对本发明中基于机器学习的金属材料加工工艺参数的逆向设计方法进行详细说明。
[0091]
实施例1:
[0092]
以选择性激光熔化成形致密度为99.5%的ti-6al-4v制件为目标,来预测/设计打印工艺参数为例进行说明,具体步骤如下:
[0093]
1)建立初始数据集:从公开文献、实验及生产数据中抓取选择性激光熔化技术工艺参数、ti-6al-4合金制件性能数据,建立初始数据集。
[0094]
2)归一化处理:将初始数据集中的工艺参数与性能数据分别进行归一化处理(0~1),获得工艺参数-ti-6al-4合金制件性能数据集;该数据集分为训练集、验证集和测试集,训练集中数据量占数据集总数据量的70%,验证集和测试集中数据量均占数据集总数据量的15%。
[0095]
3)建立选择性激光熔化工艺参数-ti-6al-4合金制件性能gbdt初始模型:以训练
集和验证集中工艺参数作为输入数据、钛合金制件性能数据作为输出数据,设置超参数n_estimator(200)、learning_rate(0.02)、max_depth(5)、subsample(1);
[0096]
之后引入random search结合k-fold cross validation算法对上述超参数进行自动寻优,提高模型精确度及泛化能力,得到gbdt改进模型;其中,k=10,random search算法中超参数n_estimator、learning_rate、max_depth及subsample优化区间分别设置为为1~1000、0.01~0.5、1~10和0~1,迭代次数n_iter为500。
[0097]
4)采用测试集评估gbdt改进模型的准确性,具体的,将每组测试数据的第二工艺参数作为输入数据,得到致密度第二预测数据,然后利用该致密度第二预测数据与每组测试数据中的致密度数据(对应第二材料性能数据)计算得到决定系数r2=0.99和平均绝对百分比误差mape=1.4%(满足r2≥0.95条件且mape≤5%),因此工艺参数-材料性能gbdt模型训练完成,该gbdt改进模型即为gbdt最佳模型。
[0098]
5)以致密度99.5%为目标性能数据,通过基于q-learning强化学习算法的智能体模型与上述gbdt最佳模型的融合应用,输出实现该目标性能的最佳工艺路径从而实现对制件性能的智能精准调控,其中最大迭代次数p=700。
[0099]
实施例2~3采用与实施例1相同的制备技术及原料,仅是输入的目标致密度不同,实施例1~3中得到的最佳工艺参数如表1所示。
[0100]
表1实施例1-3中与目标致密度相对应的最佳工艺参数汇总
[0101][0102]
实施例4:
[0103]
以粉末无压烧结成形抗拉强度600mpa、延伸率13%的cp-ti制件为目标,预测/设计烧结工艺参数为例进行说明,具体步骤如下:
[0104]
1)建立初始数据集:从公开文献、实验及生产数据中抓取粉末无压烧结工艺参数、cp-ti制件性能数据,建立初始数据集。
[0105]
2)归一化处理:将初始数据集中的工艺参数与制件性能数据分别进行归一化处理(0~1),获得工艺参数-cp-ti制件性能数据集;其中,该数据集分为训练集、验证集和测试集,训练集中数据量占数据集总数据量的80%,验证集和测试集中数据量均占数据集总数据量的10%。
[0106]
3)建立无压烧结工艺参数-cp-ti制件性能gbdt初始模型:以训练集和验证集中工艺参数作为输入数据、cp-ti制件性能数据作为输出数据,设置超参数n_estimator(750)、learning_rate(0.03)、max_depth(7)、subsample(1)进行模型训练;
[0107]
之后引入random search结合k-fold cross validation算法对上述超参数进行
自动寻优,提高模型精确度及泛化能力,得到gbdt改进模型;其中,k=10,random search算法中超参数n_estimator、learning_rate、max_depth及subsample优化区间分别设置为为1~1000、0.01~0.5、1~10和0~1,迭代次数n_iter为500。
[0108]
4)采用测试集评估gbdt改进模型的准确性,具体的,将每组测试数据的第二工艺参数作为输入数据,得到cp-ti制件第二预测数据,然后利用该第二预测数据与每组测试数据中的制件性能数据(对应第二材料性能数据)计算得到决定系数r2=0.97和平均绝对百分比误差mape=3.2%(满足r2≥0.95条件且mape≤5%),因此工艺参数-材料性能gbdt模型训练完成,该gbdt改进模型即为gbdt最佳模型。
[0109]
5)以抗拉强度600mpa、延伸率14%为目标性能数据,通过基于q-learning强化学习算法的智能体模型与上述gbdt最佳模型的融合应用,输出实现该目标性能的最佳工艺路径从而实现对制件性能的智能精准调控,其中最大迭代次数p=800。
[0110]
实施例5~6与实施例4采用相同制备技术及原料,仅输入的目标抗拉强度和延伸率不同,实施例4~6中得到的最佳工艺参数如表2所示。
[0111]
表2实施例4-6中与目标抗拉强度、延伸率相对应的最佳工艺参数汇总
[0112][0113][0114]
需要说明的是,本发明的说明书和权利要求书中的术语“包括”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列部件不必限于清楚地列出的那些部件,而是可包括没有清楚地列出的或对于部件固有的其它部件。
[0115]
本发明中涉及的“第一”、“第二”等的描述,该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
[0116]
另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
[0117]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
技术特征:
1.一种基于强化学习的金属材料加工工艺参数的逆向设计方法,其特征在于,包括以下步骤:s1,建立数据集;其中,所述数据集分为训练集、验证集和测试集;s2,利用所述训练集、所述验证集进行模型训练,生成工艺参数-材料性能gbdt初始模型;s3,采用random search结合k-fold cross validation算法对所述gbdt初始模型超参数进行优化设计,得到gbdt改进模型;其中,k=5、10,所述超参数包括树的数量、学习速率、最大树深度和子采样比例;s4,利用所述测试集对所述gbdt改进模型进行预测效果评估及优化设计,得到gbdt最佳模型;其中,所采用的评价指标为决定系数r2、平均绝对百分比误差mape;s5,利用q-learning强化学习算法构建智能体模型,向所述智能体模型中输入预设目标性能数据,所述智能体模型与所述gbdt最佳模型进行融合应用,获得最佳工艺参数。2.如权利要求1所述的逆向设计方法,其特征在于,所述预设目标性能数据为致密度、硬度、抗拉强度、延伸率中的一项或多项的组合。3.如权利要求1所述的逆向设计方法,其特征在于,步骤s5中,向所述智能体模型中输入预设目标性能数据,所述智能体模型与所述gbdt最佳模型进行融合应用,获得最佳工艺参数具体包括:s5-1,向所述智能体模型中输入预设目标性能数据,智能体通过与环境进行交互获得与输入预设目标性能数据相对应的初始预测工艺参数;s5-2,将所述初始预测工艺参数输入所述gbdt最佳模型,输出与所述初始预测工艺参数相对应的初始材料性能预测数据,计算材料性能预测数据与预设目标性能数据之间的距离;s5-3,智能体根据所述距离、工艺参数与目标性能的相关性,进行当前t时刻的初始动作选取;其中,所述动作为对工艺参数的调整行为;s5-4,智能体根据所述t时刻的初始动作与环境进行交互,得到新的状态与奖励r;s5-5,智能体通过新的状态和奖励r获得新的当前t时刻动作指导策略,若r>0时表示智能体的当前行为对结果有益处,则智能体将执行新的动作;若r≤0时表示智能体的当前行为对结果无益处,则智能体将重新回到原状态,重复s5-4~s5-5;s5-6,智能体不断重复s5-3~s5-5步骤,直至迭代训练次数p达到预设次数阈值,以从当前时刻到最终时刻累积奖励最大时对应的工艺参数作为最佳工艺参数;其中p=100~1000,设定每次迭代中共有t个时刻,每一时刻t,智能体更新一次,直至t=t时,本次迭代结束。4.如权利要求3所述的逆向设计方法,其特征在于,所述材料性能预测数据与预设目标性能数据之间的距离表示为:其中,为预测值与目标值之间的距离;为目标值;y为t时刻的预测值;yt为
通过gbdt最佳模型预测的t时刻的工艺参数对应的预测值;优选的,所述奖励r为下一时刻(t+1)距离的倒数与当前时刻(t)距离的倒数之差,具体表示为:式中γ是对下一时刻奖励值的折扣因子,γ∈[0,1]。5.如权利要求1所述的逆向设计方法,其特征在于,步骤s1中建立数据集包括:s1-1,获取工艺参数、材料性能数据,建立基本数据集;s1-2,对所述基本数据集中的数据进行分类,并根据材料类型及工艺类型选择与之相对应的数据作为初始数据集;s1-3,对所述初始数据集进行归一化处理,获得所述数据集。6.如权利要求5所述的逆向设计方法,其特征在于,所述工艺类型包括但不限于热等静压技术、增材制造技术、粉末注射成形技术;优选的,所述材料类型包括但不限于钛合金、不锈钢、铜合金、锌合金、高熵合金;优选的,所述材料性能数据包括但不限于致密度、硬度、抗拉强度、延伸率。7.如权利要求1所述的逆向设计方法,其特征在于,所述训练集中数据量占所述数据集总数据量的40~90%,所述验证集中数据量占所述数据集总数据量的5~30%,所述测试集中数据量占所述数据集总数据量的5~30%,并且所述训练集、所述验证集和所述测试集的数据量百分比之和始终为100%。8.如权利要求1所述的逆向设计方法,其特征在于,步骤s4中,采用决定系数r2和平均绝对百分比误差mape判断所述gbdt改进模型是否达到模型精度以完成优化设计:当决定系数r2≥预设阈值且平均绝对百分比误差mape≤预设阈值,达到模型精度,获得所述gbdt最佳模型;当决定系数r2<预设阈值或者平均绝对百分比误差mape>预设阈值,重设rs算法优化所述参数区间及迭代次数并继续优化模型。9.如权利要求8所述的逆向设计方法,其特征在于,所述决定系数r2和平均绝对百分比误差mape的预设阈值分别为0.95和5%。10.如权利要求8所述的逆向设计方法,其特征在于,所述超参数中树的数量、学习速率、最大树深度和子采样比例优化区间分别为1~1000、0.01~0.5、1~10和0~1,所述迭代次数为200~1500。
技术总结
本发明提供了一种基于强化学习的金属材料加工工艺参数的逆向设计方法,该逆向设计方法基于数据集构建工艺参数-材料性能梯度提升回归树(GBDT)最佳模型,利用Q-Learning强化学习算法构建能够输出工艺参数的智能体模型,并将GBDT模型与智能体模型进行融合和应用,进而实现按照给定性能需求实时优化加工工艺参数以快速精准设计最佳工艺路径。以快速精准设计最佳工艺路径。以快速精准设计最佳工艺路径。
技术研发人员:徐伟 于爱华 路新
受保护的技术使用者:北京科技大学
技术研发日:2023.05.10
技术公布日:2023/8/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/