用电设备的控制方法和装置、存储介质、电子装置与流程
未命名
09-09
阅读:132
评论:0

1.本技术涉及智能用电技术领域,具体而言,涉及一种用电设备的控制方法和装置、存储介质、电子装置。
背景技术:
2.家庭能源管理系统(home energy management system,hems),可基于实时电价自动调节优化家庭电器的使用情况,降低用电成本。目前的家庭能源管理系统采用统计过往用户使用习惯或者正态分布随机生成电器使用数据,以表征用户电器使用情况的泛用性或随机性,亦或完全预设用户使用情况以方便计算,但以上情况都不能很好的贴合实际生活情况。
3.针对上述目前的家庭能源管理系统采用的家庭能源优化策略与用户需求不匹配的问题,目前尚未提出有效的解决方案。
技术实现要素:
4.本技术实施例提供了一种用电设备的控制方法和装置、存储介质、电子装置,以至少解决目前的家庭能源管理系统采用的家庭能源优化策略与用户需求不匹配的技术问题。
5.根据本技术实施例的一个方面,提供了一种用电设备的控制方法,包括:利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,其中,所述多个原始深度强化学习模型中不同的原始深度强化学习模型所匹配的能源管理策略不同;利用所述目标深度强化学习模型控制所述目标用户所在环境中的用电设备。
6.可选地,利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,包括:获取目标lstm模型的输出,其中,所述目标lstm模型为预先学习到了所述目标用户的用电习惯的lstm模型;利用所述目标lstm模型的输出,对与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练,得到所述目标深度强化学习模型。
7.可选地,在获取目标lstm模型的输出之前,所述方法还包括:获取所述目标用户在第一时间使用的电器、使用时间以及电价信息,在第二时间使用的电器、使用时间以及电价信息,其中,所述第二时间晚于所述第一时间;将所述目标用户在第一时间使用的电器、使用时间以及电价信息为原始lstm模型输入,以所述目标用户在第二时间使用的电器、使用时间以及电价信息为所述原始lstm模型的预期输出,对所述原始lstm模型进行训练,得到所述目标lstm模型。
8.可选地,获取目标lstm模型的输出,包括:获取与所述目标用户的能源管理策略匹配的原始深度强化学习模型对需要使用的电器开关、功率以及使用时间进行模拟,得到的设备动作;将所述目标用户在第三时间使用的电器、电价信息以及所述设备动作输入所述目标lstm模型,得到第四时间使用的电器、电价信息以及用户习惯,其中,所述第四时间晚
于所述第三时间。
9.可选地,利用所述目标lstm模型的输出,对与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练,得到所述目标深度强化学习模型,包括:将所述第四时间使用的电器、电价信息以及用户习惯输入与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练,得到所述目标深度强化学习模型。
10.可选地,在将所述第四时间使用的电器、电价信息以及用户习惯输入与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练之前,所述方法还包括:利用gpt模型从所述目标用户的用电需求和用户习惯中提取对应的逻辑信息,将所述逻辑信息转化为所述原始深度强化学习模型的训练参数。
11.可选地,在利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型之后,所述方法还包括:在所述目标用户对所述目标深度强化学习模型不满意的情况下,对所述目标深度强化学习模型继续进行训练,以得到所述目标用户满意的深度强化学习模型。
12.根据本技术实施例的另一方面,还提供了一种用电设备的控制装置,包括:生成单元,用于利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,其中,所述多个原始深度强化学习模型中不同的原始深度强化学习模型所匹配的能源管理策略不同;控制单元,用于利用所述目标深度强化学习模型控制所述目标用户所在环境中的用电设备。
13.可选地,生成单元还用于:获取目标lstm模型的输出,其中,所述目标lstm模型为预先学习到了所述目标用户的用电习惯的lstm模型;利用所述目标lstm模型的输出,对与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练,得到所述目标深度强化学习模型。
14.可选地,生成单元还用于:在获取目标lstm模型的输出之前,获取所述目标用户在第一时间使用的电器、使用时间以及电价信息,在第二时间使用的电器、使用时间以及电价信息,其中,所述第二时间晚于所述第一时间;将所述目标用户在第一时间使用的电器、使用时间以及电价信息为原始lstm模型输入,以所述目标用户在第二时间使用的电器、使用时间以及电价信息为所述原始lstm模型的预期输出,对所述原始lstm模型进行训练,得到所述目标lstm模型。
15.可选地,生成单元还用于:获取与所述目标用户的能源管理策略匹配的原始深度强化学习模型对需要使用的电器开关、功率以及使用时间进行模拟,得到的设备动作;将所述目标用户在第三时间使用的电器、电价信息以及所述设备动作输入所述目标lstm模型,得到第四时间使用的电器、电价信息以及用户习惯,其中,所述第四时间晚于所述第三时间。
16.可选地,生成单元还用于:将所述第四时间使用的电器、电价信息以及用户习惯输入与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练,得到所述目标深度强化学习模型。
17.可选地,生成单元还用于:在将所述第四时间使用的电器、电价信息以及用户习惯输入与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练之前,利用gpt模型从所述目标用户的用电需求和用户习惯中提取对应的逻辑信息,将所述逻辑信息
转化为所述原始深度强化学习模型的训练参数。
18.可选地,生成单元还用于:在利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型之后,在所述目标用户对所述目标深度强化学习模型不满意的情况下,对所述目标深度强化学习模型继续进行训练,以得到所述目标用户满意的深度强化学习模型。
19.根据本技术实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的方法。
20.根据本技术实施例的另一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器通过计算机程序执行上述的方法。
21.在本技术实施例中,提供多个原始深度强化学习模型,其中不同的原始深度强化学习模型所匹配的能源管理策略不同,利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,进而可以利用目标深度强化学习模型控制目标用户所在环境中的用电设备,从而可以解决目前的家庭能源管理系统采用的家庭能源优化策略与用户需求不匹配的问题。
附图说明
22.此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
23.图1是根据本技术实施例的一种可选的用电设备的控制方法的流程图;
24.图2是根据本技术实施例的基于深度强化学习的能源管理方案的示意图;
25.图3是根据本技术实施例的深度强化学习模型训练方案的示意图;
26.图4是根据本技术实施例的一种可选的用电设备的控制装置的示意图;
27.以及
28.图5是根据本技术实施例的一种终端的结构框图。
具体实施方式
29.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
30.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
31.不同的用户在对于个人舒适度和电器节能优化的平衡有着不同的衡量,仅以单一同策略深度强化模型进行优化,会导致模型更偏向于某一优化方向,无法探索更多优化方案从而导致不同用户体验度不佳的情况。随着深度强化学习的发展,根据用户个人需求智能生成多种家庭能源优化策略降低用电成本成为可能。
32.根据本技术实施例的一方面,提供了一种用电设备的控制方法的实施例,本技术采用非侵入式设备智能检测家庭负荷情况,使用lstm获取电器类别、实时电价、用户使用电器习惯以此创建环境状态,在用户侧采用gpt网络模型识别用户需求,使用多种深度强化模型训练家庭能源管理策略供用户选择,并且根据用户偏好自适应更新模型,以及通过本地控制模块对电器设备进行控制。
33.图1是根据本技术实施例的一种可选的用电设备的控制方法的流程图,如图1所示,该方法可以包括以下步骤:
34.步骤s1,利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,多个原始深度强化学习模型中不同的原始深度强化学习模型所匹配的能源管理策略不同。
35.在上述方案中,可先利用gpt模型从目标用户的用电需求和用户习惯中提取对应的逻辑信息,将逻辑信息转化为原始深度强化学习模型的训练参数;之后获取目标lstm模型的输出,具体可以调用原始深度强化学习模型对需要使用的电器开关、功率以及使用时间进行模拟,得到的设备动作(即控制设备启停等操作的动作),将目标用户在第三时间使用的电器、电价信息以及设备动作输入目标lstm模型,得到第四时间使用的电器、电价信息以及用户习惯,第四时间晚于第三时间;利用目标lstm模型的上述输出,对与目标用户的能源管理策略匹配的原始深度强化学习模型进行训练,得到目标深度强化学习模型。
36.在相关技术中的基于深度强化学习的智能家庭能量管理方法中,通过收集实时环境状态信息和设备动作以及设备动作后对环境状态产生的影响、用户反馈作为训练样本经验池。依据深度强化学习的特性,需要大量样本才能准确的调节至最佳策略,而通过大量实时环境作为实验对于用户来说是繁琐与体验不佳的。而采用本技术的上述技术方案,可以使用lstm模型预测模拟家庭电器使用环境,无需实际控制电器计算更新深度强化学习最优模型,进而可以提高用户体验。
37.可选地,在目标用户对目标深度强化学习模型不满意的情况下,可对目标深度强化学习模型继续进行训练,以得到目标用户满意的深度强化学习模型。
38.在本技术的技术方案中,根据用户需求提供多种家庭能源管理策略,可自适应更新用户的使用电器习惯和用户偏好家庭能源管理策略。
39.可选地,可以按照如下方式训练得到目标lstm模型:获取目标用户在第一时间使用的电器、使用时间以及电价信息,在第二时间使用的电器、使用时间以及电价信息,其中,第二时间晚于第一时间;将目标用户在第一时间使用的电器、使用时间以及电价信息为原始lstm模型输入,以目标用户在第二时间使用的电器、使用时间以及电价信息为原始lstm模型的预期输出,对原始lstm模型进行训练,得到目标lstm模型。
40.在相关技术中,可以联合lstm和深度强化学习进行家庭能源管理,使用lstm预测下一时刻的实时电价与光伏发电量,并对家庭负荷分类进行深度强化学习调度,电器以及光伏发电、电动汽车的储能的功率是依据于额定功率计算,没有考虑到功率的损耗问题,在
对家庭电器进行调度之后,计算依据的是额定功率以及进行实验验证时电器的调度使用截断正态分布模拟数据,会造成实验结果与实际情况产生较大误差。而在本技术技术方案,能够智能识别家庭负荷情况,并预测使用家庭能源管理策略后未来负荷使用情况,能够与用户实际情况更为贴合。
41.步骤s2,利用目标深度强化学习模型控制目标用户所在环境中的用电设备。
42.通过上述方案,提供多个原始深度强化学习模型,其中不同的原始深度强化学习模型所匹配的能源管理策略不同,利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,进而可以利用目标深度强化学习模型控制目标用户所在环境中的用电设备,从而可以解决目前的家庭能源管理系统采用的家庭能源优化策略与用户需求不匹配的问题。
43.本发明的目的为基于用户需求,结合用户家庭电器和使用习惯提供多种家庭能源管理策略,并且通过本地控制模块对电器进行控制。作为一种可选的实施例,下文结合图2、图3,以具体的实施方式进一步详述本技术的技术方案:
44.1)信息采集部分:通过使用非侵入式智能电表获取过去用户家庭的电器高频暂态特征:通过识别一段时间t内电器的功率p和电压v分析电器类型,识别电器开关时间t
on/off
以获取用户使用电器习惯,智能电表与互联网通讯获取实时电价信息。
45.通过智能电表-网关-云平台的控制系统传递电器信息、用户用电习惯、实时电价到云平台上进行下一步信息处理。
46.2)lstm创建环境状态:基于过去一段时间t内信息采集部分获取的电器类别、使用时间和电价信息进行训练,得到训练好的lstm模型。
47.进一步将某个时刻t所包含的电器、电价信息构成环境状态s
t
输入到lstm模型中,预测输出第t+1时刻的电器、电价信息构成环境s
t+1
。t+1时刻的信息为lstm预测的虚拟信息,并不会对真实环境造成影响。
48.3)gpt模型:gpt模型为预先训练好的模型,训练集包括:
49.文本语言:对用户输入的需求进行分析理解;
50.电器信息:对电器类别进行分辨,以及电器可以使用的能源管理策略,分析lstm模型返回的电器信息、使用习惯和电价信息;
51.能源管理策略:将用户的需求转换为能源管理策略的深度强化学习训练参数。
52.gpt模型通过分析用户的需求以及用户习惯提取对应的逻辑信息,将信息转化为深度强化学习的训练参数。例如用户输入“我打算再过1小时后洗澡,洗完就睡了,明早8点开车出门”,gpt模型通过语言分析和用户习惯得到用户目标需求:洗澡-热水器-温度,开车出门-电动汽车充电以及对应的使用时间,并通过lstm预测出用户未提及的电器可能使用情况:洗完澡后洗衣服-洗衣机、睡觉-空调,由此分为显性需求与隐性需求,将用户的需求、对应电器使用情况、当前电价信息转化为深度学习参数环境s。
53.通过智能设备app-网关-云平台的控制方式将需求上传到云平台上进行分析。
54.4)深度强化学习训练:由多种不同策略的不同深度强化学习模型构成分枝,例如:以节能作行为策略、用户舒服度作为目标策略的异策略模型;以节能作为行为策略和目标策略的同策略模型;鼓励探索行为的噪声dqn网络等等。
55.深度强化学习训练过程如图3所示:
56.4.1)基于用户需求使用深度强化学习模型对需要使用的电器开关、功率、使用时间进行模拟,得到一个动作a;
57.4.2)将动作a与当前环境s
t
结合作为lstm模型的输入,lstm预测出未来一段t+1时间的实时电价、电器使用情况、用户习惯作为状态s
t+1
;
58.4.3)深度强化学习模型以目标策略π为标准对返回的函数奖励r(s
t
,a,s
t+1
)进行评分γ(γ∈[0,1]),动作价值函数可以表示为:
[0059]qπ
(s
t
,a
t
)=e[r
t
+γ
·rt+1
+γ2·rt+2
+...+γn·rt+n
|s
t
=s
t
,a
t
=a
t
],
[0060]rt+n
为基于当前状态s
t
,动作a使用lstm模型预测得到的r
t+n
时刻的奖励,目标策略π可以为动作a消耗的电能、基于实时电价的总电价或者用户习惯吻合度(舒适度)其中之一或者多者加权结合;
[0061]
4.4)在将s
t
输入深度强化学习模型中执行动作a
t
经过lstm模型预测得到一个价值估值q
t
和新环境s
t+1
,再将新环境s
t+1
输入深度强化学习模型得到新的动作a
t+1
产生一个新的估值q
t+1
,可以认为新环境s
t+1
是基于目标策略π得到的目标,从而产生一个目标与当前值的误差:
[0062]
l(w)=1/2[q(s
t,at
;w)-(r
t
+γ
·
q(s
t+1,at+1
;w))]2,
[0063]
对当前模型参数w进行更新:
[0064][0065]
4.5)深度强化学习模型基于目标策略π的价值评分和行为策略(可以与目标策略相同也可以有差异,不同的深度强化学习模型的目标策略和行为奖励都不同)进行训练,从而得到多个最优价值函数动作方案an。
[0066]
lstm、gpt、深度强化学习的训练都在云平台上进行,当训练结束后,模型保存在云平台上,通过云平台-网关-智能设备app将深度强化学习训练得到的能源管理方案回传到用户智能设备app上。
[0067]
5)用户反馈及模型更新:经过多个深度强化学习模型训练得到的多个最优价值函数动作方案an,以及预计使用的电器情况、消耗的电能、总电价、用户舒适度。用户根据自身需求选择对应的方案。若对给出的方案不满意,提出改进需求,gpt模型将需求转化为深度强化学习参数继续进行训练;直到用户对方案满意,对应方案的深度强化学习模型将作为偏好模型保存,同时更新lstm模型中的参数以增加预测准确度。
[0068]
6)本地应用控制:根据用户选择的能源管理方案控制策略对电器设备进行控制,可选地使用智能开关和智能插座对电器进行控制。
[0069]
在本技术的技术方案中,能够智能识别家庭负荷使用情况,使用lstm模型预测模拟家庭电器使用环境,根据用户需求提供多种家庭能源管理策略,自适应更新用户的使用电器习惯和用户偏好家庭能源管理策略,并根据管理策略预测负荷优化家庭电器使用情况。
[0070]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0071]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
[0072]
根据本技术实施例的另一个方面,还提供了一种用于实施上述用电设备的控制方法的用电设备的控制装置。图4是根据本技术实施例的一种可选的用电设备的控制装置的示意图,如图4所示,该装置可以包括:
[0073]
生成单元41,用于利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,其中,所述多个原始深度强化学习模型中不同的原始深度强化学习模型所匹配的能源管理策略不同;
[0074]
控制单元43,用于利用所述目标深度强化学习模型控制所述目标用户所在环境中的用电设备。
[0075]
可选地,生成单元还用于:获取目标lstm模型的输出,其中,所述目标lstm模型为预先学习到了所述目标用户的用电习惯的lstm模型;利用所述目标lstm模型的输出,对与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练,得到所述目标深度强化学习模型。
[0076]
可选地,生成单元还用于:在获取目标lstm模型的输出之前,获取所述目标用户在第一时间使用的电器、使用时间以及电价信息,在第二时间使用的电器、使用时间以及电价信息,其中,所述第二时间晚于所述第一时间;将所述目标用户在第一时间使用的电器、使用时间以及电价信息为原始lstm模型输入,以所述目标用户在第二时间使用的电器、使用时间以及电价信息为所述原始lstm模型的预期输出,对所述原始lstm模型进行训练,得到所述目标lstm模型。
[0077]
可选地,生成单元还用于:获取与所述目标用户的能源管理策略匹配的原始深度强化学习模型对需要使用的电器开关、功率以及使用时间进行模拟,得到的设备动作;将所述目标用户在第三时间使用的电器、电价信息以及所述设备动作输入所述目标lstm模型,得到第四时间使用的电器、电价信息以及用户习惯,其中,所述第四时间晚于所述第三时间。
[0078]
可选地,生成单元还用于:将所述第四时间使用的电器、电价信息以及用户习惯输入与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练,得到所述目标深度强化学习模型。
[0079]
可选地,生成单元还用于:在将所述第四时间使用的电器、电价信息以及用户习惯输入与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练之前,利用gpt模型从所述目标用户的用电需求和用户习惯中提取对应的逻辑信息,将所述逻辑信息转化为所述原始深度强化学习模型的训练参数。
[0080]
可选地,生成单元还用于:在利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型之后,在所述目标用户对所述目标深度强化学习模型不满意的情况下,对所述目标深度强化学习模型继续进
行训练,以得到所述目标用户满意的深度强化学习模型。
[0081]
通过上述模块,提供多个原始深度强化学习模型,其中不同的原始深度强化学习模型所匹配的能源管理策略不同,利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,进而可以利用所述目标深度强化学习模型控制所述目标用户所在环境中的用电设备,从而可以解决目前的家庭能源管理系统采用的家庭能源优化策略与用户需求不匹配的问题。
[0082]
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在相应的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
[0083]
根据本技术实施例的另一个方面,还提供了一种用于实施上述用电设备的控制方法的服务器或终端。
[0084]
图5是根据本技术实施例的一种终端的结构框图,如图5所示,该终端可以包括:一个或多个(仅示出一个)处理器501、存储器503、以及传输装置505,如图5所示,该终端还可以包括输入输出设备507。
[0085]
其中,存储器503可用于存储软件程序以及模块,如本技术实施例中的用电设备的控制方法和装置对应的程序指令/模块,处理器501通过运行存储在存储器503内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的用电设备的控制方法。存储器503可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器503可进一步包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0086]
上述的传输装置505用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置505包括一个网络适配器(network interface controller,nic),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置505为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
[0087]
其中,具体地,存储器503用于存储应用程序。
[0088]
处理器501可以通过传输装置505调用存储器503存储的应用程序,以执行下述步骤:
[0089]
利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,其中,所述多个原始深度强化学习模型中不同的原始深度强化学习模型所匹配的能源管理策略不同;利用所述目标深度强化学习模型控制所述目标用户所在环境中的用电设备。
[0090]
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
[0091]
本领域普通技术人员可以理解,图5所示的结构仅为示意,终端可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图5其并不对上述电子装置的结构造成限定。例如,终端还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示
不同的配置。
[0092]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
[0093]
本技术的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行用电设备的控制方法的程序代码。
[0094]
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
[0095]
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
[0096]
利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,其中,所述多个原始深度强化学习模型中不同的原始深度强化学习模型所匹配的能源管理策略不同;利用所述目标深度强化学习模型控制所述目标用户所在环境中的用电设备。
[0097]
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
[0098]
可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0099]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0100]
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。
[0101]
在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0102]
在本技术所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0103]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0104]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以
是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0105]
以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
技术特征:
1.一种用电设备的控制方法,其特征在于,包括:利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,其中,所述多个原始深度强化学习模型中不同的原始深度强化学习模型所匹配的能源管理策略不同;利用所述目标深度强化学习模型控制所述目标用户所在环境中的用电设备。2.根据权利要求1所述的方法,其特征在于,利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,包括:获取目标lstm模型的输出,其中,所述目标lstm模型为预先学习到了所述目标用户的用电习惯的lstm模型;利用所述目标lstm模型的输出,对与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练,得到所述目标深度强化学习模型。3.根据权利要求2所述的方法,其特征在于,在获取目标lstm模型的输出之前,所述方法还包括:获取所述目标用户在第一时间使用的电器、使用时间以及电价信息,在第二时间使用的电器、使用时间以及电价信息,其中,所述第二时间晚于所述第一时间;将所述目标用户在第一时间使用的电器、使用时间以及电价信息为原始lstm模型输入,以所述目标用户在第二时间使用的电器、使用时间以及电价信息为所述原始lstm模型的预期输出,对所述原始lstm模型进行训练,得到所述目标lstm模型。4.根据权利要求2所述的方法,其特征在于,获取目标lstm模型的输出,包括:获取与所述目标用户的能源管理策略匹配的原始深度强化学习模型对需要使用的电器开关、功率以及使用时间进行模拟得到的设备动作;将所述目标用户在第三时间使用的电器、电价信息以及所述设备动作输入所述目标lstm模型,得到第四时间使用的电器、电价信息以及用户习惯,其中,所述第四时间晚于所述第三时间。5.根据权利要求4所述的方法,其特征在于,利用所述目标lstm模型的输出,对与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练,得到所述目标深度强化学习模型,包括:将所述第四时间使用的电器、电价信息以及用户习惯输入与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练,得到所述目标深度强化学习模型。6.根据权利要求5所述的方法,其特征在于,在将所述第四时间使用的电器、电价信息以及用户习惯输入与所述目标用户的能源管理策略匹配的原始深度强化学习模型进行训练之前,所述方法还包括:利用gpt模型从所述目标用户的用电需求和用户习惯中提取对应的逻辑信息,将所述逻辑信息转化为所述原始深度强化学习模型的训练参数。7.根据权利要求1至6中任意一项所述的方法,其特征在于,在利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型之后,所述方法还包括:在所述目标用户对所述目标深度强化学习模型不满意的情况下,对所述目标深度强化学习模型继续进行训练,以得到所述目标用户满意的深度强化学习模型。
8.一种用电设备的控制装置,其特征在于,包括:生成单元,用于利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,其中,所述多个原始深度强化学习模型中不同的原始深度强化学习模型所匹配的能源管理策略不同;控制单元,用于利用所述目标深度强化学习模型控制所述目标用户所在环境中的用电设备。9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。10.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行上述权利要求1至7任一项中所述的方法。
技术总结
本申请公开了一种用电设备的控制方法和装置、存储介质、电子装置。其中,该方法包括:提供多个原始深度强化学习模型,其中不同的原始深度强化学习模型所匹配的能源管理策略不同,利用多个原始深度强化学习模型中与目标用户的能源管理策略匹配的原始深度强化学习模型,生成目标深度强化学习模型,进而可以利用目标深度强化学习模型控制目标用户所在环境中的用电设备,从而可以解决目前的家庭能源管理系统采用的家庭能源优化策略与用户需求不匹配的问题。的问题。的问题。
技术研发人员:张文炫
受保护的技术使用者:珠海格力电器股份有限公司
技术研发日:2023.07.06
技术公布日:2023/9/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/