服务器运行管理方法、装置、服务器、电子设备和介质与流程
未命名
09-17
阅读:83
评论:0

1.本技术涉及服务器技术领域,具体而言,涉及一种服务器运行管理方法、装置、服务器、电子设备和介质。
背景技术:
2.随着互联网及信息技术的飞速发展,数据的高并发处理和高吞吐量对服务器的处理性能要求在不断的提升,服务器硬件在不断的进行高频率和高容量的升级,例如中央处理器、内存、图形处理器、网卡等,都在往性能越来越强的方向发展,随之带来的是服务器整机功耗越来越大,这对服务器的散热能力提出了更高的要求。若各部件设备的温度超过了服务器散热能力的处理范围,则服务器的性能及稳定性都会受到严重影响。
3.因此,如何提高服务器的服务性能和稳定性成为业界亟待解决的技术问题。
技术实现要素:
4.本技术提供一种服务器运行管理方法、装置、服务器、电子设备和介质,用于解决如何提高服务器的服务性能和稳定性的技术问题。
5.本技术提供一种服务器运行管理方法,包括:
6.获取服务器中各个模块的第一运行温度;
7.将各个模块的第一运行温度与各个模块对应的运行温度阈值进行比较,确定处于超温状态的目标模块;所述超温状态为所述第一运行温度大于所述运行温度阈值的运行状态;
8.确定所述目标模块在超温状态下的运行时长;
9.在所述运行时长大于所述目标模块对应的预设超温时长的情况下,控制所述服务器中的供电装置切断所述目标模块的工作电源。
10.在一些实施例中,所述控制所述服务器中的供电装置切断所述目标模块的工作电源之后,所述方法还包括:
11.基于预设时间间隔,控制所述服务器中的供电装置接通所述目标模块的工作电源;
12.获取所述目标模块的第二运行温度;
13.在所述第二运行温度大于所述目标模块对应的运行温度阈值的情况下,控制所述服务器中的供电装置再次切断所述目标模块的工作电源。
14.在一些实施例中,所述控制所述服务器中的供电装置切断所述目标模块的工作电源之后,所述方法还包括:
15.生成告警日志;所述告警日志用于记录所述目标模块的运行状态和/或供电状态;
16.将所述告警日志发送至所述服务器的监测客户端。
17.在一些实施例中,所述将所述告警日志发送至所述服务器的监测客户端之后,所述方法还包括:
18.接收所述监测客户端发送的目标模块供电请求;所述目标模块供电请求是基于所述告警日志确定的;
19.响应于所述目标模块供电请求,控制所述服务器中的供电装置接通所述目标模块的工作电源。
20.在一些实施例中,所述确定所述目标模块在超温状态下的运行时长之后,所述方法还包括:
21.在所述运行时长小于所述目标模块对应的预设超温时长的情况下,控制所述服务器的冷却装置进行升负载运行。
22.在一些实施例中,所述确定所述目标模块在超温状态下的运行时长之后,所述方法还包括:
23.在所述运行时长小于所述目标模块对应的预设超温时长的情况下,向所述服务器的中央处理器发送所述目标模块对应的超温预警信息;
24.所述超温预警信息用于触发所述中央处理器对所述目标模块进行降负载运行。
25.在一些实施例中,所述确定所述目标模块在超温状态下的运行时长之后,所述方法还包括:
26.在所述运行时长小于所述目标模块对应的预设超温时长的情况下,确定所述目标模块在所述服务器中对应的冗余模块;
27.获取所述冗余模块的第一运行温度;
28.将所述目标模块的第一运行温度和所述冗余模块的第一运行温度发送至所述服务器的中央处理器,以使所述中央处理器基于所述目标模块的第一运行温度和所述冗余模块的第一运行温度,对所述目标模块和所述冗余模块进行负载均衡处理。
29.本技术提供一种服务器运行管理装置,包括:
30.获取单元,用于获取服务器中各个模块的第一运行温度;
31.比较单元,用于将各个模块的第一运行温度与各个模块对应的运行温度阈值进行比较,确定处于超温状态的目标模块;所述超温状态为所述第一运行温度大于所述运行温度阈值的运行状态;
32.确定单元,用于确定所述目标模块在超温状态下的运行时长;
33.控制单元,用于在所述运行时长大于所述目标模块对应的预设超温时长的情况下,控制所述服务器中的供电装置切断所述目标模块的工作电源。
34.本技术提供一种服务器,包括基板管理控制器、供电装置和各个模块;
35.所述供电装置,与所述基板管理控制器和各个所述模块连接,用于接收所述基板管理控制器的电源通断指令,为各个所述模块提供工作电源;
36.所述基板管理控制器,用于执行所述的服务器运行管理方法。
37.本技术提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如所述的服务器运行管理方法。
38.本技术提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如所述的服务器运行管理方法。
39.本技术提供的服务器运行管理方法、装置、服务器、电子设备和介质,将服务器中
各个模块的第一运行温度与各个模块对应的运行温度阈值进行比较,确定处于超温状态的目标模块;确定目标模块在超温状态下的运行时长;在运行时长大于目标模块对应的预设超温时长的情况下,控制服务器中的供电装置切断目标模块的工作电源,实现了在服务器中根据各个模块的运行温度精确地进行运行控制,只需要断开处于超温状态的模块的电源,避免了对服务器进行整体关机,使得其他模块能够继续运行,实现了最大程度地减弱高温对服务器所提供的业务服务的影响,能够平衡服务器的处理能力和散热能力,避免造成服务器内各个模块的损害,最大限度地利用服务器的硬件资源,提高了服务器的服务性能和稳定性。
附图说明
40.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
41.为了更清楚地说明本技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.图1是本技术一个实施例提供的服务器运行管理方法的流程示意图;
43.图2是本技术又一个实施例提供的服务器运行管理方法的流程示意图;
44.图3是本技术一个实施例提供的服务器运行管理装置的结构示意图;
45.图4是本技术一个实施例提供的服务器的结构示意图;
46.图5是本技术一个实施例提供的电子设备的结构示意图。
具体实施方式
47.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
48.需要说明的是,本技术中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
49.服务器是由多个模块(部件或者设备)构成的,每个模块都有自己的标称温度区间(即该设备可正常工作的温度最低值和最高值)。服务器正常运行时,基板管理控制器(baseboard management controller,bmc)会对各模块的运行温度进行实时监控,同时对各个模块的不同温度情况有相应的散热策略,即:根据bmc监控到的不同模块的不同温度状态,bmc会调节服务器的风扇转速进行散热,以保证服务器各模块运行在合适的工作温度
下,达到各模块正常工作的效果。当bmc监测到任一模块达到高温阈值时,风扇会达到满转进行散热,若满转一段时间后,模块温度仍不能下降到正常工作温度,为了保护模块不会被高温损坏,服务器会自动关机进行自我保护,但此时会中断服务器正在进行的服务,严重影响用户体验。
50.图1是本技术一个实施例提供的服务器运行管理方法的流程示意图,如图1所示,该方法包括步骤110、步骤120、步骤130和步骤140。
51.步骤110、获取服务器中各个模块的第一运行温度。
52.具体地,本技术实施例提供的服务器运行管理方法的应用场景为对服务器的运行进行管理,具体为通过各个模块的温度对服务器中的各个模块进行运行管理,避免各个模块的运行温度超过了服务器的散热能力,出现模块因高温损坏,导致服务器的服务性能下降,运行稳定性下降。
53.该方法的执行主体为服务器运行管理装置。该装置可以通过软件实现,例如服务器运行管理程序;也可以为执行服务器运行管理方法的装置,例如基板管理控制器,该控制器嵌入在服务器主板上,独立于服务器系统之外,可以对服务器进行远程管理、监控、安装和重启等操作。
54.本技术实施例中的各个模块为进行数据处理的功能模块,例如计算模块、存储模块和通信模块等。计算模块可以包括中央处理器(central processing unit,cpu)和图形处理器(graphic processing unit,gpu)等。存储模块可以包括多个硬盘等。
55.这些模块可以内置温度传感器或者外置温度传感器,与基板管理控制器连接,用于获取各个模块的第一运行温度。运行温度是指模块运行时的设备温度。一般地,模块的负载越高,处理的数据量越大,运行温度越高,损坏的可能性就越大;模块的负载越低,处理的数据量越小,运行温度越低,损坏的可能性就越小。
56.基板管理控制器可以采用轮询机制,定时发出询问,依序询问各个模块的运行温度,并得到各个模块反馈的第一运行温度。
57.步骤120、将各个模块的第一运行温度与各个模块对应的运行温度阈值进行比较,确定处于超温状态的目标模块。
58.具体地,运行温度阈值为模块处于正常运行状态时的设备温度的临界值。一般包括最低值和最高值,此处是指最高值。
59.由于构造材料的不同,不同的模块对应的运行温度阈值是不同的。例如中央处理器的运行温度阈值为100摄氏度左右,硬盘的运行温度阈值为70摄氏度左右。
60.当模块的第一运行温度大于该模块对应的运行温度阈值时,可以确定该模块处于超温状态。此时,可以确定该模块为需要进行运行管理的目标模块。
61.在检测到存在目标模块时,基板管理控制器会对调节服务器的风扇转速进行散热,以保证服务器各模块运行在合适的工作温度下,达到各模块正常工作的效果。
62.需要特别说明的是,当基板管理控制器监测到任一模块达到运行温度阈值时,风扇会达到最大转速进行散热。即使是风扇达到最大转速,仍然可能存在不能使目标模块的运行温度降低的效果,也就是说,目标模块将一直运行在超温状态下。
63.步骤130、确定目标模块在超温状态下的运行时长。
64.具体地,在确定目标模块处于超温状态后,可以根据目标模块反馈的第一运行温
度的采集时刻,计算目标模块在超温状态下的运行时长。
65.例如,可以将开始检测到目标模块的第一运行温度大于运行温度阈值的采集时刻作为起始时刻,以当前采集时刻为终点时刻,计算得到运行时长。从起始时刻到终点时刻,目标模块的第一运行温度始终大于运行温度阈值,也就是目标模块一直处于超温状态。
66.步骤140、在运行时长大于目标模块对应的预设超温时长的情况下,控制服务器中的供电装置切断目标模块的工作电源。
67.具体地,预设超温时长是指各个模块能够在超温状态下运行的允许时长,即当模块处于超温状态后,模块的构成材料能够在高温状态下短暂运行一段时间。当超过预设超温时长后,高温将造成模块的构成材料的结构等发生变化,性能被破坏,使得模块受到损伤。
68.由于构造材料的不同,不同的模块对应的预设超温时长是不同的。当运行时长大于目标模块对应的预设超温时长时,需要对目标模块进行超温保护,可以切断目标模块的工作电源,促使目标模块无法继续运行,从而降低目标模块的运行温度。
69.可以对服务器中的供电装置进行设置,使得供电装置对各个模块提供独立供电回路,可以分别控制各个模块的工作电源。基板管理控制器可以向供电装置发送目标模块的电源断开指令,供电装置在接收到电源断开指令后,切断目标模块的工作电源。
70.本技术实施例提供的服务器运行管理方法,将服务器中各个模块的第一运行温度与各个模块对应的运行温度阈值进行比较,确定处于超温状态的目标模块;确定目标模块在超温状态下的运行时长;在运行时长大于目标模块对应的预设超温时长的情况下,控制服务器中的供电装置切断目标模块的工作电源,实现了在服务器中根据各个模块的运行温度精确地进行运行控制,只需要断开处于超温状态的模块的电源,避免了对服务器进行整体关机,使得其他模块能够继续运行,实现了最大程度地减弱高温对服务器所提供的业务服务的影响,能够平衡服务器的处理能力和散热能力,避免造成服务器内各个模块的损害,最大限度地利用服务器的硬件资源,提高了服务器的服务性能和稳定性。
71.需要说明的是,本技术每一个实施方式可以自由组合、调换顺序或者单独执行,并不需要依靠或依赖固定的执行顺序。
72.在一些实施例中,步骤140之后包括:
73.基于预设时间间隔,控制服务器中的供电装置接通目标模块的工作电源;
74.获取目标模块的第二运行温度;
75.在第二运行温度大于目标模块对应的运行温度阈值的情况下,控制服务器中的供电装置再次切断目标模块的工作电源。
76.具体地,在切断目标模块的工作电源后,目标模块将因为失电而停止运行,依靠冷却装置进行降温。服务器内的冷却装置包括风冷装置和液冷装置等。风冷装置包括风扇等;液冷装置包括冷板等。部分服务器还可以采用全浸没式液冷。目标模块本身也可以配备散热片等冷却装置,也可以配备小型风扇等(需要在通电状态下使用)。
77.由于目标模块被切断工作电源后,无法进行运行温度的采集。基板管理控制器可以按照预设时间间隔,向供电装置发送目标模块的电源接通指令。供电装置在接收到电源接通指令后,接通目标模块的工作电源。预设时间间隔可以根据需要进行设置,也可以根据服务器中冷却装置的散热量进行设置。冷却装置的散热量较高时,可以将预设时间间隔设
置为较小值;冷却装置的散热量较低时,可以将预设时间间隔设置为较大值。
78.目标模块的电源接通后,该模块中设置的温度传感器将目标模块在当前时刻的第二运行温度发送至基板管理控制器。基板管理控制器将第二运行温度与目标模块对应的运行温度阈值进行比较,如果第二运行温度大于目标模块对应的运行温度阈值,表明目标模块现在依然处于超温状态,则控制服务器中的供电装置再次切断目标模块的工作电源;如果第二运行温度小于或者等于目标模块对应的运行温度阈值,表明目标模块现在处于可正常运行的状态,则无需控制服务器中的供电装置再次切断目标模块的工作电源,在此情况下,目标模块将再次提供数据处理服务。
79.本技术实施例提供的服务器运行管理方法,通过预设时间间隔控制服务器中的供电装置接通目标模块的工作电源;获取目标模块的第二运行温度;根据第二运行温度对目标模块的状态进行再次判断,状态正常时可以让目标模块尽快恢复正常运行,状态异常时可以对目标模块进行继续超温保护,避免造成目标模块的损害,提高了服务器的服务性能和稳定性。
80.在一些实施例中,步骤140之后包括:
81.生成告警日志;告警日志用于记录目标模块的运行状态和/或供电状态;
82.将告警日志发送至服务器的监测客户端。
83.具体地,在切断目标模块的工作电源后,基板管理控制器还可以生成告警日志,在告警日志中记录目标模块的运行状态和/或供电状态。运行状态表示目标模块是否处于超温状态;供电状态表示目标模块是否处于通电状态。基板管理控制器将告警日志发送至服务器的监测客户端。监测客户端可以包括网页客户端和移动客户端等。
84.监测客户端可以通过短信、邮件、即时通信信息和电话等方式,对用户进行通知提醒。邮件通知的及时性不高,很容易被人忽视;即时通信软件通知的及时性高,但是非办公时间,可能会被忽视;短信通知属于跨应用,就算没有网络,也可以获取到,及时性和消息穿透性会更强;电话通知属于最严重,及时性和可靠性最强的告警渠道。
85.可以根据目标模块所处理的数据业务的重要性,确定告警日志的告警级别。例如,如果目标模块所处理的数据业务的重要性较高,则告警日志的告警级别可以为紧急,通知方式包括电话通知、短信通知、邮件通知和即时通信软件通知;如果目标模块所处理的数据业务的重要性较低,则告警日志的告警级别可以为普通,通知方式包括邮件通知和即时通信软件通知。
86.用户在接收到通知提醒后,可以查看告警日志,根据模块的实际运行情况,选择手动恢复目标模块的工作电源。目标模块恢复供电后,基板管理控制器将再次对目标模块进行温度监控。
87.本技术实施例提供的服务器运行管理方法,可以根据目标模块的运行状态和/或供电状态生成告警日志,及时通知用户,避免造成目标模块的损害,提高了服务器的服务性能和稳定性。
88.在一些实施例中,将告警日志发送至服务器的监测客户端之后,包括:
89.接收监测客户端发送的目标模块供电请求;目标模块供电请求是基于告警日志确定的;
90.响应于目标模块供电请求,控制服务器中的供电装置接通目标模块的工作电源。
91.具体地,用户通过监测客户端接收到告警日志后,会根据告警日志中记载的目标模块的运行状态和/或供电状态,判断目标模块处于断电状态。用户可以根据目标模块的散热性能和所处理的数据业务的重要性等,确定目标模块工作电源的恢复时刻,并根据恢复时刻,通过监测客户端向服务器中的基板管理控制器发送目标模块供电请求。
92.目标模块供电请求中可以记载目标模块的识别编码、工作电源恢复时刻等信息。
93.基板管理控制器在接收到目标模块供电请求后,对目标模块供电请求进行解析,确定目标模块的工作电源恢复时刻。在该时刻,向供电装置发送电源接通指令。供电装置在接收到电源接通指令后,接通目标模块的工作电源,使得目标模块可以继续工作。
94.本技术实施例提供的服务器运行管理方法,可以为用户提供手动恢复目标模块的工作电源,方便了用户的操作,提高了用户对服务器的使用体验。
95.在一些实施例中,步骤130之后包括:
96.在运行时长小于目标模块对应的预设超温时长的情况下,控制服务器的冷却装置进行升负载运行。
97.具体地,基板管理控制器在目标模块进行超温状态后,对目标模块的运行时长进行统计。在运行时长小于目标模块对应的预设超温时长的情况下,基板管理控制器可以控制服务器中的冷却装置升负载运行,尽快对目标模块进行冷却处理。
98.冷却装置负载增加时,散热量也会增加,可以提高对服务器中各个模块的冷却效果。
99.控制冷却装置进行升负载运行可以通过如下方式进行:
100.当冷却装置为风扇组时,基板管理控制器可以选择控制风扇组提高转速或者将备用风扇投入运行等;当冷却装置为液冷装置时,基板管理控制器可以控制液冷装置提高冷却液的流速等。
101.在冷却装置进行升负载运行后,服务器中的散热量增加,目标模块的运行温度可能降低,从而退出超温状态。
102.本技术实施例提供的服务器运行管理方法,通过控制服务器的冷却装置进行升负载运行,增加服务器的散热量,降低目标模块的运行温度,避免造成目标模块的损害,提高了服务器的服务性能和稳定性。
103.在一些实施例中,步骤130之后包括:
104.在运行时长小于目标模块对应的预设超温时长的情况下,向服务器的中央处理器发送目标模块对应的超温预警信息;
105.超温预警信息用于触发中央处理器对目标模块进行降负载运行。
106.具体地,在运行时长小于目标模块对应的预设超温时长的情况下,基板管理控制器还可以向服务器的中央处理器发送目标模块对应的超温预警信息。超温预警信息用于对中央处理器进行提示。
107.中央处理器在接收到超温预警信息后,会控制目标模块进行降负载运行。对于目标模块来说,负载越低,数据处理量越低,功耗就越低,发热量就越少;负载越高,数据处理量越高,功耗就越高,发热量就越多。
108.可以对服务器中的各个模块进行测试,获取各个模块的负载温度曲线,负载温度曲线用于描述模块的负载与运行温度之间的对应关系。将各个模块的负载温度曲线存储至
服务器的内存中。当中央处理器在接收到超温预警信息后,从内存中读取目标模块的负载温度曲线,选择目标模块将要调整的温度对应的负载,从而向目标模块分配对应的数据处理量。
109.本技术实施例提供的服务器运行管理方法,通过中央控制器降低目标模块的负载,降低目标模块的运行温度,避免造成目标模块的损害,提高了服务器的服务性能和稳定性。
110.在一些实施例中,步骤130之后包括:
111.在运行时长小于目标模块对应的预设超温时长的情况下,确定目标模块在服务器中对应的冗余模块;
112.获取冗余模块的第一运行温度;
113.将目标模块的第一运行温度和冗余模块的第一运行温度发送至服务器的中央处理器,以使中央处理器基于目标模块的第一运行温度和冗余模块的第一运行温度,对目标模块和冗余模块进行负载均衡处理。
114.具体地,在服务器中,对于部分模块是采用冗余设置的,例如在服务器中可以设置多个硬盘或者多个处理器等。这些互为冗余的模块常用来执行相同的数据处理业务。
115.在目标模块的运行时长小于目标模块对应的预设超温时长的情况下,基板管理控制器可以根据服务器中各个模块的运行情况,确定目标模块对应的冗余模块,并获取冗余模块的第一运行温度,
116.基板管理控制器将目标模块的第一运行温度和冗余模块的第一运行温度发送至服务器的中央处理器。中央处理器可以根据目标模块的第一运行温度和冗余模块的第一运行温度,对目标模块和冗余模块的负载进行判断。运行温度越高,模块的负载越大;运行温度越低,模块的负载越低。
117.对于运行温度较低的冗余模块,中央处理器可以进行负载均衡处理,即将数据处理业务的分配向冗余模块倾斜,增加冗余模块的负载,减少目标模块的负载,避免目标模块的运行温度进一步升高。
118.负载的分配可以与模块的运行温度成反比例关系。即运行温度越高,所分配的负载就越小;运行温度越低,所分配的负载就越大。
119.本技术实施例提供的服务器运行管理方法,在目标模块和冗余模块之间进行负载均衡,降低目标模块的运行温度,避免造成目标模块的损害,提高了服务器的服务性能和稳定性。
120.图2是本技术又一个实施例提供的服务器运行管理方法的流程示意图,如图2所示,该方法包括:
121.步骤210、用户设置服务器电源供应单元(power supply unit,psu),使电源供应单元可对服务器任一部件设备(即服务器中的各个模块)断电。
122.步骤220、工作过程中,服务器bmc持续对各部件进行温度监控,并按照散热策略进行温度调控。
123.步骤230、当bmc监测到设备a超过上限阈值且高温持续无法降温到正常区间时,bmc会触发电源供应单元对设备a进行断电操作,并进行日志告警来通知用户a已因高温断电。
124.步骤240、用户发现日志告警后,可选择是否通过调整电源供应单元的设置,来手动恢复设备a的供电。
125.步骤250、若用户选择不恢复设备a的供电,则设备a会处于断电状态。
126.步骤260、若用户选择手动恢复设备a的供电,则设备a恢复供电后,服务器bmc会对设备a进行温度监控。
127.步骤270、若bmc检测到设备a已恢复正常温度区间,则设备a恢复正常工作,若a仍未恢复正常工作区间,则bmc会触发电源供应单元对设备a进行断电操作,并进行日志告警来通知用户a已因高温断电。如此往复。
128.本技术实施例提供的服务器运行管理方法,通过对服务器整机的各个部件的温度监控并针对高温设备局部断电,从而避免了对服务器整机关机,实现了最大化减弱异常高温带来的业务影响;可由用户手动恢复高温设备的供电,在高温设备已降温恢复正常的情况下继续恢复设备的使用,最大限度地利用了服务器硬件资源。
129.下面对本技术实施例提供的装置进行描述,下文描述的装置与上文描述的方法可相互对应参照。
130.图3是本技术一个实施例提供的服务器运行管理装置的结构示意图,如图3所示,该装置包括:
131.获取单元310,用于获取服务器中各个模块的第一运行温度;
132.比较单元320,用于将各个模块的第一运行温度与各个模块对应的运行温度阈值进行比较,确定处于超温状态的目标模块;
133.确定单元330,用于确定目标模块在超温状态下的运行时长;
134.控制单元340,用于在运行时长大于目标模块对应的预设超温时长的情况下,控制服务器中的供电装置切断目标模块的工作电源。
135.本技术实施例提供的服务器运行管理装置,将服务器中各个模块的第一运行温度与各个模块对应的运行温度阈值进行比较,确定处于超温状态的目标模块;确定目标模块在超温状态下的运行时长;在运行时长大于目标模块对应的预设超温时长的情况下,控制服务器中的供电装置切断目标模块的工作电源,实现了在服务器中根据各个模块的运行温度精确地进行运行控制,只需要断开处于超温状态的模块的电源,避免了对服务器进行整体关机,使得其他模块能够继续运行,实现了最大程度地减弱高温对服务器所提供的业务服务的影响,能够平衡服务器的处理能力和散热能力,避免造成服务器内各个模块的损害,最大限度地利用服务器的硬件资源,提高了服务器的服务性能和稳定性。
136.在一些实施例中,控制单元还用于:
137.基于预设时间间隔,控制服务器中的供电装置接通目标模块的工作电源;
138.获取目标模块的第二运行温度;
139.在第二运行温度大于目标模块对应的运行温度阈值的情况下,控制服务器中的供电装置再次切断目标模块的工作电源。
140.在一些实施例中,控制单元还用于:
141.生成告警日志;告警日志用于记录目标模块的运行状态和/或供电状态;
142.将告警日志发送至服务器的监测客户端。
143.在一些实施例中,控制单元还用于:
144.接收监测客户端发送的目标模块供电请求;目标模块供电请求是基于告警日志确定的;
145.响应于目标模块供电请求,控制服务器中的供电装置接通目标模块的工作电源。
146.在一些实施例中,控制单元还用于:
147.在运行时长小于目标模块对应的预设超温时长的情况下,控制服务器的冷却装置进行升负载运行。
148.在一些实施例中,控制单元还用于:
149.在运行时长小于目标模块对应的预设超温时长的情况下,向服务器的中央处理器发送目标模块对应的超温预警信息;
150.超温预警信息用于触发中央处理器对目标模块进行降负载运行。
151.在一些实施例中,控制单元还用于:
152.在运行时长小于目标模块对应的预设超温时长的情况下,确定目标模块在服务器中对应的冗余模块;
153.获取冗余模块的第一运行温度;
154.将目标模块的第一运行温度和冗余模块的第一运行温度发送至服务器的中央处理器,以使中央处理器基于目标模块的第一运行温度和冗余模块的第一运行温度,对目标模块和冗余模块进行负载均衡处理。
155.图4是本技术一个实施例提供的服务器的结构示意图,如图4所示,该服务器400,包括基板管理控制器410、供电装置420和各个模块430;
156.供电装置420,与基板管理控制器410和各个模块连接,用于接收基板管理控制器410的电源通断指令,为各个模块430提供工作电源;
157.基板管理控制器410,用于执行上述实施例中的服务器运行管理方法。
158.具体地,本技术实施例中的服务器包括塔式服务器、机架式服务器、刀片式服务器、高密度服务器、机柜式服务器等。
159.本技术实施例提供的服务器,实现了在服务器中根据各个模块的运行温度精确地进行运行控制,只需要断开处于超温状态的模块的电源,避免了对服务器进行整体关机,使得其他模块能够继续运行,实现了最大程度地减弱高温对服务器所提供的业务服务的影响,能够平衡服务器的处理能力和散热能力,避免造成服务器内各个模块的损害,最大限度地利用服务器的硬件资源,提高了服务器的服务性能和稳定性。
160.图5是本技术一个实施例提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线(communications bus)540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令,以执行上述实施例中所述的方法,例如:
161.获取服务器中各个模块的第一运行温度;将各个模块的第一运行温度与各个模块对应的运行温度阈值进行比较,确定处于超温状态的目标模块;确定目标模块在超温状态下的运行时长;在运行时长大于目标模块对应的预设超温时长的情况下,控制服务器中的供电装置切断目标模块的工作电源。
162.此外,上述的存储器中的逻辑命令可以通过软件功能单元的形式实现并作为独立
的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
163.本技术实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
164.本技术实施例还提供一种计算机可读的存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法。
165.其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
166.本技术实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如上述方法。
167.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
168.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
169.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
技术特征:
1.一种服务器运行管理方法,其特征在于,包括:获取服务器中各个模块的第一运行温度;将各个模块的第一运行温度与各个模块对应的运行温度阈值进行比较,确定处于超温状态的目标模块;所述超温状态为所述第一运行温度大于所述运行温度阈值的运行状态;确定所述目标模块在超温状态下的运行时长;在所述运行时长大于所述目标模块对应的预设超温时长的情况下,控制所述服务器中的供电装置切断所述目标模块的工作电源。2.根据权利要求1所述的服务器运行管理方法,其特征在于,所述控制所述服务器中的供电装置切断所述目标模块的工作电源之后,所述方法还包括:基于预设时间间隔,控制所述服务器中的供电装置接通所述目标模块的工作电源;获取所述目标模块的第二运行温度;在所述第二运行温度大于所述目标模块对应的运行温度阈值的情况下,控制所述服务器中的供电装置再次切断所述目标模块的工作电源。3.根据权利要求1所述的服务器运行管理方法,其特征在于,所述控制所述服务器中的供电装置切断所述目标模块的工作电源之后,所述方法还包括:生成告警日志;所述告警日志用于记录所述目标模块的运行状态和/或供电状态;将所述告警日志发送至所述服务器的监测客户端。4.根据权利要求3所述的服务器运行管理方法,其特征在于,所述将所述告警日志发送至所述服务器的监测客户端之后,所述方法还包括:接收所述监测客户端发送的目标模块供电请求;所述目标模块供电请求是基于所述告警日志确定的;响应于所述目标模块供电请求,控制所述服务器中的供电装置接通所述目标模块的工作电源。5.根据权利要求1至4任一项所述的服务器运行管理方法,其特征在于,所述确定所述目标模块在超温状态下的运行时长之后,所述方法还包括:在所述运行时长小于所述目标模块对应的预设超温时长的情况下,控制所述服务器的冷却装置进行升负载运行。6.根据权利要求1至4任一项所述的服务器运行管理方法,其特征在于,所述确定所述目标模块在超温状态下的运行时长之后,所述方法还包括:在所述运行时长小于所述目标模块对应的预设超温时长的情况下,向所述服务器的中央处理器发送所述目标模块对应的超温预警信息;所述超温预警信息用于触发所述中央处理器对所述目标模块进行降负载运行。7.根据权利要求1至4任一项所述的服务器运行管理方法,其特征在于,所述确定所述目标模块在超温状态下的运行时长之后,所述方法还包括:在所述运行时长小于所述目标模块对应的预设超温时长的情况下,确定所述目标模块在所述服务器中对应的冗余模块;获取所述冗余模块的第一运行温度;将所述目标模块的第一运行温度和所述冗余模块的第一运行温度发送至所述服务器的中央处理器,以使所述中央处理器基于所述目标模块的第一运行温度和所述冗余模块的
第一运行温度,对所述目标模块和所述冗余模块进行负载均衡处理。8.一种服务器运行管理装置,其特征在于,包括:获取单元,用于获取服务器中各个模块的第一运行温度;比较单元,用于将各个模块的第一运行温度与各个模块对应的运行温度阈值进行比较,确定处于超温状态的目标模块;所述超温状态为所述第一运行温度大于所述运行温度阈值的运行状态;确定单元,用于确定所述目标模块在超温状态下的运行时长;控制单元,用于在所述运行时长大于所述目标模块对应的预设超温时长的情况下,控制所述服务器中的供电装置切断所述目标模块的工作电源。9.一种服务器,其特征在于,包括基板管理控制器、供电装置和各个模块;所述供电装置,与所述基板管理控制器和各个所述模块连接,用于接收所述基板管理控制器的电源通断指令,为各个所述模块提供工作电源;所述基板管理控制器,用于执行权利要求1至7任一项所述的服务器运行管理方法。10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的服务器运行管理方法。11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的服务器运行管理方法。
技术总结
本申请公开了一种服务器运行管理方法、装置、服务器、电子设备和介质,其中方法包括:获取服务器中各个模块的第一运行温度;将各个模块的第一运行温度与各个模块对应的运行温度阈值进行比较,确定处于超温状态的目标模块;确定所述目标模块在超温状态下的运行时长;在所述运行时长大于所述目标模块对应的预设超温时长的情况下,控制所述服务器中的供电装置切断所述目标模块的工作电源。本申请提供的方法和装置,最大限度地利用服务器的硬件资源,提高了服务器的服务性能和稳定性。提高了服务器的服务性能和稳定性。提高了服务器的服务性能和稳定性。
技术研发人员:谭静静 贾岛
受保护的技术使用者:苏州浪潮智能科技有限公司
技术研发日:2023.05.17
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/