一种单板管理系统、方法、装置及设备与流程

未命名 09-09 阅读:64 评论:0


1.本技术涉及服务器技术领域,尤其涉及一种单板管理系统、方法、装置及设备。


背景技术:

2.自上个世纪80年代起,微软和英特尔为推动个人电脑(personal computer,pc)产业的发展组成wintel联盟。两家公司在pc产业内密切合作,以驱动计算产业的更快发展,并逐步影响到服务器等其他计算设备。而服务器等计算设备的应用场景多、配置类型多、对可靠性要求也比较高。同时,服务器具有巨大的商业体量,是开放产业生态建设的焦点。
3.以传统服务器为例,当前传统服务器的产业生态存在以下特点:
4.标准化程度不高:传统服务器已经有一定的组件标准化基础,例如,内存条、固态硬盘(solid state drive,ssd)、快捷外围部件互连标准(peripheral component interconnect express,pcie)卡等组件已有各自标准。组件标准化对产业生态和资源共享做出了很大贡献,减少了一部分服务器整机厂商的开发工作。但是,标准化组件在整个服务器中的占比较少,这就使得服务器主板的开发还需要投入较多人力完成标准化组件和非标准化组件的适配。
5.为此需要增强服务器的组件的标准化。服务器的组件的标准化涉及到服务器的各个方面。服务器的带外管理(out-of-band management)是指通过独立管理通道进行服务器等设备进行维护。服务器的带外管理允许系统管理员远程监控和管理服务器。服务器的带外管理主要涉及的是对服务器单板上的器件(如处理器、内存、硬盘)的工作环境进行管理与监控,如器件的工作环境包括但不限于温度、工作电压、风扇、电源供电状态等信息,保证服务器的器件能够在适宜的工作环境中工作。
6.服务器的带外管理通常是由基板管理控制器(baseboard management controller,bmc)来实现的。为了实现带外管理,基板管理控制器需要与服务器单板连接,以与服务器单板上的各个器件连接。但是由于处理器的类型、以及种类越来越多,部署有不同处理器的服务器单板的架构也不同,这些不同的服务器单板中与基板管理控制器连接的接口并不统一,这就导致,针对每一种服务器单板的带外管理,基板管理控制器需要进行大量的适配工作,不同类型的服务器单板的基板管理控制器的复用率低。


技术实现要素:

7.本技术提供一种单板管理系统、方法、装置及设备,用以提供一种适配度更高的带外管理bmc以及方法。
8.第一方面,本技术实施例提供了一种单板管理系统,该单板管理系统包括基板管理控制器和计算设备单板。该单板管理系统可以部署在计算设备中,该计算设备可以为服务器,个人电脑等。
9.基板管理控制器可以通过管理总线与计算设备单板连接。计算设备单板包括存储器和器件管理器,存储器中记录计算设备单板的管理信息。计算设备单板内部,存储器和器
件管理器可以通过管理总线与基板管理控制器连接。
10.基板管理控制器可以通过管理总线从存储器中获取管理信息,并基于管理信息、与器件管理器交互管理计算设备单板。
11.通过上述系统,基板管理控制器与计算设备之间的连接关系简单,适配于不同结构的计算设备的单板,能够有效简化计算设备单板的管理方式。计算设备单板的管理方式也更加高效。
12.在一种可能的实施方式中,计算设备单板还包括第一类器件,第一类器件与器件管理器连接,器件管理器可以获取第一类器件的工作信息。基板管理控制器可以通过管理总线从器件管理器获取第一类器件的工作信息。
13.通过上述系统,基板管理控制器在无需与第一类器件连接的情况下,能够方便的通过器件管理器获取第一类器件的工作信息,第一类器件的工作信息获取方式简单、高效,避免了基板管理控制器为匹配不同计算设备单板所需进行的大量适配工作,简化了带外管理流程。
14.在一种可能的实施方式中,计算设备单板还包括第二类器件,第二类器件可以不通过器件管理器与基板管理控制器连接,该第二类器件可以直接通过管理总线与基板管理控制器连接;基板管理控制器可以直接通过管理总线与第二类器件交互,获取第二类器件的工作信息。
15.通过上述系统,该管理总线不仅可以下挂存储器和器件管理器,还可以下挂第二类器件,这种连接方式较为简单,基板管理控制器也同样无需进行过多的适配工作,有效地扩展了应用场景。
16.在一种可能的实施方式中,管理信息是基板管理控制器管理计算设备单板所需的信息。也即可以通过存储器预先保存管理信息。在本技术实施例中并不限定管理信息的具体内容,凡是管理计算设备单板所需的信息均适用于本技术实施例。例如,该管理信息包括下列的部分或全部:计算设备单板的属性信息、计算设备单板的拓扑信息、第一类器件的属性信息、第二类器件的属性信息。
17.通过上述系统,将管理信息预先保存在存储器中,基板管理控制器仅需进行简单的加载操作就可以获取该管理信息,管理信息的获取方式更加简单。
18.在一种可能的实施方式中,基板管理控制器可以与器件管理器进行交互,本技术实施例并不限定基板管理控制器与器件管理器的交互方式。例如基板管理控制器可以与器件管理器基于命令字的方式进行交互,这样可以保证高效的交互效率。不同计算设备单板可以设置通用的命令字的方式。这样使得基板管理控制器可以适配于不同的计算设备单板,提升基板管理控制器以及管理方法的适配度。
19.在一种可能的实施方式中,基板管理控制器可以控制第一类器件。例如,基板管理控制器可以向器件管理器下发控制命令,以指示器件管理器对第一类器件进行控制。基板管理控制器可以直接控制第一类器件,基板管理控制器可以通过管理总线向第二类器件下发控制命令,以控制第二类器件。
20.基板管理控制器对第一类器件或器件管理器进行升级。例如,基板管理控制器可以向器件管理器传递第一类器件的升级文件,指示对第一类器件进行升级。器件管理器在获取第一类器件的升级文件后,利用第一类器件的升级文件对第一类器件进行升级。基板
管理控制器也可以向器件管理器传递器件管理器的升级文件,指示对器件管理器进行升级。当然,基板管理控制器也可以通过管理总线直接对第二类器件进行升级。
21.通过上述系统,基板管理控制器通过管理总线或器件管理器对器件进行控制或升级,简化了控制以及升级的方式,保证能够高效的实现对计算设备的单板的管理。
22.在一种可能的实施方式中,本技术实施例并不限定存储器的类型,例如该存储器可以为带电可擦可编程只读存储器,体积小,集成化程度更高。
23.在一种可能的实施方式中,本技术实施例并不限定器件管理器的具体结构,凡是能够实现器件管理的模块均适用于本技术实施例。例如,器件管理器为复杂可编程逻辑器件或微控制单元。器件管理器的具体结构较多样,适用于不同的计算设备单板,有效地扩展了应用场景。
24.在一种可能的实施方式中,管理总线可以为内部集成电路总线或串行外设接口总线,也可以为其他类型的总线。管理总线的类型较为灵活,使得基板管理控制器可以通过管理总线与不同类型的计算设备单板连接,提升基板管理控制器与不同类型的计算设备的适配程度。
25.第二方面,本技术实施例提供了一种单板管理方法,方法用于对计算设备单板进行管理,有益效果可以参见第一方面的描述此处不再赘述。计算设备单板包括存储器和器件管理器,存储器中记录计算设备单板的管理信息,在该方法中,基板管理控制器可以通过管理总线从存储器中获取管理信息。在获取管理信息之后,基板管理控制器可以基于管理信息,通过管理总线与器件管理器交互,管理计算设备单板。
26.在一种可能的实施方式中,计算单板包括第一类器件,第一类器件可以与器件管理器件连接,基板管理控制器可以通过管理总线从器件管理器获取第一类器件的工作信息。
27.在一种可能的实施方式中,计算单板包括第二类器件,第一类器件可以通过管理总线直接与基板管理控制器连接,基板管理控制器可以通过管理总线从第二类器件获取第二类器件的工作信息。
28.在一种可能的实施方式中,管理信息包括下列的部分或全部:计算设备单板的属性信息、计算设备单板的拓扑信息、第一类器件的属性信息、第二类器件的属性信息。
29.在一种可能的实施方式中,基板管理控制器通过管理总线与器件管理器交互时,基板管理控制器可以通过管理总线,与器件管理器基于命令字的方式进行交互。
30.在一种可能的实施方式中,基板管理控制器通过器件管理器控制第一类器件,还可以通过器件管理器对第一类器件进行升级。例如,基板管理控制器向器件管理器传递第一类器件的升级文件,指示对第一类器件进行升级。器件管理器在接收到第一类器件的升级文件,可以利用第一类器件的升级文件对第一类器件进行升级。基板管理控制器也可以对器件管理控制器或第二类器件进行升级或控制。
31.在一种可能的实施方式中,管理总线为i2c总线或spi总线。
32.第三方面,本技术实施例还提供了一种单板管理装置,该单板管理装置具有实现上述第二方面的方法实例中行为的功能,有益效果可以参见第一方面的描述此处不再赘述。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,单板管理装置的结构中包括请求获
取单元、管理单元,可选的,还包括升级单元。这些单元可以执行上述第二方面方法示例中的相应功能,具体参见方法示例中的详细描述,此处不做赘述。
33.第四方面,本技术实施例还提供了一种基板管理控制器,该基板管理控制器具有实现上述第二方面的方法实例中行为的功能,有益效果可以参见第二方面的描述此处不再赘述。所述装置的结构中包括处理器。可选的,还可以包括存储器。所述处理器被配置为支持所述单板管理装置执行上述第二方面方法中相应的方法。可选的,基板管理控制器还可以包括存储器。所述存储器与所述处理器耦合,其保存所述通信装置必要的计算机程序指令。处理器可以调用计算机程序指令执行上述第二方面方法中相应的方法。
34.第五方面,本技术实施例还提供了一种计算设备,该计算设备包括基板管理控制器和计算设备单板,计算设备单板上可以包括处理器、存储器等器件。基板管理控制器具有实现上述第二方面的方法实例中行为的功能,有益效果可以参见第一方面的描述此处不再赘述。
35.第六方面,本技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第二方面以及第二方面的各个可能的实施方式中所述的方法。
36.第七方面,本技术还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面以及第一方面的各个可能的实施方式中所述的方法。
37.第八方面,本技术还提供一种计算机芯片,所述芯片与存储器相连,所述芯片用于读取并执行所述存储器中存储的软件程序,执行上述第二方面以及第二方面的各个可能的实施方式中所述的方法。
附图说明
38.图1为本技术提供的一种单板管理系统的架构示意图;
39.图2为本技术提供的另一种单板管理系统的架构示意图;
40.图3为本技术提供的一种命令字的结构示意图;
41.图4a为本技术提供的一种读取请求的结构示意图;
42.图4b为本技术提供的一种读取响应的结构示意图;
43.图4c为本技术提供的一种写入请求的结构示意图;
44.图5a~图5b为本技术提供的一种扩展板的结构示意图;
45.图6a~图6c为本技术提供的一种单板管理系统的架构示意图;
46.图7为本技术提供的一种单板管理方法的示意图;
47.图8为本技术提供的一种bcu的管理系统的结构示意图;
48.图9为本技术提供的一种单板管理装置的结构示意图;
49.图10为本技术提供的一种计算设备的结构示意图。
具体实施方式
50.传统服务器主板开发的技术门槛高,除中央处理器(central processing unit,cpu)外,还包括总线扇出、电源扇出、维护管理等功能,这些主板上cpu相关的电路都来自cpu厂家给出的参考设计,而不同的cpu厂家提供的参考设计完全不同,这就使得主板的开
发和设计需要投入大量资源和时间。为了满足服务器等计算产品的快速更新换代的需求,整机厂商需要在差异化创新上投入较多精力,但往往只能聚焦在低级的硬件规格比拼方面。这样既不能满足客户的多样场景和算力的需求,也迫使整机厂家陷入低效的同质化竞争内卷中。而随着算力多样性趋势的呈现,更多的处理器厂家涌现,并推出更多不同架构的处理器产品,各类处理器的迭代速度也随之快速提升。与此同时,处理器的功耗也持续增加,传统服务器的散热技术无法满足需求。此外,为了提升系统性能,业界还推出了新介质类型(例如,intel推出3d xpoint新型非易失介质等)和形态,上述新介质类型和形态也需要新架构支持和适配。为了开发适配上述技术趋势的服务器,整机厂商则需要投入巨大的开发工作量,但由于不同产品的差异性导致同一主板或整机的设计方案又无法复用。所以,整个产业对服务器的跨架构共用部件、跨代演进、缩短上市时间(time to market,ttm)、减少总体运营成本(total cost of operation,tco)等方面提出更高的要求,产业的进一步发展需要构建更为开放、标准化的服务器架构,提高开发效率,提升部件重用度,提供更多灵活性和差异化。
51.本技术提出一种创新的对等互联架构(也可以称为服务器新架构或新架构)。在该架构中,首先将传统的主板拆分为基础板(basic computing unit,bcu)、扩展板(extension unit,exu),以基础板配合扩展板的方式实现对不同场景所需的主板的规格和形态的支持。同一计算设备中可以包括一个基础板和一个扩展板,同一计算设备也可以包括多个基础板和一个扩展板,同一计算设备还可以包括一个基础板和多个扩展板。基础板包括cpu、双倍数据速率(double data rate,ddr)以及相关电源,提供通用计算能力及外围存储、输入输出(input/output,io)、加速等扩展接口。基础板支持等不同系列的cpu。可选地,基础板支持异构处理器,即基础板可以支持不同类型的处理器,例如,基础板支持cpu,以及专用集成电路(application-specific integrated circuit,asic)、可编程逻辑器件(programmable logic device,pld)、复杂程序逻辑器件(complex programmable logical device,cpld)、现场可编程门阵列(field-programmable gate array,fpga)、通用阵列逻辑(generic array logic,gal)、片上系统(system on chip,soc)、软件定义架构(software-defined infrastructure,sdi)芯片、人工智能(artificial intelligence,ai)芯片等任意一种处理器或其任意组合。
52.进一步地,根据业务需求和硬件属性本技术实施例提供了至少6种不同形态的基础板,分别针对不同的计算性能和内存配置。为了方便描述,姑且将这6种基础板分别称为a1、a2、b1、b2、c1、和c2。并且,在本实施例中利用“p”表示处理器的个数,p为大于0的整数,“dpc”则表示每个通道双列直插内存模块(dual in-line memory module per channel,dimm per channel)。例如,a1形态的基础板支持一个处理器,每个通道插一根dimm(简称为1p1dpc);a2形态的基础板支持一个处理器,每通道插一根或二根dimm(简称为1p2dpc或1p1dpc);b1形态的基础板支持两个处理器,每通道插一根dimm(简称为2p1dpc),或者,一个处理器,每通道插一根或二根dimm(简称为1p2dpc或1p1dpc);b2形态的基础板支持两个处理器,每通道插一根或二根dimm(简称为2p2dpc或2p1dpc),或者,一个处理器,每通道插一根或两根dimm(简称为1p2dpc或1p1dpc);c1形态的基础板支持四个处理器,每个通道插一根dimm(简称为4p1dpc),或者,两个处理器,每通道插一根或两根dimm(简称为2p2dpc或2p1dpc);c2形态的基础板支持四个处理器,每通道插一根或两根dimm(简称为4p2dpc或
4p1dpc),或者,两个处理器,每通道插一根或两根dimm(简称为2p2dpc或2p1dpc)。随着技术发展,cpu封装尺寸、内存通道和dimm数可能变化,但主板的标准尺寸和安装孔位将保持不变,这样能确保基础板更新换代时能够跨代跨系列兼容演进。例如:b2形态的基础板在当前每cpu 8通道ddr时,支持2p2dpc(2p32dimm)。在cpu内存通道数提升到12以后,将无法实现2p2dpc(2p48dimm)。那么,b2形态可以支持2p1dpc(2p24dimm),而2p2dpc(2p48dimm)可以用c1等其他形态实现,因为安装孔位置和基础板尺寸是标准的,直接更换和安装即可。
53.扩展板包括主板管理控制器(baseboard management controller,bmc)芯片,是对基础板的管理扩展,作为整个系统的管理中心,提供设备、安全、能效、可靠性等管理功能。其中,bmc也可以称为基板管理控制器。可选地,扩展板还可以包括和管理系统、桥片(例如,intel系统的平台路径控制器(platform controller hub,pch))。
54.在新架构中基础板通过pcie、内存互联(compute express link,cxl)、或统一总线(unified bus,ub或ubus)等高速总线与组件通信连接,并与扩展板通过管理接口相连。具体实施中,上述基础板与组件,以及基础板与扩展板的具体连接方式包括:以线缆实现上述连接的软连接方式,或者,以连接器实现上述连接的硬连接方式。进一步地,组件是一类电子器件或电子设备的统称。其中,组件按照功能不同,包括存储组件(storage unit,stu)、io组件(input output unit,iou)、加速组件(acceleration unit,acu)、内存扩展组件(memory expansion unit,meu)、散热组件、计算组件、管理组件等。基础板支持鲲鹏、等不同系列cpu,扩展板则为基础板及各扩展组件提供管理功能及供电。电源、散热器在扩展板的支持下,可以有各种不同的选择。
55.其中,存储组件包括硬盘背板、扩展板(expander)、pcie交换机(switch)等,为系统存储扩展,支持机械硬盘(hard disk drive,hdd)/固态硬盘(solid-state drive,ssd)/非易失性高速传输总线(non-volatile memory express,nvme)/存储级内存(storage class memory,scm)等多种介质、形态。
56.io组件包括riser等组件,实现对系统io的扩展,支持pcie标卡、开放计算项目(open compute project,ocp)卡。
57.加速组件包括riser、载板、加速卡互连交换机(switch)等,提供系统加速组件扩展和互连功能。
58.内存扩展组件包括载板、内存扩展芯片、双列直插内存模块(dual in-line memory module,dimm)、scm介质等,提供系统扩展内存带宽、内存容量的功能。
59.散热组件,用于对计算设备或计算设备中硬件进行散热,包括风冷散热、液冷散热或二者结合等几种散热方式的组合。应理解的是,散热组件的结构、类型和数量不构成对本技术所要保护技术方案的限定。
60.计算组件,中央处理器(central processing unit,cpu)、内存等提供通用计算能力的器件。
61.管理组件,基板管理控制器等提供设备管理的器件。
62.值得说明的是,包含处理器、内存、基板管理控制器的器件的基础板,或扩展板也可以作为组件的一种。
63.另一方面,在传统的服务器架构中,由于供电、内存通道数、io数、速率等演进原因,处理器(例如,cpu)的插槽(socket)一般只能做到每代(tick/tock两个小升级)兼容,很
难跨代兼容。本技术提供的主板可以采用标准化方式设置对外接口,并以线缆等软连接方式进行各种外部扩展,可屏蔽处理器相关供电、不同处理器与组件以及组件之间互连所带来的差异。使得内存等组件的变化仅包含在了主板内部,实现主板跨代兼容的功能。这样对于各厂商来说,当处理器更新换代时,配套的整机、组件等可以不更换,因此配套的组件具备了更长的生命周期。对于客户来说,在不需要更换机箱、不增加硬件开发工作量的前提下,能够随时更换最新的组件,最快用上业界最新的算力。对整机厂家来说,服务器新架构跨代升级、跨系列演进实现之后,处理器的升级、或者更换不同处理器厂家,只需要简单更换基础板即可,颠覆了原有的开发模式,衍生了新的产业模式。
64.本实施例除了提供一种服务器新架构,为了支持多样性算力和多样性设备,该服务器新架构还实现硬件标准化,包括基础板的标准化和组件接口的标准化。
65.基础板的标准化包括尺寸、安装孔位、接口电气特性、管理接口协议和参数等标准化。其中,表1为本技术提供的一种基础板接口描述表的示例。
66.表1
67.[0068][0069]
其中,供电采用统一的12v输入,基础板内部通过dc/dc转换成所需要的各类电源。考虑到未来i/o的演进以及不同cpu的差异化,本实施例基于ubc和ubcdd连接器,定义一种flexible i/o接口,用于替代原有的pcie接口。所述flexible i/o接口可以根据需求灵活配置成pcie/hccs/sas/sata/以太等接口。bcu管理接口主要包括常见的低速维护接口,例如i2c、uart、jtag等接口,兼容常见处理器平台的管理。
[0070]
计算系统内部组件接口的标准化:组件包括扩展板、供电组件、散热组件、存储组件、io组件、加速组件、内存组件等,对组件的电气接口、管理接口和参数进行标准化,而不定义和约束组件的物理尺寸、安装、位置等,这些将提供广大的创新空间,支持差异化和灵活扩展。组件对外接口除了电源和高速信号,其余低速管理接口定义如下表2所示:
[0071]
表2
[0072][0073]
除了exu与bcu的接口外,其它接口通过exu与各个组件相连。值得注意的是,本实施例只定义这些接口的功能,不限定具体针布局(pinmap)方式,任何能够实现该功能的实现方式都在本实施例的保护范围以内。
[0074]
值得说明的是,上述表1至表2的内容仅为辅助解释本技术的技术方案提供的一种示例,具体实施中,服务器新架构、基础板的接口和功能组件的低速接口均可以分别包括更多或更少的内容。
[0075]
此外,本技术还提供一种实现了智能化管理软件,根据计算设备的标准化要求实现管理对象模板,服务器在上电后,管理软件通过标准管理总线自动探测组件并获取组件的自描述信息,再根据管理对象模板创建管理对象实例,从而实现管理软件自适应管理实现管理软件智能化,支持组件自动发现和自动适配。
[0076]
为了便于描述,下述实施例以计算设备为服务器为例进行说明,本技术提供的方案同样适用于边缘服务器、个人电脑(personal computer,pc)等其他计算设备。
[0077]
对于服务器,由于服务器需要承载大量的业务,进行大量的数据运算,这就要求服务器中需要部署较多的组件、基础板上需不部署较多数量的处理器、较大的内存以及接入更多的硬盘。基础板上处理器、内存以及硬盘、以及各种组件等作为服务器的主要器件的工作状态决定了服务器的运行状态。为了保证服务器的主要器件的能够正常工作,服务器中还部署有温度传感器(以测量器件的温度)、电压传感器(以测量器件的工作电压)、不同型号的电源(以提供不同伏值的电压)、风扇(以对器件进行降温)等器件。对于服务器的带外管理中的一个重要部分是对服务器中主要器件的工作环境的监控以及管理,以保证服务器中主要器件能够工作在适宜的工作环境中,如温度处于器件工作的温度范围内、电压符合器件的工作电压、不同型号的电源供电正常、风扇正常运行等。
[0078]
由于不同服务器单板的结构不同,对外没有统一的接口以实现带外管理,导致基板管理控制器对任一服务器单板实现带外管理都需要进行大量的适配工作,灵活性较差。为此本技术实施例提供了一种单板管理系统、方法、装置以及设备。在本技术实施例中,基板管理控制器能够通过统一的接口经过管理总线与服务端单板连接。也即基板管理控制器与服务器单板之间仅需一路管理总线即可实现连接,基板管理控制器能够通过该管理总线从服务器单板上部署的存储器中获取管理服务器单板所需的管理信息,还能够通过管理总线与该服务器单板上的器件管理器交互,管理该服务器单板。基板管理控制器可以获取服务器单板上与该器件管理器连接的器件的工作信息,进而实现带外管理。采用这种方式,基板管理控制器不需要进行大量的适配工作的情况下,能够对不同的服务器单板实现带外管理,简化了基板管理控制器实现带外管理的整个流程。
[0079]
如图1所示,为本技术实施例提供的一种单板管理系统的结构示意图,该单板管理系统可以部署在服务器中,在该单板管理系统中包括服务器单板100以及基板管理控制器200。
[0080]
需要说明的是,该服务器单板100可以为前述所描述的新架构中的基础板,或任一组件。也可以为传统服务器中的主板。本技术实施例并不限定服务器单板100中的数量,可以为一个,也可以为多个。当单板管理系统中包括多个服务器单板100时,该多个服务器单板100可以为同类型的单板。例如,该多个服务器单板100均为基础板,该多个服务器单板100也可以为不同类型的单板,如该多个服务器单板100包括一个基础板、一个io组件以及一个存储组件。
[0081]
在本技术实施例中,基板管理控制器200与服务器单板100之间通过一路管理总线300连接。该管理总线300可以为i2c(inter-integrated circuit)总线,也可以为串行外设接口(serial peripheral interface,spi)总线。该管理总线300也可以为其他类型的总线。该管理总线300可以理解为单板管理的根管理总线300,该根管理总线300能够作为根管理链路。基板管理控制器200可以通过该根管理链路获取管理信息以及服务器单板100上器件的工作信息,以实现对服务器单板100的管理。
[0082]
服务器单板100上部署了服务器的器件,服务器单板100上部署的器件包括但不限于:处理器、内存、温度传感器、模拟数字转换器(analog to digital converter,adc)、电源接口、高速串行计算机扩展总线标准(peripheral component interconnect express,pcie)槽位、硬盘接口、风扇、电源等。不同类型的服务器单板100,服务器单板100上部署的器件的类型以及器件的数量均可能不同。
[0083]
需要说明的是,本技术实施例中并不限定服务器单板100上部署器件的方式,例如,服务器的器件可以直接焊接在服务器单板100上,又例如,服务器的器件可以通过接口(如ubc等高速接口)连接在服务器单板100上。在实际应用中,一些组件(如io组件、存储组件等)可以通过接口连接到基础板上,这种情况下,这些组件也可以认为是服务器单板100上部署的器件。
[0084]
为了能够实现对服务器单板100的带外管理,服务器单板100上还部署有器件管理器120以及存储器110。基板管理控制器200通过该管理总线300分别与器件管理器120以及存储器110连接。
[0085]
器件管理器120可以与服务器单板100上的部分或全部器件连接。在本技术实施例中,服务器单板100上的器件包括两类,一类为通过器件管理器120与基板管理控制器200建立连接的器件,为方便说明,该类器件称为第一类器件。另一类为直接通过管理总线300与基板管理控制器200连接的器件,方便说明,该类器件称为第二类器件。对于任一服务器单板100,带外管理所涉及的器件(带外管理所涉及的器件是指影响服务器单板100上主要器件工作环境的器件)可以均属于第一类器件,也即服务器单板100上的器件均与器件管理器120连接。图1是以服务器单板100上的器件均属于第一类器件为例进行绘制的。带外管理所涉及的器件也可以包括第一类器件和第二类器件。第二类器件不与器件管理器120连接,但可以通过管理总线300连接基板管理控制器200,该种类型的服务器单板100与基板管理控制器200的连接方式可以参见后续图2中的相关说明。
[0086]
器件管理器120与第一类器件之间可以进行交互,以获取第一类器件的工作信息。
如器件管理器120可以获取温度传感器的温度、电压传感器的电压值、电源接口是否连接有电源,电源提供的电压(通过连接adc获取电源电压,adc将电压这类模拟信号转换为数据信号)、pcie槽位上是否插入pcie接口的组件(如加速卡等)、硬盘接口是否接入硬盘、风扇是否正在运行等。
[0087]
存储器110中存储了服务器单板100的管理信息,该管理信息为基板管理控制器200实现带外管理的必要信息。关于服务器单板100的管理信息的相关描述将在下文中进行说明。
[0088]
基板管理控制器200通过管理总线300连接器件管理器120与存储器110,基板管理控制器200从存储器110中可以获取该服务器单板100的管理信息,了解服务单板的属性、器件属性以及服务器单板100的拓扑信息等。基板管理控制器200还可以通过与器件管理器120的交互获取第一类器件的工作信息。基于该管理信息(以及第一类器件的工作信息)管理服务器单板100。
[0089]
如图2所示,为本技术实施例提供的另一种单板管理系统的结构示意图,该单板管理系统可以部署在服务器中,在该单板管理系统中包括服务器单板100以及基板管理控制器200。基板管理控制器200与服务器单板100之间仅需通过一路管理总线300连接,基板管理控制器200通过一路管理总线300连接器件管理器120、存储器110、以及第二类器件。器件管理器120与服务器单板100上的第一类器件连接。关于基板管理控制、器件管理器120、存储器110、管理总线300、第一类器件以及第二类器件的说明可以参见前述内容,区别与图1所述的单板管理系统,图2所示的单板管理系统中,服务器单板100上的器件也可以通过管理总线300直接连接到基板管理控制器200中,由基板管理控制器200直接管理。
[0090]
在这种单板管理系统中,基板管理控制器200与服务器单板100之间同样也仅需一路管理总线300实现连接,基板管理控制器200与服务器单板100之间的连接方式简单,基板管理控制器200同样适用于不同的服务器单板100。
[0091]
下面对单板管理系统中的各个组成部分进行说明:
[0092]
(1)、存储器110。
[0093]
在本技术实施例中存储器110用于存储带外管理所需的服务器单板100的管理信息,本技术实施例并不限定该存储器110的类型,该存储器110可以为带电可擦可编程只读存储器(electrically erasable programmable read only memory,eeprom),还可以为其他非易失性内存。存储器110作为现场可更换单元说明(field replaceable unit description,frud),frud中存储了管理该服务器单板100所需的管理信息。管理信息包括服务器单板100的属性信息、需要管理的器件的信息以及拓扑信息,告警信息等。
[0094]
管理信息包括服务器单板100的属性信息、服务器单板100的拓扑信息、器件的属性信息。
[0095]
其中,服务器单板100的属性信息用于描述服务器单板100的硬件信息,服务端单板的属性信息包括但不限于:单板类型、单板标识(identification,id)、单板的印制电路板(printed circuit board,pcb)版本号、单板的物料清单(bill of material,bom)版本号。
[0096]
基板管理控制器200获取服务器单板100的属性信息后,能够了解该服务器单板100的基本信息。
[0097]
服务器单板100的拓扑信息描述了服务器单板100上器件的连接关系,服务器单板100的拓扑信息可以包括带内管理拓扑以及管理总线拓扑。
[0098]
带内管理拓扑也可以称为业务总线拓扑,带内管理拓扑描述了服务器单板100业务面的拓扑信息,也即服务器单板100中承载服务器业务的器件(处理器、硬盘、内存)之间的连接关系,其中包括但不限于:基础板上器件的连接管理、基础板与组件的连接关系、组件与组件之间的连接管理等。带内管理拓扑中包括但不限于:组件的信号、处理器的信息(如端口号、类型、数量、位宽等)、内存的信息(如端口号、类型、数量、位宽等)、硬盘的信息(如硬盘接口、类型、数量、位宽等)、以及处理器、内存、硬盘之间的连接方式等。凡是涉及到业务面的器件的信息均可以记录在带内管理拓扑中。
[0099]
管理总线拓扑也可以称为带外管理拓扑,管理总线拓扑描述了服务器单板100带外管理涉及的器件的拓扑信息。也即服务器单板100中涉及到带外管理的器件(温度传感器、电压传感器、adc、电源、风扇)之间的连接关系。管理总线拓扑中包括但不限于:管理总线300下挂的器件(如器件管理器120或第二类器件)的信息、器件管理器120所连接的器件(也即第一类器件)的信息。凡是涉及到带外管理的器件的信息均可以记录在带内管理拓扑中。
[0100]
基板管理控制器200获取服务器单板100的拓扑信息能够了解服务器单板100上器件的连接关系,基于该服务器单板100的拓扑信息,可以确定后续通过器件管理器120读取第一类器件的工作信息(如温度、电压、电源是否工作等信息)以及直接从第二类器件读取的第二类器件的工作信息所描述的工作环境是哪一个器件的工作环境,进而判断该器件的工作环境是否符合要求或该器件是否故障,是否需要进行告警。
[0101]
器件的属性信息,这里的器件包括第一类器件的属性信息、以及第二类器件的属性信息。从器件的类型来说,器件包括芯片(如处理器芯片等)、连接器、总线、槽位(槽位是指输入/输入设备插入的槽位,如pcie槽位、硬盘槽位等)。
[0102]
管理信息所包括的信息可以参见表3,需要说明的是,在上述说明以及表1中仅是展示了管理信息中的部分信息,本技术实施例并不限定管理信息中信息的划分方式以及信息内容,凡是带外管理所需的信息均可以作为管理信息,存储在存储器110中。
[0103]
表3
[0104]
[0105]
[0106][0107]
在本技术实施例中将带外管理所需的管理信息存储在存储器110中,该存储器110的地址可以为预设的地址。当基板管理控制器200通过管理总线300连到该存储器110时,可以通过该地址与存储器110交互,从存储器110中读取该管理信息,以便实现后续的带外管理。基板管理控制器200能够较为简单、快捷的获取该管理信息,简化了带外管理的流程。
[0108]
在本技术实施例中,服务器单板100的带外管理接口统一为一条根管理总线,根管理链路上可以下挂一个固定地址的存储器110(如eeprom)作为frud,在frud中描述服务器单板100的管理信息,基板管理控制器200可以通过读取frud中的信息自动加载单板的管理配置。
[0109]
(2)、器件管理器120。
[0110]
器件管理器120也可以称为卫星管理中心(satellite manager centre,smc)来管理,smc采集到单板上的第一类器件的工作信息之后,通过根管理总线接口上报给基板管理控制器200,上报的方式可以采用命令字方式,一种类型的工作信息可以对应一个命令字。
[0111]
在服务器单板100上,服务器单板100上采用smc作为板级的管理中心,收集单板上第一类器件的工作信息,如传感器的信息、告警信息、处理服务器单板100的升级需求和单板上其他器件的管理需求。smc通过根管理总线接口采用命令字方式与基板管理控制器200通讯。
[0112]
在本技术实施例中,基板管理控制器200不需要连接各个需要进行带外管理的器件,而是经过器件管理器120获取这些器件的工作信息,进而确定服务器中主要器件的工作环境。基板管理控制器200仅需与器件管理器120连接即可,这样能够大大简化基板管理控制器200与服务器单板100的连接方式,实现服务器单板100带外管理的智能管理,这种连接方式也适配于不同的服务器单板100。
[0113]
本技术实施例并不限定器件管理器120的具体结构。例如,器件管理器120可以是复杂可编程逻辑器件(complex programmable logic device,cpld),也可以为微控制单元(microcontroller unit,mcu)。器件管理器120采集到与其连接的各个器件的工作信息后,可以通过管理总线300将采集到的信息上报该基板管理控制器200。
[0114]
本技术实施例并不限定器件管理器120与基板管理控制器200之间的交互方式。例如,器件管理器120与基板管理控制器200之间可以采用命令字方式的进行交互。一种类型的工作信息对应一种命令字。命令字的格式可以由不同的服务器单板100共享,这样,基板管理控制器200能够与不同服务器单板100上的器件管理器120采用相同的方式交互,减少不必要的适配工作。
[0115]
下面介绍一种命令字的设计方式,参见图3。器件管理器120与基板管理控制器200之间定义的命令字格式主要包括两部分,一部分为操作码(operation code,op code)以及器件参数(parameter)。本技术实施例并不限定该命令字的具体大小,在一种可能的实施方式中,命令器可以占用4个字节(也即32个比特)。其中,器件参数可占用1个字节,操作码可占用3个字节。
[0116]
操作码用于描述需要对器件进行操作,在本技术实施例中,操作可以包括读器件的工作信息、向器件下发命令(向器件下发命令可以理解为向器件写入信息)。器件参数用于指示需要操作的器件。器件参数可以为器件的编号或标识。
[0117]
操作码包括四个字段。分别为功能(function)字段、命令(command)字段、读取次数字段(图3中用ms表征该字段)、以及读写标识字段(图3中用rw表征该字段)。
[0118]
功能字段用于指示该命令字所针对的服务器单板100,在单板管理系统中包括多个单板的情况下该功能字段不可缺省,当单板管理系统中仅有一个单板,该功能字段的内容可以设置为默认值或者空值。功能字段可以占用6个比特。
[0119]
当存在不同类型的服务器单板100时,可以用不同的编号指示不同类型的服务器单板100。如图3中1可以指示扩展组件(扩展组件是指在服务器中用于增加接口或槽位的组件)。2指示存储组件(存储组件是指服务器中用于连接硬盘、实现数据存储功能的组件)。3指示基础板。4指示内存扩展组件(内存扩展组件是指服务器中承担内存功能的组件)。0用于表征通用命令,也即命令字针对所有服务器单板100。
[0120]
命令字段用于描述操作的类型,如指示读取哪一种工作信息(如温度、电压、电源是否正常、故障或告警等信息)。命令字段是需要预先进行定义的,以区分不同的操作。命令字段可占用16个比特。
[0121]
读取次数字段用于区分此次操作是多次读取还是单次读取,也即指示一次读取多个器件的工作信息或一次读取一个器件的工作信息。如当该字段为0时表征为多个读取,为1时表征为单次读取。读取次数字段可占用1个比特。
[0122]
读写标识字段用于区分此次操作为读取操作还是写入操作。如当该字段为0时表征为此次操作为读取操作,为1时表征为写入操作。读写标识字段可占用1个比特。
[0123]
当基板管理控制器200需要读取器件的工作参数时,器件管理器120与基板管理控制器200之间的交互过程包括:基板管理控制器200向器件管理器120发起读取请求,器件管理器120向基板管理控制器200反馈读取响应。
[0124]
如图4a所示为本技术实施例提供的一种读取请求的格式示意图,图4b为本技术实施例提供的一种读取响应求的格式示意图。图4a与图4b第一行为各个字段的名称,第二行为各个字段占用的比特数。
[0125]
当基板管理控制器200需要向器件写入信息,也即基板管理控制器200向器件下发命令(如控制器件启动、停止、升级)时,器件管理器120与基板管理控制器200之间的交互过程包括:基板管理控制器200向器件管理器120发起写入请求,该写入请求中携带需要写入的命令(如控制命令)或数据(升级文件)。
[0126]
如图4c所示为本技术实施例提供的一种写入请求的格式示意图。图4c第一行为各个字段的名称,第二行为各个字段占用的比特数。
[0127]
图4a~图4c中各个字段的含义可以参见表4。
[0128]
表4
[0129][0130][0131]
需要说明的是,上述图4a~图4c中的各个字段仅是举例。在实际应用中,在设计读取请求、写入请求以及读取响应中的各个字段时可以根据实际需求增加减少字段。
[0132]
在本技术实施例中,器件管理器120与基板管理控制器200之间除了交互第一类器件的工作信息。基板管理控制器200还可以通过与器件管理器120的交互向第一类器件下发控制命令,以控制第一类器件的工作状态,例如,该控制命令可以控制某一个或某几个第一类器件停止工作、或启动工作。该控制命令可以作为数据携带在如图4c所示的数据字段中。当器件管理器120接收到该写入请求后,可以识别其中的控制命令,根据控制命令控制相应的第一类器件,如控制该第一类器件停止工作、或启动工作。
[0133]
基板管理控制器200还可以通过与器件管理器120的交互向第一类器件下发升级命令,以指示第一类器件进行升级。第一类器件升级所需的升级文件可以作为数据携带在如图4c所示的数据字段中。当器件管理器120接收到该写入请求后,可以识别其中的升级文件,向相应的第一类器件发送该升级文件,指示该第一类器件升级。
[0134]
基板管理控制器200也可以直接指示器件管理器120升级,器件管理器120升级所需的升级文件可以作为数据携带在如图4c所示的数据字段中。当器件管理器120接收到该写入请求后,可以识别其中的升级文件,利用该升级文件进行升级。
[0135]
3)、基板管理控制器200。
[0136]
从上述关于存储器110以及器件管理器120的说明可知,基本管理控制器能够通过管理总线300从存储器110读取管理信息,还能够通过与器件管理器120的交互对第一类器件实现带外管理。
[0137]
若服务器单板100上有器件(也即第二类器件)无法通过smc管理,可以直接下挂在基板管理控制器200直出根管理总线,通过在frud中描述让基板管理控制器200自动加载该类器件的管理特性。
[0138]
在本技术实施例中,允许服务器单板100上存在第二类器件,该第二类器件可以通过管理总线300直接与基板管理控制器200连接,基板管理控制器200可以直接通过管理总线300与第二类器件进行交互,获取第二类器件的工作信息,对第二类器件实现带外管理。
[0139]
基板管理控制器200可以根据管理信息确定该服务器单板100上部署的第二类器件,也即获知直接挂在该管理总线300下的第二类器件的信息。基板管理控制器200基于该管理信息可以预先加载与该第二类器件的管理驱动(该管理驱动是指管理第二类器件所需的软件程序),以实现对第二类器件的管理。
[0140]
在本技术实施例中,可以将基板管理控制器200部署在一个单板上,形成一个bmc管理单板(也即前文中提及的扩展板),bmc管理单板可以作为服务器的管理中心,用于实现对服务器的带外管理。bmc管理单板的外观可以如图5a所示。bmc管理单板对外提供管理接口,包括调试串口、单位识别(unit identification,uid)指示灯、管理网口、视频图形阵列(video graphics array,vga)接口、通用串行总线(universal serial bus,usb)接口等。bmc管理单板对外提供管理接口可以参见图5b。
[0141]
bmc管理单板的对外提供的管理接口功能定义和描述如表5所示。
[0142]
表5
[0143][0144]
bmc管理单板通过4c+连接器对内提供单板管理所需的管理接口,包括带外管理总线接口,若该管理总线为i2c总线,那么带外管理总线接口即为i2c接口。
[0145]
bmc管理单板还可以提供其他管理接口,本技术实施例并不限定该其他管理接口的类型。其他管理接口包括下列的部分或全部:联合测试工作组(joint test action group,jtag)接口、spi接口、网络控制边带接口(network controller sideband interface,ncsi)、平台环境式控制接口(platform environment control interface,peci)调试串口、uid按钮指示灯、管理网口、vga接口。其他管理接口的类型仅是举例,本技术实施例并不限定其他管理接口的数量以及类型。
[0146]
bmc管理单板还提供带内管理所需的低针脚数量架构(low pin count,lpc)接口、
usb接口、peci接口。bmc管理单板上还部署有基板管理控制自身工作所需的电源、时钟电路、杂散信号电路等。bmc管理单板对内提供的管理接口针脚定义如下表6所示:
[0147]
表6
[0148][0149]
[0150]
[0151]
[0152][0153]
其中,power/gnd指示电源信号或接地信号,usb3是指支持usb3.0.input指示信号输入,output指示信号输出。vga是指vga信号,上述表中vga信号包括三路信号,分别为红、绿、蓝三路信号。hcsl是指高速电流控制逻辑电平(high-speed current steering logic)。关于信号定义仅是示例性的内容,在实际使用中,也可以根据实际需要设置不同的信号定义。下面以三种不同类型的服务器单板100所属的单板管理系统的结构为例,对本技术实施例提供的单板管理系统进行说明。
[0154]
第一种、服务器单板100为基础板(basic computer unit,bcu)。
[0155]
如图6a所示,为本技术实施例提供的一种单板管理系统,该单板管理系统能够用于实现针对计算处理单元的带外管理。bmc通过一路i2c总线分别连接bcu的eeprom和cpld。其中,eeprom用于实现上述实施例中存储器110的功能,其中存储了计算处理单元的管理信息,如计算处理单元的属性信息等。cpld用于实现上述实施例中smc的功能,例如实现对器件的管理控制、处理升级命令或控制命令等。cpld连接adc、温度传感器、时钟电路、闪存等器件图6a中,cpld通过第一转换芯片服务器单板100上的一些器件可以获取一些信号,在图6a中cpld通过第一转换芯片服务器单板100可以获取三种信号,该三种信号包括电源ok(power good,pg)信号(用于指示电源接入或未接入)、在位(present)信号(如在位信号可以用于指示连接器是否有器件接入)、故障(fault)信号。
[0156]
其中,电源ok信号用于指示电源接入或未接入。在位(present)信号可以用于指示连接器是否有器件接入。故障信号可以用于指示器件是否故障,如该器件可以为cpu或电源控制器等。例如,cpu可以通过低速信号线直接接到第一转换芯片(例如,9555芯片),以提供cpu告警信号,该cpu告警信号指示识cpu出现错误。第一转换芯片用于增加连接器件的数量。
[0157]
cpld能够获取adc的工作信息(adc的工作信息即为adc将电压信号转换成的数字信号)、温度、cpu告警信号、电源的供电信息等工作信息。cpld还能够实现加载时钟电路的频率、闪存升级功能。
[0158]
第二转换芯片(例如,9545芯片)可提供多个i2c接口,计算处理单元上的多个电压调节电源控制器(voltage regulator controller)通过第二转换芯片扩展后直接下挂在i2c总线下,在eeprom中的计算处理单元中的拓扑信息描述了电压调节电源控制器直接下挂在i2c总线的连接关系。电压调节电源控制器用于对cpu进行供电。
[0159]
bmc可以直接管理电压调节电源控制器。cpld基于命令字的方式、通过i2c总线与
bmc交互,传递cpld所连接的器件的工作信息,还可以接受bmc的控制,对一些器件进行升级加载等操作。bmc还可以通过i2c总线对cpld实现升级功能。
[0160]
第二种、服务器单板100为io组件(input output unit,iou)。
[0161]
如图6b所示,为本技术实施例提供的一种单板管理系统,该单板管理系统能够用于实现针对io扩展单元的带外管理。bmc通过一路i2c总线分别连接iou的eeprom和mcu。
[0162]
其中,eeprom用于实现上述实施例中存储器110的功能,其中存储了iou的管理信息,mcu用于实现上述实施例中smc的功能,例如实现对器件的管理控制、处理升级命令或控制命令等。mcu连接温度传感器电源、电源、pcie槽位等器件。mcu能够获取温度、通过第一转换芯片pg信号和在位信号(在位信号可以指示连接器是否有器件插入)等工作信息。
[0163]
mcu基于命令字的方式、通过i2c总线实现与bmc的交互,传递mcu所连接的器件的工作信息。bmc通过i2c总线对mcu实现升级功能。pcie插槽(slot)槽位上插入的pcie标卡通过第二转换芯片直接挂在i2c总线下,eeprom中的iou中的拓扑信息描述了pcie标卡直接下挂在i2c总线的连接关系。bmc可以直接管理pcie标卡。
[0164]
第三种、服务器单板100为存储组件(storage unit,stu)。
[0165]
如图6c所示,为本技术实施例提供的一种单板管理系统,该单板管理系统能够用于实现针对存储扩展单元的带外管理。bmc通过一路i2c总线分别连接bcu的eeprom和cpld。其中,eeprom用于实现上述实施例中存储器110的功能,其中存储了计算处理单元的管理信息,如计算处理单元的属性信息等。cpld用于实现上述实施例中smc的功能,例如实现对器件的管理控制、处理升级命令或控制命令等。cpld连接温度传感器、adc、硬盘等器件,cpld能够获取电压、温度、硬盘是否接入,还可以通过第五转换芯片获取pg信号、在位信号、cpu告警信号等工作信息。cpld还可以实现对硬盘的管理功能,通过第六转换芯片获取各个硬盘的工作信息。cpld基于命令字的方式、通过i2c总线与bmc进行交互,传递与cpld连接的器件的工作信息。bmc可以通过命令字的方式获取单板各个硬盘的工作信息。bmc还可以通过i2c总线对cpld实现升级功能。
[0166]
基于上述提供的单板管理系统,下面对本技术实施例提供的单板管理方法进行说明,参见图7,该方法包括如下步骤:
[0167]
步骤701:基板管理控制器200在启动后,通过管理总线300扫描该管理总线300下的预设地址的存储器110。
[0168]
当服务器上电之后,基板管理控制器200启动,基板管理控制器200可以通过管理总线300从该管理总线300下挂的器件中找到预设地址的存储器110。
[0169]
步骤702:基板管理控制器200在扫描到该存储器110后,通过管理总线300从存储器110中读取该服务器单板100的管理信息。该管理信息所包括的信息可以参见前述内容的描述,基板管理控制器200通过读取该管理信息,能够了解该服务器单板100的硬件信息、该服务器单板100的拓扑信息、以及该服务器单板100的器件的属性信息。
[0170]
步骤703:服务器单板100在上电后,服务器单板100上的器件管理器120收集第一类器件的工作信息。
[0171]
服务器单板100上电之后,器件管理器120能够与该器件管理器120所连接的第一类器件交互,获取该第一类器件的工作信息,如获取温度传感器所检测的温度、获取adc所检测的电压、从电压调节电源控制器获取电源ok信息、器件的故障信息(如cpu告警信息)
等。
[0172]
步骤704:基板管理控制器200从器件管理器120获取第一类器件的工作信息。若该服务器单板100上包括第二类器件,基板管理控制器200还可以通过管理总线300从第二类器件中获取该第二类器件的工作信息。
[0173]
在步骤704中,基板管理控制器200可以通过器件管理器120采集到服务器的第一类器件的工作信息,也可以通过直接交互获取第二类器件的工作信息。基板管理控制器200无需与服务器单板100上各个器件连接,基板管理控制器200获取服务器的器件的工作信息的方式较为简单。
[0174]
步骤705:基板管理控制器200基于管理信息、以及获取的器件的工作信息(如第一类器件的工作信息、第二类器件的工作信息)管理服务器单板100。
[0175]
基板管理控制器200基于管理信息能够了解服务器单板100上器件的连接管理,基于器件的工作信息能够确定该服务器单板100上一些主要器件的工作环境(如温度、电压、是否供电、是否故障等信息),基于此基板管理控制器200可以确定是否对服务器单板100上的器件进行控制,如开启风扇、重启电源等。基板管理控制器200可以向器件管理器120发送控制命令,对第一类器件进行控制。基板管理控制器200也可以直接通过管理总线300向第二类器件下发控制命令,对第二类器件进行控制。关于控制命令的下发方式可以参见前述内容,此处不再赘述。
[0176]
基板管理控制器200除了对器件进行控制,还可以对器件进行升级。例如,基板管理控制器200可以向器件管理器120发送升级命令,对第一类器件进行升级。基板管理控制器200可以向器件管理器120发送升级命令,对第一类器件进行升级。基板管理控制器200也可以向器件管理器120发送升级命令,对器件管理器120进行升级。基板管理控制器200也可以直接通过管理总线300向第二类器件下发升级命令,对第二类器件进行升级。关于升级命令的下发方式可以参见前述内容,此处不再赘述。
[0177]
基板管理控制器200还可以确定是否向用户进行告警,以提示用户器件发生故障或温度较高、供电出错等,这样基板管理控制器200可以管理服务器单板100,保证服务器单板100能够正常工作,或用户可以及时了解服务器单板100的状态。
[0178]
如图8所示,为本技术实施例提供的一种bcu模块的管理系统。bcu模块的管理系统用于保证该bcu模块的管理特性。
[0179]
bcu模块的管理特性包括bcu模块对外提供的管理接口,以及管理模块对bcu模块的管理特性。
[0180]
bcu模块外出的高速连接器上的低速信号中包含了管理信号,可以用于bcu模块外出的riser卡的带外管理,这样设计的优点是riser卡上可以免低速管理信号线。
[0181]
管理模块对bcu模块的管理分为带外管理和带内管理,天池管理架构推荐将bcu模块上独立的管理特性直接在bcu模块上终结,如bcu模块上的频率合成器配置,直接在bcu模块上加载,不需要管理模块单独管理。
[0182]
如图8中,管理模块上的bmc提供一路智能平台管理总线(intelligent platform management bus,ipmb)接口对接bcu模块的cpu,作为智能平台管理接口(intelligent platform management interface,ipmi)总线通道;
[0183]
管理模块上的bmc提供一路lpc接口对接bcu模块的cpu,作为bt总线通道;
[0184]
管理模块上的bmc提供一路i2c接口对接bcu模块的cpld和frud,bmc通过该路i2c实现对bcu模块的基础带外管理,包括frud中的信息读取、作为smc总线通道访问bcu模块cpld寄存器等;
[0185]
管理模块上的cpld芯片提供两路hisport接口对接bcu模块的cpld,其中一路hisport0作为bcu模块和管理模块之间逻辑寄存器交互通道,另外一路作为hisport over i2c接口,用于bcu模块对外扩展管理接口;
[0186]
bcu模块上的cpld芯片提供多路i2c接口用于bcu模块的adc芯片、时钟频率合成器芯片、温感芯片的信息读取和配置,即bcu模块上的cpld实现读取温度、电压等基础信息,通过统一的smc接口上报给bmc芯片,实现独立管理特性在模块内部终结。
[0187]
bcu模块上的cpld芯片提供多路i2c接口对接ubc高速连接器,作为对外扩展模块的管理通道。这些对外提供的管理i2c来源于管理模块提供的hisport over i2c特性,该管理通道可以对接riser上的fru芯片、温感等带外管理器件,实现组件的带外管理特性。
[0188]
基于与方法实施例同一发明构思,本技术实施例还提供了一种单板管理装置,该单板管理装置用于执行上述如图7所示的方法实施例中基板管理控制器执行的方法,相关特征可参见上述方法实施例,此处不再赘述。如图9所示,单板管理装置900包括获取单元901、管理单元902。
[0189]
获取单元901,用于通过管理总线从存储器中获取管理信息。
[0190]
管理单元902,用于基于管理信息,通过管理总线与器件管理器交互,管理计算设备单板。
[0191]
一种可能的实施方式,计算单板包括第一类器件,器件管理器件与第一类器件连接,获取单元901可以通过管理总线从器件管理器获取第一类器件的工作信息。
[0192]
一种可能的实施方式,计算单板包括第二类器件,第二类器件通过管理总线与基板管理控制器连接,获取单元901可以通过管理总线从第二类器件获取第二类器件的工作信息。
[0193]
一种可能的实施方式,管理信息包括下列的部分或全部:计算设备单板的属性信息、计算设备单板的拓扑信息、第一类器件的属性信息、第二类器件的属性信息。
[0194]
一种可能的实施方式,管理单元902通过管理总线与器件管理器交互时,可以基于命令字的方式进行交互。
[0195]
一种可能的实施方式,装置还包括升级单元903。升级单元903可以向器件管理器传递第一类器件的升级文件,指示对第一类器件进行升级。也可以向器件管理器传递器件管理器的升级文件,指示对器件管理器进行升级。
[0196]
一种可能的实施方式,管理总线为i2c总线或spi总线。
[0197]
需要说明的是,本技术实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。在本技术的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0198]
本技术还提供如图10所示的计算设备1000。所述计算设备1000包括计算机单板以及基板管理控制器1500,计算机单板上可以包括总线1100、处理器1200、通信接口1300、存
储器1400。处理器1200、存储器1400和通信接口1300之间通过总线1100通信。
[0199]
其中,处理器1200可以为中央处理器(central processing unit,cpu)专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)、人工智能(artificial intelligence,ai)芯片、片上系统(system on chip,soc)或复杂可编程逻辑器件(complex programmable logic device,cpld),图形处理器(graphics processing unit,gpu)等。
[0200]
存储器1400可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,ram)。存储器1400还可以包括非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,rom),快闪存储器,hdd或ssd。该存储器1400还可以包括前述内容提及的存储器110,也即其中可以存储管理信息。存储器1400中还可以存储操作系统等其他运行进程所需的软件模块。操作系统可以为linuxtm,unixtm,windowstm等。
[0201]
基板管理控制器1500包括处理器1510和存储器1520,存储器1520中存储有计算机程序代码,处理器1510执行该计算机程序代码以执行前述图7所描述的方法。基板管理控制器1500也可以只包括处理器1510,处理器1510上烧写有计算机程序代码,处理器1510可以执行前述图7所描述的方法。
[0202]
上述各个附图对应的流程的描述各有侧重,某个流程中没有详述的部分,可以参见其他流程的相关描述。
[0203]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括计算机程序指令,在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例图7所述的流程或功能。
[0204]
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质。半导体介质可以是固态硬盘(solid state drive,ssd)。
[0205]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。

技术特征:
1.一种单板管理系统,其特征在于,所述系统包括基板管理控制器和计算设备单板;所述计算设备单板包括存储器和器件管理器,所述存储器中记录所述计算设备单板的管理信息;所述存储器和所述器件管理器通过管理总线与所述基板管理控制器连接;所述基板管理控制器,用于从所述存储器中获取所述管理信息,并基于所述管理信息、通过与所述器件管理器交互管理所述计算设备单板。2.如权利要求1所述的系统,其特征在于,所述计算设备单板还包括第一类器件,所述第一类器件与所述器件管理器连接,所述基板管理控制器,用于:通过所述管理总线从所述器件管理器获取所述第一类器件的工作信息。3.如权利要求1或2所述的系统,其特征在于,所述计算设备单板还包括第二类器件,所述第二类器件通过所述管理总线与所述基板管理控制器连接;所述基板管理控制器,还用于通过所述管理总线获取所述第二类器件的工作信息。4.如权利要求1~3任一项所述的系统,其特征在于,所述管理信息包括下列的部分或全部:所述计算设备单板的属性信息、所述计算设备单板的拓扑信息、所述第一类器件的属性信息、所述第二类器件的属性信息。5.如权利要求1~4任一项所述的系统,其特征在于,所述基板管理控制器与所述器件管理器基于命令字的方式进行交互。6.如权利要求1~5任一项所述的系统,其特征在于,所述基板管理控制器,还用于向所述器件管理器传递所述第一类器件的升级文件,指示对所述第一类器件进行升级;所述器件管理器,用于获取所述第一类器件的升级文件,利用所述第一类器件的升级文件对所述第一类器件进行升级。7.如权利要求1~6任一项所述的系统,其特征在于,所述存储器为带电可擦可编程只读存储器eeprom。8.如权利要求1~7任一项所述的系统,其特征在于,所述器件管理器为复杂可编程逻辑器件cpld或微控制单元mcu。9.如权利要求1~8任一项所述的系统,其特征在于,所述管理总线为内部集成电路i2c总线或串行外设接口spi总线。10.一种单板管理方法,其特征在于,所述方法用于对计算设备单板进行管理,所述计算设备单板包括存储器和器件管理器,所述存储器中记录所述计算设备单板的管理信息;所述方法包括:所述基板管理控制器通过管理总线从所述存储器中获取所述管理信息;所述基板管理控制器基于所述管理信息,通过所述管理总线与所述器件管理器交互,管理所述计算设备单板。11.如权利要求10所述的方法,其特征在于,所述计算单板包括第一类器件,所述方法包括:所述基板管理控制器通过所述管理总线从所述器件管理器获取所述第一类器件的工作信息。12.如权利要求10或11所述的方法,其特征在于,所述计算单板包括第二类器件,所述方法包括:
所述基板管理控制器通过所述管理总线从所述第二类器件获取所述第二类器件的工作信息。13.如权利要求10~12任一项所述的方法,其特征在于,所述管理信息包括下列的部分或全部:所述计算设备单板的属性信息、所述计算设备单板的拓扑信息、所述第一类器件的属性信息、所述第二类器件的属性信息。14.如权利要求10~12任一项所述的方法,其特征在于,所述基板管理控制器通过所述管理总线与所述器件管理器交互,包括:所述基板管理控制器通过所述管理总线,与所述器件管理器基于命令字的方式进行交互。15.如权利要求10~14任一项所述的方法,其特征在于,所述方法还包括:所述基板管理控制器向所述器件管理器传递所述第一类器件的升级文件,指示对所述第一类器件进行升级。16.如权利要求10~15任一项所述的方法,其特征在于,所述管理总线为i2c总线或串行外设接口spi总线。17.一种单板管理装置,其特征在于,所述装置用于对计算设备单板进行管理,所述计算设备单板包括存储器和器件管理器,所述存储器中记录所述计算设备单板的管理信息;所述装置包括获取单元、管理单元;所述获取单元,用于通过管理总线从所述存储器中获取所述管理信息;所述管理单元,用于基于所述管理信息,通过所述管理总线与所述器件管理器交互,管理所述计算设备单板。18.如权利要求17所述的装置,其特征在于,所述计算单板包括第一类器件,所述获取单元,还用于:通过所述管理总线从所述器件管理器获取所述第一类器件的工作信息。19.如权利要求17或18所述的装置,其特征在于,所述计算单板包括第二类器件,所述获取单元,还用于:通过所述管理总线从所述第二类器件获取所述第二类器件的工作信息。20.如权利要求17~19任一项所述的装置,其特征在于,所述管理信息包括下列的部分或全部:所述计算设备单板的属性信息、所述计算设备单板的拓扑信息、所述第一类器件的属性信息、所述第二类器件的属性信息。21.如权利要求17~19任一项所述的装置,其特征在于,所述管理单元通过所述管理总线与所述器件管理器交互,用于:通过所述管理总线,与所述器件管理器基于命令字的方式进行交互。22.如权利要求17~21任一项所述的装置,其特征在于,所述装置还包括升级单元;所述升级单元,用于:向所述器件管理器传递所述第一类器件的升级文件,指示对所述第一类器件进行升级。23.如权利要求17~22任一项所述的装置,其特征在于,所述管理总线为i2c总线或串行外设接口spi总线。
24.一种基板管理控制器,其特征在于,所述基板管理控制器包括处理器和存储器,所述处理器用于调用所述存储器中的程序指令执行如权利要求10~16任一项所述的方法。25.一种计算设备,其特征在于,所述计算设备包括计算设备单板以及基板管理控制器,所述基板管理控制器用于执行如权利要求10~16任一项所述的方法。

技术总结
一种单板管理系统、方法、装置及设备,基板管理控制器可以通过管理总线与计算设备单板连接。计算设备单板包括存储器和器件管理器,存储器中记录计算设备单板的管理信息。计算设备单板内部,存储器和器件管理器可以通过管理总线与基板管理控制器连接。基板管理控制器通过管理总线从存储器中获取管理信息,并基于管理信息、与器件管理器交互管理计算设备单板。基板管理控制器与计算设备之间的连接关系简单,适配于不同结构的计算设备的单板,能够有效简化计算设备单板的管理方式。计算设备单板的管理方式更加高效。的管理方式更加高效。的管理方式更加高效。


技术研发人员:胡仁劼 牛元君 李琴 居海强
受保护的技术使用者:华为技术有限公司
技术研发日:2022.02.28
技术公布日:2023/9/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐