一种基于跨域分布式处理系统及调度优化方法

未命名 07-12 阅读：76 评论：0

1.本发明涉及处理系统技术领域，具体为一种基于跨域分布式处理系统及调度优化方法。

背景技术：

2.随着互联网、大数据、云计算、人工智能、区块链等技术加速创新，日益融入经济社会发展各领域全过程，数字经济发展速度之快、辐射范围之广、影响程度之深前所未有。在“东数西算”背景下，越来越多的数据中心“拔地而起”，并且呈现出“两极化”趋势，一种是边缘侧、小型、微型数据中心，另一种是大型、超大型的数据中心。用户想要一个“逻辑”上完全统一的资源空间，以便更快捷的进行管理、访问、部署、调度。然而“物理”上，数据资源和物理资源分别存在于多个分散的数据中心，如何更好的实现多数据中心之间的链接，实现资源的全局管理、调度、互通成为一个急需解决的关键性技术问题。
3.传统的分布式处理系统多是在同一个数据中心上进行数据收集和统计分析，并且没有针对数据副本进行优化布局，会耗费数据中心大量的资源和数据传输流量，同时针对作业的优先级，只能根据作业提交时的优先级标签进行作业的运行，无法根据作业的运行信息进行动态调整，在保证集群作业公平性上有所欠缺。
4.公开号为cn115357401a，专利名称为《一种基于多数据中心的任务调度与可视化方法和系统》公开了一种基于多数据中心的任务调度与可视化方法和系统，可以支持多数据中心的多任务的资源调度并确保任务能够在截止时间内匹配到符合条件的数据主机并可视化执行。具体包括：解析待处理任务的属性参数，基于所述属性参数确定目标资源参数；获取多个数据中心的每个数据主机的当前性能参数；基于所述目标资源参数，确定所述待处理任务的可分配数据主机；将所述待处理任务发送至所述可分配数据主机进行处理；将每个数据主机当前正在处理的任务通过拓扑图可视化显示。系统包括中心服务器和多个数据中心，每个数据中心配置多个数据主机，每个数据主机包括多个虚拟机。本发明可以支持多数据中心的多任务的资源调度并确保任务能够在截止时间内匹配到符合条件的数据主机并可视化执行。
5.公开号为cn112637263a，专利名称为《一种多数据中心资源优化提升方法、系统和存储介质》公开了一种多数据中心资源优化提升方法、系统和存储介质，通过运用专家设定的资源调度规则，在资源使用时采用全局调度和边缘调度相结合的方法，最后采用资源一致性图数据库分析方法实现资源一致性及利用率分析。本方法创新地提出多数据中心资源优化提升方法，适应多中心资源优化提升场景，采用rdf资源描述框架、tlgm数据模型构建多数据中心资源图库，采用全局调度器、边缘调度器协同处理计算请求，采用数据联动状态数据模型、调度规则、概率计算矩阵将资源一致性及资源利用率问题转化为图查询，采用原图重投、子图合并技术和高效平衡负载实现图查询，通过以上技术，实现多数据中心资源优化提升。
6.以上两个专利文献存在的技术问题是：全局资源管理、数据副本的布局优化和作
业优先级的动态调整，使得多数据中心的资源没有一个较好的全局统一管理和访问策略，同时没有针对数据副本进行优化布局造成数据中心大量的资源和数据传输流量的消耗，并且没有对作业的优先级进行动态调整，在作业公平性上有所欠缺。

技术实现要素：

7.本发明主要解决的技术问题是：多数据中心的资源没有一个较好的全局统一管理和访问策略，同时没有针对数据副本进行优化布局造成数据中心大量的资源和数据传输流量的消耗，并且没有对作业的优先级进行动态调整，在作业公平性上有所欠缺。提供一种基于跨域分布式处理系统及调度优化方法。
8.为实现上述目的，本发明采用的技术方案是：一种基于跨域分布式处理系统及调度优化方法，该方法通过hadoop3.x的元数据管理功能和资源管理功能进行改造，形成一个新的hadoop跨域分布式处理系统，用于多数据中心的分散的数据资源和物理资源的统一管理、访问和调度。hadoop跨域分布式处理系统通过对多个数据中心的数据资源和物理资源从本地、局域、广域3个层级逐级汇聚，形成一个全局统一的命名空间，提供数据中心中所有资源的全局视图，以支撑跨数据中心的数据资源和物理资源的聚合管理和统一访问。用户可通过hadoop跨域分布式处理系统中的任意一个数据中心客户端节点提交作业，通过全局数据管理功能和全局资源调度功能，将任务分配到多数据中心的最优计算节点，在保证作业公平性条件下，减少作业跨数据中心的总体运行时间，实现跨域多数据中心的最优调度。
9.具体包括如下步骤：
10.步骤1：用户通过hadoop跨域分布式处理系统中的任意一个数据中心客户端节点提交作业；用户作业提交后，全局资源管理器为作业分配资源到本数据中心的某个计算节点上并启动作业管理器；
11.步骤2：全局资源管理器创建管理作业的作业管理器，作业管理器对作业初始化并划分为任务，调度器获取到全局数据分布和全局资源信息，依据计算节点网络负载计算多数据中心各计算节点的性能；
12.步骤3：对于初始任务，选择将任务分配到拥有任务所需数据副本的计算节点或网络负载最小的计算节点中的任意节点；
13.步骤4：基于各数据中心的计算节点初始任务执行日志构建多元线性回归模型，预测任务的执行时长，从而预测作业的总执行时长；
14.步骤5：在作业运行过程中，通过监控作业已执行时长，结合作业预测总执行时长计算作业已完成的工作量比率；
15.步骤6：根据作业已完成工作量比率，将作业按照阈值划分为多个队列，作业已完成工作量比率越高，优先级越低；
16.步骤7：根据作业的动态优先级调整作业执行顺序，从步骤2继续执行，直到所有任务全部执行完毕。
17.步骤8：在作业任务完成后，收集本次计算所用数据的访问热度，综合考虑个数据中心节点的计算能力、负载情况修正数据副本的布局，以降低后续任务执行时的数据传输开销。
18.优选的，所述步骤3中：
19.(1)计算节点的网络负载为：
20.在多数据中心场景中，由于存在跨数据中心的网络传输，设多数据中心的网络带宽为wd，如下所示：
[0021][0022]
hadoop跨域分布式处理系统中计算节点的网络负载由时间间隔内节点接收到的数据量和可用带宽决定，由于存在跨数据中心的传输问题，故需考虑数据中心间的可用带宽，计算公式如下：
[0023][0024]
其中，表示第t个时间间隔内计算节点n接收到的数据量，表示第t个时间间隔内计算节点n的可用带宽，表示第t个时间间隔内数据中心d的可用带宽，表示在第t个时间间隔结束后，计算节点n的累计待处理数据量，数值越大，表示计算节点n的网络负载越大；
[0025]
(2)计算节点实时性能为：
[0026]
节点实时性能计算公式如下：
[0027][0028]
其中为t时刻节点n的实时性能，节点资源影响因素的权值β1+β2+β3+β4+β5＝1；表示t时刻节点n的实时cpu可用核数，表示t时刻节点n的实时内存可用量，表示t时刻节点n的实时磁盘读写速率，表示t时刻节点n的实时磁盘可用量，表示t时刻节点n的实时网络负载即上述的计算节点实时性能影响因素权值采用ahp层次分析法进行计算。
[0029]
优选的，所述步骤5为：计算节点分析器根据已完成的任务，对计算节点的cpu速率、cpu使用率、内存使用率、网络带宽占用率及任务是否在本地这五个参数进行收集，利用多元线性回归模型对任务执行时间进行预测，具体如下：
[0030]
3.1收集计算节点上已完成的任务信息，包括计算的cpu速率、cpu使用率、内存使用率、网络带宽占用率及数据是否在本地这五个参数；
[0031]
3.2利用收集到的数据构建多元线性回归预测模型，模型如下：
[0032]
t＝f(cf,cu,ru,wu,lt)
[0033]
其中，t表示预测的计算节点单位任务的执行时间，cf表示执行该任务的计算节点cpu速率，cu表示执行该任务的计算节点cpu使用率，ru表示执行该任务的计算节点内存使用率，wu表示执行该任务的计算节点网络带宽占用率，lt表示该任务的数据副本是否在该计算节点上；线性回归预测模型矩阵如下：
[0034][0035]
根据收集到的数据，采用最小二乘法计算出参数α的值，n为节点；
[0036]
3.3在每个计算节点上部署预测模型估算节点的计算能力；预测的信息通过心跳消息发送到作业管理器，作业管理器根据作业的各个任务在计算节点上的预测执行时长，取各任务在计算节点中执行时间最长的作为该任务的执行时长，并将各阶段任务预测执行时间相加作为作业的总执行时长。
[0037]
优选的，所述步骤6为：通过实时监控作业的运行时长结合步骤(5)预测的作业总的运行时间，计算出作业已完成工作量比率：
[0038][0039]
其中，v
job
表示作业已完成工作量比率，t
current
表示作业已执行时长，t
total
表示作业总执行时长；
[0040]
在任务执行过程中，根据步骤(6)得到的作业已完成工作量比率v
job
对运行过程中的作业优先级进行动态调整，在作业执行过程中，将v
job
作为作业的动态评分。
[0041]
全局命名空间管理器沿用namenode主从架构，其中master node为管理主节点，slave node为管理从节点，具体功能与namenode相同，不同点在于hadoop跨域分布式处理系统对元数据管理部分进行了改造，生成了新的元数据管理器。元数据管理器是系统中负责管理广域多数据中心的元数据(包括数据资源和物理资源元数据)组件，通过全局资源监控实现对多个数据中心的元数据从本地、局域、广域3个层级逐级汇聚，形成一个统一的命名空间，提供数据中心中所有资源元数据的全局视图，以支撑跨数据中心的数据资源和物理资源的聚合管理和统一访问。元数据管理器基于物理机(虚拟机)和由其组成的分布式文件系统hdfs进行本地和局域的资源聚合，并将多个数据中心的资源以hdfs为粒度分别映射到管理节点维护的数据资源和物理资源命名空间中进行广域资源的聚合。
[0042]
作业管理器：作业管理器负责管理管理协调多数据中心的作业，兼容资源管理器中applicationmanager应用管理器的功能，同时新增了多数据中心的作业管理协调功能。当用户在某个数据中心提交作业时，全局资源管理器会与全局命名空间管理器进行交互获取作业所需数据的元数据信息，并在该数据中心的某个计算节点上启动作业管理器，作业管理器其对作业进行初始化并将其分解成多个任务，之后作业管理器会向全局资源管理器申请资源用于运行任务，此时全局资源管理器中的调度器会根据其调度算法将所需要的资源封装成container容器对象(包含任务执行可以占用的内存、cpu核数等资源信息)传递给全局资源管理器，而后全局资源管理器会将任务发送到各个数据中心已分配的container容器中运行。
[0043]
全局资源监控器负责实时监控各数据中心中计算节点的资源负载情况和数据分布情况。通过在各数据中心的每个计算节点中启动资源监控器，用于实时监控计算节点的
数据存储和资源情况(包括cpu、内存、带宽、网络i/o)，并定时汇报给全局资源管理器。同时全局资源管理器与全局命名空间管理器定时交互，将各数据中心的资源信息发送给元数据管理器metadata server，进行全局数据中心元数据的管理。
[0044]
计算节点分析器根据已完成的任务，对计算节点的cpu速率、cpu使用率、内存使用率、网络带宽占用率及任务是否在本地这五个参数进行收集，利用多元线性回归模型对任务执行时间进行预测。
[0045]
调度器：自定义调度器在公平调度器的基础上进行修改，根据集群中每个计算节点的实时性能、性能偏好和作业类型，将任务分配到最优的计算节点，同时动态的调整作业的优先级，在保证作业公平性条件下，实现hadoop跨域分布式处理系统的集群节点负载均衡、作业与节点最优分配、平均运行时间更短。
[0046]
特别地，若数据中心所在地域因政策法规限制，不允许其it资源被不可信的第三方控制，那么hadoop跨域分布式处理系统中的全局命名空间管理器和全局资源管理器在功能上就无法实现。此时，为了hadoop跨域分布式处理系统中的各个组件的功能就会有所改变，具体如下：
[0047]
全局命名空间管理器：此时全局命名空间管理器只负责其所在数据中心的数据资源和物理资源管理，元数据管理组件通过资源监控器实现该数据中心的数据资源和物理资源从本地、局域2个层级逐级汇聚，形成一个统一的命名空间，提供数据中心中所有资源的全局视图，以支撑该数据中心的数据资源和物理资源的聚合管理和统一访问。
[0048]
全局资源管理器：此时全局资源管理器只负责其所在数据中心的资源管理，由于规则管控，某些数据中心的原始数据不允许出域，所以每个数据中心的资源管理器只能解析出其所在数据中心数据信息，通过作业管理器进行协同管理进而实现多数据中心的数据处理。
[0049]
作业管理器：作业管理器负责管理管理协调多数据中心的作业，多个数据中心间的同一作业内部的作业管理器之间使用zookeeper来进行协调。当用户在某个数据中心提交作业请求时(此数据中心的组件后面均为主组件，其余数据中心的组件为从组件)，主资源管理器会解析作业要处理的数据信息，并将作业的描述信息广播给其他数据中心的从资源管理器，从资源管理器解析作业要处理的数据信息后会将其同步给主资源管理器。同时主、从资源管理器均会在其数据中心为该作业生成作业管理器，主作业管理器根据主资源管理器获取到的全量数据信息后作业进行任务划分，并将作业的任务分配信息(包括作业id、任务id、数据中心id、数据所在计算节点、任务状态)写入分布式应用程序协调服务(zookeeper)的作业节点中，其余从资源管理器通过监听zookeeper作业节点中的taskmap任务集合获取到各自对应的任务进行调度，在每个数据中心的任务完成后会对taskmap任务集合进行更新，并向其资源管理器(主或者从)报告数据的输出位置信息，资源管理器会将本地作业执行的输出信息进行汇总，然后从资源管理器通过广域网或专线将中间数据传输到主资源管理器进行汇总输出最终的作业数据信息。
[0050]
hadoop跨域分布式处理系统既可用于多数据中心全域资源调度管理，又可用于多数据中心自治资源调度管理，系统包含的2种模式可通过多数据中心全域资源调度管理配置参数(global_manager)进行配置，其中1开启，即多数据中心全域资源调度管理，0为不开启，即多数据中心自治资源调度管理。
[0051]
hadoop跨域分布式处理系统部署在多个数据中心，数据中心间通过广域网或者专线进行通讯，每个数据中心的hadoop跨域分布式处理系统都包含全局命名空间管理器和全局资源管理器组件，并且至少部署一个tidb数据库实例，用于hadoop跨域分布式处理系统之间的全局数据管理和访问，系统间的作业跨域协调管理由全局资源管理器中的作业管理器完成，作业的跨域调度由全局资源管理器中的scheduler调度器完成，全局资源监控由全局资源管理器中的全局资源监控器完成。多个数据中心的hadoop跨域分布式处理系统都可以用于全局数据访问、管理和调度系统，用户可通过任意一个数据中心提交作业，实现跨数据中心的分布式大数据处理。
[0052]
本发明的有益效果：
[0053]
通过构建一个新的hadoop跨域分布式处理系统，用于多数据中心的分散的数据资源和物理资源的统一管理、访问和调度。调度优化方法用于将用户提交到hadoop跨域分布式处理系统的任务基于全局数据分布和全局资源信息，通过数据局部性和动态作业执行时间预测方法将任务分配到多数据中心的最优计算节点，同时结合作业已完成工作量动态的调整作业优先级，在保证作业公平性条件下，减少作业跨数据中心的总体运行时间，实现跨域多数据中心的最优调度。
附图说明
[0054]
图1为本发明的典型的单端口时间反演腔和环形器组合系统示意图；
[0055]
图2为本发明示例中的实验验证布局图；
[0056]
图3为本发明示例中的初始信号；
[0057]
图4为本发明示例中的反演重构信号；
[0058]
图5为本发明中hadoop跨域分布式处理系统的部署图；
[0059]
图6为本发明的实施例的第一组实验效果图；
[0060]
图7为本发明的实施例的第二组实验效果图；
[0061]
图8为本发明的实施例的第三组实验效果图。
具体实施方式
[0062]
下面将结合附图对本发明中的技术方案进行清楚、完整地描述。
[0063]
请参阅图1、图2、图3、图4、图5、图6、图7、图8，本发明实施例包括：一种基于跨域分布式处理系统及调度优化方法；
[0064]
如图2所示，每个物理机(虚拟机)的本地资源根目录都链接到全局命名空间管理器维护的分布式文件系统的逻辑节点下，每个分布式文件系统的根目录都链接到全局命名空间管理器维护的数据中心逻辑节点下，逻辑节点和其组织关系被管理节点记录在分布式数据库tidb中，存储多个数据中心的重要属性，为了提高可靠性，hadoop跨域分布式处理系统环境中的每个数据中心都需要部署一个tidb分布式数据库，依赖其跨数据中心多副本同步机制实现数据中心间跨域的最终一致性。其中数据资源属性包括数据中心的uuid、分布式文件系统hdfs的uuid、物理机(虚拟机)的uuid、数据文件的元数据信息(如数据大小，文件格式，访问路径等)；物理资源属性包括数据中心的uuid、分布式文件系统hdfs的uuid、物理机(虚拟机)的uuid、已使用资源和可用资源(资源包括cpu核数、内存数、网络i/o等)。管
理节点通过对数据资源和物理资源进行逐级聚合，形成统一的全局数据管理空间。
[0065]
全局资源管理器在资源管理器基础上，对作业管理器、调度器和节点管理器进行改造，实现跨域分布式处理系统的作业调度优化，其架构如图3所示。
[0066]
根据作业动态评分将其划分为多个队列，如按照0.2为单位分别划分q1-q5五个队列，评分依次上升；
[0067]
随着作业的任务运行，作业的已完成工作量比率越高，其评分也就越高，相应的其优先级会越低。如作业a初始提交运行时，其评分为0，优先级最高，在q1队列，随着作业继续运行，其已完成工作量就越高，当其评分超过q1的阈值时，作业a就会从q1队列转移到q2队列中，优先级会降低，直至作业a转移到q5队列并完成作业的运行。
[0068]
在计算任务完成后，hadoop跨域分布式处理系统会异步的在后台对数据副本进行优化。全局资源监控器根据收集到的本次计算所用数据的访问信息，综合考虑个数据中心节点的计算能力、负载等情况优化数据副本的布局，以降低后续任务执行时的数据传输开销。
[0069]
设数据块历史平均访问频率为当前周期的访问次数为m，访问周期为t，则数据块下一周期的访问频率为：
[0070][0071]
式中，0≤α≤1，是用来确定数据历史访问频率和当前周期访问频率对下一周期访问频率影响的权重，在设置权重时，充分考虑数据访问的局部性，使得越靠近预测周期的访问频率对其影响最大，即权值最大，同时数据访问频率越高代表数据热度越高。
[0072]
全局资源管理器通过全局资源监控器获取到任务所需数据历史访问频率、当前周期的访问次数和访问周期，以及各数据中心计算节点性能，结合上述数据访问频率预测公式计算出数据下一周期的访问频率来判断是否建立数据副本。若数据访问预测热度和节点性能在一定的阈值范围内，那么选择阈值范围内的节点创建副本。对于热度低的数据，结合hdfs纠删码技术减少数据副本。
[0073]
循环作业队列，直至所有的作业执行完成。
[0074]
本发明中的跨域分布式处理系统是在hadoop3.x的基础上进行改进的，兼容hadoop3.x的调度算法。分别将本发明的跨域分布式处理系统部署在3个不同的数据中心，共13个异构计算节点，采用多数据中心全域资源调度管理，选择三种不同资源特性的负载(sort、terasort和wordcount)，分三组不同规模大小的作业集分别对hadoop3.x默认的fairscheduler调度算法和本发明的任务调度优化算法进行实验验证，实验将每组负载数据集分10次提交到集群进行测试，分别运行10次取平均值。其中三组作业集分别为：第一组[小：(sort：250m，terasort：250m，wordcount：250m)；中：(sort：1g，terasort：1g，wordcount：1g)；大：(wordcount：10g)]，第二组[小：(sort：500m，terasort：500m，wordcount：500m)；中：(sort：5g，terasort：5g，wordcount：5g)；大：(wordcount：50g)]，第三组[小：(sort：1g，terasort：1g，wordcount：1g)；中：(sort：10g，terasort：10g，wordcount：10g)；大：(wordcount：100g)]。
[0075]
实验效果
[0076]
(1)第一组实验效果，如图6；
[0077]
(2)第二组实验效果，如图7；
[0078]
(3)第三组实验效果，如图8；
[0079]
(4)实验总结
[0080]
对三组实验结果进行均值处理，结果表明，优化算法有效解决了任务与计算节点资源部不匹配、节点负载不均衡、资源浪费等问题，整体上提高了作业执行效率。其中cpu平均使用率降低约12.78％，内存平均使用率降低了约14.43％，集群平均负载降低了约17.43％，作业平均总运行时长减少了15.56％。
[0081]
最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：
1.一种基于跨域分布式处理系统及调度优化方法，其特征在于，具体包括如下步骤：步骤1：用户通过hadoop跨域分布式处理系统中的任意一个数据中心客户端节点提交作业；用户作业提交后，全局资源管理器为作业分配资源到本数据中心的某个计算节点上并启动作业管理器；步骤2：全局资源管理器创建管理作业的作业管理器，作业管理器对作业初始化并划分为任务，调度器获取到全局数据分布和全局资源信息，依据计算节点网络负载计算多数据中心各计算节点的性能；步骤3：对于初始任务，选择将任务分配到拥有任务所需数据副本的计算节点或网络负载最小的计算节点中的任意节点；步骤4：基于各数据中心的计算节点初始任务执行日志构建多元线性回归模型，预测任务的执行时长，从而预测作业的总执行时长；步骤5：在作业运行过程中，通过监控作业已执行时长，结合作业预测总执行时长计算作业已完成的工作量比率；步骤6：根据作业已完成工作量比率，将作业按照阈值划分为多个队列，作业已完成工作量比率越高，优先级越低；步骤7：根据作业的动态优先级调整作业执行顺序，从步骤2继续执行，直到所有任务全部执行完毕；步骤8：在作业任务完成后，收集本次计算所用数据的访问热度，综合考虑个数据中心节点的计算能力、负载情况修正数据副本的布局，以降低后续任务执行时的数据传输开销。2.根据权利要求1所述的一种基于跨域分布式处理系统及调度优化方法，其特征在于，所述步骤3中：(1)计算节点的网络负载为：在多数据中心场景中，由于存在跨数据中心的网络传输，设多数据中心的网络带宽为wd，如下所示：hadoop跨域分布式处理系统中计算节点的网络负载由时间间隔内节点接收到的数据量和可用带宽决定，由于存在跨数据中心的传输问题，故需考虑数据中心间的可用带宽，计算公式如下：其中，表示第t个时间间隔内计算节点n接收到的数据量，表示第t个时间间隔内计算节点n的可用带宽，表示第t个时间间隔内数据中心d的可用带宽，表示在第t个时间间隔结束后，计算节点n的累计待处理数据量，数值越大，表示计算节点n的网络负载越大；(2)计算节点实时性能为：节点实时性能计算公式如下：
其中为t时刻节点n的实时性能，节点资源影响因素的权值β1+β2+β3+β4+β5＝1；表示t时刻节点n的实时cpu可用核数，表示t时刻节点n的实时内存可用量，表示t时刻节点n的实时磁盘读写速率，表示t时刻节点n的实时磁盘可用量，表示t时刻节点n的实时网络负载即上述的计算节点实时性能影响因素权值采用ahp层次分析法进行计算。3.根据权利要求1所述的一种基于跨域分布式处理系统及调度优化方法，其特征在于，所述步骤5为：计算节点分析器根据已完成的任务，对计算节点的cpu速率、cpu使用率、内存使用率、网络带宽占用率及任务是否在本地这五个参数进行收集，利用多元线性回归模型对任务执行时间进行预测，具体如下：3.1收集计算节点上已完成的任务信息，包括计算的cpu速率、cpu使用率、内存使用率、网络带宽占用率及数据是否在本地这五个参数；3.2利用收集到的数据构建多元线性回归预测模型，模型如下：t＝f(cf,cu,ru,wu,lt)其中，t表示预测的计算节点单位任务的执行时间，cf表示执行该任务的计算节点cpu速率，cu表示执行该任务的计算节点cpu使用率，ru表示执行该任务的计算节点内存使用率，wu表示执行该任务的计算节点网络带宽占用率，lt表示该任务的数据副本是否在该计算节点上；线性回归预测模型矩阵如下：根据收集到的数据，采用最小二乘法计算出参数α的值，n为节点；3.3在每个计算节点上部署预测模型估算节点的计算能力；预测的信息通过心跳消息发送到作业管理器，作业管理器根据作业的各个任务在计算节点上的预测执行时长，取各任务在计算节点中执行时间最长的作为该任务的执行时长，并将各阶段任务预测执行时间相加作为作业的总执行时长。4.根据权利要求1所述的一种基于跨域分布式处理系统及调度优化方法，其特征在于，所述步骤6为：通过实时监控作业的运行时长结合步骤(5)预测的作业总的运行时间，计算出作业已完成工作量比率：其中，v
job
表示作业已完成工作量比率，t
current
表示作业已执行时长，t
total
表示作业总执行时长；在任务执行过程中，根据步骤(6)得到的作业已完成工作量比率v
job
对运行过程中的作业优先级进行动态调整，在作业执行过程中，将v
job
作为作业的动态评分。

技术总结
本发明公开了一种基于跨域分布式处理系统及调度优化方法，具体包括如下步骤：步骤1：用户通过Hadoop跨域分布式处理系统中的任意一个数据中心客户端节点提交作业；步骤2：依据计算节点网络负载计算多数据中心各计算节点的性能；步骤3：选择将任务分配到拥有任务所需数据副本的计算节点或网络负载最小的计算节点中的任意节点；步骤4：预测作业的总执行时长；步骤5：结合作业预测总执行时长计算作业已完成的工作量比率；步骤6：将作业按照阈值划分为多个队列；步骤7：根据作业的动态优先级调整作业执行顺序。步骤8：修正数据副本的布局。通过数据局部性和动态作业执行时间预测方法将任务分配到多数据中心的最优计算节点。任务分配到多数据中心的最优计算节点。任务分配到多数据中心的最优计算节点。

技术研发人员：黑新宏李杨王一川高文杨明松朱磊姬文江
受保护的技术使用者：西安理工大学
技术研发日：2023.04.07
技术公布日：2023/7/7

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

一种基于跨域分布式处理系统及调度优化方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于跨域分布式处理系统及调度优化方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表