搜索
查看: 2547|回复: 0

算网一体调度现状、挑战和分析

[复制链接]
发表于 2024-4-12 17:06:42 | 显示全部楼层 |阅读模式
本帖最后由 中国计算机学会 于 2024-4-19 14:56 编辑

摘要—本文介绍了算力网络的发展背景,分析了算网一体调度的研究现状以及面临的挑战和问题,在此基础上,介绍了引入声誉机制的算网一体多目标优化调度机制,以及面向东数西算的绿色节能调度机制。最后,展望了未来算网一体调度的发展与研究方向。
  
付月霞中国移动通信有限公司研究院
中国移动通信有限公司研究院
鹏(中国移动通信有限公司研究院
关键词 :算力网络 一体调度 东数西算

算力网络的发展背景与现状
        当前,数字经济步入发展新阶段,成为国民经济增长的核心引擎。一方面,算力成为核心生产力,渗透到各行各业,成为继热力、电力之后新的关键生产力;另一方面,通用智能技术加速发展,成为推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量。在我国算力规模持续增长的背景下,算力分布不均、供需失衡等问题依然存在,导致算力的社会利用率难以提升,大量闲散算力资源亟待盘活使用。截至2022年底,我国算力总规模超过180 EFLOPS,存力总规模超过1000 EB,算力核心产业规模达到1.8万亿元,并保持30%以上的年增长率,但算力利用率仅为30%,大量算力仍处于闲置状态[1]。因此我国提出东数西算战略工程,大力推动建设算力网络,整合算力资源,解决算力布局不均衡、结构不合理等问题。
        算力网络(Computing Force Network,CFN)[2]作为一种新型信息基础设施,融合了算力、网络、数据、智能等要素,通过多要素的融合、感知、控制和管理,将用户的资源请求调度到最优资源节点,在保证资源用户服务质量的前提下,提高全网资源利用率,实现全局调度、多维优化和服务一体交付。算力网络已经成为学术界和产业界的热点。在学术界,鹏城实验室牵头发布“中国算力网”[3],提出建成覆盖国家超算中心、智算中心、数据中心等大型异构算力中心互联互通、高效协同的国家级算力网络基础设施;中国科学院计算技术研究所牵头提出“信息高铁”计划[4],打造一套覆盖云网边端的一体化新型信息基础设施,提供高通量、高品质和高安全的信息基础设施服务。以运营商为代表的产业界也将算力网络上升至重要战略高度,中国移动先后发布《算力网络白皮书》《算力网络技术白皮书》《算网一体网络架构及技术体系展望白皮书》,体系化推动建立算力网络原创技术体系(见图1),大力推进构建算力网络试验示范网(CFN Innovative Test Infrastructure,CFITI),并与鹏城实验室“中国算力网”、中国科学院“信息高铁”联合打造科学装置。在国内外标准组织中,国际电信联盟(ITU)已将算力网络作为重要研究方向,并形成算力网络标准体系;中国移动牵头推动国际互联网工程任务组(IETF)成立算力路由(CATS)工作组[5],开展算力路由技术标准研究;中国通信标准化协会(CCSA)也已经形成算力网络行业标准体系,并发布首个算力网络行业标准。

算网一体调度成为关键技术
       算力网络的发展需要坚实的技术支撑,面对用户差异化需求下全域大范围、多层次算力资源的弹性灵活调度问题,算网一体调度成为了算力网络的关键技术。一方面,算力网络将包含大规模的网络连接和多样泛在的算力资源;另一方面,算力网络中将存在海量并发的资源请求或服务请求,对算力和网络同时提出了更高的需求,且呈现需求差异化特点,如何通过算网一体调度保障用户体验,并尽可能满足更多用户的服务需求,同时提升资源利用率,成为算力网络亟须考虑和解决的关键问题。
       算网一体调度也是当前算力网络的热点研究方向,从边缘计算调度、云边端协同角度出发,提出时延优先策略、资源利用率最大化策略、成本感知策略等多种调度机制,并结合人工智能、区块链等技术辅助调度执行;产业实践方面,中国信息通信研究院牵头发布的全国一体化算力算网调度平台1.0版,作为全国首个多元异构算力调度平台,支持整合多种算力架构,提供算力供应整体解决方案;中国移动牵头发起的百川算力并网行动,旨在汇聚全国各地的算力资源,包括通用算力、超算算力、智能算力和量子算力,实现算力的共享和互联,并支持三种不同的并网模式:运营层面对接、编排管理层对接和云原生算力纳管,由算网大脑统一调度。
       在现有研究中,算网一体调度中心和资源提供方往往处于可信环境中或同一管理域、信任域内,且各资源提供方都有各自的调度中心。随着算力并网的发展,将多个算力资源提供方的资源作为一个整体考虑逐渐成为一种新趋势和新需求,与对各资源提供方分别优化以实现个体最优的传统方式不同,算网一体调度需要有一个全局调度中心对各资源提供方进行统一调度和交易,决定用户请求最终由哪个资源提供方服务,从而实现算力网络的全局优化。因此各资源提供方之间存在竞争关系,如何高效地调度用户请求至合适的资源提供方的资源节点成为新的问题。算网一体调度面临调度主体多、调度要素多、调度目标多、调度层次多等多种挑战,如图2所示。

调度主体多
        算力网络中的每个资源提供方都是独立的管理域,由于互相缺乏信任导致难以获取资源信息,包括统一标识、位置、类型、总量等静态信息,以及性能、负载等动态信息,因此多主体间需要协商统一的资源信息感知与同步机制,以及统一的调度策略,以确定可供统一调度的资源信息等。
        此外,各主体间互不信任,可能会为了获取资源请求而虚报性能信息,因此,需要评估资源提供方行为的可靠性,将其历史行为纳入调度可靠性评估中;另一方面,为了鼓励更多资源提供方加入算力网络服从统一调度,对于提供良好服务的资源提供方可以给予激励,而对于提供不良服务的提供方则采取惩罚机制。
调度要素多
        算力网络的调度对象包括资源、数据、能力、能耗等多个要素。资源要素包括算力资源、网络资源和存储资源等;数据要素包括需求数据、资源性能数据;能力要素包括图像识别、音视频渲染等AI能力,以及分布式自治等区块链能力;能耗要素包括资源能耗信息、资源能源类型、供电情况等。如何充分协同调度各类要素,实现灵活、按需高效的服务供给成为新的问题。
调度目标多
       算力网络中存在不同的角色,包括资源使用方、资源提供方和算网一体调度中心。不同的角色有不同的优化目标:资源使用方希望满足资源使用需求,资源提供方希望资源利用率和资源收益最大化,而算网一体调度中心则希望满足更多用户需求,提高全局资源利用率,并提升全局收益。因此,算力网络作为中立的调度平台,如何在保障用户体验的同时满足资源提供方的需求,平衡这两种角色的不同优化目标,是必须考虑的问题。
        另一方面,随着东数西算和双碳战略的提出,能耗成为调度过程中需要考虑的重要因素,在保证性能的前提下实现能耗优化、碳排放优化成为新的要求。
调度层次多
        由于算力网络的调度主体多、调度要素多以及调度目标多,可能存在不同层次的调度机制,包括集中式调度、分布式调度和混合式调度。一方面,集中式调度适用于单一管理域或同一信任域内,可以高效获取全局信息生成资源统一视图,并执行统一调度策略。但存在单点性能瓶颈的问题;另一方面,随着算力网络的资源并发请求量越来越多,集中式调度中心需要并行处理大量的请求,完成多维的复杂匹配,也会引入额外的等待时延和处理时延。
        以算力路由为代表的分布式调度,通过路由器在各个分布式入口执行分布式路由调度决策,直接将用户请求调度至合适资源,无须上报至统一调度中心。分布式路由调度只需获取就近区域的资源信息,实现就近区域的优化调度,具有响应快、灵活性高的优点。但分布式方案对路由协议的改动要求较高,须扩展现有路由协议携带资源信息,须考虑协议效率和调度有效性问题。此外,由于分布式方案没有全局信息,如何实现全局性能优化和跨域优化也是需要研究的问题。因此,混合式调度方案被提出,通过全局集中调度,下发调度策略至局部,进一步在局部实现分布式调度。在该方案中,如何有效划分调度的层次是需要研究的问题。
基于声誉机制和激励机制的算网一体多目标优化调度
        面对多方并网后调度主体多和调度目标多的挑战,需要解决多方之间缺乏信任导致的信息不可靠问题,以及资源需求侧和供给侧优化目标不同的问题,因此我们提出了一种基于声誉的算网一体多目标优化调度架构[12],如图3所示。该架构首先引入改良声誉机制,基于实际性能更新声誉值,以评估资源提供方按承诺提供资源的概率,进一步构建基于声誉的综合评价模型。其次,将用户满意度和资源利用率作为联合优化目标,针对多个用户和多个资源提供方之间的多对多匹配问题,用多目标优化算法NSGA-II求解,最终获得一组同时满足用户满意度和资源利用率优化目标的帕累托解(Pareto solution)。

改良声誉机制
       声誉系统已在多个不同领域有较多研究,以声誉作为衡量标准,根据实体过去的行为评定其可靠性或可信度。如在多节点联邦学习中,声誉被用作评估联合学习节点候选人可靠性的指标,从而确保选择可靠的学习节点;在无线传感器网络中[6],声誉代表每个传感器节点的过去行为,并将该指标作为预测节点未来行为的一方面;在车联网场景中,信誉机制被用来衡量参与联合学习的车辆的可靠性。因此,面对不信任环境中的多个资源提供方主体,可以考虑引入声誉机制,计算给定资源提供方按承诺提供资源的概率,以表示特定资源提供方的可靠性,评估资源提供方下次的行为。
        值得注意的是,β分布被广泛应用于声誉建模,有研究针对无线传感器网络的节点信任和声誉评估,提出了一种基于β分布的信任和声誉评估系统[6]。此外,还有研究提出了基于β分布的声誉模型来衡量本地用户的可信度,以及具有用户公平性约束的基于声誉的调度策略[7]。因此,面向不信任环境中的多个资源提供方主体,可以考虑引入声誉机制并基于β分布建模。
        传统的声誉建模将主体的行为表征为二元变量{0, 1},用以区分是否为恶意节点,其中“1”为积极行为,表示实际性能达到承诺性能,“0”为消极行为,表示实际性能未达到承诺性能。然而在算力网络中,资源提供方的性能并非只有简单的积极或消极之分,如以用户的需求为基线,资源提供方的性能将有不同程度的偏差,因此为了更准确地评估声誉更新,鼓励资源提供方按承诺提供资源,我们引入了改良声誉机制,不再只考虑积极行为和消极行为,也不再用二元量表描述资源提供方的行为,而是主要考虑以下三个因素。
    新鲜度权重:资源提供方的声誉会随着时间而变化,通常新鲜度较高的近期行为比过去的行为具有更高的权重。为了反映时间对声誉的影响,可以定义新鲜度权重值来说明行为的新鲜度。
      权重效应:积极行为会提升资源提供方的声誉,反之亦然。为了抑制负面行为,负面行为在声誉更新计算中的权重应高于正面行为。具体而言,我们将积极行为和消极行为的权重分别记为αβαβα + β = 1。
      性能贡献:资源提供方当前所提供服务的性能将影响声誉更新。在考虑性能贡献时,我们使用从0到1的连续分布更准确地评估声誉更新,它来自第i次行为的实际性能与承诺性能之间的差值。
用户满意度和资源利用率多目标优化
       提升用户满意度和资源利用率是算力网络的两个重要优化目标,其中用户满意度用于衡量需求侧总体的满意度,资源利用率用于衡量供给侧总体的资源使用情况。如果只针对单个目标进行优化,如为了提高用户满意度、服务更多用户,加大资源供给量,将导致资源利用率低下,无法提高资源提供方收益,不利于提供方持续参与算力网络的市场供给;或者为了提高资源利用率,同时为大量用户服务,导致部分用户需求无法得到满足,用户体验下降,不利于吸引更多用户通过算力网络访问使用服务,因此单目标下的优化无法有效提升算力网络系统的整体性能,不利于算力网络持续发展。
        因此,需要解决在算力网络资源总量有限的情况下,多个用户与多个资源提供方之间的多对多匹配问题,并实现两个优化目标的联合优化。首先,考虑存在两种资源提供情况,一种是一个用户请求只能由一个服务提供方对接,另一种是一个用户请求由多个资源提供方共同对接;其次,对用户满意度和资源利用率分别建模,并定义约束条件为满足用户资源需求、不超过单个资源提供方资源总量,以及资源提供关系为一对一或一对多,基于多目标优化算法NSGA-II进行迭代求解,最终实现两个优化目标的联合调度优化。
动态激励机制
       为了鼓励更多的用户和资源提供方参与算力网络调度,可以考虑引入动态激励机制提升资源提供方收益,同时提升全局收益。激励机制已经在不同领域得到应用并取得了良好的效果。有研究提出了一种随时间变化的定价框架,鼓励用户将服务延迟到非高峰时段,研究结果表明,该机制可通过在互联网服务提供商的价格计算与用户之间建立反馈环路来减少网络拥塞[8]。此外,有研究提出了一种雾节点,属于数据服务运营商和数据服务用户的联合优化框架[9]。在此框架中,使用斯塔克尔伯格(Stackelberg)博弈分析运营商的定价问题和数据服务用户的资源分配问题,并使用多对多匹配研究数据服务运营商与雾节点之间的匹配问题。然而,上述研究大多没有同时考虑动态市场因素和服务可用性信息的影响,无法有效激励算力网络场景中的资源交易。因此,需要面向算力网络调度设计一种激励机制,以克服调度过程中的信息不对称问题,激励资源提供商提高服务质量。
       首先,针对市场的动态因素,可以考虑动态定价更新策略,包括周期定价更新策略和触发式定价更新策略,以应对资源提供方服务性能变化情况和市场供需关系变化情况。例如,如果当前某一服务的供给量小于需求量,则动态提高定价,以吸引更多提供方加入市场;如果某一提供方一段时间内的服务供给性能较差,则引入惩罚机制动态降低其服务定价。此外,为确保更多资源提供方有动力加入算力网络,调度机制和合约应该是可行的。因此,需要满足合约可行性条件,即个体理性和激励兼容性,个体理性即参与任何可行合同的个体效用必须是非负的,激励兼容性即为了实现效用最大化,每个个体只能选择为自己设计的合约,而不能是任何其他合约。
面向东数西算的算网一体调度
       随着人工智能、大数据、云计算等技术的发展,算力需求爆发式增长和算力资源分布不均衡、东西部用电需求和供电能力不均衡的矛盾日益突出,因此我国大力推行东数西算重大战略。东数西算主要面向东数西存、东数西渲、东数西训等时延不敏感的场景,因此能耗优化成为重要调度目标,如图4所示。一方面,我国东部算力需求量巨大,须配套建设大量数据中心,但东部的土地、人力成本高昂,无形中增加单位算力的使用成本;另一方面,数据中心运行需要耗费大量电力,而东部的供电能力持续紧张,将电力从我国西部传输至东部也增加了额外的能量消耗。因此,算网一体调度需要考虑绿色节能因素、信息能量融合因素,以支撑东西部算力高效协同互补。

绿色节能调度
        能耗因素包括能耗水平和能源类型等。从能耗水平看,算力网络业务的能耗包括网络传输能耗和计算处理能耗,因此算网一体调度需要统筹考虑算网总体能耗,通过评估各资源节点的能耗水平信息,将请求调度至能耗更低的算力节点和网络节点,其中各资源节点的能耗水平信息可以取其各历史时间段的能耗均值。同时,可以引入算网协同休眠机制,动态优化系统能耗,综合业务特性,对于负载较低的算力节点或网络节点,可以将其负载集中至特定节点,休眠这些低负载节点,从而降低全局能耗。
        从能源类型来看,可再生能源具备碳排放低的优点,引入可再生能源可以有效降低全局碳排放,但同时存在供能不稳定的问题。因此,算网一体调度也须统筹考虑可再生能源供电的稳定性。在引入可再生能源优化全局碳排放的同时,尽可能不影响用户体验,例如当某一节点的可再生能源供能不充足时,暂停该节点时延不敏感业务的处理和访问,优先保障该节点时延敏感业务的体验,或将该节点业务调度至其他供能充足节点。
信息能量融合
       随着算力网络的发展,信息能量融合已经成为新的热点与趋势。据统计,2019年我国数据中心能耗约70亿千瓦时,约占社会总用电量的1%,预计到2030年,其能耗将达到140亿千瓦时[10],数据中心已经成为我国主要电力负荷之一。区别于仅具备时间调节潜力的空调等传统电力负荷,数据中心可以通过调度算力需求实现电力的转移,是一种同时具备时间、空间调节潜力的特殊电力负荷,因此算网一体调度将支撑实现信息网和能源网的深度协同,通过“算力+电力”的跨区域协同,缓解电力供需紧张问题,助力电网削峰填谷。
        算网一体调度时可以考虑资源节点的供电状态,在满足业务性能需求的资源节点列表中,优选当前电力供给充足的资源节点,避免将任务调度至电力供给紧张的资源节点,导致新的电力传输能耗。同时,网络传输能耗远低于电力传输能耗[11],而我国东部电力紧张,需要从西部传输电力,因此通过算网一体调度更多任务至西部算力节点,促进西部充分消纳本地电力,从而减少东部数据中心的用电需求,减少从西部至东部的电力传输损耗,总体降低全局电力能耗。
总结与展望
        算网一体调度是算力网络赋能行业和社会发展的重要一环,通过高效的算网一体调度,保障用户业务体验,提升资源利用率,实现算力网络在性能、能耗、成本等方面的多维优化,是当前算力网络发展需关注和解决的重要问题。
       未来,算网一体调度仍是全面推动算力网络繁荣发展、进一步落地实践的关键,需要深入研究多资源提供方的公平性调度问题和供需双方博弈的多对多匹配问题。在信息能量融合趋势下,还要考虑能耗、碳排放等多维目标联合优化的调度机制,以实现算力网络和电力网络更深层次的联合优化。  ■

参考文献:
[1] 国家互联网信息办公室.数字中国发展报告[R/OL]. (2023-04). http://www.cac.gov.cn/rootimages ... 86000000066481bca7.
[2] 段晓东, 姚惠娟, 付月霞, 等. 面向算网一体化演进的算力网络技术[J]. 电信科学, 2021, 37(10): 76-85.
[3] 高文.中国算力网的机遇与挑战[J].中国计算机学会通讯,2023, 19(1):31-36.
[4] 徐志伟, 李国杰, 孙凝晖.一种新型信息基础设施:高通量低熵算力网(信息高铁)[J]. 中国科学院院刊, 2022, 37(1):7.
[5] Yao K, Trossen D. et al. Computing-Aware Traffic Steering (CATS) Problem Statement, Use Cases, and Requirements[Z]. IETF draft-ietf-cats-usecases-requirements-00, 2023
[6] Fang W, Zhang C, Shi Z, et al. BTRES: Beta-based trust and reputation evaluation system for wireless sensor networks[J]. Journal of Network and Computer Applications, 2016, 59: 88-94.
[7] Song ZD, Sun HG, Yang HH, et al., 2022. Reputation-based federated learning for secure wireless networks. IEEE Internet Things J, 9(2):1212-1226. https://doi.org/10.1109/JIOT.2021.3079104
[8] S. Ha, S. Sen, C. Joe-Wong, Y . Im, and M. Chiang, “TUBE: Timedependent pricing for mobile data,” Proc. ACM SIGCOMM, Aug. 2012, pp. 247–258.
[9] H. Zhang, Y . Xiao, S. Bu, D. Niyato, F. R. Y u, and Z. Han, “Computing resource allocation in three-tier IoT fog networks: A joint optimization approach combining stackelberg game and matching,” IEEE Internet Things J., vol. 4, no. 5, pp. 1204–1215, Oct. 2017.
[10] 陈敏, 高赐威, 郭庆来, 等.互联网数据中心负荷时空可转移特性建模与协同优化:驱动力与研究架构[J]. 中国电机工程学报, 2022, 42(19):13.
[11] 慈松, 刘前卫, 康重庆, 等. 从"信息–能量"基本关系看信息能源深度融合[J]. 中国电机工程学报, 2021, 41(7): 2289-2296.
[12] Fu Y, Wang J, Lu L, et al. Reputation-based joint optimization of user satisfaction and resource utilization in Computing Force Network[J/OL]. Frontiers of Information Technology & Electronic Engineering (former title: Journal of Zhejiang University SCIENCE C (Computers & Electronics), 2010-2014), in press. (2023-12-01).https://doi.org/10.1631/FITEE.2300156.


版权声明:中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任。






回复

使用道具 举报

您需要登录后才可以回帖 登录

手机版|CCF Link ( 版权所有 中国计算机学会  京ICP备13000930号-4|京公网安备 11010802032778号   )

GMT+8, 2025-4-27 06:12 , Processed in 0.046618 second(s), 20 queries .

快速回复 返回顶部 返回列表