搜索
查看: 526|回复: 0

网算融合:重塑计算的未来

[复制链接]
发表于 2024-4-12 17:51:23 | 显示全部楼层 |阅读模式
本帖最后由 中国计算机学会 于 2024-4-19 14:52 编辑

摘要—本期专题的6篇文章针对网算融合的基础设施、系统软件设计、应用优化等介绍了学术界与工业界的最新动态,在进行全方位剖析的同时指出了该领域未来面临的挑战与发展方向。
  
特邀编辑:
黄 群(北京大学)
关键词 :网算融合 在网计算
  
专题背景
        在信息技术日新月异的今天,一阵新的风潮正在涌动,它的名字叫做“网算融合”。这个掀起波澜的概念描绘了一个全新的计算模型。它打破了传统的计算模式,将计算能力分散到各种设备和网络节点之间,形成了一种全新的、高度分布式的计算模式。就像一场革命,它正在颠覆我们对计算的认知,重塑我们看待世界的方式。
        在传统的计算模式中,数据需要上传到中心服务器进行处理。这不仅导致数据传输的延迟,而且浪费了大量的计算资源。随着技术的进步,我们开始实现数据的分布式处理,比如现在的云计算模式。然而,尽管云计算已经实现了一定程度的分布式处理,但是数据仍然需要在云服务器上进行处理,因此在数据传输和处理方面依旧存在一定的延迟和效率问题。
        这时,网算融合应运而生。网算融合为上述问题提供了一种全新的解决方案。在网算融合的计算模式下,数据可以在其产生的地方进行处理和分析,无须经过繁琐的传输过程。这就好比我们在生活中遇到问题,不是把所有的问题都汇集到一个地方解决,而是在问题产生的地方找到答案。这种模式极大地优化了资源利用,降低了数据传输的延迟,提高了计算效率。因此,我们可以说,网算融合是对云计算的一种超越和进步,它引领我们进入了一个全新的计算时代。
        网算融合的出现,还给计算任务的部署带来了极大灵活性。在传统的计算模式中,计算任务的部署和调度是一件复杂的工作,需要考虑各种因素,如设备性能、网络状况等。而在网算融合的环境下,这些问题都可以得到解决。无论是数据中心、卫星、移动设备,还是个人计算机,都能够成为执行计算任务的节点。每个节点都可以根据自身的情况,自主决定如何执行计算任务,如何调度资源。这就像我们在生活中面对一堆繁杂的任务,不是一个人独自承担,而是分派给每个人,每个人根据自己的能力和时间完成自己的任务。
        总之,网算融合正在开启全新的计算时代,带来前所未有的可能性。本期专题邀请了一些领域内的专家和学者,分享他们在这一领域的最新研究成果和见解。期待读者能够和我们一起探索这个全新的世界,理解它的潜力,并思考如何在自己的专业领域和日常生活中应用它。
文章导读
        由北京大学研究员吴文斐撰写的《在网聚合集群中多机器学习作业的管理策略》一文介绍了在计算机网络具备在网聚合能力的背景下进行多租户作业管理的策略问题。首先,作者总结了在网聚合现有的两种模式及其资源使用特点;其次,针对多租户场景下有无作业截止时间约束的不同场景,讨论了基于两种模式的作业放置和资源调度方案,以提升网络资源利用率和系统整体效率;最后,介绍了在网计算技术进一步发展需要解决的路由问题和拥塞控制问题。
        由浙江大学教授吴春明等人撰写的《可编程数据平面加速分布式人工智能模型训练》一文首先介绍了利用可编程数据平面灵活可重构的特性进行网络功能卸载的手段,该手段可用于解决分布式机器学习训练中网络通信性能瓶颈;然后,从基础性的架构设计优化和细节性的部署容错优化两方面,论述了已有工作依托可编程数据平面对分布式训练架构、可编程硬件架构、分布式训练流程等方面的改进策略,实现更高效可靠的分布式机器学习训练;最后,文章对未来分布式训练网络的发展趋势和关键技术进行了展望。
        由中国科学院计算技术研究所副研究员彭晓晖等人撰写的《TEC3:端边云计算连续统》一文,首先介绍了端边云计算连续统的概念,从分布式系统软件设计的角度,为TEC3设计了“物群-机群”分布式架构,将复杂的计算连续统简化为C/S二级架构;然后,提出了任务吞吐量、系统尾时延和时延标准差三个宏观性能评价指标,分析了TEC3系统软件设计面临的时间一致性、空间一致性、分布式运行时管理三个基本问题;最后,介绍了为TEC3设计的分布式运行时管理系统原型的特点和初步性能测试结果。
        由北京邮电大学副研究员徐梦炜等人撰写的《卫星计算:机遇、挑战与尝试》一文阐述了卫星计算这一信息科学和空天技术的交汇融合,包括卫星标准化、小型化、智能化下的机遇,增强卫星遥感能力、拓展地面边缘计算、开展科学试验和构建太空云等重要应用的意义,以及在资源、架构和可靠性等方面面临的核心技术挑战。作者重点介绍了其团队在“天算星座”平台和Rust卫星操作系统等方面的研究尝试和初步成果,描绘了未来卫星计算应走向“开源开放,合作共建”的美好愿景,最终为纵向延伸地面算网基础设施和人类探索宇宙深空提供有力支持。
        由中国移动通信研究院项目经理付月霞等人撰写的《算网一体调度现状、挑战和分析》一文介绍了算力网络的发展背景与现状,并提出算网一体调度已经成为算力网络的关键技术,分析了算网一体调度面临的调度主体多、要素多、目标多、层次多四大挑战。作者针对多方算力并网后存在的调度主体多、目标多的挑战,分析并提出了基于声誉机制和激励机制的算网一体多目标优化调度方法和基于改良声誉机制构建多目标优化模型,同时引入动态激励机制提升各方的参与积极性。此外,作者还重点介绍了考虑绿色节能和信息能量融合,实现面向东数西算的算网一体调度,最后讨论了算网一体调度未来的发展关键与方向。
        由华为技术有限公司主任研究工程师刘硕等人撰写的《浅谈在网计算加速AI训练》一文阐述了AI模型分布式训练下的集合通信瓶颈问题。作者首先介绍了以GPT-3为代表的分布式训练下的流量模式,并重点分析了All-Reduce集合通信的算法流程与缺陷;然后,介绍了在网计算这一重要的优化技术,并给出了在网计算相比软件算法的理论收益上界;最后,讨论了在网计算在工业界、学术界以及华为自身的研究进展。
展望
        本期专题的6篇文章针对网算融合的基础设施、系统软件设计、应用优化等介绍了学术界与工业界的最新动态,在进行全方位剖析的同时指出了该领域未来面临的挑战与发展方向。网算融合的相关技术研究和落地应用正处于蓬勃发展时期,希望本期专题能够在理论、技术和实践方面为相关领域的同行带来启发,吸引更多相关专家、学者和工程师关注,共同推进网算融合领域研究及系统应用的发展。这是一场计算的革命,也是一次思维的飞跃。让我们一起勇敢地走进这个新的时代,见证网算融合如何重塑我们的未来。  ■

版权声明:中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任。





回复

使用道具 举报

您需要登录后才可以回帖 登录

手机版|CCF Link ( 版权所有 中国计算机学会  京ICP备13000930号-4|京公网安备 11010802032778号   )

GMT+8, 2025-4-27 06:30 , Processed in 0.053606 second(s), 20 queries .

快速回复 返回顶部 返回列表