搜索
查看: 896|回复: 0

面向生成式智能的国产算力创新环境

[复制链接]
发表于 2024-4-18 08:53:11 | 显示全部楼层 |阅读模式
本帖最后由 中国计算机学会 于 2024-4-19 15:19 编辑

摘要—国产算力在应对生成式智能算力供给不足方面发挥重要作用。本文以国家超级计算天津中心为例,围绕生成式智能创新研发要素融合,总结生成式智能全栈服务平台的技术体系与应用实践。
康 波(国家超级计算天津中心
庞晓磊(国家超级计算天津中心
孟祥飞国家超级计算天津中心

关键词 :生成式智能 算力环境
  
引言
        以ChatGPT为代表的生成式人工智能技术的出现和发展,推动了智能生产力的进一步释放,使该技术成为人工智能与实体经济深度融合、人工智能与科学计算结合的突击力量。生成式智能以大规模预训练模型为算法底座,相关的数据处理、训练、部署等过程需要巨大的智能算力支撑。随着模型参数规模突破千亿,所需智能混合精度算力超过E级,算力供给不足已成为生成式智能模型研发及应用部署面临的主要挑战。以国家超级计算中心和地方自建智算中心为代表的公共算力服务机构成为智能算力的重要供给者,广泛部署了以国产算力为主的基础设施。依托这些国产基础算力设施,构建智能计算开放创新平台,是实现人工智能基础算力支撑环境建设的有效手段。
       本文以国家超级计算天津中心为例,围绕国产算力支撑的生成式智能创新环境建设,介绍基于“超级计算+云计算+大数据”异构融合算力基础设施、多体系结构的大规模智能计算支撑环境、产研融合的开放数据资源库和安全可信智能计算引擎等核心技术成果,并简要总结人工智能全栈服务平台的技术体系与应用实践。基于自主可控,整体实现生成式智能创新研发所需的“算力、算法、数据”要素融合,形成全栈运行环境,让生成式智能研发更加低成本、低门槛,更加高效、便捷。通过实现节点互连、应用接口、数据集接口等方式,积极参与算力网络的资源共享和开源创新。
算力视角的人工智能发展
       算力制约着人工智能技术的发展。20世纪60年代麻省理工学院研发的智能对话系统ELIZA[1],实现了问答式的对话功能,但是受限于算力,该系统仅能进行字典检索式的查询对话。同时期,机器人与计算机视觉也得到了快速发展,日本早稻田大学研制的机器人[2]实现了每小时10 cm的移动能力,同时具备了物体识别能力。然而受限于算力,该时期的机器人认知的物体仅能用简单的长方体(长宽高三个维度)、圆锥(长宽高三个维度)、椭圆体(长短轴两个维度)表示[3]。科学界与产业界已认识到算力是制约人工智能发展的重要因素。基于这种考虑,日本经济产业省于20世纪80年代拨款8.5亿美元制造第五代计算机,目标是构建能与人对话、翻译语言、解释图像,并且像人一样推理的机器。该项目最终以失败告终,原因主要包括:当时的制造工艺无法做出充分满足大数据处理的智能算力规模;以神经网络为代表的人工智能技术体系刚刚构建,尚不完善。
       算力促进人工智能技术的发展。1997年,IBM公司的深蓝超级计算机战胜国际象棋冠军,这是计算机有史以来在智力比赛中第一次战胜人类。值得注意的是,深蓝第一局败给了人类,后面通过增加计算节点资源,使对弈能力得到提升,最终赢得了剩下的几局比赛。2010年,李飞飞等人牵头构建的ImageNet数据集涵盖了320万张图片、5247种分类[4],使大数据与人工智能开始深入融合,数据驱动的深度神经网络得到快速发展,以AlexNet、ResNet等为代表的卷积算法成为计算机视觉处理的主流算法。2012年,辛顿(Hinton)团队提出的AlexNet开始用GPU进行复杂并行训练[5],吴恩达(Andrew Ng)团队的代表作Google猫模型已经有10亿参数,共利用16000个CPU核心完成训练[6]。2016年,AlphaGo战胜国际围棋冠军也展现了算力的重要作用。作为一个决策树模型,AlphaGo使用的算力大概为3 PFLOPS,与2010年获得世界超算Top500排名第一的天河一号性能(2.566 PFLOPS实测性能)相当[7]。2020年,以GPT为代表的生成式智能更是依赖大规模算力的供应。       AlphaFold系列实现了对蛋白质三维结构的精准生成预测,其训练和运行需要大规模的GPU资源。GPT-3使用了1750亿参数和45 TB的原始数据,单次训练所需费用超过1200万美元。而近30年,超级算力的发展基本遵循摩尔定律,约每10年提升一个单位量级(1000倍,即MFLOPS → TFLOPS → PFLOPS → EFLOPS)。算力的发展与人工智能发展的关键里程碑基本契合(见图1)。

生成式智能全链条算力需求
数据处理面临的高通量算力需求
       大规模计算和高通量计算是超级计算的两大优势,其中高通量计算在生成式智能数据处理中发挥了非常重要的作用。不同于实现单项任务的深度学习模型(通常有百万参数到上亿参数),生成式智能模型的参数规模(通常在十亿参数规模以上)实现了较大幅度的提升。为了保障充分训练,需要足够多的词元(token)作为输入。语音大模型的数据训练需要6万小时,文本大模型需要的文本数据量在50 TB左右。建立输入的过程依赖高通量计算,具体表现在:数据清洗流程主要包括多个关键词过滤、语义分析过滤、低密度数据删除、隐私数据处理、文本去重、格式转换等过程,通常不依赖进程间通信,基于高通量并发任务开展并行处理成为重要手段。这种高通量数据清洗任务对算力设施提出了需求,需要可以承担高IO负载且具有超大节点规模(万节点至十万节点级)的算力系统。104以上并发量级的高通量计算对调度系统的稳定性提出了很高的要求,除此之外,容错性和鲁棒性也是典型要求。
基础大模型训练面临的大规模算力需求
       从GPT到GPT-3[8],模型的参数量在短短的2年内从1.17亿激增至1750亿,增加了1500倍,预训练阶段消耗的数据量从最初的5 GB增加到45 TB,扩大了9000倍,并且还在不断增加。英伟达的数据显示,在以Transformer模型为基础架构的大模型未出现之前,算力的需求增速约为每两年提升8倍;而在利用Transformers模型后,算力需求增速升至每两年提升275倍。上述案例显示,基础大模型训练对大规模算力需求的增速远远超过了摩尔定律的描述。
       大规模算力基础设施的构建需要大量资本的投入。根据OpenAI公司对GPT3模型的训练算力估计,模型的训练算力整体上达到了3.14×1023 FLOPS。以英伟达公司的A100 GPU为例(浮点算力19.5 TFLOPS),模型训练所需的GPU数量超过10万张·天,如果想在10天内完成模型训练,则需要超1万张GPU卡的集群规模,以每张卡人民币6万元的单价估计,GPU硬件建设成本超过6亿元。目前GPU服务器仍然占据我国加速服务器市场的绝对主导地位,IDC报告数据显示[9],2021年GPU服务器占据整个市场91.9%的份额,寒武纪、华为海思、天数智芯等国产加速器厂商的加速芯片产品仍然有较大的发展空间。
       与传统科学计算任务采用的双精度数值计算方法不同,基础大模型的训练集研发更多地依赖混合精度计算方法。该方法的优点在于,在使用相同超参数配置的前提下,通过使用半精度和单精度浮点的混合精度模型训练方法,可以在保证模型训练准确率的前提下,加快模型的训练速度。同时,半精度计算可以降低一半的内存带宽和存储需求,使得相同的硬件条件可以支撑更大更复杂的模型以及更大的批样本模型训练,也可以更好地利用底层硬件芯片提供的诸如Tensor Core技术的算力模块。
行业模型微调面临的灵活性算力需求
       基础大模型具备强大的泛化能力,为后续行业大模型的研发提供了底层算法基础。自2020年GPT-3发布之后,OpenAI开展了大量的指令微调工作。具体而言,OpenAI将不同的任务抽象为“指令+输出”的二元组数据,并基于此数据更新模型权重,发现GPT-3逐渐在特定任务上表现出理解能力,对问题的回答形式也不再是简单的仿写,但存在幻觉、偏见等现象。类似的,有监督学习的指令微调方法仍然需要构建很大的数据集,比无监督训练数据集更难获取。而为了解决获取微调数据集的困境,同时减少大模型有害信息的输出,OpenAI在微调中使用了人类反馈强化学习方法,又称人类对齐:将人类倾向建模为可微分的数学模型,然后让人类根据是否符合人类价值观对智能模型的多个回答进行排序,最后反向传播更新模型参数。经过数月的研究工作,ChatGPT诞生了。
       从ChatGPT的诞生过程可以看出,微调的算力成本可能与预训练成本相当,甚至可能更高,其难度也远高于模型的预训练。与模型预训练过程类似,模型微调过程也可以使用混合精度算法进行训练,对算力规模的要求要远低于预训练过程,但对算力规模的灵活性要求要远高于预训练阶段,需要根据具体的行业模型需求和微调指令规模进行动态调整。
面向行业应用面临的多元化算力部署需求
       生成式智能在行业中应用时,需要“超算、智算、云计算、边缘计算”融合的多元化算力部署。模型即服务是生成式智能行业应用的重要模式。不同场景下模型的部署、算力的布局各不相同。以ChatGPT、文心一言等为代表的通用服务需要万卡以上的大规模超算与智算设施,主要是应对多用户、多并发的调用需求。在行业企业内部,生成式智能通常以私域网络服务对内提供,根据使用的场景规模,配置中小型智算设施。面向具体的行业应用场景时,软硬件一体设施的部署方案更具优势,多模态的交互模型被部署在一个小型工作站中提供服务,将带来更高的交互效率。
生成式智能的国产算力支撑环境
       为构建生成式智能的国产算力支撑环境,需要搭建涵盖八项能力的公共服务平台,实现“算力、算法、数据、知识、模型、场景”六位一体的服务能力,形成完整的生成式智能研发与应用支撑体系(见图2)。

       第一,构建形成自主可控的“超级计算+云计算+大数据”异构融合算力基础设施。以国产自主研发的新一代超级计算机为支撑,混合部署云计算、大数据处理系统,采用自研芯片和自研系统软件,构建高性能、高可靠的自主可控融合算力基础设施。以融合算力为支撑,可同时满足大规模智能计算、海量数据存储、资源弹性伸缩、业务高并发访问等各类任务需求。
       第二,构建形成面向多体系结构的大规模智能计算支撑环境。基于国产算力体系结构自身特点,对底层编译器以及算法库和典型人工智能框架算子库进行移植适配,构建全自主的大规模预训练模型研发环境,支持包括国产开发框架在内的多元开发框架,支持运行千亿级参数的预训练模型。
       第三,构建形成产研融合的开放数据资源库。目前数据资源的共享和利用程度依然有所不足,数据孤岛和信息壁垒问题依然存在,阻碍了数据资源利用的最大化和价值释放,需要联合科研机构、高校、企业、行业组织等优势单位,收集文本、语音、图像等各类高质量数据资源,形成公共数据集、专业化数据集、训练资源库等数据资源库。
       第四,构建形成安全可信智能计算引擎。构建安全、可信、可控的数据安全使用模型,重点解决数据在采集、传输、存储和使用全生命周期的数据安全、隐私保护、数据治理和追踪溯源等问题,保障数据资源的安全高效应用,做到“原始数据不出域、数据可用不可见”,从而实现在数据安全可信前提下的人工智能模型研发,在源头上避免隐私敏感数据信息的泄露和滥用。
       第五,构建形成人工智能全栈服务平台。集成完整、丰富的人工智能创新工具和技术,贯穿人工智能应用创新的整个流程,实现基于场景驱动的复杂工作流与远程可视化交互式建模技术,创新高封装训练系统和云化集成模型部署机制,构建面向智能创新应用驱动的“建模-训练-部署”超云协同一体化平台。平台可以帮助企业或个人开发者降低人工智能应用的开发门槛,加速业务创新,提高研发效率。
       第六,构建形成典型人工智能业务场景解决方案。通过跨行业多学科交叉合作,面向智能制造、智慧医疗、智慧城市、新能源新材料、生物医药等领域,构建形成典型人工智能业务场景解决方案,使人工智能技术成果应用到更多实际业务场景中。
       第七,创新开放服务机制,提供开放普惠服务。作为公共算力创新服务平台,以开放普惠方式为企业、科研机构和高校等提供服务,提高系统平均使用率,聚焦先进制造、生物医药、新能源新材料、智慧城市等重点行业领域,辐射带动全国。构建开放应用、数据集等接口,推动算力网络的资源共享和开源创新,形成智能计算的全要素支撑与开放服务生态。
       第八,发挥引领示范作用,广泛支撑智能领域的创新发展。充分发挥龙头企业与公共服务平台的技术引领示范作用,通过打造公共算力开放社区、组织公共算力创新联盟、建设人工智能实训平台和实训基地等方式,促进资源开放共享,加快吸引产业培养和发展,在全国不同的行业机构建设分平台,形成规模优势和竞争优势,发展智能产业生态。
       通过构建异构融合算力基础设施、智能计算运行环境、开源开放数据资源库和人工智能全栈服务平台,同时在此基础上打造行业应用场景,实现“算力、算法、数据、知识、模型、场景”六位一体的服务能力(见图3)。通过建立万节点以上高性能计算算力和大规模智能计算算力的融合调度,实现了开放训练和推理部署的多元化算力需求。

       在算力服务能力方面,需要从计算、存储和网络三个层面着手,设计稳定高效的跨域多级一体化网络架构,实现大规模异构算力资源的管理和精细化调度,打通异构系统的跨域数据共享交换,形成支撑多样性计算的融合资源池,并对外提供统一资源调度管理与服务接口(见图4)。

       在算法服务能力方面,需要提供算法研发、调试的基础运行环境,包括系统层、服务层、编译环境、智能框架和应用软件等。针对自主可控算力体系结构的特点,尤其是针对智能计算加速算法算子库研发方面面临的诸多挑战,需要开展底层算法库和典型人工智能框架算子库适配工作。另外,需要集成通用的以及行业专用的算法集,满足常用人工智能算法需求。
       在数据与知识服务能力方面,通过开源网站收集、专业知识整合、数据计算生成、数据共享合作等方式,建设各类开放数据资源库,集成涵盖图像处理、自然语言、机器学习、视频处理等技术领域,包括语料数据集、专业数据集、计算衍生数据集等多种类型的语音、图像、文本数据集等数据资源库,打造“开源+行业”相结合的训练数据集服务(见图5)。特别是在计算衍生数据方面,有能力构建起最大的分子对接活性库。


       在模型服务能力方面,打造从模型开发、模型训练、模型评价到模型部署的全链条服务能力(见图6)。在模型开发阶段,提供便捷易用的交互式建模和集成建模工具;在模型训练阶段,提供配置灵活的模型训练和微调工具;在模型评价阶段,提供可靠的模型评测工具;在模型部署阶段,提供开源、企业、私有等多种部署形式,支持模型服务快速部署和服务接口。能够按需支持亿级、十亿级、百亿级、千亿级规模模型的训练和推理,满足灵活性和多元化的应用需求。产业领域目前大多以十亿级参数模型的服务为主,针对此类需求,构建融合涵盖公共云化部署和私有化部署的多种形式,实现模型能力与场景的紧密结合。
       在场景服务能力方面,面向多个行业领域构建人工智能应用,以软件即服务(Software as a Service,SaaS)的形式,提供即开即用的服务。对于通用的应用服务,提供完善的应用解决方案;对于专有应用服务,提供线下定制实施。
发展趋势展望
面向开发者:意图与价值对齐的专业模型

       面向国产算力环境,构建具备基础能力的通用大模型。通用大模型具备意图和价值对齐能力(见图7)。意图对齐方面,大模型应深度理解自然语言的表达,理解使用者的意图,实现问题的解析和对应答案生成。价值对齐方面,大模型应具有价值取向,对自然语言表达进行价值评估,知道有可为、有可不为,从而实现对不符合正确价值观的内容的管控。通用大模型使用开放语料进行训练,不涉及专业领域知识,在将特定领域专业知识作为语料进行训练并融入通用模型后,可能会在模型推理阶段输出涉及专业知识的内容。这样,对该通用模型的管理也需要处理安全问题。通用模型在具备意图与价值对齐能力后,通过与向量知识库结合,将实现针对专业领域知识的特定输出。知识向量库或知识数据库通常位于企业的私域网络,只提供需要验证的访问接口,以保证企业专属知识或数据的安全性。通用大模型可以根据需要部署在公有域网络或者私域网络内,通过知识库提供的访问接口获取知识上下文,从而基于通用大模型的知识分析能力,生成针对专业领域的内容或者形成指定的命令策略。
面向使用者:挖掘大模型的多元化能力
       针对使用者,实现生成智能涌现能力的高效挖掘。生成式智能与实现分类、回归等单一功能工具化的智能模型不同,依托其生成能力,目前已呈现向生产力发展的趋势。目前,生成式智能已具备多模态交互的实时生成能力,可提供基于动态专业知识库的文本精准生成技术,支持文本、数据库、业务系统等多源知识输入;零样本实时语音克隆技术,实现无音色泄露的语音生成;数字人表情、动作实时自动生成技术,实现高逼真、实时视频生成等。基于天河数字人可小型化、私有化部署的能力特点,研发定制工业质控师、制造流程管理助手、应急处置大脑、教育辅导助手、企业规范审核员、文学创作助手、多媒体生成引擎、智能调度师、资料调查助手、智能翻译助手、机器人客服助手、视频制作助手、智能科研助理等多场景辅助支撑工具。
面向决策者:开放场景是吸引力和竞争力
       生成式智能已经从炼大模型、大炼模型进入到大模型为产业赋能的阶段。推动基于生成式智能的多元化能力进一步升级并改进实体经济的流程闭环是生成式智能落地的重要方向。对决策者而言,开放场景是现阶段实现生成式智能的重要手段。领域模型是真实生产力,因其与行业紧密结合,具备较为明显的领域特色。专业场景方面,结合区域的产业布局,开放更多的场景,提供具有行业高价值的数据,实现优势积累,形成专业壁垒,将促进生成式智能的加速发展,推动专业模型与场景真实需求的融合迭代。  ■

参考文献
[1] Weizenbaum J. ELIZA—A computer program for the study of natural language communication between man and machine[J]. Communications of the ACM. 1966, 9(1): 36-35. doi:10.1145/365153.365168.
[3] Winograd T. Procedures as a representation for data in a computer program for understanding natural language[D].Massachusetts Institute of Technology. 1971: 25.
[4] Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database[C]// 2009 IEEE Computer Vision and Pattern Recognition. 2009: 248-255.
[5] Krizhevsky A,  Sutskever I; Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. doi:10.1145/3065386
[6] Le Q V, Ranzato M A, Monga R, et al. Building high-level features using large scale unsupervised learning[OL]. (2012-07-12). https://arxiv.org/pdf/1112.6209.pdf.
[7] “天河一号”超级计算机系统[OL]. (2023-10-23). https://nscc-tj.cn/cjjs_zy_th1.
[8] Brown T B, Mann B, Ryder N, et al. Language models are few-shot learners[OL]. (2020-07-22). https://arxiv.org/abs/2005.14165.
[9] IDC. 中国半年度加速计算市场(2023上半年)跟踪[OL].(2023-10-09).https://www.idc.com/getdoc.jsp?containerId=prCHC51296223.


版权声明:中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任。




回复

使用道具 举报

您需要登录后才可以回帖 登录

手机版|CCF Link ( 版权所有 中国计算机学会  京ICP备13000930号-4|京公网安备 11010802032778号   )

GMT+8, 2025-4-27 06:25 , Processed in 0.046421 second(s), 20 queries .

快速回复 返回顶部 返回列表