搜索
查看: 2618|回复: 0

大模型算力需求与未来挑战

[复制链接]
发表于 2024-4-18 09:21:11 | 显示全部楼层 |阅读模式
本帖最后由 中国计算机学会 于 2024-4-19 15:00 编辑

摘要—本文介绍大语言模型兴起的背景和原因,列出通用领域和垂直领域典型大语言模型,并探讨了大模型参数规模增长和算力需求情况。最后总结了大模型未来面临的计算资源、能源、隐私和可解释性等主要问题挑战并给出一些相关解决方案。

彭绍亮(湖南大学信息科学与工程学院
刘文娟国家超级计算长沙中心
关键词 :大语言模型 ChatGPT 算力需求 未来挑战

大语言模型的兴起
        自然语言处理是人工智能领域的重要研究方向之一,旨在使计算机能够理解和处理人类语言。随着人工智能技术的快速发展,大语言模型作为自然语言处理领域的重要研究方向,近年来取得了显著的突破和广泛应用。大语言模型指具有巨大规模参数(数十亿甚至上百亿参数)和强大计算能力的自然语言处理模型,如OpenAI的GPT-3和GPT-4等[1]。它们通过深度学习技术,从大量文本数据中学习语言的结构、语法和语义,并生成与输入文本相关的连贯和有意义的输出。
       大语言模型的兴起主要受益于数据增长、算力提升、算法模型创新,以及应用需求的增加等因素。例如随着互联网的普及和数字化内容的爆炸式增长,可用于训练语言模型的数据量大幅增加。这些数据包含文本、音频、图像等多种形式的信息,为语言模型提供了丰富的学习材料。计算机硬件和计算能力的不断提升,特别是图形处理器(GPU)和云计算技术的发展,使训练和运行大规模语言模型变得可行。算法模型创新主要是指Transformer架构的出现。Transformer是一种用于自然语言处理和机器翻译等任务的神经网络架构,其引入了自注意力机制来捕捉输入序列中不同位置之间的依赖关系[2]。Transformer架构如图1所示。目前常见的BERT和GPT等自然语言处理模型都是基于Transformer架构,只是在目标和训练方式上有所区别。

       目前大语言模型的应用领域非常广泛,主要有自然语言处理、信息检索与推荐、内容创作与编辑、虚拟助手与智能对话系统、数据分析与决策支持、教育与学习辅助等。自然语言处理方面的应用包括文本生成、机器翻译、舆情分析、问答系统等。大模型能够提升模型性能、改善预测能力、推动研究进展、促进迁移学习、支持复杂应用场景,在人工智能领域有重要意义。随着技术、社会需求等的不断发展,大模型将在各个领域发挥越来越重要的作用。
通用领域大模型和垂直领域大模型
       根据应用范围和训练方式的不同,大模型可分为两类:通用领域大模型和垂直领域大模型。从应用范围来看,通用领域大模型处理的任务和应用的领域都很广泛。经过预训练的大模型,可以用于多种自然语言处理任务,如文本分类、命名实体识别、情感分析等。垂直领域大模型则专注于特定的领域或行业,经过有针对性的训练,适应该领域的特定需求和任务。例如,在医疗领域可以有专门针对医学文献分类或疾病诊断的模型。从训练方式来看,通用领域大模型通常通过大规模的无监督训练方式,使用大量的互联网文本数据进行预训练,以学习语言的统计规律和语义表示,然后通过有监督的微调适应特定任务。垂直领域大模型的训练过程会结合通用领域的预训练模型,但还需要使用特定领域数据进行进一步训练。这些数据可以是特定行业的文本、专业知识库或领域专家的标注数据。


       目前,典型的通用领域大模型主要有ChatGPT系列[1]、文心一言、ChatGLM[3]、星火[4]等,如图2所示。在医疗、法律、心理健康、金融、教育、数学、文化等垂直领域也出现了一些大模型,如表1所示。典型的医疗领域垂直大模型有HuatuoGPT、ShennongGPT、XrayGLM等。HuatuoGPT是香港中文大学和深圳市大数据研究院王本友团队利用指令微调和强化学习的方法,在ChatGPT和医生的回复中找到结合点,训练并开源的医疗大模型。该团队通过从ChatGPT中提取“蒸馏数据”,结合真实世界医生回复的数据,试图训练出具备医生诊断能力的大型语言模型,如图3所示。HuatuoGPT侧重整合医生和ChatGPT的特点,通过两阶段的训练策略提高医疗咨询中的响应质量。首先利用精心选择的混合数据,通过监督微调(Supervised Fine-Tuning,SFT)训练模型,随后通过人工智能反馈的强化学习(Reinforcement Learning from AI Feedback,RLAIF)加强所需响应的生成。ShennongGPT是由湖南大学彭绍亮团队联合湘雅医院训练的一个医疗大模型,主要目标是使模型具备像专业医生/药师一样的用药指导能力和不良反应预警能力。

       LawGPT在Chinese-LLaMA等通用中文基座模型的基础上扩充了法律领域专有词表,并进行了大规模中文法律语料预训练,增强了其在法律领域等基础语义的理解能力。在此基础上,构造法律领域对话问答数据集,利用中国司法考试数据集进行指令精调,提升了该模型对法律内容的理解和执行能力。Cornucopia是基于中文金融知识的LLaMA微调模型,通过收集中文金融公开数据和爬取的金融数据构建指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在金融领域的问答效果。
算力需求
       大模型算力需求是指在机器学习和人工智能领域中,处理庞大数据集和复杂任务所需的计算资源。随着深度学习和自然语言处理等技术的快速发展,研究者和开发人员越来越倾向于构建更大、更复杂的模型来解决现实世界中的挑战。
       下面是几个导致大模型算力需求增加的原因。(1)数据集规模迅速增长:许多应用领域的数据集规模正在迅速增长,例如社交媒体、医疗健康、金融和自动驾驶等。这些大规模数据集对于训练准确的模型至关重要,但同时也需要更多的计算资源处理和分析这些数据。(2)模型复杂性增加:为了提高模型的性能和准确度,研究人员不断尝试设计更复杂的模型结构,如深度神经网络和注意力机制等。这些复杂的模型通常具有更多的参数和层数,需要更大的算力才能进行训练和推理。(3)自然语言处理任务:自然语言处理是一个快速发展的领域,包括机器翻译、文本生成和问答系统等任务。为了应对自然语言的复杂性,研究人员通常使用预训练的语言模型,例如BERT、GPT和Transformer等。这些模型具有数亿甚至数十亿的参数,需要庞大的计算资源进行训练和推理。(4)图像和视频处理:在计算机视觉领域,对待图像和视频识别、分割和生成等任务,需要处理大量的像素数据。为了提高准确度和感知能力,深度学习模型通常会增加网络层数和参数数量,从而需要更大的计算资源进行训练和推理。
       随着深度神经网络参数规模的迅速增长,GPT系列大模型的出现标志着大模型时代的到来。表2展示了近年来发布的大模型的参数增长变化。模型训练需要算力支撑,比如Megatron-LM使用32台DGX-2H服务器,总共512个Tesla V100加速器训练83亿模型参数[5]。拉杰班达里(Rajbhandari)等人原本计划在1024个GPU上拟合1万亿参数规模的模型,然而由于资源的限制,实际上只训练出170亿参数规模的Turing-NLG[6]。


       大模型参数规模增长使模型性能得到提升并能适应更多的下游任务。然而性能提升的同时也带来一些实际的挑战。计算资源和网络通信的限制制约了大模型的高效训练。如表3所示,随着参数规模和数据集的增长,所需的计算操作数量使训练时长变得不切实际,并且由于内存有限,不再可能在单个加速器上适应整个模型。此外,由于通信成本和内存冗余,模型不是线性可扩展的,比如使用的GPU数量翻倍,但是训练时间不会缩短一半[9]。
未来挑战
       随着人工智能领域的发展,大模型在解决复杂问题和实现更高级别的任务上变得越来越重要,但也面临着一些挑战,主要包括以下几个方面:
       计算资源。大语言模型训练和推理都需要大量的计算资源,包括高性能的GPU或TPU、大容量的存储和高速的网络连接,可以采用分布式计算、专用硬件加速、云计算服务等满足这些需求。大语言模型对硬件设备提出了更高的要求。传统的中央处理器(CPU)在处理大规模并行计算时效率较低,因此通常采用GPU加速训练和推理过程。然而即使使用GPU,依然难以满足大语言模型训练和推理对计算资源的需求。为了满足这种需求,研究人员不断探索新的硬件架构和加速技术,如专用的AI芯片(如谷歌的TPU)和量子计算等。
       能源消耗。语言模型的高算力需求也带来了巨大能源消耗。训练一个大型模型可能需要数天甚至数周的时间,并且消耗大量的电力。据估计,GPT-3训练过程消耗的能源相当于一个家庭使用数年的电量。这种高能耗不仅对环境造成负面影响,还增加了运行成本,带来了可持续性问题。
       数据存储与传输。大语言模型需要处理海量数据,这对数据存储和传输提出了挑战。训练一个大规模的模型需要大量的存储空间保存模型参数和训练数据。同时,在推理阶段,模型需要快速地从存储介质中读取数据并进行计算,需要高速的数据传输和存储系统。
       数据收集和隐私问题。大模型通常需要大量的数据用于训练,然而,获取和标注大规模数据集是一个昂贵且耗时的过程。此外,随着模型规模的增加,对隐私泄露的担忧也在增加。大模型可能会存储和处理用户的敏感信息,如用户个人数据或商业机密,因此需要采取有效的措施防止未经授权的数据访问和滥用。
       模型可解释性问题。大模型的可解释性是指大模型理解和解释深度学习等复杂模型的决策过程和内部操作的能力。大模型通常包含数以亿计的参数和层次结构,其决策过程涉及大量的非线性变换和复杂的优化算法。许多大模型被称为“黑盒模型”,即人们很难知道在模型的输入和输出之间,其内部发生了什么。这种黑盒性使解释模型的决策过程和预测结果变得困难。在大模型中,模型通过自动学习特征进行决策和预测。然而,这些模型学习到的特征往往是抽象和高维的,难以解释和理解。因此,在大模型中选择有效的特征和表示变得具有挑战性。在一些关键应用领域,如医疗诊断和金融风险评估等,模型必须具备可解释性。缺乏对模型决策过程的理解可能导致社会对模型的不信任和法律合规性的问题。
       模型泛化和稳定性。大模型可能在训练数据上表现出色,但在面对新的、与训练数据不同的情况时可能会失效,这被称为泛化问题。另外,大模型还可能对输入中的噪声和扰动非常敏感,导致输出的不稳定性。解决这个问题的方法包括开发更好的数据增强技术、鲁棒训练方法和模型压缩方法等。
除此之外,还有模型的可用性、合理性和公正性、可持续性,及其带来的社会影响和失业风险、法律和伦理问题等,这些都是大模型未来要解决的重要挑战,需要学术界、产业界和政府部门共同努力,并综合考虑技术、伦理、社会和法律等方面的因素。  ■

致谢:感谢国家超级计算长沙中心(湖南大学)提供了计算、大数据平台及研发的支持(http://nscc.hnu.edu.cn/);感谢国家重点研发计划2023YFC3503400、2022YFC3400400,国家自然科学基金NSFC-FDCT Grants 62361166662,湖南省重点研发计划2023GK2004、2023SK2059、2023SK2060,湖南省十大技术攻关项目2023GK1010,广东省重点研发计划2023B1111030004 to FFH,化学生物传感与计量学国家重点实验室基金和鹏城实验室等项目和领导、专家的支持。

脚注:
1 芯片信息来源于以下官方网站:www.cambricon.comwww.huawei.comwww.kunlunxin.comwww.birentech.comwww.mthreads.com
参考文献
[1] OpenAI. Introducing ChatGPT[OL]. [2022-11-30]. https://openai.com/blog/chatgpt.
[2] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[OL]. [2021-06-12]. https://arxiv.org/abs/1706.03762.
[3] ChatGLM. https://chatglm.cn.
[4] 星火认知大模型. https://xinghuo.xfyun.cn.
[5] Shoeybi M, Patwary M, Puri R, et al. Megatron-LM: Training multi-billion parameter language models using model parallelism[OL]. [2020-03-13]. https://arxiv.org/abs/1909.08053.
[6] Rajbhandari S, Rasley J, Ruwase O, et al. Zero: Memory optimizations toward training trillion parameter models[C]// International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE, 2020: 1-16.
[7] Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[J]. Advances in Neural Information Processing Systems, 2020, 33: 1877-1901.
[8] Chowdhery A, Narang S, Devlin J, et al. Palm: Scaling language modeling with pathways[OL].  [2022-10-05]. https://arxiv.org/abs/2204.02311.
[9] Liu Q, Zhang Y. Dive into big model training[OL]. [2022-7-25]. https://arxiv.org/abs/2207.11912.


版权声明:中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任。


回复

使用道具 举报

您需要登录后才可以回帖 登录

手机版|CCF Link ( 版权所有 中国计算机学会  京ICP备13000930号-4|京公网安备 11010802032778号   )

GMT+8, 2025-4-27 06:15 , Processed in 0.044575 second(s), 20 queries .

快速回复 返回顶部 返回列表