搜索
查看: 431|回复: 0

精选全文免费读 | 对话式大型语言模型—邱锡鹏

[复制链接]
发表于 2024-8-9 10:08:26 | 显示全部楼层 |阅读模式
本帖最后由 中国计算机学会 于 2024-8-9 10:34 编辑

报告摘要

以对话式大型语言模型为题,分析了ChatGPT的关键技术——情景学习,给对话式大型语言模型下了明确的定义,即具有思维链、情景学习等涌现能力,能执行人类指令,可以直接与人类对话,与人类价值观、思维方式对齐的自回归语言模型。讲者介绍了复旦大学开发的国内首个类ChatGPT模型MOSS,并分享了MOSS在国内通用人工智能领域最前沿的探索。

演讲稿原文再现

        各位好,今天由我给大家来分享一下对话式大型语言模型。在这里我想对ChatGPT的一些技术做一些分享,给一个定义:什么叫对话式大型语言模型。背景介绍就是说ChatGPT非常重要,它的意义其实不亚于说个人电脑、互联网在给我们所有的生活带来的变化。让我们看到了一个非常美好的、通往人工智能可以在日常生活中非常好的应用前景。
        但是ChatGPT其实它并不开源,从3.0版本开始是没有的。它的一些技术结构属性并没有特别的清楚。所以里面很多的技术细节,其实都是一些猜测。包括现在很多家发布了很多的开源模型,他们的细节其实也都不一样,用的框架是一样的,都是transformer encoder。但是在里面一些细节,比如说函数、method、文本,这些技术细节都没有,都需要去进行摸索。

什么是语言模型
        首先给大家说一下什么是语言模型。因为如果不是做专业处理的话,大家可能对于语言模型比较陌生。语言模型其实非常简单,就是说我们希望把那种概率的模型可以建模。这里有个非常具体的例子,我们可以把它转化成一些句子,这样的话,概率就可以分解成我们给定的前面几个词,我们从运行效率、到我们的语言模型,它是可以建模这个概率,并且它还可以生成一个生成方式,我们把这种生成方式叫做自回归。
        然后有了这个最基本的概率之后,我就可以把这个模型放在互联网上做非常庞大的一个训练,训练之后,我们大概就能知道说去生成另外一些库。其实我们对话是一样,就是说我给他一些question,还有概率模型自动的生成语言方式。
        那么大型语言模型的使用方式,假如你想让他做一件事,那么我就可以给他一个Prompt,它可以随机的去生成一个内容,但是你想让它生成的内容符合你的预期,最简单就是我们希望它能够理解的人的指令,知道怎么回答。
        举个非常简单的例子,比如说我们要让一个语言模型帮我们去做一个文本摘要,给你一个新闻,去生成这个新闻的简短的描述,那么就可以说先给它来一段,做一个什么样的任务。就是说40篇文章,后面做一段摘要,然后输入当前我提供的一些文本内容,再接一个“summary:”,这个语言模型它就按照刚才的方式去写。因为它见过非常多的互联网内容,所以它大概知道摘要的说法,就去生成摘要。
        这里想说的就是,这些大型语言模型它不光能够做摘要,还可以形成一些其他的快速运算的能力。为什么现在在语言模型层面它会large,就是因为大语言模型它会涌现出和小模型不一样的能力,我们把这个能力称为“涌现能力”。
        涌现能力是什么呢?就是我们在小模型上是观测不到的。但是当模型大到一定规模之后,继发了以后,就会出现涌现现象。涌现现象其实在我们自然界是非常常见的。比如说蚁群或者鸟群,单个个体它其实很简单,但是当它形成一个非常大的群体时,它就可以表现出一加一大于二的效果。
        那么在模型上涌现能力是什么呢?比如说我们这里是一些高批量的任务,如快速运算、推理、上下文的语义分析。在这些任务上大家可以看到,这个横坐标是模型规模,模型规模在10的22次方,也就是百亿规模之后,能力就会发生了突变。
        
        而在此之前这些能力,比如说像算数运算,其实非常难的一个问题是多步推理的算法。你看在百亿,10的22次方之前,它的这个能力都是正数,或者接近于零。但是一旦过了这个门槛,同样的训练数据,它的能力就会差。包括后面的几项任务都有类似的设计。
        所以在目前的transformer方式下,大概百亿是一个门槛。当然transformer结构本身因为在训练的时候有非常多的冗余的设置,所以它真正有效的这个参数匹配没有那么多,我们在之前其他的研究中也探讨过它有效的空间有多少,但是就在这种transformer架构下,大概是百亿规模,是可以触发涌现。而且我相信未来随着大家认识的加深,我认为应该是更小规模的模型也会出现涌现能力。

ChatGPT 中的三要素技术
        在ChatGPT中三个非常重要的技术,一个就是情景学习,第二个是思维链,第三个就是指令学习。情景学习是什么能力呢?它有别于我们之前机器学习,因为大型语言模型通常来讲是部署在那里不动的,不去调整参数的,所以要让它理解你,需要给它看个例子,这个例子我们把它称为“情景示例”。
        我们比如说给一个任务元素,然后给两个数据输出的例子,然后它就可以去做内存的策略。比如说我们想把大型语言模型打造成一个情感处理器,我就可以告诉它说你是一个电影层面的情感分析器。然后有一些review,就意味着情感是什么。当你输出一个新的情感的时候,它可以给出情感分析。情景学习它降低了语言模型的使用门槛,所以可以基于这种方式来去应用。
        情景分析、情景学习它的这个能力到底是怎么来?其实到目前为止并没有一个有说服力的分析。当然有很多的工作也在做,就是说也需要这方面去共同研究。

        第二个关键的技术就思维链。思维链其实是谷歌的研究员发现的。他发现了在原来的语言模型,比如说经过代码预训练之后,这个模型具备一种初步推理的能力。我们可以看左边,传统的方式是给你个情景学习的例子,我们的语言不太能够知道,我应该按第一种方式推出,它也是模仿的推出,但是这个答案是错的。也就是说我们直接让它去把这个话映射到一个结论的时候,它做不到。但是如果我们把这个复杂问题,用这种思维链的方式来展开,一步步告诉它怎么做,我们可以看到右边这个,它就可以按照我们推导的这个例子,一步步向前走。

        思维链它也是涌现的,右边也是一些它的分析,也是在大概百亿规模左右,这个能力它涌现出来变大了,它的能力也变得越强。思维链是一个非常重要的技术,因为之前我们的模型是随着参数规模的扩大,它的能力会变得越大,但是边际效应也是会慢慢变弱。但是思维链的出现,它就让我们在同级别的模型对比下,通过思维链的方法解决问题,进一步强化能力。
        第三个就是自然指令学习,自然指令是这两年在自然语言处理里面的也是非常多的,虽然说可能对波动来讲,大家知道GPT刚刚出来,但是因为在这两年一直在往通用的方向去走,自然指令学习也是大家这两年一直在研究的,只不过大家研究的,在使用上来讲主要的任务,NLP上有一千多个任务,通过我们自然语言的这种方式告诉语言模型来实现,并且有非常好的性能。
        大概的思路是说,比如说我们告诉这个语言模型,你来完成一个文本摘要任务、完成一个文本分类任务等等,都把这些任务变成自然语言的指令,告诉你们它的能力非常强,因为它的泛化是非常强,大概在学40个任务指令的时候,它就可以发展到1000多个。
        那么进一步发展就是像OpenAI就把它发展成了对话的形式Chat。我觉得Chat它可能在技术上和指令学习是差不多的。但是我觉得更创新的是它在场景上一下子赋予了语言模型跟我们人类的直接对话能力,这样让我们社会大众就能够学习。
        另外一个OpenAI也做的非常了不起,就是它和人类的真实的体验、人类价值观、人类思维链是对齐的,而不是仅仅去刷那些各种摘要。如果我想把这整个一个语言模型,把它放到现实的世界中,和人类之间交互,那么我们怎么样让它能够理解人类的这个指令呢?比如说我们请人家写答案,可以写很多答案,但是这样可能成本很高。那么我们可以进一步把它变成让人来选答案,这样可以去降低一个活动量。然后再进一步,我们人干脆就想不出,能不能让机器人想,这其实就是OpenAI他们做的,他这个能力基本思路其实非常简单,就是我越来越多的希望能够让机器代人去在整个迭代中把规模放大,然后越来越较少的依赖人的标注,因为人的标注成本是非常高的。

类ChatGPT定义

        那么到此为止,我们可以给这个对话式的大型语言模型,我称为叫类ChatGPT,可以给他一个定义:首先在模型上,目前的形式应该是一个自回归语言,将来有可能其他形式,但目前没。另外他至少应该在百亿参数以上。这两个我都打了问号,就是在当前的基础上,应该是这样的一个现象。但是将来我也认为,随着我们把transformer它的能力真正解锁掉的话,可能更小规模上也会出现。另外就是说他能力上就是有思维链、情景学习等涌现能力,并且能够执行我们的指令,还有就是可以去和人类直接对话。第四个是我认为最重要的,它是和人类的价值观的思维方式对齐的。并且设计的时候还有一个3H原则:有用的、诚实的、无害的。

关于MOSS
        我们基于上面的观测的话,如果我们复制一个或者复现一个ChatGPT,那么我们应该从哪里起步?这里我就介绍一下关于MOSS的介绍。因为我们刚才讲,如果我们想要复现这样一个模型,那么至少我们肯定要用到这个模型的涌现能力,否则它还是一个小模型。我们在小模型上发展了这么多年,也并没有达到像ChatGPT这么惊人的效果。所以你要复现的话,那至少应该是百亿级别的。你要通过猜测它的思维链是怎么产生的,情景学习怎么产生的。
        虽然现在没有很严格的说我怎么才能激发这些能力,但是基本上可以有些实验性的观察。比如说包括现在大预言模型Meta 、LLaMA,基本上都是说哪些数据可以去激发这种能力。比如说像代码,会被认为非常重要,还有一些,比如说技术类的问答,我个人认为是非常重要,它可以赋予我们的语言模型逻辑联系,这个是非常重要的。然后另外一个就是对同类直接对话的,类似于多轮对话的能力。我们尽可能实际的写公开的多任务数据库训练,通过不断的与人类交互优化。因为你只有和真实的人员去进行交互的时候,会使得你的这个语义空间建模更完整。

        这是大概MOSS的一个例子,他也可以完成这个,基本上ChatGPT的语句,或者在通用的语义理解上,跟ChatGPT的能力是相近的。但是由于它的参数规模比较小,所以他在这个任务的完成度上,一些事实类的知识上,还是有很大差异的。这个可以通过我们去增大参数规模,让他能够使用一些工具然后来实现。

展望:ChatGPT走向通用工具
        最后再展望一点的话,就是说像ChatGPT这种技术,为什么我们学术界对他非常乐观,就是他给我们展示了一种通向我们所有人的自由的一个非常良好的意境。我们可以预期到在不远的将来,我们可以给他接入和其他模块的信息,加强它的推理能力、释放能力以及它的创作能力,就可以非常好的实现一个通用的工具。
        还有就是说在这种新型的,比如ChatGPT这种类型的模型上,我们将来要去进一步提高它能力的时候,其实并不能仅仅去瞄准它的准确率,这是我们在传统弱人工智能时代的模式。那么站在现在,我们再去开发大语言模型的时候,就必须要站在刚才讲的3H原则:有用的、诚实的、无害的。这些都是要在模型中考虑的。
        最后总结一下,我们现在的大型语言模型,它是在学习了我们人类这么多年的文本所承载的知识,它都记住了;但是还有更多的知识,和我们日常生活中,人能感受到,但是不能用语言描述出来的,而这些知识更重要。特别是其他多模态的沿用。而这些有可能是我们,希望大模型将来能够和现实世界的对齐,而不仅仅是和我们语言层面的对齐。所以可以比如说像大模型先做一个智能体,然后去赋予它自身学习的能力,跨模态的能力等等,来进一步加强它的各个方面的能力。

本论坛发布的所有内容,包括但不限于文字、图片、音频、视频、图表、程序等,除特别标明外,均来源于CCF数字图书馆,版权归原作者或原出处所有。若涉及版权问题,请及时联系我们进行处理。



回复

使用道具 举报

您需要登录后才可以回帖 登录

手机版|CCF Link ( 版权所有 中国计算机学会  京ICP备13000930号-4|京公网安备 11010802032778号   )

GMT+8, 2025-4-27 06:06 , Processed in 0.047893 second(s), 20 queries .

快速回复 返回顶部 返回列表