大模型专题精选第一期：基础技术

中国计算机学会 · 发表于 2024-8-9 09:24:21

本帖最后由中国计算机学会于 2024-8-9 10:36 编辑

本期看点：ChatGPT的发展历程与关键技术、关于sora 有一说一，等4篇大模型相关内容全文
您将收获：大模型领域最热议题，行业权威专家分享；Link 闪记辅助高效能学习，知识浓缩10分钟get120分钟会议内容

关于栏目：《温故知大模型专题分享》是CCF会议近期推出的大模型系列内容分享，后续将不定期与大家见面，有任何问题或建议，欢迎联系CCF会议

ChatGPT的发展历程与关键技术—赵鑫
CCF学生领航计划（SPP）第54期
精彩内容节选
      然后我们来说一下ChatGPT的发展历程，首先要接受一个事实，就是确实这个东西已经发展很多年了。然后我觉得他们研究人员的视野会真的好，然后这个一会儿我会具体细说。另外就是他们确实也培养了一批很厉害的一些人，就是可以看一下，比如说后面包括codeX，就在包括Instruct GPT这些。就是在这个工作出来之前，其实本身之前并没有太多的publication或者是citation，确实这些项目去锻炼了他们，然后可能快速成长起来。这是一个发展的一个历程。
      然后我们下面就来看一下这个历程。第一个就是这个肯定大家都知道了，就是GPT one是吧，GPT1，GPT1就是它要做的事情就是提出了这个Decode-only Transformer的传统架构是2018年6月。其实这个我是觉得如果现在看起来这个事情太简单了，但是说回到当时的那个时间点，其实我觉得这样的决策其实还是怎么说呢？我觉得能想到其实还是挺不容易的。
      为什么？因为当时transformer架构本来就是Encoder和Decoder，然后你大概就是如果很直观的去想，你会觉得Encoder、Decoder都留着似乎用处也很大。然后他反正把Encoder丢了。其实不丢，其实当时很多任务，大家要想当时的任务，其实生成任务其实并不是特别多，特别评测也比较难评测。所以当时评测比较多的是这个IOEO的任务，IOEO的任务其实最需要的是encoder，就是decode的模型其实并不占太大的一个优势。所以在那个时间他们就选择了这样一个架构，我觉得真的是，反正还是挺厉害的。
......
全文闪记链接（Link中点击）：https://shanji.dingtalk.com/app/transcribes/76327569643130363135323039345f343437303736333831345f32/106152094/2?from=4

关于Sora，有一说一 —吴飞&朱军&饶安逸
CCF Talk — 专委主任说
精彩内容节选
      然后第三个进展实际上是刚才大家可能关心的，比如像Sora背后的它的这个架构，大家都会讨论说这个是DiT的这种架构，但这个架构本身就是说它在这个研究上，其实我们更早的时候也做过一些探索，比如说像在最早的时候，这个扩散模型里面，其实大家用的主要是一个U-Net的Backbone来做这个去噪的一个预测，它本身主要是基于这种卷积的这种运算的。在2022年当时我们做了一个尝试，就是说能不能去，这个想法还是比较直接，就是能不能去用这个Vision Transformer来去替代这里面的U-Net，来去做这个扩展模型的Backbone。当然（Motivation）说Transformer它本身在这个可扩展性上是有更好的一个优势的。但实际在做的时候，还是有很多技术的细节，比如像你要将很多不同的信息变成这个Token。比如说在扩散文献里面，我们会有时间的信息，还有可能有这种Condition信息，以及像Noisy image patches。
      同时为了让这个架构本身更具有这个Scale up的能力的话，我们引入了长程的一个跳层连接，这个本身对这个可扩展性还是有很重要的一个作用。当时我们也做了很详细的一些分析，包括这里面的每一步的Design为什么去做，它的好处是什么，做了比较仔细的一个分析。另外我们也对它的Scale up能力做了一些验证。
......
全文闪记链接（Link中点击）：https://shanji.dingtalk.com/app/transcribes/76327569643130363135323039345f343437303736333831345f32/106152094/2?from=4

从千亿模型 GLM-130B 到 ChatGLM 的尝试—东昱晓
ADL138：ChatGPT与大模型技术
精彩内容节选
      我们当时训的时候是2021年底开始，实际上同期的话Facebook那个Hugging Face大家应该都知道训这个OPT，BLOOM这两个千亿模型的时候，实际上他们为了稳定这个训练，也都用的相对比较简单的方式。比如说Facebook当时训的时候，这个图是Facebook训OPT-3它那个Learning rate，大家实际跑过模型知道一般Learning rate不会非常硬地跳，这个实际上就是说它每次都训崩了之后，他就手动的改这个Learning rate，或者把之前也删掉，训崩前删掉重来他就看这样work不work。这是他的一个过程。
      这个是我们在1300亿规模的时候，最开始做实验的时候就看怎么调。大家前两天听那个比如说调那个Pre-norm，Layer- norm，调那些乱糟糟的东西的时候，在各种尝试，然后在这个规模上训崩的一个简单的一个log。这是我们经过了各种算是Trick也好，试坑那坑也好。最终训练那个loss曲线就是基本上到最后训崩三次，而且是那种很快可以Fix的那个崩溃。然后具体怎么我们稳定训练呢？其实我们那个Paper发在今年的ICLR上，其实去年有个五十多页的report放在那里。大家感兴趣可以看这个细节，就是说就我们经常内部一直开玩笑，这两个公式看起来特别简单，特别Trick。这两个公式其实上花了大量的时间调出来，就是在这个集群上一直调，最后发现这个可以解决问题性。
......
全文闪记链接（Link中点击）：https://shanji.dingtalk.com/app/transcribes/76327569643130363135313131365f343437303736333831345f32/106151116/2?from=4

本论坛发布的所有内容，包括但不限于文字、图片、音频、视频、图表、程序等，除特别标明外，均来源于CCF数字图书馆，版权归原作者或原出处所有。若涉及版权问题，请及时联系我们进行处理。

大模型专题精选第一期：基础技术

本帖子中包含更多资源

浏览过的版块