搜索
查看: 534|回复: 0

大模型专题精选第一期:基础技术

[复制链接]
发表于 2024-8-9 09:24:21 | 显示全部楼层 |阅读模式
本帖最后由 中国计算机学会 于 2024-8-9 10:36 编辑


本期看点:ChatGPT的发展历程与关键技术、关于sora 有一说一,等4篇大模型相关内容全文
您将收获:大模型领域最热议题,行业权威专家分享;Link 闪记辅助高效能学习,知识浓缩10分钟get120分钟会议内容

关于栏目:《温故知大模型专题分享》是CCF会议近期推出的大模型系列内容分享,后续将不定期与大家见面,有任何问题或建议,欢迎联系CCF会议


ChatGPT的发展历程与关键技术—赵鑫
CCF学生领航计划(SPP)第54期
精彩内容节选
        然后我们来说一下ChatGPT的发展历程,首先要接受一个事实,就是确实这个东西已经发展很多年了。然后我觉得他们研究人员的视野会真的好,然后这个一会儿我会具体细说。另外就是他们确实也培养了一批很厉害的一些人,就是可以看一下,比如说后面包括codeX,就在包括Instruct GPT这些。就是在这个工作出来之前,其实本身之前并没有太多的publication或者是citation,确实这些项目去锻炼了他们,然后可能快速成长起来。这是一个发展的一个历程。
        然后我们下面就来看一下这个历程。第一个就是这个肯定大家都知道了,就是GPT one是吧,GPT1,GPT1就是它要做的事情就是提出了这个Decode-only Transformer的传统架构是2018年6月。其实这个我是觉得如果现在看起来这个事情太简单了,但是说回到当时的那个时间点,其实我觉得这样的决策其实还是怎么说呢?我觉得能想到其实还是挺不容易的。
        为什么?因为当时transformer架构本来就是Encoder和Decoder,然后你大概就是如果很直观的去想,你会觉得Encoder、Decoder都留着似乎用处也很大。然后他反正把Encoder丢了。其实不丢,其实当时很多任务,大家要想当时的任务,其实生成任务其实并不是特别多,特别评测也比较难评测。所以当时评测比较多的是这个IOEO的任务,IOEO的任务其实最需要的是encoder,就是decode的模型其实并不占太大的一个优势。所以在那个时间他们就选择了这样一个架构,我觉得真的是,反正还是挺厉害的。
......
全文闪记链接(Link中点击):https://shanji.dingtalk.com/app/transcribes/76327569643130363135323039345f343437303736333831345f32/106152094/2?from=4

关于Sora,有一说一 —吴飞&朱军&饶安逸
CCF Talk — 专委主任说
精彩内容节选
        然后第三个进展实际上是刚才大家可能关心的,比如像Sora背后的它的这个架构,大家都会讨论说这个是DiT的这种架构,但这个架构本身就是说它在这个研究上,其实我们更早的时候也做过一些探索,比如说像在最早的时候,这个扩散模型里面,其实大家用的主要是一个U-Net的Backbone来做这个去噪的一个预测,它本身主要是基于这种卷积的这种运算的。在2022年当时我们做了一个尝试,就是说能不能去,这个想法还是比较直接,就是能不能去用这个Vision Transformer来去替代这里面的U-Net,来去做这个扩展模型的Backbone。当然(Motivation)说Transformer它本身在这个可扩展性上是有更好的一个优势的。但实际在做的时候,还是有很多技术的细节,比如像你要将很多不同的信息变成这个Token。比如说在扩散文献里面,我们会有时间的信息,还有可能有这种Condition信息,以及像Noisy image patches。
        同时为了让这个架构本身更具有这个Scale up的能力的话,我们引入了长程的一个跳层连接,这个本身对这个可扩展性还是有很重要的一个作用。当时我们也做了很详细的一些分析,包括这里面的每一步的Design为什么去做,它的好处是什么,做了比较仔细的一个分析。另外我们也对它的Scale up能力做了一些验证。
......
全文闪记链接(Link中点击):https://shanji.dingtalk.com/app/transcribes/76327569643130363135323039345f343437303736333831345f32/106152094/2?from=4

从千亿模型 GLM-130B 到 ChatGLM 的尝试—东昱晓
ADL138:ChatGPT与大模型技术
精彩内容节选
        我们当时训的时候是2021年底开始,实际上同期的话Facebook那个Hugging Face大家应该都知道训这个OPT,BLOOM这两个千亿模型的时候,实际上他们为了稳定这个训练,也都用的相对比较简单的方式。比如说Facebook当时训的时候,这个图是Facebook训OPT-3它那个Learning rate,大家实际跑过模型知道一般Learning rate不会非常硬地跳,这个实际上就是说它每次都训崩了之后,他就手动的改这个Learning rate,或者把之前也删掉,训崩前删掉重来他就看这样work不work。这是他的一个过程。
        这个是我们在1300亿规模的时候,最开始做实验的时候就看怎么调。大家前两天听那个比如说调那个Pre-norm,Layer- norm,调那些乱糟糟的东西的时候,在各种尝试,然后在这个规模上训崩的一个简单的一个log。这是我们经过了各种算是Trick也好,试坑那坑也好。最终训练那个loss曲线就是基本上到最后训崩三次,而且是那种很快可以Fix的那个崩溃。然后具体怎么我们稳定训练呢?其实我们那个Paper发在今年的ICLR上,其实去年有个五十多页的report放在那里。大家感兴趣可以看这个细节,就是说就我们经常内部一直开玩笑,这两个公式看起来特别简单,特别Trick。这两个公式其实上花了大量的时间调出来,就是在这个集群上一直调,最后发现这个可以解决问题性。
......
全文闪记链接(Link中点击):https://shanji.dingtalk.com/app/transcribes/76327569643130363135313131365f343437303736333831345f32/106151116/2?from=4





本论坛发布的所有内容,包括但不限于文字、图片、音频、视频、图表、程序等,除特别标明外,均来源于CCF数字图书馆,版权归原作者或原出处所有。若涉及版权问题,请及时联系我们进行处理。


回复

使用道具 举报

您需要登录后才可以回帖 登录

手机版|CCF Link ( 版权所有 中国计算机学会  京ICP备13000930号-4|京公网安备 11010802032778号   )

GMT+8, 2025-4-27 06:15 , Processed in 0.043789 second(s), 20 queries .

快速回复 返回顶部 返回列表