大模型专题精选第五期：发展前沿

中国计算机学会 · 发表于 2024-8-9 10:39:55

本帖最后由中国计算机学会于 2024-8-9 10:42 编辑

本期看点：基础模型的参数高效微调、基础模型工具学习、3D AIGC基础与前沿进展相关内容全文

基础模型的参数高效微调—丁宁

ADL138：ChatGPT与大模型技术

精彩内容节选

首先就是我们大家都知道的Prompt-learning，或者叫Prompting，就是所谓的提示学习，就是说我们给一个模型把它作为Encoder，在上面加一个分类层，比如说我这个分类它有十类，这个分类层最后就会输出一个维度为十的一个概率分。哪个概率大我就选哪个。我会发现这样的范式，这个分类层它本身是随机初始化的，就是说它和这些预训练的过程中还是有一些不一样。

那么我们怎么做呢？其实很简单，就是我们把一个下游任务转化成一个上游的预训练的任务。说上游我们一直在做包括语言建模，或者说是Masked Language Modeling，我们还是让它做同样的一件事情。这时候我们会输出一个在词典范围内的概率分布。在词典概率内，比如说这个4万维，我们会想它可能会更加的难以去判断哪个类对，哪个类不对。那没关系，我们只去选其中我们关心的。比如说这是一个二分类，它只有好和坏两类，就去选好和坏两类对应的词。那他们哪个相对的概率高，那么就可以去那我们就可以完成这个分类。

事实证明就这种Prompt-learning的方式在少样本极其有效，它可能会比那种Meta-learning方式要有效的多。所以说现在这种方式可以很大的激发这个训练模型的性能，也是一个必不可少的范式......

全文闪记链接（Link中点击）：https://shanji.dingtalk.com/app/transcribes/76327569643130363133373637305f343437303736333831345f32/106137670/2?from=4

基础模型工具学习—秦禹嘉

ADL138：ChatGPT与大模型技术

精彩内容节选

接下来跟大家聊一下工具学习的一些应用，说到工具学习应用，大家可能最先想的就是ChatGPT Plugins，可以说是ChatGPT的App store的时刻，实际上ChatGPT具备了更强的，或者是全部能力，只要提供简单的API的Description，ChatGPT就能够很好的调用各自用户上传的数据。实际去看，现在ChatGPT上支持的大概80个G，它背后其实写了Prompt的方式，当然你都可以直接把它试出来，其实很简单，方便大家使用。当然ChatGPT Plugins它天生也支持、自己优化也比较好的一个工具是Web browsing，它背后其实是刚才提到的WebGPT，还有一个工具是Code interpreter，让模型去调用代码解析器，甚至执行这个代码，解决一些复杂的问题，

但是ChatGPT至今也只给Plus用户使用，给网关用户开放。其次就是国内用户使用API也有一些困难，所以我们也是想探索它是否有其他的一些解决方案。又要提到LangChain，LangChain其实是第一个做到开源的这种工具调用这个方案，它核心思路就是说，无论是工具还是模型，都可以把它沿用Chain方式连接起来，做了一个Simple Sequential Chain，就是说我第一个工具的结束，模型的输出也可以作为下一个工具的输出，这样把大家都连在一块，就可以形成新的一套调用模式，LangChain是大家用的最多的一套方案。

然后再往下，其实大家都比较熟的AutoGPT和BabyAGI这两套思路，其实它们本质上跟LangChain没有什么区别，实际上就是做了更好的方式，设计了更好的流程，AutoGPT、BabyAGI差不太多，我们在实际上使用发现AutoGPT它的效果实际上比BabyAGI好，归结于它这个Prompt方式......

全文闪记链接（Link中点击）：https://shanji.dingtalk.com/app/transcribes/76327569643130363135353037315f343437303736333831345f32/106155071/2?from=4

3D AIGC基础与前沿进展—刘烨斌

ADL134：生成式人工智能基础理论与前沿应用

精彩内容节选

目前看到的3D AIGC还是会有鲁棒性以及质量方面的问题，还有可控性的问题，这里展示的生成的结果，它会有多个头、多面的问题，我们也是挂到arXiv上的工作，DreamCraft3D应该说目前在互联网上还是受到了很多关注，还是目前三维派里效果调的比较好的。它实现了给一个文本，然后也是生成3D，但是它先通过这个文本生成一个图像，这样的话生成的图像丰富度就会很高。然后在这里面，其实创新度也不高，因为很多都是多阶段的一个过程，我们只是把各种策略做的比较极致，在这里就是分成Course阶段，去用SDS的策略来缓解几何上的多头效应。

这里用了两种表达，一个就是NeRF跟SDF的结合，就是NeuS的优化，可以更好的去做鲁棒的几何生成。因为用了NeuS之后，你还可以获得一个粗略的几何模型。有了这个粗略几何模型，我们在DMTet阶段就可以再去较为精细的优化这个几何。

在这里面为了缓解多头效应，这两个小步骤里面都用了Zero123的这种diffusion的先验，也结合了传统的2D的Style Diffusion的先验，这两个进行一个加权。好处就是Zero123它是可以有3D感知的先验，因为它在大规模的3D的模型集上去学的。但它的缺点就是毕竟模型集它的限制很大，它只看过一些比较Toy的一些三维模型。

因为我们世界的图像是非常丰富的，所以还是得跟传统的2D的Diffusion去结合。在Refine阶段，我们就固定几何，然后去优化纹理。在这里面我们也是做了一个两步的交替，一个是交替的去优化2D的Diffusion，然后再优化我们三维的表达。那在优化2D Diffusion的时候，我们其实是用了DreamBooth优化，它的扩散模型，是通过3D模型渲染图来优化的。这样的话使得它具有3D的感知能力，因为我们本身已经有一些初步的三维的结果。

然后我们在DreamBooth优化整个Mesh的纹理的时候，我们就用了ProlificDreamer里面的这个VSD的策略。这样的话它的纹理的质量会比较好。这种用的比较极致的情况下，现在一个模型的时间大概是2个小时。就是说我们给定一句话，它生成一幅比较fancy的图像，然后还可以把它转成一个3D的模型，纹理的细致程度还是非常高的，而且能生成这样的一些现实中看不到的三维模型......

全文闪记链接（Link中点击）：https://shanji.dingtalk.com/app/transcribes/76327569643130363135353039365f343437303736333831345f32/106155096/2?from=4

本论坛发布的所有内容，包括但不限于文字、图片、音频、视频、图表、程序等，除特别标明外，均来源于CCF数字图书馆，版权归原作者或原出处所有。若涉及版权问题，请及时联系我们进行处理。

大模型专题精选第五期：发展前沿

本帖子中包含更多资源

浏览过的版块