搜索
查看: 533|回复: 0

大模型专题精选第五期:发展前沿

[复制链接]
发表于 2024-8-9 10:39:55 | 显示全部楼层 |阅读模式
本帖最后由 中国计算机学会 于 2024-8-9 10:42 编辑


本期看点:基础模型的参数高效微调、基础模型工具学习、3D AIGC基础与前沿进展相关内容全文


基础模型的参数高效微调—丁宁
ADL138:ChatGPT与大模型技术
精彩内容节选
        首先就是我们大家都知道的Prompt-learning,或者叫Prompting,就是所谓的提示学习,就是说我们给一个模型把它作为Encoder,在上面加一个分类层,比如说我这个分类它有十类,这个分类层最后就会输出一个维度为十的一个概率分。哪个概率大我就选哪个。我会发现这样的范式,这个分类层它本身是随机初始化的,就是说它和这些预训练的过程中还是有一些不一样。
       那么我们怎么做呢?其实很简单,就是我们把一个下游任务转化成一个上游的预训练的任务。说上游我们一直在做包括语言建模,或者说是Masked Language Modeling,我们还是让它做同样的一件事情。这时候我们会输出一个在词典范围内的概率分布。在词典概率内,比如说这个4万维,我们会想它可能会更加的难以去判断哪个类对,哪个类不对。那没关系,我们只去选其中我们关心的。比如说这是一个二分类,它只有好和坏两类,就去选好和坏两类对应的词。那他们哪个相对的概率高,那么就可以去那我们就可以完成这个分类。
       事实证明就这种Prompt-learning的方式在少样本极其有效,它可能会比那种Meta-learning方式要有效的多。所以说现在这种方式可以很大的激发这个训练模型的性能,也是一个必不可少的范式......


基础模型工具学习—秦禹嘉
ADL138:ChatGPT与大模型技术
精彩内容节选
       接下来跟大家聊一下工具学习的一些应用,说到工具学习应用,大家可能最先想的就是ChatGPT Plugins,可以说是ChatGPT的App store的时刻,实际上ChatGPT具备了更强的,或者是全部能力,只要提供简单的API的Description,ChatGPT就能够很好的调用各自用户上传的数据。实际去看,现在ChatGPT上支持的大概80个G,它背后其实写了Prompt的方式,当然你都可以直接把它试出来,其实很简单,方便大家使用。当然ChatGPT Plugins它天生也支持、自己优化也比较好的一个工具是Web browsing,它背后其实是刚才提到的WebGPT,还有一个工具是Code interpreter,让模型去调用代码解析器,甚至执行这个代码,解决一些复杂的问题,
       但是ChatGPT至今也只给Plus用户使用,给网关用户开放。其次就是国内用户使用API也有一些困难,所以我们也是想探索它是否有其他的一些解决方案。又要提到LangChain,LangChain其实是第一个做到开源的这种工具调用这个方案,它核心思路就是说,无论是工具还是模型,都可以把它沿用Chain方式连接起来,做了一个Simple Sequential Chain,就是说我第一个工具的结束,模型的输出也可以作为下一个工具的输出,这样把大家都连在一块,就可以形成新的一套调用模式,LangChain是大家用的最多的一套方案。
       然后再往下,其实大家都比较熟的AutoGPT和BabyAGI这两套思路,其实它们本质上跟LangChain没有什么区别,实际上就是做了更好的方式,设计了更好的流程,AutoGPT、BabyAGI差不太多,我们在实际上使用发现AutoGPT它的效果实际上比BabyAGI好,归结于它这个Prompt方式......


3D AIGC基础与前沿进展—刘烨斌
ADL134:生成式人工智能基础理论与前沿应用
精彩内容节选
       目前看到的3D AIGC还是会有鲁棒性以及质量方面的问题,还有可控性的问题,这里展示的生成的结果,它会有多个头、多面的问题,我们也是挂到arXiv上的工作,DreamCraft3D应该说目前在互联网上还是受到了很多关注,还是目前三维派里效果调的比较好的。它实现了给一个文本,然后也是生成3D,但是它先通过这个文本生成一个图像,这样的话生成的图像丰富度就会很高。然后在这里面,其实创新度也不高,因为很多都是多阶段的一个过程,我们只是把各种策略做的比较极致,在这里就是分成Course阶段,去用SDS的策略来缓解几何上的多头效应。
       这里用了两种表达,一个就是NeRF跟SDF的结合,就是NeuS的优化,可以更好的去做鲁棒的几何生成。因为用了NeuS之后,你还可以获得一个粗略的几何模型。有了这个粗略几何模型,我们在DMTet阶段就可以再去较为精细的优化这个几何。
       在这里面为了缓解多头效应,这两个小步骤里面都用了Zero123的这种diffusion的先验,也结合了传统的2D的Style Diffusion的先验,这两个进行一个加权。好处就是Zero123它是可以有3D感知的先验,因为它在大规模的3D的模型集上去学的。但它的缺点就是毕竟模型集它的限制很大,它只看过一些比较Toy的一些三维模型。
       因为我们世界的图像是非常丰富的,所以还是得跟传统的2D的Diffusion去结合。在Refine阶段,我们就固定几何,然后去优化纹理。在这里面我们也是做了一个两步的交替,一个是交替的去优化2D的Diffusion,然后再优化我们三维的表达。那在优化2D Diffusion的时候,我们其实是用了DreamBooth优化,它的扩散模型,是通过3D模型渲染图来优化的。这样的话使得它具有3D的感知能力,因为我们本身已经有一些初步的三维的结果。
       然后我们在DreamBooth优化整个Mesh的纹理的时候,我们就用了ProlificDreamer里面的这个VSD的策略。这样的话它的纹理的质量会比较好。这种用的比较极致的情况下,现在一个模型的时间大概是2个小时。就是说我们给定一句话,它生成一幅比较fancy的图像,然后还可以把它转成一个3D的模型,纹理的细致程度还是非常高的,而且能生成这样的一些现实中看不到的三维模型......


本论坛发布的所有内容,包括但不限于文字、图片、音频、视频、图表、程序等,除特别标明外,均来源于CCF数字图书馆,版权归原作者或原出处所有。若涉及版权问题,请及时联系我们进行处理。
回复

使用道具 举报

您需要登录后才可以回帖 登录

手机版|CCF Link ( 版权所有 中国计算机学会  京ICP备13000930号-4|京公网安备 11010802032778号   )

GMT+8, 2025-4-27 06:34 , Processed in 0.044146 second(s), 20 queries .

快速回复 返回顶部 返回列表