现在大语言模型确实非常强,但是它是语言端的,很多未来的事情是多模态类的任务。比如说你去做VQA,它可能问你一个问题,这个人他接下来会怎么样。可能这个人他就正好是自行车儿卡在一个石头上,石头前面是一个水坑。如果让一个非常强的Video Model看到这些东西,它会不会就直接预测说这个车会摔倒,人会摔倒,会跌到水坑里。
这些东西它很可能会帮助人从视觉的角度,从语言不同的一个决策这个角度去做一个决策。然后语言的这个决策和视觉的决策融合在一起,所以就是说MultiModal的Generative AI我尝试着总结了几个点:
一个是Video generation我觉得很重要,一个是AIGC很重要,另一个是Video generation对视觉角度的planning的reasoning很重要。因为我的角度不是纯站的AIGC上,所以我觉得Video generation它不一定生成的多好,但是它第一要生成够快,第二它生成内容要符合video里面包含的这种常识。
算法重要之后,还是回到MultiModal的那个里面也非常相关。是不是video的Generation Model可以看成是视觉领域的一个Foundation Model的候选之一。我如果我们按照这件事儿做了的话,那么它不仅仅是for computer vision,还是for general AI都有很多帮助,
第三个,我做前两件事儿的目的最终还是去做planning,去做reasoning。因为我觉得如何让这个模型去做决策,实际上是最核心的一个模块。那你现在有Large Language Model,你可以做决策。那你再有一个额外的Foundation Model,比如video foundation model,你这东西怎么融?又涉及到对齐、信息的融合。究竟是普适到所有的NLP的任务、CV的任务,还是一些物理世界的任务,比如说做机械臂、自动驾驶还是其他的什么东西,这些东西我觉得空间还是很大的......
多模态预训练模型的技术回顾与展望—郭龙腾
TF116:多模态大模型技术进展及应用
精彩内容节选
我们首先看一下,多模态预训练模型它是要去解决什么问题?它要解决的问题主要有两块,第一个跟预训练大模型相关,它首先是一个预训练的模型,需要去采用自监督学习的方式,去获取通用知识的能力,并且这个能力也需要迁移到各个不同的项目任务里,以此去实现低成本代价下项目任务的普遍性能的提升。
第二个方面我们关注多模态,需要去研究如何在多模态预训练的场景下,去实现多模态的融合表征跟跨模态的语义关联,以此去提升多模态的理解跟多模态的生成能力。
行业常用的核心方法框架通常分成两个阶段,第一个阶段是预训练的阶段,第二个阶段是一个模型适配的阶段。在预训练的阶段中,我们通常采用一个类似Transformer一样的一个基础的网络结构,通过去设计一些自监督学习的一系列任务,从大量的无标注数据中去学习跟这些具体任务无关的一个通用的知识。
在第二个模型适配的阶段,我们通过模型的微调或者无需微调等方式,去实现不同的多模态下游任务的性能提升。这些任务包括多模态理解类任务,以及多模态生成类任务......
全文闪记链接(Link中点击):https://shanji.dingtalk.com/app/transcribes/76327569643130363134363239365f343437303736333831345f32/106146296/2?from=4AIGC时代的多模态知识工程思考与展望—李直旭
TF97:大语言模型时代的知识工程
精彩内容节选
我想从多模态认知智能的角度,来谈一谈动态知识图谱,以及未来它们的一个结合点。其实首先就是多模态大模型也好,知识图谱也好,其实最终都是为了实现多模态的认知智能,就是我们对于多模态的数据的知识获取、知识表示、知识推理和知识应用,我们都可以做好,实际上这就是多模态认知智能的一个终极目标。多模态知识的获取、表示,这是一个复杂的推理和认知,然后这些东西共同来支撑上游的很多的多模态的知识应用。其实多模态的认知智能现在的实现路径,如果单纯的从大模型和知识图谱的角度,应该说就是分为一个是大模型,一个是知识工程,也就是连接主义和符号主义,通常来说,连接主义它的好处也是很显而易见的,概率关联、简单鲁棒,但是它的问题是什么?它可能很难学到一些因果、主次,概括到具体,现象到本质,具体到一般,这些逻辑关系,实际上需要它去高度总结理念的话,我觉得至少目前还做的不够好。
另外一方面就是我们的符号主义的这种知识工程,当然它是符号关联,符号关联是专家,我们人类控制起来是比较容易的,但是它也会很精细很脆弱。当然如果我们把数据单纯的转化成符号知识来表达,而不是像这种大模型的方式来表达话,它也会有非常多的信息的损失,以及构建成本会比较高等等等等的问题。但是他俩其实是互相都有各自的优缺点,所以我们认为知识工程依然是不可或缺的......
本论坛发布的所有内容,包括但不限于文字、图片、音频、视频、图表、程序等,除特别标明外,均来源于CCF数字图书馆,版权归原作者或原出处所有。若涉及版权问题,请及时联系我们进行处理。