chameleon 变色龙

曙光号 2024-07-07 01:29:06 17浏览

同样，本文补充了前 9 章的内容，重点阐述了 Meta 近期推出的 Chameleon 模型，该模型有望成为 LLaMA 的补充。未来，Chameleon 和 LLaMA 可能会合并成一个统一的模型，命名为 LLaMA 或 Chameleon。我们公司的 Florence 也开源了其第二个版本，其性能远超 Google 的 Paligemma 模型。

Chameleon 的论文已于 5 月 16 日发表，并于昨日正式开源。

论文地址：2405.09818 (arxiv.org)

GitHub 地址：facebookresearch/chameleon: Repository for Meta Chameleon, a mixed-modal early-fusion foundation model from FAIR. (github.com)

目前，多模态模型众多，之所以重点关注 Chameleon 模型，主要原因是它是开源世界中第一个实现与 GPT 相同架构的模型，即所有模态共享同一套端到端网络。Chameleon 似乎尚未完全实现该架构。

我们先来看看 LLaVA 这个反例。

其实 LLaVA 也不能算作反例。市面上绝大多数的多模态模型都采用这样的架构，这种方式被称为后融合。

如何理解后融合，我们进一步分析 LLaVA 的实际架构：

根据上图，我们一起来定义后融合：

视觉编码器与语言模型分开：图中左侧的 LLaVA 架构将视觉编码器（Vision encoder）和语言模型的编码器（Language model）分开显示，这表明图像和语言的特征提取是独立进行的。（标粗标红）
融合在后续步骤进行：在视觉编码器处理完图像生成视觉特征 Zv 后，这些特征通过投影（Projection W）得到视觉特征表示 Hv（升降维和语言模型的 token 一个维度比如 4096）。然后这些视觉特征与语言指令 Xq 被 tokenizer 给 embedding 出来的 Hq 在语言模型的 LLaMA 里面训练，这就叫后融合（Late Fusion）。
本质上还是 LLM：最后的训练其实还是 LLM 的训练模式，即把把视觉转换的语言维度的 token 和语言的 token 都当成语言 token，本质上还是 LLM 的训练机制，然后你生成的东西其实也只有语言这种任务，说白了只能做 VQA
那啥叫前融合？

实际上，Gemini 比较早地采用了前融合架构。通俗易懂来说，前融合就是我不需要先让每个模态的编码器去提取自己的特征向量，然后再拉齐，就一套 tokenizer 干所有的事，啥都被我 embedding 成 token，（也不用比如拿 cv 的特征图再给转）我也不管它是什么输入，然后统一进 transformer（这里面肯定是 VIT + DIT 了）

Chameleon 采用同源架构，但相比 Gemini 做得更进一步，因为 Gemini 的视觉解码器与其他部分基本没有关联。也就是说，在视觉部分，比如视频、图片等，它还得独立路由到单独的模型生成。而 Chameleon 是完全的端到端架构，但当前版本尚未完成，不支持该功能。

我通过亲自测试和询问才明白了这一点。大家不能光看论文，要上手啊，老铁！

讲到这，估计大家可能对前融合后融合还是有点理不清。下面我给出一些截图应该能帮助你们理解。

比如对于和 LLaVA 架构差不多的 phi3-V，你去查它的 tokenizer

它还是文本的，也只针对文本。

视觉的 token 实际还是视觉的组件来管理和处理（开源大多用 clip 其实是用里面的 vit），只不过被一个线性层或者 MLP 给硬拉到语义 token 的维度

但是再看看 Chameleon 的 tokenizer，一些奇怪的东西就出现了

没错，就是它的 tokenizer 已经不是纯语言的了，视觉（现在只有图片），也是直接被同一个 tokenizer 来处理的，但是干活的时候还得由视觉的 encoder 来干，它用的 vq-gan

图像编码：
VQGAN 使用卷积神经网络（CNN）将输入图像分解成小块（patches）。
这些小块被进一步编码为一组离散的 tokens，通过向量量化（Vector Quantization）将连续的特征映射到预定义的代码簇（codebook）。
图像生成（现在做不了）：
在生成过程中，VQGAN 可以将这些离散 tokens 解码回图像。
结合多模态任务：
在多模态任务中（如图像-文本联合建模），VQGAN 可以用来将图像数据表示为离散的 tokens，这些 tokens 可以与文本 tokens （原生就全是 token，不用硬去拉齐维度）一起输入到一个联合模型中进行处理，如 Transformer 架构中。