文本生成精准图像字幕，谷歌等开源PixelLLM

转载

370 天前

4919

AIGC开放社区

文章转载来源：AIGC开放社区

原文来源：AIGC开放社区

图片来源：由无界 AI生成

传统的大语言模型可以描述、回答与图像相关的问题，甚至进行复杂的图像推理。但使用大型语言模型进行文本定位，或用图像指代准确坐标却不太行。

为了进行该技术的探索，谷歌和加州大学圣地亚哥分校的研究人员开发了像素对齐大语言模型——PixelLLM。

PixelLLM可以将图像位置信息作为输入或输出。当将位置作为输入时，模型可以根据位置生成与指定对象或区域相关的描述文本。

当生成位置作为输出时，模型可以为每个输出词语生成像素坐标，实现密集的词语定位。

项目地址：https://jerryxu.net/PixelLLM/‌

论文地址：https://arxiv.org/abs/2312.09237‌

PixelLLM的核心技术原理是，通过在大语言模型的单词特征之上添加一个小型多层感知机（MLP），来回归每个输出单词的像素坐标，从而实现对文本的密集定位。而语言模型的权重可以保持冻结，也可以通过低秩微调（LoRA）进行更新。

PixelLLM的整体架构包括图像编码器、提示编码器/特征提取器和大语言模型组成。

支持图像以及位置或文本的任意组合作为输入,并生成字幕以及每个词的像素定位作为输出。

图像编码器

图像编码器使用了Vision Transformer为输入图像生成表征，可以把图片转换成计算机可以理解的格式。
图像编码器使用了两种并行的主干:一种是从SAM模型初始化的ViT-H,用于获取强大的定位特征;

另一种是从EVA02初始化的ViT-L,用于学习语义特征。两种主干的输出在通道维上拼接,作为整体的图像表征。

提示编码/提取器

提示编码器将位置或文本等非图像输入编码为与图像表征相匹配的特征空间。对于位置输入,使用正弦余弦位置编码和线性层编码边界框坐标或点序列。对于文本输入,将词嵌入与图像表征拼接作为语言模型的前缀特征。

提示特征提取器用于接收来自提示编码器的特征,以及来自图像编码器的整幅图像表征。它的作用是从整幅图像中提取出与提示相关的区域特征。