PaperReading:Seed-VL
paperreading
本文字数:3.4k 字 | 阅读时长 ≈ 12 min

PaperReading:Seed-VL

paperreading
本文字数:3.4k 字 | 阅读时长 ≈ 12 min

Seed1.5-VL

1. 基本介绍

先是 Abstract 部分可以获得的信息:

Seed1.5-VL,这是一款多模态基础模型,专为促进通用的视觉-语言理解与推理而设计。其核心结构包括:

随后在 Introduction 部分,作者介绍了当前 VLM 的一些不足,同时对 Seed1.5-VL 的训练和评测进行了介绍:

整体上来讲,感觉 Seed1.5-VL 沿用了其他厂的很多技术吧,同时工程量也巨大,VLMs 哪里能力差,就用数据堆哪里

2. 模型架构

架构整体上和 Qwen-VL 系列很像,也是现在比较流行的 NaViT + MLP + LLM 结构,ViT 都用 Native 的形式,MLP 是两层,LLM 依然是 MoE 架构

2.1 视觉编码器

当前 VLMs 的视觉编码器(如 Qwen2-VL 和 InternVL-2.5)在处理不同分辨率(动态分辨率)输入时存在局限性:现有视觉编码器大多基于固定分辨率架构(例如,1D flatten位置嵌入),当输入图片或视频的分辨率变化时,必须对位置编码进行调整(如从1D转为2D RoPE,或插值适应不同分辨率),这种调整容易丢失细节,无法完全保留原始视觉内容的精度,导致模型在处理动态或复杂视觉任务时性能受限(感觉这个问题只针对 InternVL 的视觉编码器?Qwen2-VL好像已经是 NaViT 了

解决方案:

视觉编码器架构

处理流程:首先将输入图像双线性插值到 $28\times 28$ 的分辨率,接着,将缩放后的图像划分为 $4\times4$ 的非重叠 patch,并将每个 patch 展平成向量,随后通过线性投影(patch embedding层)将其映射到高维 embedding 空间。对多图输入的处理,将多张图片的 patch 序列拼接为一个长序列,并在自注意力计算中应用 attention mask,确保每张图片内的 tokens 仅关注自身内容。Transformer 编码器对拼接序列进行上下文编码后,对每张图片的输出 patch embedding 采用 $2\times2$ 平均池化,减少空间维度。池化后的特征再输入 MLP 适配层进行维度映射,最终与语言模型(LLM)结合,完成视觉和语言的多模态融合与理解。

# 输入:多张图片 images,形状 (batch_size, H, W, C)
images_resized = bilinear_interpolate(images, size=(28, 28))
patches = split_into_patches(images_resized, patch_size=(14, 14))

# Patch embedding
tokens = linear_patch_embedding(patches)
all_tokens = concatenate(tokens)  # 形状 (total_patches, embed_dim)
attention_mask = create_attention_mask(tokens)

# Transformer编码
encoded_tokens = transformer(all_tokens, mask=attention_mask)
pooled_tokens = average_pool(encoded_tokens, kernel_size=2)

# MLP适配 + 输入LLM
adapted_tokens = MLP_adaptor(pooled_tokens)
final_tokens = adapted_tokens

视觉编码器训练流程

训练策略:

训练目标:训练分为三个阶段

视频处理

采用 Dynamic Frame-Resolution Sampling strategy,视频被处理成图像帧,采样规则如下:

为了显式标记每帧在视频中的时间位置,在每帧前添加时间戳token(例如[1.5 second])。此外,引入了空间维度采样和回退机制,简明规则如下:

3. 预训练

3.1 训练数据

Seed1.5-VL 的预训练预料包含 3T tokens,这些数据被归类为不同的类别

3.1.1 Generic Image-Text Pairs & Knowledge Data

作者首先提出了数据噪声问题,并设计了一套数据筛选与重采样流程:

在收集了海量的Web图文对数据后,作者发现存在两大问题:

数据不平衡处理:使用BioTrove大规模物种分类数据集(含1.6亿张图片,覆盖36万+物种),团队设计了三种采样策略进行对比实验:

随后在 Balanced10k (常见物种)与 Rare2k (稀有物种)测试集上评估,实验结果如下:随机采样在稀有物种识别上表现不佳,Max1k-46M 显著提升稀有物种识别能力,Max100-15M 虽进一步提升稀有识别,但对常见物种效果下降

为解决视觉知识学习中的类别不平衡问题,Seed1.5-VL 采用了:

这种预筛选+语义标注+稀有采样增强的组合方法,提升了模型对稀有视觉知识(如稀有物种、特定品牌)的学习能力,同时保持了对常见概念的泛化能力,为多模态预训练打下坚实基础。

3.1.2 3.1.2 Optical Character Recognition (OCR)

3. 实验结果

May 06, 2025
Apr 06, 2025
ufw