Seed1.5-VL

1. 基本介绍

先是 Abstract 部分可以获得的信息：

Seed1.5-VL，这是一款多模态基础模型，专为促进通用的视觉-语言理解与推理而设计。其核心结构包括：

视觉编码器（532M参数）：用于从图像和视频中提取视觉特征，采用 ViT 架构和 2D RoPE 位置编码，支持原生分辨率处理，保留图像细节
语言模型（20B活跃参数）：采用 MoE 架构，提升了语言处理和多模态融合能力
模型能力：Seed1.5-VL 在60个公共多模态基准测试中取得了38项 SOTA 成绩，覆盖了视觉理解、视频分析、推理、图表和文本理解、GUI 交互及游戏等多领域，超过了 OpenAI 的 CUA、Claude 3.7 等领先模型
关键创新：引入多模态数据（图像、视频、文本、交互）进行大规模预训练，同时在后训练阶段通过人类反馈强化学习（RLHF）和可验证奖励信号（RLVR）进一步提升推理与指令遵循能力

随后在 Introduction 部分，作者介绍了当前 VLM 的一些不足，同时对 Seed1.5-VL 的训练和评测进行了介绍：

领域特定性：三维空间理解、物体计数、富有想象力的视觉推理和互动游戏玩法的任务
缺乏复杂的训练数据：作者开发了一套多样化的数据合成管道，针对关键能力，包括光学字符识别（OCR）、视觉基础、计数、视频理解和长尾知识（预训练），以及视觉谜题和游戏（后训练）
针对架构不对称问题进行优化：训练 VLM 时，存在架构不对称的问题，主要体现在视觉编码器（通常较小）和语言模型（通常较大）之间计算和参数量的不平衡。这种不平衡会导致GPU负载不均，影响训练效率。作者提出了 1.混合并行策略（Hybrid Parallelism）：设计了一种针对视觉编码器和语言模型不对称特征优化的并行训练方法，将两部分分别采用不同的并行策略，提高计算效率和资源利用率。2.视觉Token再分配策略：通过动态调整视觉Token（视觉特征的表示单元）在不同GPU之间的分布，实现负载均衡，避免部分GPU过载。3.定制化数据加载器：实现了一个自定义的数据加载器，能在3D并行（即模型并行+数据并行+流水线并行）的训练架构下减少I/O瓶颈，加快数据预处理和传输速度。4.系统级优化：在以上创新的基础上，还结合了内核融合（kernel fusion）、选择性激活检查点（selective activation checkpointing）、计算卸载（offloading）等标准系统优化技术，进一步提升了训练的整体吞吐量（即单位时间内处理的数据量）（感觉这一技术更多的是工程上的训练加速和实现？）

整体上来讲，感觉 Seed1.5-VL 沿用了其他厂的很多技术吧，同时工程量也巨大，VLMs 哪里能力差，就用数据堆哪里

2. 模型架构

架构整体上和 Qwen-VL 系列很像，也是现在比较流行的 NaViT + MLP + LLM 结构，ViT 都用 Native 的形式，MLP 是两层，LLM 依然是 MoE 架构

2.1 视觉编码器

当前 VLMs 的视觉编码器（如 Qwen2-VL 和 InternVL-2.5）在处理不同分辨率（动态分辨率）输入时存在局限性：现有视觉编码器大多基于固定分辨率架构（例如，1D flatten位置嵌入），当输入图片或视频的分辨率变化时，必须对位置编码进行调整（如从1D转为2D RoPE，或插值适应不同分辨率），这种调整容易丢失细节，无法完全保留原始视觉内容的精度，导致模型在处理动态或复杂视觉任务时性能受限（感觉这个问题只针对 InternVL 的视觉编码器？Qwen2-VL好像已经是 NaViT 了）

解决方案：

预训练视觉编码器微调策略：参考 Qwen2-VL 和 InternVL-2.5 中的做法，Seed1.5-VL 也微调视觉编码器，使其支持动态分辨率输入
引入视频数据进行预训练：相比只处理静态图像，Seed1.5-VL 在预训练阶段增加了视频数据，让模型学习空间特征（图像中的结构信息）和时间特征（视频中的动态变化）
效果：这种设计让模型不仅能处理静态图像，还能理解和解析动态场景和复杂视觉内容，从而提升对动态任务（如视频理解、时序推理）的适应能力

视觉编码器架构

处理流程：首先将输入图像双线性插值到 $28\times 28$ 的分辨率，接着，将缩放后的图像划分为 $4\times4$ 的非重叠 patch，并将每个 patch 展平成向量，随后通过线性投影（patch embedding层）将其映射到高维 embedding 空间。对多图输入的处理，将多张图片的 patch 序列拼接为一个长序列，并在自注意力计算中应用 attention mask，确保每张图片内的 tokens 仅关注自身内容。Transformer 编码器对拼接序列进行上下文编码后，对每张图片的输出 patch embedding 采用 $2\times2$ 平均池化，减少空间维度。池化后的特征再输入 MLP 适配层进行维度映射，最终与语言模型（LLM）结合，完成视觉和语言的多模态融合与理解。

# 输入：多张图片 images，形状 (batch_size, H, W, C)
images_resized = bilinear_interpolate(images, size=(28, 28))
patches = split_into_patches(images_resized, patch_size=(14, 14))

# Patch embedding
tokens = linear_patch_embedding(patches)
all_tokens = concatenate(tokens)  # 形状 (total_patches, embed_dim)
attention_mask = create_attention_mask(tokens)

# Transformer编码
encoded_tokens = transformer(all_tokens, mask=attention_mask)
pooled_tokens = average_pool(encoded_tokens, kernel_size=2)

# MLP适配 + 输入LLM
adapted_tokens = MLP_adaptor(pooled_tokens)
final_tokens = adapted_tokens

视觉编码器训练流程

训练策略：

1. 使用 ViT 预训练提高训练效率：作者称，大多数成功的视觉-语言模型（VLMs）采用了先预训练视觉编码器（如CLIP或SigLIP）的策略，再与LLM集成，也有的模型采用直接将图像patch输入到decoder-only的LLM（即没有独立视觉编码器），但结果参差不齐，效率较低。Beyer等人认为无编码器VLM（encoder-free VLM）可能是未来方向，但目前训练效率仍然较低。本文中，Seed1.5-VL 选择 ViT 预训练方案，强调效率优先。
1. 早期引入原生分辨率建模：Seed-ViT在整个预训练和VLM阶段保持一致的架构设计，避免了因架构修改导致的性能损失。在预训练早期引入对“原生分辨率”的建模（即直接处理图像原始细节），而不是依赖缩放或后续微调。这样可以减少因架构不匹配带来的调优成本
1. 全面利用多模态数据：Seed-ViT预训练不仅使用无标签图像、图文对数据，还利用了包含视觉和音频字幕的视频数据，实现更广泛的跨模态学习。这种设计让模型能处理更复杂的多模态任务，包括图像、文本和视频中不同类型的信息。

训练目标：训练分为三个阶段

1. 第一阶段，MIM with 2D RoPE：采用了Masked Image Modeling（MIM）结合2D RoPE（二维相对位置编码）的方法，以提升模型对视觉几何结构的感知能力。具体做法是：以 EVA02-CLIP-E 作为教师模型，随机初始化 Student 模型。训练过程中，随机遮蔽 $75%$ 的图像 patch 及其 RoPE 位置编码，利用 teacher 模型生成的 CLIP 特征作为预测目标。通过余弦相似度损失优化学生模型，使其在遮蔽位置的输出尽可能接近教师的特征。尽管学生和教师的位置信息编码方式不同（教师采用可学习位置嵌入，学生使用2D RoPE），但结果表明这种差异不会削弱性能，反而使学生模型具备对原生分辨率输入的强适应能力。随着 MIM 训练规模扩大，Seed1.5-VL 在图表理解、文档理解及OCR任务中表现出显著提升。
1. 第二阶段，Native-Resolution Contrastive Learning.：在对比学习阶段，视觉编码器采用MIM预训练的 Seed-ViT，文本编码器采用 EVA-02-CLIP-E。通过 attention pooling 将视觉patch 特征聚合为1280维图像 embedding，并与文本 embedding 一起优化，使用 SigLIP 对比损失和 SuperClass 分类损失，实现图文对齐与语义建模。
1. 第三阶段，Omni-modal Pre-training.：在全模态预训练阶段，Seed1.5-VL采用MiCo框架，通过视频帧、音频、字幕构建对齐多模态样本。ViT学习编码视频帧和音频，文本编码器处理字幕，训练中对这些模态的embedding进行对齐，最终提升了模型对图像和视频的理解能力。

视频处理

采用 Dynamic Frame-Resolution Sampling strategy，视频被处理成图像帧，采样规则如下：

默认采样率：每秒采样1帧（1 FPS），适用于一般视频理解任务。
细粒度时间任务：对于需要更详细时间信息的任务，帧采样率提升至2 FPS。
计数和运动跟踪任务：对于需要捕捉细粒度动态变化的任务，帧采样率提升至5 FPS。

为了显式标记每帧在视频中的时间位置，在每帧前添加时间戳token（例如[1.5 second]）。此外，引入了空间维度采样和回退机制，简明规则如下：

空间采样（分辨率调整）：
- 总token上限：每个视频的最大token数为 81,920，确保计算资源可控。
- 帧分辨率分配：每帧可在6个预定义分辨率级别中分配token：${640, 512, 384, 256, 160, 128}$
- 灵活分配策略：根据视频长度和计算预算动态调整：
  - 视频较短：可采用较高分辨率（每帧更多token）。
  - 视频较长：自动降低分辨率以容纳更多帧。
回退机制（处理超长视频）：
- 当视频极长，即使所有帧都采用最低分辨率（128 tokens/frame），仍超过最大token预算，启动回退机制，减少总帧数，采用均匀采样（uniform sampling）在整个视频时间轴上分布。虽然降低了时间密度，但能保留视频全貌，实现信息覆盖与计算效率平衡。

3. 预训练

3.1 训练数据

Seed1.5-VL 的预训练预料包含 3T tokens，这些数据被归类为不同的类别

3.1.1 Generic Image-Text Pairs & Knowledge Data

作者首先提出了数据噪声问题，并设计了一套数据筛选与重采样流程：

相似度筛选：计算图文对的CLIP-score分数，过滤掉低质量对
图片筛选：移除过小或长宽比异常图片
文本筛选：过滤过短或过长文本
去重策略：删除重复或近似重复图片
域名筛选：剔除特定来源的低质量数据

在收集了海量的Web图文对数据后，作者发现存在两大问题：

数据噪声高：存在无关或错误文本
类别不平衡：某些视觉概念（如常见物种）过多，稀有概念样本稀少

数据不平衡处理：使用BioTrove大规模物种分类数据集（含1.6亿张图片，覆盖36万+物种），团队设计了三种采样策略进行对比实验：

Random-46M：随机抽取4600万样本；
Max1k-46M：每物种最多1000样本，保证稀有物种覆盖；
Max100-15M：每物种最多100样本，仅1500万样本，强化稀有物种样本。

随后在 Balanced10k （常见物种）与 Rare2k （稀有物种）测试集上评估，实验结果如下：随机采样在稀有物种识别上表现不佳，Max1k-46M 显著提升稀有物种识别能力，Max100-15M 虽进一步提升稀有识别，但对常见物种效果下降

为解决视觉知识学习中的类别不平衡问题，Seed1.5-VL 采用了：

使用 VLM 自动标注图文对数据中的语义域（如地标、食品、品牌、物种）及命名实体
判断低频命名实体和低频领域（小于平均频率$50%$），将其对应的文本重复采样，生成增强数据集
- 命名实体：如果某些实体在整个数据集中的出现频率非常低（低于平均水平），就将它们归为“稀有视觉知识”
- 语义领域：如果某个领域的样本数量不到平均领域样本数量的$50%$，说明该领域数据稀少，也需要增强
对上述“稀有命名实体”和“稀有语义领域”对应的文本（alt-text），进行重复采样，即多次复制这些样本。这样可以人为增加稀有类别样本数量
将增强样本合并回原始语料中，重构均衡的视觉知识数据分布

这种预筛选+语义标注+稀有采样增强的组合方法，提升了模型对稀有视觉知识（如稀有物种、特定品牌）的学习能力，同时保持了对常见概念的泛化能力，为多模态预训练打下坚实基础。

3.1.2 3.1.2 Optical Character Recognition (OCR)

3. 实验结果

本文由 Yonghui Wang 创作，采用知识共享署名4.0 国际许可协议进行许可
本站文章除注明转载/出处外，均为本站原创或翻译，转载前请务必署名
最后编辑时间为: Jun 11, 2025 11:07 pm

PaperReading:Seed-VL