Skywork-R1V
1. 介绍
我们推出Skywork-R1V,一种多模态推理模型,通过近乎无损的迁移方法,将R1系列文本模型扩展到视觉模态。Skywork-R1V采用轻量级视觉投影器,无需重新训练基础语言模型或视觉编码器,即可实现无缝的多模态适配。为提升视觉-文本对齐,我们开发了结合迭代监督微调(SFT)与组相对策略优化(GRPO)的混合优化策略,显著提高了跨模态融合能力。此外,我们创造了一种自适应长度的思维链(Chain-of-Thought)蒸馏方法用于生成推理数据,动态优化推理链长度以提高推理效率并避免过度推理。该模型在重要多模态推理基准测试中达到最先进水平,在MMMU上得分68.1,在MathVista上得分71.0,可与领先的闭源模型(如Gemini 2.0和Kimi-k1.5)媲美。同时,它还保持了出色的文本推理能力,在AIME达到72.6分,在MATH500达到94.3分。
2. 模型概述
架构:
Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
- 视觉编码器: 使用视觉Transformer (ViT)作为视觉主干处理图像输入。
- 视觉投影器: 轻量级MLP适配器,作为视觉与语言组件间的桥梁。
- 语言模型: 采用R1-distilled-Qwen-32B作为具备推理能力的语言模型主干。
模型连接模式为视觉编码器 → MLP适配器 → 语言模型,其中MLP适配器将视觉编码器的输出空间与语言模型的输入空间对齐。这种设计可高效地将文本的推理能力迁移到多模态领域,无需大规模重新训练视觉编码器或语言模型。
关键设计
- 先进的多模态推理 擅长跨文本和视觉模态的复杂推理。
- 迭代训练策略 采用迭代监督和GRPO优化模型对齐和性能。
- 自适应长度思维链 动态调整推理长度以增强推理效率和准确性。
- 可扩展性能 在数学、编程和多模态任务上性能媲美专有模型。
3. 评估
Evaluation results of state-of-the-art LLMs and VLMs
| Vision | Reasoning | Vision | |||||
|---|---|---|---|---|---|---|---|
| MATH-500 | AIME 2024 | GPQA | MathVista(mini) | MMMU(Val) | CSVQA | ||
| pass@1 | pass@1 | pass@1 | pass@1 | pass@1 | pass@1 | ||
| Qwen2.5-72B-Instruct | ❌ | 82.6 | 23.3 | 49.0 | - | - | - |
| Deepseek V3 | ❌ | 90.2 | 39.2 | 59.1 | - | - | - |
| Deepseek R1 | ❌ | 97.3 | 79.8 | 71.5 | - | - | - |
| Claude 3.5 Sonnet | ✅ | 78.3 | 16.0 | 65.0 | 67.7 | 68.3 | - |
| GPT-4o | ✅ | 76.6 | 9.3 | 53.6 | 63.8 | 69.1 | - |
| Kimi k1.5 | ✅ | 96.2 | 77.5 | - | 74.9 | 70.0 | - |
| Qwen2.5-VL-72B-Instruct | ✅ | - | - | - | 74.8 | 70.2 | - |
| LLaVA-Onevision-72B | ✅ | - | - | - | 67.5 | 56.8 | - |
| InternVL2-Llama3-76B | ✅ | - | - | - | 65.5 | 58.3 | - |
| InternVL2.5-78B | ✅ | - | - | - | 72.3 | 70.1 | - |
| Skywork-R1V-38B | ✅ | 94.0 | 72.0 | 61.6 | 71.0 | 68.1 | XXX |
Comparison with Larger-Scale Open-Source and Closed-Source Models
| Benchmark | LLM | VLM | ||||
|---|---|---|---|---|---|---|
| QwQ-32B-Preview | InternVL-2.5-38B | VILA 1.5-40B | InternVL2-40B | Skywork-R1V-38B | ||
| Reasoning | MATH-500 | 90.6 | - | - | - | 94.0 |
| AIME 2024 | 50.0 | - | - | - | 72.0 | |
| GPQA | 65.2 | - | - | - | 61.6 | |
| Vision | MathVista(mini) | - | 71.9 | 49.5 | 63.7 | 71.0 |
| MMMU(Val) | - | 63.9 | 55.1 | 55.2 | 68.1 | |
| CSVQA | - | |||||
4. Skywork-R1V家族
| Model Name | Vision Encoder | Language Model | HF Link |
|---|---|---|---|
| Skywork-R1V-38B | InternViT-6B-448px-V2_5 | deepseek-ai/DeepSeek-R1-Distill-Qwen-32B | 🤗 Link |
| Skywork-R1V-38B-qwq | InternViT-6B-448px-V2_5 | Qwen/QwQ-32B | - |
5. 快速开始
示例步骤:
- 克隆GitHub仓库
git clone https://github.com/your-repo
- 安装依赖
cd your-repo
pip install -r requirements.txt
- 运行示例代码
python demo.py
6. 附加资源
7. 引用
如果您在研究中使用了Skywork-R1V,请引用:
@article{skywork2025r1v,
title = {Skywork-R1V: Bridging Vision and Language for Advanced Multimodal Reasoning},
author = {SkyworkVL Team},
year = {2025},
journal = {arXiv preprint arXiv:XXXX.XXXXX},
url = {https://github.com/skywork-ai/Skywork-R1V}
}
本项目采用开源许可证发布。