# Skywork-R1V
## 1. 介绍
我们推出Skywork-R1V,一种多模态推理模型,通过近乎无损的迁移方法,将R1系列文本模型扩展到视觉模态。Skywork-R1V采用轻量级视觉投影器,无需重新训练基础语言模型或视觉编码器,即可实现无缝的多模态适配。为提升视觉-文本对齐,我们开发了结合迭代监督微调(SFT)与组相对策略优化(GRPO)的混合优化策略,显著提高了跨模态融合能力。此外,我们创造了一种自适应长度的思维链(Chain-of-Thought)蒸馏方法用于生成推理数据,动态优化推理链长度以提高推理效率并避免过度推理。该模型在重要多模态推理基准测试中达到最先进水平,在MMMU上得分68.1,在MathVista上得分71.0,可与领先的闭源模型(如Gemini 2.0和Kimi-k1.5)媲美。同时,它还保持了出色的文本推理能力,在AIME达到72.6分,在MATH500达到94.3分。
## 2. 模型概述
**架构:**
Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
- **视觉编码器:** 使用视觉Transformer (ViT)作为视觉主干处理图像输入。
- **视觉投影器:** 轻量级MLP适配器,作为视觉与语言组件间的桥梁。
- **语言模型:** 采用R1-distilled-Qwen-32B作为具备推理能力的语言模型主干。
模型连接模式为视觉编码器 → MLP适配器 → 语言模型,其中MLP适配器将视觉编码器的输出空间与语言模型的输入空间对齐。这种设计可高效地将文本的推理能力迁移到多模态领域,无需大规模重新训练视觉编码器或语言模型。
**关键设计**
- **先进的多模态推理**
擅长跨文本和视觉模态的复杂推理。
- **迭代训练策略**
采用迭代监督和GRPO优化模型对齐和性能。
- **自适应长度思维链**
动态调整推理长度以增强推理效率和准确性。
- **可扩展性能**
在数学、编程和多模态任务上性能媲美专有模型。
## 3. 评估
Evaluation results of state-of-the-art LLMs and VLMs
|
Vision |
Reasoning |
Vision |
|
|
MATH-500 |
AIME 2024 |
GPQA |
MathVista(mini) |
MMMU(Val) |
CSVQA |
|
|
pass@1 |
pass@1 |
pass@1 |
pass@1 |
pass@1 |
pass@1 |
| Qwen2.5-72B-Instruct |
❌ |
82.6 |
23.3 |
49.0 |
- |
- |
- |
| Deepseek V3 |
❌ |
90.2 |
39.2 |
59.1 |
- |
- |
- |
| Deepseek R1 |
❌ |
97.3 |
79.8 |
71.5 |
- |
- |
- |
| Claude 3.5 Sonnet |
✅ |
78.3 |
16.0 |
65.0 |
67.7 |
68.3 |
- |
| GPT-4o |
✅ |
76.6 |
9.3 |
53.6 |
63.8 |
69.1 |
- |
| Kimi k1.5 |
✅ |
96.2 |
77.5 |
- |
74.9 |
70.0 |
- |
| Qwen2.5-VL-72B-Instruct |
✅ |
- |
- |
- |
74.8 |
70.2 |
- |
| LLaVA-Onevision-72B |
✅ |
- |
- |
- |
67.5 |
56.8 |
- |
| InternVL2-Llama3-76B |
✅ |
- |
- |
- |
65.5 |
58.3 |
- |
| InternVL2.5-78B |
✅ |
- |
- |
- |
72.3 |
70.1 |
- |
| Skywork-R1V-38B |
✅ |
94.0 |
72.0 |
61.6 |
71.0 |
68.1 |
XXX |
Comparison with Larger-Scale Open-Source and Closed-Source Models
|
Benchmark |
LLM |
VLM |
|
|
QwQ-32B-Preview |
InternVL-2.5-38B |
VILA 1.5-40B |
InternVL2-40B |
Skywork-R1V-38B |
| Reasoning |
MATH-500 |
90.6 |
- |
- |
- |
94.0 |
| AIME 2024 |
50.0 |
- |
- |
- |
72.0 |
| GPQA |
65.2 |
- |
- |
- |
61.6 |
| Vision |
MathVista(mini) |
- |
71.9 |
49.5 |
63.7 |
71.0 |
| MMMU(Val) |
- |
63.9 |
55.1 |
55.2 |
68.1 |
| CSVQA |
- |
|
|
|
|
## 4. Skywork-R1V家族
| Model Name | Vision Encoder | Language Model | HF Link |
| ---------------------- | -------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------- | ------------ |
| Skywork-R1V-38B | [InternViT-6B-448px-V2_5](https://huggingface.co/OpenGVLab/InternViT-6B-448px-V2_5) | [deepseek-ai/DeepSeek-R1-Distill-Qwen-32B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B) | [🤗 Link](#) |
| Skywork-R1V-38B-qwq | [InternViT-6B-448px-V2_5](https://huggingface.co/OpenGVLab/InternViT-6B-448px-V2_5) | [Qwen/QwQ-32B](https://huggingface.co/Qwen/QwQ-32B) | - |
---
## 5. 快速开始
**示例步骤:**
1. **克隆GitHub仓库**
```bash
git clone https://github.com/your-repo
```
2. **安装依赖**
```bash
cd your-repo
pip install -r requirements.txt
```
3. **运行示例代码**
```bash
python demo.py
```
---
## 6. 附加资源
- [📂 GitHub仓库](https://github.com/your-repo)
- [🗨️ Chat Demo](#)
- [🚀 快速入门](#快速入门)
- [📖 完整文档](#)
---
## 7. 引用
如果您在研究中使用了Skywork-R1V,请引用:
```
@article{skywork2025r1v,
title = {Skywork-R1V: Bridging Vision and Language for Advanced Multimodal Reasoning},
author = {SkyworkVL Team},
year = {2025},
journal = {arXiv preprint arXiv:XXXX.XXXXX},
url = {https://github.com/skywork-ai/Skywork-R1V}
}
```
*本项目采用开源许可证发布。*