# Skywork-R1V

## 1. 介绍我们推出Skywork-R1V，一种多模态推理模型，通过近乎无损的迁移方法，将R1系列文本模型扩展到视觉模态。Skywork-R1V采用轻量级视觉投影器，无需重新训练基础语言模型或视觉编码器，即可实现无缝的多模态适配。为提升视觉-文本对齐，我们开发了结合迭代监督微调（SFT）与组相对策略优化（GRPO）的混合优化策略，显著提高了跨模态融合能力。此外，我们创造了一种自适应长度的思维链（Chain-of-Thought）蒸馏方法用于生成推理数据，动态优化推理链长度以提高推理效率并避免过度推理。该模型在重要多模态推理基准测试中达到最先进水平，在MMMU上得分68.1，在MathVista上得分71.0，可与领先的闭源模型（如Gemini 2.0和Kimi-k1.5）媲美。同时，它还保持了出色的文本推理能力，在AIME达到72.6分，在MATH500达到94.3分。 ## 2. 模型概述 **架构:** Skywork-R1V采用模块化架构，有效结合视觉和语言能力： - **视觉编码器:** 使用视觉Transformer (ViT)作为视觉主干处理图像输入。 - **视觉投影器:** 轻量级MLP适配器，作为视觉与语言组件间的桥梁。 - **语言模型:** 采用R1-distilled-Qwen-32B作为具备推理能力的语言模型主干。模型连接模式为视觉编码器 → MLP适配器 → 语言模型，其中MLP适配器将视觉编码器的输出空间与语言模型的输入空间对齐。这种设计可高效地将文本的推理能力迁移到多模态领域，无需大规模重新训练视觉编码器或语言模型。 **关键设计** - **先进的多模态推理** 擅长跨文本和视觉模态的复杂推理。 - **迭代训练策略** 采用迭代监督和GRPO优化模型对齐和性能。 - **自适应长度思维链** 动态调整推理长度以增强推理效率和准确性。 - **可扩展性能** 在数学、编程和多模态任务上性能媲美专有模型。 ## 3. 评估

Evaluation results of state-of-the-art LLMs and VLMs

	Vision	Reasoning			Vision
		MATH-500	AIME 2024	GPQA	MathVista(mini)	MMMU(Val)	CSVQA
		pass@1	pass@1	pass@1	pass@1	pass@1	pass@1
Qwen2.5-72B-Instruct	❌	82.6	23.3	49.0	-	-	-
Deepseek V3	❌	90.2	39.2	59.1	-	-	-
Deepseek R1	❌	97.3	79.8	71.5	-	-	-
Claude 3.5 Sonnet	✅	78.3	16.0	65.0	67.7	68.3	-
GPT-4o	✅	76.6	9.3	53.6	63.8	69.1	-
Kimi k1.5	✅	96.2	77.5	-	74.9	70.0	-
Qwen2.5-VL-72B-Instruct	✅	-	-	-	74.8	70.2	-
LLaVA-Onevision-72B	✅	-	-	-	67.5	56.8	-
InternVL2-Llama3-76B	✅	-	-	-	65.5	58.3	-
InternVL2.5-78B	✅	-	-	-	72.3	70.1	-
Skywork-R1V-38B	✅	94.0	72.0	61.6	71.0	68.1	XXX

Comparison with Larger-Scale Open-Source and Closed-Source Models

	Benchmark	LLM	VLM
		QwQ-32B-Preview	InternVL-2.5-38B	VILA 1.5-40B	InternVL2-40B	Skywork-R1V-38B
Reasoning	MATH-500	90.6	-	-	-	94.0
	AIME 2024	50.0	-	-	-	72.0
	GPQA	65.2	-	-	-	61.6
Vision	MathVista(mini)	-	71.9	49.5	63.7	71.0
	MMMU(Val)	-	63.9	55.1	55.2	68.1
	CSVQA	-

## 4. Skywork-R1V家族 | Model Name | Vision Encoder | Language Model | HF Link | | ---------------------- | -------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------- | ------------ | | Skywork-R1V-38B | [InternViT-6B-448px-V2_5](https://huggingface.co/OpenGVLab/InternViT-6B-448px-V2_5) | [deepseek-ai/DeepSeek-R1-Distill-Qwen-32B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B) | [🤗 Link](#) | | Skywork-R1V-38B-qwq | [InternViT-6B-448px-V2_5](https://huggingface.co/OpenGVLab/InternViT-6B-448px-V2_5) | [Qwen/QwQ-32B](https://huggingface.co/Qwen/QwQ-32B) | - | --- ## 5. 快速开始 **示例步骤:** 1. **克隆GitHub仓库** ```bash git clone https://github.com/your-repo ``` 2. **安装依赖** ```bash cd your-repo pip install -r requirements.txt ``` 3. **运行示例代码** ```bash python demo.py ``` --- ## 6. 附加资源 - [📂 GitHub仓库](https://github.com/your-repo) - [🗨️ Chat Demo](#) - [🚀 快速入门](#快速入门) - [📖 完整文档](#) --- ## 7. 引用如果您在研究中使用了Skywork-R1V，请引用： ``` @article{skywork2025r1v, title = {Skywork-R1V: Bridging Vision and Language for Advanced Multimodal Reasoning}, author = {SkyworkVL Team}, year = {2025}, journal = {arXiv preprint arXiv:XXXX.XXXXX}, url = {https://github.com/skywork-ai/Skywork-R1V} } ``` *本项目采用开源许可证发布。*