Skywork-R1V-38B / README_ZH.md
OrlandoHugBot's picture
Upload folder using huggingface_hub
5b16c4f verified
|
raw
history blame
10.4 kB

Skywork-R1V

1. 介绍

我们推出Skywork-R1V,一种多模态推理模型,通过近乎无损的迁移方法,将R1系列文本模型扩展到视觉模态。Skywork-R1V采用轻量级视觉投影器,无需重新训练基础语言模型或视觉编码器,即可实现无缝的多模态适配。为提升视觉-文本对齐,我们开发了结合迭代监督微调(SFT)与组相对策略优化(GRPO)的混合优化策略,显著提高了跨模态融合能力。此外,我们创造了一种自适应长度的思维链(Chain-of-Thought)蒸馏方法用于生成推理数据,动态优化推理链长度以提高推理效率并避免过度推理。该模型在重要多模态推理基准测试中达到最先进水平,在MMMU上得分68.1,在MathVista上得分71.0,可与领先的闭源模型(如Gemini 2.0和Kimi-k1.5)媲美。同时,它还保持了出色的文本推理能力,在AIME达到72.6分,在MATH500达到94.3分。

2. 模型概述

架构:

Skywork-R1V采用模块化架构,有效结合视觉和语言能力:

  • 视觉编码器: 使用视觉Transformer (ViT)作为视觉主干处理图像输入。
  • 视觉投影器: 轻量级MLP适配器,作为视觉与语言组件间的桥梁。
  • 语言模型: 采用R1-distilled-Qwen-32B作为具备推理能力的语言模型主干。

模型连接模式为视觉编码器 → MLP适配器 → 语言模型,其中MLP适配器将视觉编码器的输出空间与语言模型的输入空间对齐。这种设计可高效地将文本的推理能力迁移到多模态领域,无需大规模重新训练视觉编码器或语言模型。

关键设计

  • 先进的多模态推理 擅长跨文本和视觉模态的复杂推理。
  • 迭代训练策略 采用迭代监督和GRPO优化模型对齐和性能。
  • 自适应长度思维链 动态调整推理长度以增强推理效率和准确性。
  • 可扩展性能 在数学、编程和多模态任务上性能媲美专有模型。

3. 评估

skywork_r1v_eval
Evaluation results of state-of-the-art LLMs and VLMs
Vision Reasoning Vision
MATH-500 AIME 2024 GPQA MathVista(mini) MMMU(Val) CSVQA
pass@1 pass@1 pass@1 pass@1 pass@1 pass@1
Qwen2.5-72B-Instruct 82.6 23.3 49.0 - - -
Deepseek V3 90.2 39.2 59.1 - - -
Deepseek R1 97.3 79.8 71.5 - - -
Claude 3.5 Sonnet 78.3 16.0 65.0 67.7 68.3 -
GPT-4o 76.6 9.3 53.6 63.8 69.1 -
Kimi k1.5 96.2 77.5 - 74.9 70.0 -
Qwen2.5-VL-72B-Instruct - - - 74.8 70.2 -
LLaVA-Onevision-72B - - - 67.5 56.8 -
InternVL2-Llama3-76B - - - 65.5 58.3 -
InternVL2.5-78B - - - 72.3 70.1 -
Skywork-R1V-38B 94.0 72.0 61.6 71.0 68.1 XXX
Comparison with Larger-Scale Open-Source and Closed-Source Models
Benchmark LLM VLM
QwQ-32B-Preview InternVL-2.5-38B VILA 1.5-40B InternVL2-40B Skywork-R1V-38B
Reasoning MATH-500 90.6 - - - 94.0
AIME 2024 50.0 - - - 72.0
GPQA 65.2 - - - 61.6
Vision MathVista(mini) - 71.9 49.5 63.7 71.0
MMMU(Val) - 63.9 55.1 55.2 68.1
CSVQA -

4. Skywork-R1V家族

Model Name Vision Encoder Language Model HF Link
Skywork-R1V-38B InternViT-6B-448px-V2_5 deepseek-ai/DeepSeek-R1-Distill-Qwen-32B 🤗 Link
Skywork-R1V-38B-qwq InternViT-6B-448px-V2_5 Qwen/QwQ-32B -

5. 快速开始

示例步骤:

  1. 克隆GitHub仓库
git clone https://github.com/your-repo
  1. 安装依赖
cd your-repo
pip install -r requirements.txt
  1. 运行示例代码
python demo.py

6. 附加资源


7. 引用

如果您在研究中使用了Skywork-R1V,请引用:

@article{skywork2025r1v,
  title     = {Skywork-R1V: Bridging Vision and Language for Advanced Multimodal Reasoning},
  author    = {SkyworkVL Team},
  year      = {2025},
  journal   = {arXiv preprint arXiv:XXXX.XXXXX},
  url       = {https://github.com/skywork-ai/Skywork-R1V}
}

本项目采用开源许可证发布。