昆侖萬維開源R1V視覺思維鏈推理模型，開啟多模態思考新時代

2025-03-18 16:09:22 來源：財經網作者：　

摘要：3月18日，昆侖萬維正式開源首款工業界多模態思維鏈推理模型SkyworkR1V，即日起開源模型權重和技術報告。

3月18日，昆侖萬維正式開源首款工業界多模態思維鏈推理模型Skywork R1V，即日起開源模型權重和技術報告。

開啟多模態思考新時代

繼OpenAI o1和DeepSeek-R1在全球掀起長思考模型熱潮后，大模型進入新技術范式。昆侖萬維秉持實現 AGI 的初心，積極貢獻開源社區，正式開源Skywork R1V多模態視覺推理模型，成為中國第一個開源「多模態推理模型」的企業。

什么是視覺推理模型？

視覺推理模型是一類能夠解決需要思維鏈（Chain-of-Thought）的視覺任務的模型，通過對視覺信息進行多步邏輯推理與分析，逐步推導出最終結果。這種模型不僅關注圖像內容的識別與理解，更強調通過層層遞進的推理路徑，實現復雜視覺問題的精準求解，例如視覺邏輯推理、視覺數學問題、圖像中的科學現象分析、醫學影像的診斷推理等，從而有效拓展了視覺大模型的應用邊界。

無論是日常繁瑣的工作任務、復雜的數據分析、難以解答的學術問題，還是前所未見的陌生場景，都可以交給Skywork R1V進行高效處理。

快速體驗下來，R1V的視覺理解和推理能力雙雙在線。這樣的模型能力是如何煉成的呢？

強大推理能力，刷新跨模態任務新高度

在Reasoning推理能力方面，Skywork R1V實現了模型的頂尖邏輯推理與數學分析能力。在權威的MATH500和AIME基準測試中，Skywork R1V分別取得了94.0和72.0的高分，明顯領先于行業內眾多主流模型。Skywork R1V在純文本復雜推理任務中展現出卓越性能，使其在邏輯推理和數學問題求解領域展現出人類專家級別的水準。

在Vision視覺理解能力方面，Skywork R1V成功地將其強大的文本推理與思維鏈推導能力高效遷移到視覺任務中。憑借創新的跨模態遷移技術與推理優化框架，Skywork R1V能夠高效解決需要多步視覺推理的問題，在MMMU與MathVista等視覺推理基準中分別取得了69和67.5的優異成績。這些結果不僅明顯超越了多個近似大小的開源競爭模型，更達到與規模更大的閉源模型媲美的水準，充分證實了Skywork R1V在需要視覺思維鏈推理的跨模態任務中的領先優勢。

Skywork R1V通過視覺與文本能力的深度融合和視覺思維鏈推理能力的突破，推動了多模態推理模型的進一步發展，標志著人工智能領域的又一重大進步。

目前，Skywork R1V已全面開源，期望助力全球范圍內更多視覺推理任務的學術研究與產業應用探索。

和開源同規模或更大規模模型的對比，Skywork R1V 38B體現出行業顯著優異的推理能力，以及領先的多模態視覺理解能力。如下圖，與開源同規模或更大規模模型的對比：

與閉源頭部模型性能對比，R1V 38B模型性能媲美甚至超越更大開源模型以及主流閉源模型。如下圖，與開源大尺寸模型與閉源專有模型的對比：

三大核心技術創新，引領視覺推理新突破

Skywork R1V能夠達到當前的性能高度，依賴于以下三項關鍵技術創新：

1、文本推理能力的多模態高效遷移

昆侖萬維團隊首次提出利用Skywork-VL的視覺投影器，無需重新訓練語言模型和視覺編碼器，即可實現文本推理能力的高效遷移到視覺任務，同時保留了優秀的原本推理文本能力（AIME 72.0，MATH500 94.0）。

2、多模態混合式訓練（IterativeSFT+GRPO）

通過結合迭代監督微調（Iterative SFT）和GRPO強化學習，分階段對齊視覺-文本表征，實現跨模態任務的高效融合，極大提升跨模態任務的表現。推動模型在MMMU基準達到69分的能力，同時在MathVista達到67.5分，與更大規模的閉源模型基本持平。通過反復迭代地利用高質量數據與高難度數據的組合，實現模型持續的知識鞏固與錯誤糾正，顯著提升了多模態推理的精度與泛化性能。

圖丨多模態混合式訓練（來源：Skywork R1V技術報告）

3、自適應長度思維鏈蒸餾

團隊提出了一種基于視覺-文本復雜度的自適應推理鏈長度控制機制，動態優化模型推理過程，避免模型“過度思考”，提升推理效率。結合多階段自蒸餾策略，進一步提升了數據生成與推理過程的質量，促進了模型在復雜多模態任務中的表現。

圖丨自適應長度思維鏈蒸餾（來源：Skywork R1V技術報告）

Skywork R1V在訓練過程中創新性地采用了三階段方法，使得文本端強大的推理能力得以高效遷移至視覺任務上，具體訓練流程如下：

1、STEP1 視覺語言表征的初始對齊

訓練時首先使用輕量級的視覺適配器（MLP）連接視覺編碼器（ViT）與語言模型，在已有的200萬條常規多模態數據上進行訓練，使得MLP初步學習如何將圖像特征映射至語言空間。這一階段僅訓練MLP適配器，視覺編碼器和語言模型參數保持凍結不變，快速、高效地實現視覺與語言表征的初步對齊。

2、STEP2 推理能力遷移

利用第一階段訓練好的MLP適配器，直接將視覺編碼器與原始的強推理語言模型（R1-distilled-Qwen-32B）連接，形成Skywork-R1V視覺推理模型。雖然此時語言模型的參數發生了改變，但得益于語言模型架構的高度相似性和MLP的泛化能力，重新組裝后的模型已能表現出一定的視覺推理能力，初始性能即達到業內同等規模的先進水平。

3、STEP3 視覺與文本模態精準對齊

最后，采用創新的“混合優化框架”，進一步精準對齊視覺和語言模態的表征。這一階段分為兩大步驟：迭代監督微調（Iterative SFT）和群組相對策略優化（GRPO）強化學習。在整個訓練過程中，Skywork-R1V還創新性地引入了“自適應長度思維鏈蒸餾技術”，動態優化推理鏈長度，防止模型過度思考，從而提升了推理效率和質量。

通過以上的訓練策略，Skywork R1V在視覺推理任務上取得突破性進展，并在多個公開評測基準中達到或超過了現有領先模型的性能。

此外，Skywork團隊多模態理解模型也在進行"全面貫通"的進化，將視覺多模態擴展為全模態模型，引入語音理解能力。當前，全模態模型往往受限于特定領域不僅需要獨立訓練多個專業模型，更面臨跨模態協同的算力挑戰。

基于R1V模型，Skywork團隊設計了一種靈活在R1V中擴展語音理解模態的方式，從而實現一個全模態思考大模型，該在單個模型中同時實現圖像、視頻、語音的全模態理解能力，并在語音和視覺理解評測中斬獲多項SOTA成績。我們將陸續公布測評成績、開源全模態思考大模型。

持續開源回饋社區，堅定邁向AGI

2023年10月以來，昆侖萬維陸續開源了百億級大語言模型「天工」Skywork-13B系列、數字智能體全流程研發工具包AgentStudio、4000億參數MoE超級模型、2千億稀疏大模型Skywork-MoE、推理模型Skywork-o1-Open等。2025年2月18日，昆侖萬維同時將SOTA級別的SkyReels-V1和SkyReels-A1進行開源。

在語言生成模型、AI Agent、推理模型、視頻生成模型等相繼開源、多點開花之后，我們正式開源Skywork R1V多模態推理模型，在文本-視覺多模態推理方向再下一城，成為中國第一家開源多模態思考模型的企業。

中國企業過去一年在AI領域的開源貢獻，讓全世界AI從業者和開發者享受到了技術共享帶來的普惠發展。DeepSeek的開源為AI行業提供了新的發展范本，多項開源成果顯著降低了AI技術的應用門檻、促進全球AI技術的民主化。昆侖萬維作為中國AI領軍企業，我們將持續開源優秀的模型、數據集等，共建開發者生態、加速技術創新、降低應用門檻、推動技術平權和AI行業發展。

此文內容為企業供稿，僅供參考。

上一篇： 甜啦啦獲評2025年度特色茶飲十大品牌
下一篇： 百利好：國際金價持續大漲后續走勢會怎樣？