国产无遮挡色视频免费视频-国产五月色婷婷综合-国产五月婷婷-国产午夜不卡-曰批免费视频播放在线看片二-曰韩一级毛片

更多精彩 >

昆侖萬維開源R1V視覺思維鏈推理模型,開啟多模態(tài)思考新時代

2025-03-18 16:09:22   來源:財經(jīng)網(wǎng)  作者: 

摘要:3月18日,昆侖萬維正式開源首款工業(yè)界多模態(tài)思維鏈推理模型SkyworkR1V,即日起開源模型權(quán)重和技術(shù)報告。

3月18日,昆侖萬維正式開源首款工業(yè)界多模態(tài)思維鏈推理模型Skywork R1V,即日起開源模型權(quán)重和技術(shù)報告。

1

開啟多模態(tài)思考新時代

繼OpenAI o1和DeepSeek-R1在全球掀起長思考模型熱潮后,大模型進(jìn)入新技術(shù)范式。昆侖萬維秉持實現(xiàn) AGI 的初心,積極貢獻(xiàn)開源社區(qū),正式開源Skywork R1V多模態(tài)視覺推理模型,成為中國第一個開源「多模態(tài)推理模型」的企業(yè)。

什么是視覺推理模型?

視覺推理模型是一類能夠解決需要思維鏈(Chain-of-Thought)的視覺任務(wù)的模型,通過對視覺信息進(jìn)行多步邏輯推理與分析,逐步推導(dǎo)出最終結(jié)果。這種模型不僅關(guān)注圖像內(nèi)容的識別與理解,更強(qiáng)調(diào)通過層層遞進(jìn)的推理路徑,實現(xiàn)復(fù)雜視覺問題的精準(zhǔn)求解,例如視覺邏輯推理、視覺數(shù)學(xué)問題、圖像中的科學(xué)現(xiàn)象分析、醫(yī)學(xué)影像的診斷推理等,從而有效拓展了視覺大模型的應(yīng)用邊界。

無論是日常繁瑣的工作任務(wù)、復(fù)雜的數(shù)據(jù)分析、難以解答的學(xué)術(shù)問題,還是前所未見的陌生場景,都可以交給Skywork R1V進(jìn)行高效處理。

快速體驗下來,R1V的視覺理解和推理能力雙雙在線。這樣的模型能力是如何煉成的呢?

強(qiáng)大推理能力,刷新跨模態(tài)任務(wù)新高度

在Reasoning推理能力方面,Skywork R1V實現(xiàn)了模型的頂尖邏輯推理與數(shù)學(xué)分析能力。在權(quán)威的MATH500和AIME基準(zhǔn)測試中,Skywork R1V分別取得了94.0和72.0的高分,明顯領(lǐng)先于行業(yè)內(nèi)眾多主流模型。Skywork R1V在純文本復(fù)雜推理任務(wù)中展現(xiàn)出卓越性能,使其在邏輯推理和數(shù)學(xué)問題求解領(lǐng)域展現(xiàn)出人類專家級別的水準(zhǔn)。

在Vision視覺理解能力方面,Skywork R1V成功地將其強(qiáng)大的文本推理與思維鏈推導(dǎo)能力高效遷移到視覺任務(wù)中。憑借創(chuàng)新的跨模態(tài)遷移技術(shù)與推理優(yōu)化框架,Skywork R1V能夠高效解決需要多步視覺推理的問題,在MMMU與MathVista等視覺推理基準(zhǔn)中分別取得了69和67.5的優(yōu)異成績。這些結(jié)果不僅明顯超越了多個近似大小的開源競爭模型,更達(dá)到與規(guī)模更大的閉源模型媲美的水準(zhǔn),充分證實了Skywork R1V在需要視覺思維鏈推理的跨模態(tài)任務(wù)中的領(lǐng)先優(yōu)勢。

Skywork R1V通過視覺與文本能力的深度融合和視覺思維鏈推理能力的突破,推動了多模態(tài)推理模型的進(jìn)一步發(fā)展,標(biāo)志著人工智能領(lǐng)域的又一重大進(jìn)步。

目前,Skywork R1V已全面開源,期望助力全球范圍內(nèi)更多視覺推理任務(wù)的學(xué)術(shù)研究與產(chǎn)業(yè)應(yīng)用探索。

和開源同規(guī)模或更大規(guī)模模型的對比,Skywork R1V 38B體現(xiàn)出行業(yè)顯著優(yōu)異的推理能力,以及領(lǐng)先的多模態(tài)視覺理解能力。如下圖,與開源同規(guī)模或更大規(guī)模模型的對比:

2

與閉源頭部模型性能對比,R1V 38B模型性能媲美甚至超越更大開源模型以及主流閉源模型。如下圖,與開源大尺寸模型與閉源專有模型的對比:

3

三大核心技術(shù)創(chuàng)新,引領(lǐng)視覺推理新突破

Skywork R1V能夠達(dá)到當(dāng)前的性能高度,依賴于以下三項關(guān)鍵技術(shù)創(chuàng)新:

1、文本推理能力的多模態(tài)高效遷移

昆侖萬維團(tuán)隊首次提出利用Skywork-VL的視覺投影器,無需重新訓(xùn)練語言模型和視覺編碼器,即可實現(xiàn)文本推理能力的高效遷移到視覺任務(wù),同時保留了優(yōu)秀的原本推理文本能力(AIME 72.0,MATH500 94.0)。

2、多模態(tài)混合式訓(xùn)練(IterativeSFT+GRPO)

通過結(jié)合迭代監(jiān)督微調(diào)(Iterative SFT)和GRPO強(qiáng)化學(xué)習(xí),分階段對齊視覺-文本表征,實現(xiàn)跨模態(tài)任務(wù)的高效融合,極大提升跨模態(tài)任務(wù)的表現(xiàn)。推動模型在MMMU基準(zhǔn)達(dá)到69分的能力,同時在MathVista達(dá)到67.5分,與更大規(guī)模的閉源模型基本持平。通過反復(fù)迭代地利用高質(zhì)量數(shù)據(jù)與高難度數(shù)據(jù)的組合,實現(xiàn)模型持續(xù)的知識鞏固與錯誤糾正,顯著提升了多模態(tài)推理的精度與泛化性能。

圖丨多模態(tài)混合式訓(xùn)練(來源:Skywork R1V技術(shù)報告)

圖丨多模態(tài)混合式訓(xùn)練(來源:Skywork R1V技術(shù)報告)

3、自適應(yīng)長度思維鏈蒸餾

團(tuán)隊提出了一種基于視覺-文本復(fù)雜度的自適應(yīng)推理鏈長度控制機(jī)制,動態(tài)優(yōu)化模型推理過程,避免模型“過度思考”,提升推理效率。結(jié)合多階段自蒸餾策略,進(jìn)一步提升了數(shù)據(jù)生成與推理過程的質(zhì)量,促進(jìn)了模型在復(fù)雜多模態(tài)任務(wù)中的表現(xiàn)。

圖丨自適應(yīng)長度思維鏈蒸餾(來源:Skywork R1V技術(shù)報告)

圖丨自適應(yīng)長度思維鏈蒸餾(來源:Skywork R1V技術(shù)報告)

Skywork R1V在訓(xùn)練過程中創(chuàng)新性地采用了三階段方法,使得文本端強(qiáng)大的推理能力得以高效遷移至視覺任務(wù)上,具體訓(xùn)練流程如下:

1、STEP1 視覺語言表征的初始對齊

訓(xùn)練時首先使用輕量級的視覺適配器(MLP)連接視覺編碼器(ViT)與語言模型,在已有的200萬條常規(guī)多模態(tài)數(shù)據(jù)上進(jìn)行訓(xùn)練,使得MLP初步學(xué)習(xí)如何將圖像特征映射至語言空間。這一階段僅訓(xùn)練MLP適配器,視覺編碼器和語言模型參數(shù)保持凍結(jié)不變,快速、高效地實現(xiàn)視覺與語言表征的初步對齊。

2、STEP2 推理能力遷移

利用第一階段訓(xùn)練好的MLP適配器,直接將視覺編碼器與原始的強(qiáng)推理語言模型(R1-distilled-Qwen-32B)連接,形成Skywork-R1V視覺推理模型。雖然此時語言模型的參數(shù)發(fā)生了改變,但得益于語言模型架構(gòu)的高度相似性和MLP的泛化能力,重新組裝后的模型已能表現(xiàn)出一定的視覺推理能力,初始性能即達(dá)到業(yè)內(nèi)同等規(guī)模的先進(jìn)水平。

3、STEP3 視覺與文本模態(tài)精準(zhǔn)對齊

最后,采用創(chuàng)新的“混合優(yōu)化框架”,進(jìn)一步精準(zhǔn)對齊視覺和語言模態(tài)的表征。這一階段分為兩大步驟:迭代監(jiān)督微調(diào)(Iterative SFT)和群組相對策略優(yōu)化(GRPO)強(qiáng)化學(xué)習(xí)。在整個訓(xùn)練過程中,Skywork-R1V還創(chuàng)新性地引入了“自適應(yīng)長度思維鏈蒸餾技術(shù)”,動態(tài)優(yōu)化推理鏈長度,防止模型過度思考,從而提升了推理效率和質(zhì)量。

通過以上的訓(xùn)練策略,Skywork R1V在視覺推理任務(wù)上取得突破性進(jìn)展,并在多個公開評測基準(zhǔn)中達(dá)到或超過了現(xiàn)有領(lǐng)先模型的性能。

此外,Skywork團(tuán)隊多模態(tài)理解模型也在進(jìn)行"全面貫通"的進(jìn)化,將視覺多模態(tài)擴(kuò)展為全模態(tài)模型,引入語音理解能力。當(dāng)前,全模態(tài)模型往往受限于特定領(lǐng)域不僅需要獨立訓(xùn)練多個專業(yè)模型,更面臨跨模態(tài)協(xié)同的算力挑戰(zhàn)。

基于R1V模型,Skywork團(tuán)隊設(shè)計了一種靈活在R1V中擴(kuò)展語音理解模態(tài)的方式,從而實現(xiàn)一個全模態(tài)思考大模型,該在單個模型中同時實現(xiàn)圖像、視頻、語音的全模態(tài)理解能力,并在語音和視覺理解評測中斬獲多項SOTA成績。我們將陸續(xù)公布測評成績、開源全模態(tài)思考大模型。

持續(xù)開源回饋社區(qū),堅定邁向AGI

2023年10月以來,昆侖萬維陸續(xù)開源了百億級大語言模型「天工」Skywork-13B系列、數(shù)字智能體全流程研發(fā)工具包AgentStudio、4000億參數(shù)MoE超級模型、2千億稀疏大模型Skywork-MoE、推理模型Skywork-o1-Open等。2025年2月18日,昆侖萬維同時將SOTA級別的SkyReels-V1和SkyReels-A1進(jìn)行開源。

在語言生成模型、AI Agent、推理模型、視頻生成模型等相繼開源、多點開花之后,我們正式開源Skywork R1V多模態(tài)推理模型,在文本-視覺多模態(tài)推理方向再下一城,成為中國第一家開源多模態(tài)思考模型的企業(yè)。

中國企業(yè)過去一年在AI領(lǐng)域的開源貢獻(xiàn),讓全世界AI從業(yè)者和開發(fā)者享受到了技術(shù)共享帶來的普惠發(fā)展。DeepSeek的開源為AI行業(yè)提供了新的發(fā)展范本,多項開源成果顯著降低了AI技術(shù)的應(yīng)用門檻、促進(jìn)全球AI技術(shù)的民主化。昆侖萬維作為中國AI領(lǐng)軍企業(yè),我們將持續(xù)開源優(yōu)秀的模型、數(shù)據(jù)集等,共建開發(fā)者生態(tài)、加速技術(shù)創(chuàng)新、降低應(yīng)用門檻、推動技術(shù)平權(quán)和AI行業(yè)發(fā)展。

此文內(nèi)容為企業(yè)供稿,僅供參考。


猜你喜歡

昆侖萬維開源面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1,重塑AI短劇行業(yè)格局

昆侖萬維創(chuàng)新創(chuàng)業(yè)

2月18日,昆侖萬維開源中國首個面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1、中國首個SOT...

2025-02-18

昆侖萬維發(fā)布Matrix-Zero世界模型,開啟空間智能新時代

昆侖萬維創(chuàng)新創(chuàng)業(yè)

2月14日,昆侖萬維正式推出 Matrix-Zero世界模型,成為中國第一家同時推出3D場景生成和可...

2025-02-14

昆侖萬維「天工大模型4.0」o1版(Skywork o1)正式啟動邀請測試

昆侖萬維智能+

今天,昆侖萬維正式推出具有復(fù)雜思考推理能力的系列模型——“天工大模型4.0” o1版(Skywork...

2024-11-27

昆侖萬維推出“天工大模型4”4o版(Skywork 4o)

昆侖萬維智能+

從「天工大模型1.0」的研發(fā)到「天工大模型3.0」的發(fā)布,再到今天的「天工大模型4.0」階段,我們堅...

2024-11-20

四川叮當(dāng)智慧藥房(東四橫街店)接通醫(yī)保在線支付功能:手機(jī)買藥也能使用醫(yī)保支付

上市公司叮當(dāng)健康

近日,四川叮當(dāng)智慧藥房(錦江區(qū)東四橫街店)正式開通在線醫(yī)保(個賬)支付服務(wù),其余醫(yī)保門店有望在相關(guān)部...

2025-04-02

新茶飲速報:霸王茶姬上線"碰一下",加速沖刺IPO

創(chuàng)新創(chuàng)業(yè)霸王茶姬

3月26日凌晨,新茶飲賽道傳來重磅消息——霸王茶姬正式向美國證券交易委員會(SEC)提交招股文件,擬...

2025-04-02

上海投資的eVTOL主機(jī)廠為何是時的科技?

創(chuàng)新創(chuàng)業(yè)eVTOL主機(jī)廠

2025年3月,上海。隨著全球低空經(jīng)濟(jì)產(chǎn)業(yè)進(jìn)入爆發(fā)期,上海作為中國科技創(chuàng)新的前沿陣地,正以政策、資本...

2025-04-02

閃回科技攜手青碳行創(chuàng)新數(shù)碼產(chǎn)品回收體驗,引領(lǐng)綠色低碳生活

創(chuàng)新創(chuàng)業(yè)閃回科技

即日起,用戶登錄青碳行APP進(jìn)入“舊機(jī)回收”專區(qū),授權(quán)接入閃回收平臺后,可對手機(jī)、平板、電腦、智能手...

2025-04-02

原創(chuàng)

凈利潤暴跌80%,白酒巨頭徹底擺爛?

消費白酒

冰火兩重天,白酒業(yè)績“醉”了

2025-04-02

遠(yuǎn)大智能博林特電梯:國內(nèi)國際雙布局,攜手共進(jìn)啟新程

上市公司遠(yuǎn)大智能

2025年3月,遠(yuǎn)大智能工業(yè)集團(tuán)博林特電梯在國內(nèi)國際市場雙線發(fā)力,積極拓展業(yè)務(wù)版圖,與合作伙伴共繪發(fā)...

2025-04-01

原創(chuàng)

中國航天科技集團(tuán)成立資產(chǎn)管理公司

中國航天科技集團(tuán)

【#中國航天科技集團(tuán)成立資產(chǎn)管理公司# 注冊資本8億】

2025-04-01

原創(chuàng)

中興通訊在上海成立智能終端公司

中興通訊

【#中興通訊在上海成立智能終端公司# 注冊資本10億】

2025-04-01

原創(chuàng)

摩根士丹利基金管理公司增資至9.5億

摩根士丹利基金管理公司

【#摩根士丹利基金管理公司增資至9.5億# 增幅約58%】

2025-04-01

投資家網(wǎng)(m.51baobao.cn)是國內(nèi)領(lǐng)先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務(wù)平臺。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務(wù),包括行業(yè)媒體、智庫服務(wù)、會議服務(wù)及生態(tài)服務(wù)。長按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。

分化浪潮中的堅守與突破 | 第19屆中國投資年會,即將啟幕

分化浪潮中的堅守與突破 | 第19屆中國投資年會,即將啟幕

在時代的浩渺長河中,“分化”宛如一條隱匿的脈絡(luò),貫穿于萬物的生長、發(fā)展與變遷。從生命的進(jìn)化到文明的演...

第二屆中匈可再生能源、新材料商業(yè)投資峰會將盛大啟幕

第二屆中匈可再生能源、新材料商業(yè)投資峰會將盛大啟幕

第二屆中匈可再生能源、新材料商業(yè)投資峰會于2025年4月9日在匈牙利布達(dá)佩斯盛大啟幕。

雕刻耐心|第18屆中國投資年會·有限合伙人峰會在滬召開

雕刻耐心|第18屆中國投資年會·有限合伙人峰會在滬召開

“中國投資年會”作為私募股權(quán)行業(yè)的年度盛會,已成功舉辦了18屆,吸引了全國VC/PE領(lǐng)域從業(yè)者的廣泛...

主站蜘蛛池模板: 亚洲在线观看免费 | 无毛片 | 美国欧美一级毛片 | 绝对真实偷拍盗摄高清在线视频 | 久久欧美久久欧美精品 | 99综合在线| 色噜噜国产精品视频一区二区 | 国产成人一区在线播放 | 国产高清免费不卡观看 | 成人午夜爽爽爽免费视频 | 亚洲精品在线网 | 欧美成人影院免费观 | 成 人 a v黄 色 | 一区二区三区在线 | 日本 | 欧美一级毛片香蕉网 | 国产免费一区二区三区在线观看 | 美女一级视频 | 亚洲国产日韩综合久久精品 | 国产欧美一区二区三区视频在线观看 | 欧美.成人.综合在线 | 视频综合网 | 国产精品久久久久久影视 | 久久福利资源网站免费看 | 久久久久久久久久久大尺度免费视频 | 成人欧美一区二区三区在线观看 | 国产精品久久久久9999小说 | 爱综合| 日韩一区二区三区在线观看 | 久久九九国产精品怡红院 | 草草视频免费观看 | 久久99爰这里有精品国产 | 在线精品免费观看综合 | 精品厕拍| 亚洲一区中文字幕在线 | 91欧美在线| 久久久亚洲精品国产 | 全国男人的天堂天堂网 | 99久久久免费精品免费 | 亚洲精品中文字幕在线 | 国产理论视频在线观看 | 成人看片黄a免费看视频 |