摘要:今天,昆侖萬維正式推出具有復(fù)雜思考推理能力的系列模型——“天工大模型4.0”o1版(Skyworko1)。
今天,昆侖萬維正式推出具有復(fù)雜思考推理能力的系列模型——“天工大模型4.0” o1版(Skywork o1)。
Skywork o1是由昆侖萬維集團(tuán)發(fā)布的具有慢思考推理能力的系列模型。這是國內(nèi)第一款中文邏輯推理能力的o1模型。不同于現(xiàn)有的復(fù)現(xiàn)OpenAI o1模型的工作,Skywork o1不僅在模型輸出上內(nèi)生了思考、計(jì)劃、反思等能力,同時(shí),該開源模型在標(biāo)準(zhǔn)評(píng)測集上,對(duì)比普通模型推理能力大幅上升,真正讓模型擁有了思考和反思帶來的推理能力的提升。團(tuán)隊(duì)復(fù)現(xiàn)o1的技術(shù)路線,使得初始推理能力較差的基座模型在基準(zhǔn)測試集上成為生態(tài)位SOTA。
此次發(fā)布的Skywork o1包括三款模型,既有回饋開源社區(qū)的開放版本,也有能力更強(qiáng)的專用版本:
?Skywork o1 Open:一款基于Llama 3.1 8B的開源模型,該模型在同生態(tài)位開源模型中評(píng)測指標(biāo)大幅提升達(dá)到SOTA水平,并解鎖了許多輕量級(jí)模型無法解決的復(fù)雜數(shù)學(xué)任務(wù)。該模型的發(fā)布也將幫助加速國內(nèi)開源社區(qū)復(fù)現(xiàn)o1的進(jìn)程。
?Skywork o1 Lite:該模型具備完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在數(shù)學(xué)、中文邏輯和推理類問題上表現(xiàn)突出。
?Skywork o1 Preview:這款模型是本次完整版的推理模型,搭配自研的線上推理算法,對(duì)比Skywork o1 Lite有著更多樣和“深度”的思考過程,更完善和更高質(zhì)量的推理。
其中,我們開源的Skywork o1 Open,在各項(xiàng)數(shù)學(xué)和代碼指標(biāo)上均有大幅提高,將Llama-3.1-8B的性能拉到同生態(tài)位SOTA(超越Qwen-2.5-7B instruct)。同時(shí),8B的Skywork o1 Open也解鎖了很多較大量級(jí)模型,如GPT 4o,無法完成的數(shù)學(xué)推理任務(wù)(如24點(diǎn)計(jì)算)。這也為推理模型在輕量級(jí)設(shè)備上部署提供了可能性。
同時(shí),我們也將開源兩個(gè)推理任務(wù)的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前開源的Skywork-Reward-Model僅對(duì)整個(gè)模型回答進(jìn)行打分,Skywork o1 Open-PRM能給模型回答中的每個(gè)步驟進(jìn)行打分。
對(duì)比開源社區(qū)現(xiàn)有的PRM,Skywork o1 Open-PRM-1.5B能達(dá)到開源社區(qū)8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同時(shí)在大部分benchamrk上接近/超過10倍量級(jí)的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款適配代碼類任務(wù)的開源PRM。下面表格為以Skywork-o1-Open-8B作為基礎(chǔ)模型,使用不同PRM在數(shù)學(xué)和代碼評(píng)測集上的評(píng)估結(jié)果。
除Skywork-o1-Open-PRM外,其他開源PRM均未針對(duì)代碼類任務(wù)進(jìn)行專門優(yōu)化,故不進(jìn)行代碼任務(wù)的相關(guān)對(duì)比。
詳細(xì)技術(shù)報(bào)告也將在不久后發(fā)布。目前模型和相關(guān)介紹在Huggingface開源。
強(qiáng)推理以及自我反思的能力是如何練成的?
Skywork o1在邏輯推理任務(wù)上性能的大幅提升得益于天工三階段自研的訓(xùn)練方案:
?推理反思能力訓(xùn)練:通過自研的多智能體體系構(gòu)造高質(zhì)量的分步思考,反思和驗(yàn)證數(shù)據(jù)。通過高質(zhì)量的、多樣性的長思考數(shù)據(jù)對(duì)基座模型進(jìn)行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)。
?推理能力強(qiáng)化學(xué)習(xí):團(tuán)隊(duì)研發(fā)了最新的適配分步推理強(qiáng)化的Skywork o1 Process Reward Model(PRM)。實(shí)驗(yàn)證明Skywork-PRM可有效的捕捉到復(fù)雜推理任務(wù)中間步驟和思考步驟對(duì)最終答案的影響。結(jié)合自研分步推理強(qiáng)化算法進(jìn)一步加強(qiáng)模型推理和思考能力。
?推理planning:基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實(shí)現(xiàn)和公開。Q*算法落地也大大提升了模型線上推理能力。
亮點(diǎn)功能與實(shí)測
Skywork o1模型具有以下能力和亮點(diǎn)功能:
?模型思考和規(guī)劃能力
?模型自我反思能力
?模型自我驗(yàn)證能力
相較于此前(長文本任務(wù))大模型,無論是常識(shí)推理問題、邏輯推理問題、數(shù)學(xué)推理問題、倫理決策問題、還是“弱智”(類似腦筋急轉(zhuǎn)彎)邏輯陷阱問題等,Skywork o1都處理的游刃有余。整體來說,Skywork o1 Lite和Skywork o1 Preview線上版本在復(fù)雜問題分析、思考反思過程、輸出答案質(zhì)量上均有大幅提升。
進(jìn)階版的復(fù)雜人類思考能力的解鎖也將進(jìn)一步在垂類領(lǐng)域增強(qiáng)大模型的應(yīng)用,例如:
?中英文常見邏輯推理和復(fù)雜任務(wù),如數(shù)學(xué)/代碼類任務(wù),科學(xué)研究
?高質(zhì)量內(nèi)容生成,如創(chuàng)意寫作,行業(yè)報(bào)告寫作
?深度搜索,解鎖復(fù)雜搜索任務(wù)的拆解
2024年以來,昆侖萬維天工AI持續(xù)進(jìn)化,陸續(xù)發(fā)布了“天工2.0”、“天工3.0”、“天工大模型4.0”4o版——Skywork 4o,以及今天正式發(fā)布的“天工大模型4.0” o1版(Skywork o1),不僅是我們貫徹“All in AGI 與 AIGC” 戰(zhàn)略的重要舉措,更是我們構(gòu)建AI技術(shù)棧的重要一步。我們將秉持“實(shí)現(xiàn)通用人工智能,讓每個(gè)人更好地塑造和表達(dá)自我”的使命,從模型層、應(yīng)用層等全方位、多維度來構(gòu)建公司技術(shù)競爭力和生態(tài)矩陣。
測試地址
“天工大模型4.0” o1版(Skywork o1)開啟測試
3月18日,昆侖萬維正式開源首款工業(yè)界多模態(tài)思維鏈推理模型Skywork R1V,即日起開源模型權(quán)重...
2月18日,昆侖萬維開源中國首個(gè)面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1、中國首個(gè)SOT...
2月14日,昆侖萬維正式推出 Matrix-Zero世界模型,成為中國第一家同時(shí)推出3D場景生成和可...
從「天工大模型1.0」的研發(fā)到「天工大模型3.0」的發(fā)布,再到今天的「天工大模型4.0」階段,我們堅(jiān)...
美聯(lián)儲(chǔ)將于周三宣布其利率決策,市場普遍預(yù)期其將繼續(xù)維持4.25%-4.5%的基準(zhǔn)利率區(qū)間不變。
2025年3月18日,中國利郎有限公司公布2024年全年業(yè)績:集團(tuán)全年收入同比增長3.0%至人民幣3...
近日,*ST中潤(000506,全稱為“中潤資源股份有限公司”,以下簡稱“中潤資源”)發(fā)布公告稱,擬...
2025年3月18日,*ST中潤(000506,全稱為“中潤資源股份有限公司”,以下簡稱“中潤資源”...
2025年春節(jié)期間,譽(yù)衡藥業(yè)管理層迎來突變。
第七屆中國國際進(jìn)口博覽會(huì)(以下簡稱“進(jìn)博會(huì)”)在上海國家會(huì)展中心拉開帷幕。
中糧餐飲2025供應(yīng)鏈生態(tài)共創(chuàng)大會(huì)將于3月21日在海口拉開帷幕。
一扇門,不僅守護(hù)著家中的安寧,更是生活品味與美學(xué)格調(diào)的呈現(xiàn)。
3月19日,海爾智家在上海世博中心舉行以“AI生活,智慧萬家”為主題的生態(tài)大會(huì)。
針對(duì)消費(fèi)者權(quán)益保障問題,叮當(dāng)快藥還設(shè)立了95028投訴熱線,開通了快速通道,售后客服團(tuán)隊(duì)24小時(shí)在線...
投資家網(wǎng)(m.51baobao.cn)是國內(nèi)領(lǐng)先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務(wù)平臺(tái)。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務(wù),包括行業(yè)媒體、智庫服務(wù)、會(huì)議服務(wù)及生態(tài)服務(wù)。長按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動(dòng),趕快行動(dòng)吧。
千尋位置B輪再攬10億加碼北斗時(shí)空智能,低空經(jīng)濟(jì)成布局重鎮(zhèn)