摘要:近日,靈初智能發(fā)布首個(gè)基于強(qiáng)化學(xué)習(xí)(RL)的端到端具身模型PsiR0。
近日,靈初智能發(fā)布首個(gè)基于強(qiáng)化學(xué)習(xí)(RL)的端到端具身模型Psi R0。該模型支持雙靈巧手協(xié)同進(jìn)行復(fù)雜操作,將多個(gè)技能串聯(lián)混訓(xùn),生成具有推理能力的智能體,從而完成并閉環(huán)長程靈巧操作任務(wù)。并且,Psi R0還可以實(shí)現(xiàn)跨物品、跨場景級別的泛化。
真實(shí)世界中,人類生活近乎100%的場景涉及抓握、轉(zhuǎn)動(dòng)、捏取、觸摸等操作,而其中超過 90% 的操作屬于多技能融合的長程任務(wù)。然而在當(dāng)下具身業(yè)界,多局限于Pick and Place操作的泛化,一旦任務(wù)復(fù)雜化、長程化,泛化性和成功率則大大降低,無法兼顧——這也是具身智能只能存在于demo,遲遲無法在真實(shí)場景中落地的核心原因!機(jī)器人如何突破Pick and Place、脫離遙操作,擁有自主完成長程靈巧操作的能力,實(shí)現(xiàn)真正類人的場景級任務(wù)閉環(huán),仍是具身智能亟待攻克的難題。
RL是長程靈巧操作實(shí)現(xiàn)任務(wù)閉環(huán)的唯一解
在真實(shí)世界中,機(jī)器人解決長程任務(wù)必須通過Learning-based模式,目前主流技術(shù)路徑有兩種:模仿學(xué)習(xí)(IL)和強(qiáng)化學(xué)習(xí)(RL)。
純模仿學(xué)習(xí)的泛化能力受限于示范行為的多樣性和質(zhì)量。加之長程任務(wù)步驟較多,更容易出現(xiàn)分布漂移問題,使得 IL實(shí)現(xiàn)長程任務(wù)的泛化性能較差,魯棒性也較弱。
基于RL的Psi R0 模型,使用海量仿真數(shù)據(jù)高效訓(xùn)練出雙手操作的智能體,并通過雙向訓(xùn)練框架串聯(lián)多技能,在業(yè)界率先完成開放環(huán)境中的長程任務(wù),具備較強(qiáng)的泛化能力與較高的魯棒性。這一技能訓(xùn)練框架從物體時(shí)空軌跡抽象出關(guān)鍵信息以構(gòu)建通用目標(biāo)函數(shù),從而解決獎(jiǎng)勵(lì)函數(shù)難設(shè)計(jì)的問題。在后訓(xùn)練階段,通過少量高質(zhì)量真機(jī)數(shù)據(jù)對齊,進(jìn)一步提升長程任務(wù)的成功率。除此之外,雙向訓(xùn)練框架中的轉(zhuǎn)移可行性函數(shù)發(fā)揮著重要作用,它能夠微調(diào)技能以提高串聯(lián)的成功率與泛化性,同時(shí)賦予模型自主切換技能的能力,使其在遭遇操作失敗時(shí)能夠迅速調(diào)整策略,確保高成功率。
Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation
Yuanpei Chen, Chen Wang*, Li Fei-Fei, C. Karen Liu
Psi R0 模型表現(xiàn)出的靈巧性、高成功率以及泛化性,充分展示了其大腦的任務(wù)拆解與規(guī)劃能力,以及小腦的靈巧操作、泛化和魯棒能力。這一模型的誕生,突破了當(dāng)前具身機(jī)器人在商業(yè)化應(yīng)用進(jìn)程中所面臨的核心技術(shù)瓶頸,為整個(gè)行業(yè)的未來發(fā)展開拓出一片全新且廣闊的天地,有望引領(lǐng)具身機(jī)器人邁向全新的發(fā)展階段。
從理論概念到有效落地,Psi R0解答了具身智能商業(yè)化的終極命題
長程任務(wù)靈巧操作場景無處不在,從工廠產(chǎn)線組裝,到服務(wù)業(yè)的揀貨打包,到家居環(huán)境的清潔整理。
Psi R0模型的智能體展示了其強(qiáng)大的場景落地能力。以電商場景為例,商品打包是典型的長程任務(wù)作業(yè),需對上萬件商品進(jìn)行抓取,掃碼,放置,塑料袋打結(jié)等多個(gè)操作。Psi R0能夠使用雙靈巧手流暢地完成這一系列動(dòng)作(此系列動(dòng)作在客戶現(xiàn)場可以取代一個(gè)完整工位),成為首個(gè)基于強(qiáng)化學(xué)習(xí)訓(xùn)練完成長程靈巧操作任務(wù)的具身機(jī)器人。
視頻中,機(jī)器人系統(tǒng)接收到的指令僅僅是“將桌面的物體打包”,而這一看似簡單的任務(wù)背后,是靈初智能極具創(chuàng)新性的端到端技術(shù)架構(gòu)在發(fā)揮作用。當(dāng)指令下達(dá)后,上層視覺語言模型(VLM)對桌上混亂擺放的商品進(jìn)行分析,編排出商品的操作順序,下層操作模型拆解出單個(gè)商品的子任務(wù),如抓取、放置、掃碼、打包等,智能體依次執(zhí)行。
抓取環(huán)節(jié),面對隨意擺放、形狀各異的商品,模型必須具備高度的泛化能力,才能成功完成商品的逐個(gè)抓取。視頻中展示的品客薯片,Psi R0 僅僅依靠 20 條真機(jī)數(shù)據(jù),模型就成功實(shí)現(xiàn)了99%+的成功抓取率。
掃碼環(huán)節(jié)更是考驗(yàn)機(jī)器人的靈巧操作水平,需要雙手高度精細(xì)地協(xié)調(diào)彼此相對位置,以確保掃碼槍與商品條碼能夠精準(zhǔn)對齊,任何細(xì)微偏差都可能導(dǎo)致掃碼失敗。此時(shí),RL訓(xùn)練策略為雙手雙臂構(gòu)成的高自由度復(fù)雜系統(tǒng)提供了可靠的實(shí)時(shí)閉環(huán)控制,保障掃碼動(dòng)作精準(zhǔn)流暢地完成。
打包環(huán)節(jié),需要雙手協(xié)調(diào)完成對塑料袋的靈巧操作。在動(dòng)態(tài)打包的過程中,塑料袋的形狀會(huì)隨動(dòng)作變化,需要實(shí)時(shí)調(diào)整操作。為了提升機(jī)器人對柔性物體的操作適應(yīng)能力,Psi R0在仿真環(huán)境中模擬多種柔性物體的操作場景,同時(shí)結(jié)合真機(jī)數(shù)據(jù)進(jìn)行微調(diào)優(yōu)化。甚至在被打斷、干擾的情況下,也能自適應(yīng)調(diào)整策略,重新進(jìn)行打包動(dòng)作。
靈初智能Psi R0模型是具身智能遞歸性成長的第一步。具身智能將遵從從簡單到復(fù)雜、從保護(hù)到協(xié)同的漸進(jìn)式演進(jìn)。在早期,小腦是與真實(shí)世界交互的物理基礎(chǔ),其設(shè)計(jì)需結(jié)合領(lǐng)域知識,滿足環(huán)境中的約束條件,同時(shí)具備容錯(cuò)性,支持大腦學(xué)習(xí)與優(yōu)化。Psi R0模型發(fā)揮RL算法探索的優(yōu)勢,支持小腦的快速迭代,生成支持長程靈巧操作的智能體。通過靈巧操作轉(zhuǎn)動(dòng)數(shù)據(jù)飛輪,實(shí)現(xiàn)從小腦Action到大腦Cognition的閉環(huán)回饋,驅(qū)動(dòng)大腦認(rèn)知能力優(yōu)化,模型持續(xù)迭代,形成小腦協(xié)同+大腦優(yōu)化的具身智能“神經(jīng)回路”,使端到端模型完成從簡單到復(fù)雜、從保護(hù)到協(xié)同的漸進(jìn)式演進(jìn)。
近期,國際原油市場經(jīng)歷了一輪劇烈波動(dòng),為投資者帶來挑了戰(zhàn)與機(jī)遇并存的市場環(huán)境。
2025年6月20日,上海萊士宣布完成對南岳生物100%股權(quán)的收購,并完成了工商變更登記,交易金額約...
當(dāng)前市場呈現(xiàn)出明顯的兩極分化:一方面,中東事件的近期降級消除了市場的恐懼溢價(jià);另一方面,潛在的市場基...
今日,在第56個(gè)"世界地球日"之際,安踏集團(tuán)連續(xù)第10年對外發(fā)布《2024年度ESG(環(huán)境、社會(huì)及管...
在快消行業(yè),項(xiàng)目方案的執(zhí)行效率與精準(zhǔn)度直接關(guān)系著市場活動(dòng)的成敗。
在這個(gè)智能化趨勢不斷加快的時(shí)代,人工智能已不再是遙遠(yuǎn)的未來,而成為一個(gè)正在重塑生活方式與商業(yè)邏輯的現(xiàn)...
2025年4月22日,世界地球日——在中國雙碳戰(zhàn)略縱深推進(jìn)的第五年,亞太地區(qū)頭部公務(wù)機(jī)運(yùn)營商華龍航空...
珠江之畔,以“先進(jìn)制造”為主題的第137屆中國進(jìn)出口商品交易會(huì)(廣交會(huì))一期展覽落下帷幕。
近日,impact.com憑借其在助力AI/SaaS企業(yè)實(shí)現(xiàn)聯(lián)盟規(guī)模化增長方面的卓越表現(xiàn),從400+...
投資家網(wǎng)(m.51baobao.cn)是國內(nèi)領(lǐng)先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務(wù)平臺。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務(wù),包括行業(yè)媒體、智庫服務(wù)、會(huì)議服務(wù)及生態(tài)服務(wù)。長按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動(dòng),趕快行動(dòng)吧。