AI趨動自動駕駛的質(zhì)變：來自世界模型開啟的場景重建新紀元

2024-12-10 16:26:53 來源：i黑馬作者：　

摘要：在繁華都市的交通脈絡中，自動駕駛技術正不斷面臨著復雜路況的考驗。

在繁華都市的交通脈絡中，自動駕駛技術正不斷面臨著復雜路況的考驗。就拿北上廣城市快速路的限時段公交車道來說，這一特殊場景猶如一道難題橫亙在智能駕駛系統(tǒng)面前。

以往，AI系統(tǒng)依賴人類預設規(guī)則，在面對限時規(guī)則切換時顯得僵化。而如今的端到端自動駕駛模型雖旨在自主學習適應，但對于“限時公交車道”這類特殊路況與場景的學習，仍需耗費大量時間，難以迅速達到理想的應對效果。

世界模型與視頻生成：自動駕駛的關鍵拼圖

在全球智能駕駛研發(fā)的前沿陣地上，基于Artificial General Intelligence（AGI通用人工智能）與世界模型（World Model）的仿真平臺相較于傳統(tǒng)的單一道路測試，具有顯著優(yōu)勢。它能夠更加精準地滿足日益增長的模擬需求，大幅削減重復采集和分析工作，按照需求生成特定場景，有力提高算法精準度和迭代效率，是實現(xiàn)“端到端”智能駕駛方案的關鍵基石。

在自動駕駛領域，世界模型和視頻生成技術無疑是兩塊關鍵拼圖。世界模型旨在模擬真實世界環(huán)境動態(tài)，而視頻生成模型則負責產(chǎn)出逼真視頻序列，二者的整合對于提升自動駕駛汽車的態(tài)勢感知和決策能力意義非凡。

早期的視頻生成技術尚顯稚嫩，難以制作出自然流暢且冗長的視頻。那時的模型多在像素級別依據(jù)訓練數(shù)據(jù)中的模式預測下一幀，或借助概率模型來優(yōu)化數(shù)據(jù)分布近似值，缺乏標準化結(jié)構(gòu)，如長短期記憶（LSTM）、Transformer和生成對抗網(wǎng)絡（GAN）等架構(gòu)都曾被嘗試，通過對抗訓練艱難提升生成質(zhì)量。

反觀世界模型，其在自動駕駛領域蘊含著巨大潛力。它能夠構(gòu)建完整的場景認知，精準理解各元素間的關聯(lián)，提前預判整個場景的演變，深入理解意圖和因果關系，進而基于整體認知做出決策，甚至預見潛在風險。當世界模型與視頻生成模型無縫集成，便如同為自動駕駛汽車的“大腦”裝上了更為敏銳的“感官”與更智慧的“思維”，大幅增強其態(tài)勢感知與決策的準確性。

DriveDreamer4D：開啟 4D 駕駛場景重建新紀元

隨著大模型技術的蓬勃發(fā)展，世界模型技術成為行業(yè)矚目的焦點，引發(fā)了自動駕駛領域的創(chuàng)新熱潮。極佳科技去年率先提出DriveDreamer，這款全球首個真實世界驅(qū)動的自動駕駛世界模型，在工業(yè)界和學術界掀起了廣泛而熱烈的討論，并成功被國際頂級計算機視覺會議ECCV 2024收錄。

今年10月，極佳科技聯(lián)合中國科學院自動化研究所、理想汽車、北京大學、慕尼黑工業(yè)大學等一眾實力單位，重磅推出DriveDreamer4D。這一創(chuàng)新成果首次利用世界模型增強4D駕駛場景重建效果，為行業(yè)發(fā)展開辟了新的路徑。

DriveDreamer的功能豐富多樣，令人矚目。它能夠生成符合交通結(jié)構(gòu)化信息的視頻，仿佛擁有交通規(guī)則的“內(nèi)化知識”；還能依據(jù)文本描述輕松改變生成視頻的天氣、時間等要素，如同掌控著一個虛擬的“氣候與時間魔法盒”；更可以根據(jù)輸入的駕駛動作生成不同的未來駕駛場景視頻，或者依據(jù)歷史的駕駛動作和圖像輸入預測未來的駕駛動作，就像是一位經(jīng)驗豐富的“駕駛預言家”。

當下的傳感器仿真方法，如NeRF與3DGS，存在著對訓練數(shù)據(jù)分布過度依賴的短板。一旦訓練數(shù)據(jù)不足，在面對復雜駕駛操作，如變道、加速或減速時，重建效果便大打折扣。而DriveDreamer4D的出現(xiàn)恰如其分地彌補了這一缺陷，它以世界模型作為強大的數(shù)據(jù)引擎，基于真實世界的駕駛數(shù)據(jù)合成新軌跡視頻，例如在變道場景中表現(xiàn)卓越。

DriveDreamer4D在提升圖像渲染質(zhì)量方面成績斐然，它能夠顯著提升多種重建算法（PVG、S3Gaussian、Deformable - GS）的效果，讓駕駛前景（車輛）和背景（車道線）的時空一致性達到新的高度。其總體結(jié)構(gòu)設計精妙，軌跡生成模塊（NTGM）猶如一位智能“調(diào)度員”，靈活調(diào)整原始軌跡動作，如轉(zhuǎn)向角度和速度，從而生成全新的軌跡。這些新軌跡就像是打開新世界的鑰匙，為提取結(jié)構(gòu)化信息（車輛3D框和背景車道線細節(jié)）提供了前所未有的視角。緊接著，憑借世界模型的視頻生成能力，以更新軌跡后得到的結(jié)構(gòu)化信息作為控制條件，順利合成新軌跡的視頻。最后，將原始軌跡視頻與新軌跡視頻巧妙融合，對4DGS模型進行優(yōu)化，如同為模型注入了源源不斷的活力，使其在user study實驗中斬獲超過80%的偏好投票，向著空間智能和4D世界模型昂首邁進堅實的一步。

回顧DriveDreamer系列，其發(fā)展歷程亦是熠熠生輝。DriveDreamer作為首個面向真實駕駛場景的世界模型，具備根據(jù)不同控制條件生成自動駕駛周視視頻的能力，如同給自動駕駛汽車裝上了“千里眼”，有效提升了BEV感知的性能。DriveDreamer - 2則更進一步，創(chuàng)新性地引入大語言模型，搖身一變成為“駕駛場景定制大師”，能夠生成用戶自定義的駕駛數(shù)據(jù)，為長尾和corner case場景下的數(shù)據(jù)生成難題提供了巧妙的解決方案，進一步提升了數(shù)據(jù)生成能力。DriveDreamer4D充分利用DriveDreamer系列的技術積累，針對端到端自動駕駛和閉環(huán)仿真對場景重建的急切需求，生成新軌跡視頻（如變道、加減速），成功大幅提升了多種4DGS算法的重建效果，讓自動駕駛場景重建技術實現(xiàn)了質(zhì)的飛躍。

極佳科技：自動駕駛創(chuàng)新浪潮中的領航者

作為DriveDreamer4D論文的牽頭完成單位，極佳科技無疑是自動駕駛領域的一股強勁力量。這是一家專注于空間智能的先鋒企業(yè)，以將視頻生成提升到4D世界模型為使命，全力賦予AI大模型對4D空間的理解、生成、常識和推理能力，力求實現(xiàn)4D空間中的交互與行動，向著通用空間智能奮勇前行。

極佳科技在影視游戲、元宇宙等虛擬空間的內(nèi)容創(chuàng)作領域，以及自動駕駛、具身智能等物理空間的數(shù)據(jù)生成與認知推理方面，都擁有不可估量的價值。它在國內(nèi)率先踏上探索和布局世界模型和空間智能方向的征程，并在技術研發(fā)與商業(yè)拓展兩方面都收獲了累累碩果，贏得了行業(yè)的廣泛贊譽與認可。

在近期舉辦的現(xiàn)代汽車集團創(chuàng)新計劃頒獎典禮上，極佳視界憑借其在4D世界模型和視頻生成領域的卓越創(chuàng)新表現(xiàn)，榮耀斬獲現(xiàn)代集團“燈塔”創(chuàng)新開放計劃“創(chuàng)新企業(yè)獎”。現(xiàn)代汽車作為全球汽車制造業(yè)的巨頭，剛剛跨越全球產(chǎn)量1億臺的偉大里程碑（2024.09），極佳科技此次獲獎，無疑為其進軍海外市場，服務類似現(xiàn)代汽車的國際客戶打造了一個極具說服力的成功案例，也標志著其在全球自動駕駛舞臺上嶄露頭角。

如今，極佳科技的相關技術已經(jīng)在智駕行業(yè)的頭部客戶中落地生根，已與近20家汽車廠家和智駕方案商建立了緊密的合作關系，充分展現(xiàn)出其廣闊的應用前景。

以公司與全球出行科技企業(yè)億咖通科技強強聯(lián)手為例，雙方致力于建設基于先進的生成式AI和視覺大模型的仿真模擬平臺，旨在高效推動智能駕駛技術的發(fā)展驗證及功能迭代。

通過此次合作，雙方將精心打造融入真實道路環(huán)境和傳感器特性的場景庫，借助對AGI能力的持續(xù)建設與迭代升級，生成高度真實、豐富多樣的虛擬駕駛場景與交通流。這些形成的空間場景具備多視角及多車型的泛化能力，并且能夠針對特殊場景（corner case）進行量化生成，與測試車實測完美結(jié)合，共同構(gòu)建起高效的模擬平臺。這一平臺將加速智能駕駛的場景仿真、預判和功能開發(fā)效率，顯著提升有效道路驗證公里數(shù)。

該仿真平臺將率先聚焦ACC、AEB、NOA等相關功能，深入開展算法仿真和回灌工作，不斷提升模擬精度，大幅提高道路和泊車場景驗證效率，有效推動相關算法模型的迭代更新，助力核心技術的快速研發(fā)和能力提升，全方位滿足未來行泊一體智駕能力的研發(fā)需求，最終打造出更安全、更自然、能夠適配更多場景和車型的智能駕駛解決方案。

更為重要的是，除了將生成式AI大模型應用于感知能力的提升以及現(xiàn)有駕駛功能的測試和迭代之外，雙方還將攜手探索世界模型在下一代智能駕駛解決方案中的前瞻研發(fā)與落地應用。

在自動駕駛的漫漫征途中，極佳科技以DriveDreamer4D為利刃，以世界模型為核心驅(qū)動力，正與合作伙伴們并肩作戰(zhàn)，劃破技術的重重迷霧，駛向智能駕駛的未來新藍海。有理由相信，在這樣的創(chuàng)新力量推動下，自動駕駛的明天將更加安全、高效、智能，讓我們拭目以待這一偉大變革的全面到來。

上一篇： 南方黑芝麻獲艾媒咨詢“中國第一家健字號黑芝麻糊企業(yè)”市場地位確認
下一篇： 叮當健康助推行業(yè)高質(zhì)量發(fā)展，攜手一心堂醫(yī)藥打造零售新模式

精彩閱讀原創(chuàng)資訊投資人物專欄

仙居楊梅現(xiàn)摘現(xiàn)發(fā)！順豐航空件“上午寄，當天達”，“梅”好送到家！

大消費仙居楊梅

2025年6月14日,"六月仙居,楊梅天下"中國浙江仙居楊梅上海推介會在滬盛大開幕。

2025-06-15

原創(chuàng)

65歲教授賣減肥藥，逆襲IPO

銀諾醫(yī)藥

港股市場的熱鬧從未停歇。

2025-06-14

北京市海淀醫(yī)院成功完成國產(chǎn)單孔機器人膀胱巨大憩室腫瘤切除術，八旬患者快速康復

醫(yī)療健康北京市海淀醫(yī)院

近日，北京市海淀醫(yī)院泌尿外科在副院長、泌尿外科專家盧劍教授帶領下，成功應用國產(chǎn)術銳單孔手術機器人系統(tǒng)...

2025-06-14

董事會換屆，北摩高科邁入新階段

上市公司北摩高科

北京北摩高科摩擦材料股份有限公司（002985.SZ）于今日在河北省石家莊市正定縣召開2024年度股...

2025-06-14

利星能 @SNEC 2025，四大關鍵詞演繹數(shù)智能源新范式

創(chuàng)新創(chuàng)業(yè)利星能

6 月 13 日，第 18 屆 SNEC 光伏與智慧能源大會圓滿收官。

2025-06-14

固家智能B輪融資5000萬元加碼散熱材料研發(fā)，國中基金領投布局高端封裝全鏈條

固家智能

2025-06-14

天寵生物獲Pre-A輪融資，加碼寵物創(chuàng)新藥與高端醫(yī)療研發(fā)

天寵生物

2025-06-14

國產(chǎn)PDF工具UPDF再獲數(shù)千萬元融資，加碼AI文檔處理商業(yè)化

賽博愛思

2025-06-14

凍品產(chǎn)業(yè)互聯(lián)網(wǎng)平臺飛熊領鮮獲近億元C輪融資，加速全球生鮮供應鏈生態(tài)布局

飛熊領鮮

2025-06-14

基因治療企業(yè)因諾惟康獲數(shù)千萬元A+輪融資，加速遞送技術臨床轉(zhuǎn)化

因諾惟康

2025-06-14

投資家網(wǎng)（m.51baobao.cn）是國內(nèi)領先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務平臺。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務，包括行業(yè)媒體、智庫服務、會議服務及生態(tài)服務。長按右側(cè)二維碼添加"投資哥"可與小編深入交流，并可加入微信群參與官方活動，趕快行動吧。