中國科大&云知聲聯合團隊斬獲ACMMM2024競賽5冠2亞

2024-11-18 17:16:38 來源：砍柴網作者：　

摘要：近日，第32屆ACM國際多媒體會議在澳大利亞墨爾本圓滿落幕。

近日，第32屆ACM國際多媒體會議在澳大利亞墨爾本圓滿落幕。由中國科學技術大學自動化系於俊老師帶隊的中國科學技術大學與云知聲共同組建的USTC-IAT-United團隊在不同挑戰賽道上累計榮獲5項冠軍、2項亞軍，技術實力再獲國際頂會認可。

ACM MM（ACM International Conference on Multimedia）作為計算機圖形學與多媒體領域的頂級國際會議，不僅被中國計算機學會（CCF）評定為A類國際學術會議，更以其卓越的學術影響力和社會認可度而聞名。該會議攜手全球領先的學術機構和知名企業，舉辦了一系列挑戰性賽事，成功吸引了全球眾多科研團隊和創新型企業的踴躍參與。

在這場全球頂尖智慧團隊間的激烈角逐中，聯合團隊表現出色，在多個挑戰賽道上奪得5項冠軍、2項亞軍，其研究成果廣泛涉及微動作分析、微表情檢測與分析、人機交互與對話、多模態群體行為分析以及視覺空間關系描述和深度偽造檢測等前沿領域。具體獲獎情況如下：

（1）微動作分析挑戰 ( MAC: ACM Multimedia 2024 Micro-Action Analysis Challenge )

微動作相比于普通動作，更能展現人物在日常交流中的心理情緒，帶來更豐富的語義信息，對這些微動作進行精準檢測對于多模態理解至關重要。然而，微動作通常持續時間短，且多種微動作可能同時出現，因而檢測需要更多畫面幀的輸入來實現精細捕捉，這將導致巨大的顯存負擔和訓練代價。

為應對這些挑戰，團隊提出了3D-SENet Adapter，其能夠高效聚合時空信息，實現端到端的在線視頻特征學習。此外，團隊發現結合背景信息可顯著提升對小尺度微動作的檢測效果，為此，團隊開發了交叉注意力聚合檢測頭，該模塊集成特征金字塔中的多尺度特征，顯著提升視頻幀中微動作的檢測精度。該方法相比基線模型極大提升了檢測精度，并在兩個賽道上分別取得了冠軍與亞軍的成績，并且以論文形式在 ACM MM 會議上發表了研究成果。

（2）微表情挑戰 ( Facial Micro-Expression Grand Challenge (MEGC) 2024 (CCS Task) )

微表情作為一種面部表情，與宏表情相對應，通常持續時間短，強度較低。同時微表情在現實中有著廣泛的應用，如醫療、刑事偵察等。MEGC挑戰賽的CCS (Cross-Cultural Spotting)賽道致力于選拔出通用性廣泛、穩定性強的微表情識別方法，以推動該領域技術的發展與應用。

面對CCS賽道提出的挑戰，團隊選擇使用基于光流的方法進行微表情識別，對每個視頻抽取其光流特征，進而通過光流特征定位微表情發生的起始時間和結束時間。在生成微表情區間之后，采用邊界校準方案，通過判斷評估邊界的變化程度來決定壓縮或延展邊界，使得產生的微表情區間邊界更加準確。此外，團隊采用特定的特征增強方案，主要通過LANet增強特征的表達能力和魯棒性。最終團隊在排行榜上取得了冠軍，研究成果也以論文形式于 ACM MM 會議上發表。

（3）微表情挑戰 ( Facial Micro-Expression Grand Challenge (MEGC) 2024 (STR Task) )

在以往微表情研究中，檢測和識別任務相對分離，存在很大的局限性。因此MEGC挑戰賽的STR (Spot-then-Recognize)賽道提出了 “先檢測后識別”的任務來整合兩個環節，進而提升微表情分析的準確性和實用性。

針對STR賽道提出的挑戰，團隊整合VideoMAE V2框架、時間信息適配器(TIA)及多尺度特征融合檢測頭，以提升微表情定位與識別性能。主要采用 VideoMAE V2作為特征提取骨干網絡，結合TIA增強視頻特征提取能力，尤其是在處理微表情任務時。TIA通過引入時間深度卷積層，捕捉相鄰幀的局部時間上下文，豐富當前時間步的表示。同時，構建多尺度圖像金字塔，通過分類和回歸分支組成的檢測頭，融合不同尺度的特征，使得模型能夠同時捕捉從寬泛動作到細微變化的全范圍動態，進而顯著提高微表情識別的準確性。

團隊方案在 STRS（Overall）評分中達到SOTA 的結果，并獲得冠軍，研究成果在ACM MM會議上進行發表。這一成果不僅驗證了團隊方法的有效性，也為微表情識別技術的進一步發展提供了方向。

（4）多模態群體行為分析挑戰 ( MultiMediate: Multi-modal Group Behaviour Analysis for Artificial Mediation )

在多人對話和人機交互領域，對人類的參與程度的評估至關重要。MultiMediate挑戰賽中的Multi-domain engagment estimation賽道中旨在解決當前人工調解者的能力受限于行為感知和分析方面的進展不足，進而推動和衡量在多領域參與度估計這一關鍵社會行為感知與分析任務上的進展。

為應對這些挑戰，團隊深入探索Seq2seq模型在不同時間窗口下的潛力，并提出了一種雙流AI-BiLSTM模型，該模型能夠對齊并交互對話者特征，以實現更準確的參與度估計。通過從視覺(CLIP)、文本(XLM-RoBERTa)和語音(w2v-bert-2.0)中提取特征，能夠更全面地理解和預測對話者的參與度。在建模過程中，團隊參考了ALbef和VL-BERT的設計，最終選擇了基于AI-BiLSTM的建模方法。在推理時，AI-BiLSTM在多人對話場景中的Concordance Correlation Coefficient (CCC)提升了8%，相較于第二名領先了10%，方案在ACM MM競賽中得到了驗證，并以明顯的優勢奪得了冠軍。不僅展示了團隊在人工智能領域的技術實力，也為未來的人機交互和對話系統的發展提供了新的可能性。

（5）深度偽造檢測挑戰 ( 1M-Deepfakes Detection Challenge )

Deepfakes挑戰賽通過視聽級檢測任務，幫助區分真實視頻和深度偽造視頻，阻止深度偽造視頻在網絡上的傳播，保護信息的真實性和可靠性。在Deepfakes任務中，細粒度感知和跨模態交互能力的提升至關重要。

為解決Deepfakes提出的挑戰，團隊提出了一種創新的局部全局交互模塊（AV-LG模塊），顯著增強了模型的檢測性能。該模塊由局部區域內自我注意、全局區域間自我注意和局部全局交互組成。為了消除視頻偽造檢測中傾向于將真實樣本預測為假樣本的偏差，團隊適當增加了真實樣本的誤差權重。此外，團隊發現理解視頻語義對于視頻偽造檢測并非必要，因此通過傅里葉變換將采樣幀轉換為頻域，進一步提高了模型性能。通過這些技術的應用，不僅展示了團隊在視頻偽造檢測領域的技術實力，也為未來的Deepfakes檢測技術提供了新的可能性。最終獲得本賽道冠軍，研究成果通過論文的形式在 ACM MM 會議上呈現

（6）視覺空間關系描述挑戰 ( Visual Spatial Description (VSD) Challenge )

Visual Spatial Description（VSD）挑戰旨在解決視覺空間語義理解領域的相關問題，即通過讓模型和系統生成準確的文本描述句子，來描述輸入圖像中兩個給定目標對象之間的空間關系，進而推動計算機視覺和自然語言處理領域在空間關系理解與描述方面的研究進展。這有助于人機交互場景下智能設備理解用戶意圖，提升用戶體驗。

針對VSD提出的挑戰，團隊應用 Retrieval Augmented Generation (RAG)技術來指導多模態大型語言模型 (MLLM)完成 VSD 任務，并利用正負樣本解決幻覺問題，進一步微調MLLM以增強語義理解和整體模型效能。該方案在VSD任務中的空間關系分類和視覺語言描述任務中都表現出更高的準確性和更少的幻覺錯誤，取得了令人滿意的結果。同時，團隊深入研究VSD與VSRC數據樣本不平衡問題，運用樣本級加權損失和重采樣等策略，提高模型對低頻對象關系的學習能力，確保了其在復雜數據環境下能夠高效處理。這些策略為更高級的視覺空間描述任務鋪平了道路，為計算機視覺和自然語言處理領域的未來研究和實際實現提供了有價值的見解。團隊以論文形式在 ACM MM會議上發表了研究成果并取得了亞軍。

此次斬獲5冠2亞，既是云知聲與中國科學技術大學緊密合作、持續探索人工智能賽道的成果，同時也是云知聲AGI技術架構實力的有力證明。

作為國內AGI技術產業化的先行者，云知聲依托其全棧AGI技術與產業布局，持續推動千行百業的智慧化升級。2023年5月，云知聲發布山海大模型（UniGPT）以來，持續保持高速迭代，在 OpenCompass、SuperCLUE、MedBench、SuperBench、MMMU 等多項通用、醫療及多模態大模型權威評測中屢創佳績，通用能力穩居國內大模型第一梯隊，醫療大模型能力持續保持領先優勢。以通用大模型為基座，云知聲構建起一個覆蓋醫療、交通、座艙等多場景在內的智能體矩陣，并逐步完成 “助手→同事→專家” 的自我演進，為智慧生活、智慧醫療、智慧交通等業務提供高效的產品化支撐，推動“U+X”戰略落實，持續踐行 “以通用人工智能(AGI)，創建互聯直覺的世界”的使命。