www.日韩系列,国产特黄一级毛片,91精品国产高清久久久久久

首頁明略動態明略科技出席AICon2024，分享AI模擬人類主觀感受新突破

明略科技出席AICon2024，分享AI模擬人類主觀感受新突破

2025-01-06

中國品牌在全球化傳播中，需要理解不同文化背景下不同群體的情感反應，并采用全球消費者可接受的方式講述品牌故事和傳播文化。然而，現有 AI 技術主要關注客觀事物解析，缺乏理解人類主觀感受的有效手段。

為了縮小實際應用與技術之間的差距，明略科技構建了大規模視頻主觀多模態評估數據集 Video-SME，通過收集腦電波和眼動追蹤數據，分析不同受試者對視頻內容的認知理解程度，并自研超圖多模態大語言模型（HMLLM），探索人口統計、視頻元素、腦電圖和眼動追蹤指標之間的關聯，彌合了模態間的語義差距，集成幀間信息以執行邏輯推理。實驗結果證明了 HMLLM 的有效性，為機器模擬人類主觀感受提供了新的可能性，有助于實現對國外 AI 技術的超越。

在不久前舉辦的 AICon 全球人工智能開發與應用大會上，明略科技多模態大模型部門負責人趙晨旭帶來了精彩專題演講“非標模態的多模態大語言模型如何模擬人類主觀感受”，演講探討了大語言模型缺乏主觀感知能力的問題，基于現有評測標準的局限性，介紹了 Video-SME 數據集，以及超圖多模態大模型的構建和評測主觀指標的方法。通過 Video-SME 和其他多模態情感數據集的實驗結果，展示了機器模擬人類主觀感受的應用前景。

內容亮點：

走進多模態視頻理解全新的未知領域
探索機器具備主觀感受的全新課題

以下是演講實錄（經 InfoQ 進行不改變原意的編輯整理）。

我們將依次探討以下幾個核心議題：首先，分析機器模擬人類主觀感受的挑戰及其重要價值。隨后，我們將介紹一個創新的數據集 Video-SME，并展示我們為此開發的一種新方法——超圖多模態大模型。此外，我們還將分享在各類主客觀指標評測中取得的成果。最后，我們會討論機器模擬人類主觀感受技術在實際應用中的多種場景。

｜機器模擬人類主觀感受的難點與價值

我從學術界權威人士的觀點開始講起，引用李飛飛教授今年 5 月的一條 Twitter，她提出，即使參數眾多的大語言模型，也難以捕捉到人類的主觀感受。這反映了 AI 在視頻內容理解上，一直缺乏對主觀層面的深入探究和準確的測量標準。

目前學術界對主觀感知能力的研究主要依賴于側面觀察，比如通過人們的情緒表現或媒體傳播的信息來推斷。這種觀察方式存在局限性，因為人們可能會故意表現出某種情緒，或者他們的真實感受與外在表現不符。例如，在音樂領域，雖然樂理提供了一種理解情感的方式，但現代人的主觀體驗可能與樂理的傳統解釋大相徑庭。我們的研究工作正是基于這樣的認識，試圖從人的主觀視角出發，深入內部進行采集和觀察，旨在開發出能夠更準確地模擬和理解人類主觀感受的技術和方法。

盡管現有的模型主要通過分析人物表情、畫面風格、故事情節以及文字信息等媒介來傳遞情感，但這些媒介所傳遞的情感并不總是與人們實際接收到的情感完全一致。人們的感受會受到個人背景、喜好和狀態的影響，因此，要真正理解人的主觀感受，我們需要從不同用戶的視角出發，分析他們自發的情緒反應。這種分析的挑戰在于，即使是相同的視頻或段子，不同的人群可能會有不同的反應。例如，男性可能覺得有趣，而女性可能不這樣認為；不同年齡段的人，如老人和年輕人，對同一內容的感受也可能截然不同。這種差異性體現了真正的主觀性。

模擬主觀感知能力的難點主要體現在三個方面：首先是如何定義并獲取用戶的主觀感知指標，這需要我們深入理解用戶的個人背景和情感反應；其次是如何采集有效的主觀感知數據；最后是如何實現 AI 模擬主觀感知的能力。

｜Video-SME 概述

現有的視頻理解數據集存在局限性，它們包含的元素通常比較單一，缺乏復雜性或故事情節，且問題設置往往只涉及顯性的客觀部分，如動作識別或人物身份，并未涉及到主觀感受的維度。為了解決這一問題，我們采用了多種傳感器和設備，記錄受試者在觀看目標視頻時的腦電波和眼動數據。

廣告視頻內容復雜，分鏡數量多，Video-SME 數據集包含了豐富的模態，在模態數量和內容復雜性上具有顯著優勢。此外，我們的評測標準不是基于預設選項，而是描述性的，這有助于更準確地捕捉和分析主觀感受。

數據集的生成流程包括將視頻拆分為多個分鏡，將語音轉換為文本，記錄不同受試者的主觀指標，如腦電波、認知、情緒和眼動數據，并與分鏡內容對應。我們還針對這些主觀指標設計了問答，以評估受試者的認知程度。

我們在數據集中設計了兩種任務：主觀任務和客觀任務。

主觀任務的核心是預測三個主觀指標：認知、情緒和眼動注視比例。為了量化這些指標并使模型能夠模擬它們，我們采取了一種直接的分類方法。具體來說，認知指標的量化是通過數值來判斷的，數值大于 1 表示有認知，小于 1 則表示沒有認知，這一標準參考了認知科學領域的相關研究。情緒和眼動注視比例的分類則是基于數據的正態分布特性。我們根據數據分布的自然劃分，將情緒分為三類：消極、自然和積極。同樣，將眼動注視比例也分為三類：完全沒有注釋、部分注釋和完全注釋。此外，我們進一步細分為兩個協議：第一個協議 P1 不考慮受眾的個體差異，而是假設一個通用的受眾模型，預測通用受眾可能產生的腦電變化；第二個協議 P2 則深入考慮了不同受眾的特性，包括性別和年齡等因素，因此 P2 中的問題和答案更為豐富和多樣。客觀任務則涉及到文本生成，但與常規的選擇題不同，它是一個開放性的問題，要求模型生成描述性的答案。

｜超圖多模態大模型概述

隨著數據集的建立，我們著手探索如何有效解決模擬人類主觀感受的挑戰。我們的算法定位為一個針對垂直領域的多模態模型，而非通用基礎模型。在這個過程中，我們采用了超圖理論，它允許一條超邊連接多個點，這在視頻理解任務中尤其有用，因為視頻幀與幀之間的關系可能跨越較長時間維度，涉及多個幀。

我們的算法架構分為訓練和推理兩個部分。在訓練階段，我們分為兩個階段。第一階段專注于客觀部分的訓練，即對視頻內容的客觀描述，主要訓練語言模型部分。第二階段則專注于主觀部分的訓練，涉及超圖學習模塊（SAL-HL），該模塊考慮觀眾的性別、年齡等信息，并以視覺編碼器（如 VIT）作為輸入，以腦電屬性的真實標簽作為監督信號。我們還額外訓練了一個投影器（projector），并通過設置權重λ來調整超圖模塊對整個網絡結構的影響。在推理階段，與訓練階段相比，觀眾的信息（AAP）直接整合到提示（prompt）中，根據提問的提示直接給出答案。

以一個經典的沃爾沃卡車廣告為例，該廣告通過尚格云頓在兩輛行駛的卡車間做一字馬來展示卡車的穩定性。我們的模型能夠從兩個維度輸出描述：客觀描述，如“一個人在兩輛行駛的卡車間做一字馬”；主觀描述，如“30 至 34 歲男性觀看后的認知和情緒反應”。模型顯示，男性觀眾能夠很好地理解視頻內容，并表現出較高的情緒反應，這可能是因為廣告展示了卡車的穩定性和人類的力量感。

我們的模型還能展示不同性別和年齡段觀眾的眼動注釋區域。通過熱力圖反映了觀眾在觀看視頻時的真實注意力分布，顯示出不同人群對同一畫面內容的關注點存在差異。例如，女性可能更關注男性人物身上的文本信息，而男性可能更關注產品本身，如卡車或可樂。這些發現為我們提供了深入理解觀眾主觀感受的寶貴視角。

｜主客觀指標評測結果

Video-SME 數據集通過幾個關鍵指標來衡量模型的性能，其中包括客觀描述和三種腦電反應：主觀認知、主觀情緒和眼動比例。在這些特殊任務上，商用模型如 Gimma 1.5、GPT-4o 在主觀指標預測上的表現并不理想。經過訓練和微調，我們的方法在這些任務上展現出了更好的效果。在 Video-MME 數據集上，由于主要涉及客觀層面的理解，且形式為選擇題，商用模型的表現普遍較好。在其他的公開數據集上的實驗結果同樣顯示了我們模型的潛力。例如，在 VideoEmotion-8 數據集上，僅使用視覺模態，我們的模型就達到了 59.8% 的準確率；在 Video Conversation 基準測試中，我們的模型在多種任務上達到了 SOTA（State of the Art）。

我們還對超圖模塊進行了消融學習實驗，發現當權重λ設置為 0.1 時，模型表現最佳。這表明超圖模塊在適當權重下能顯著提升模型性能，但過高的權重可能會帶來副作用。

在定性分析中，比如識別一種抹茶味巧克力派的視頻中，我們的模型能夠準確指出這是一種零食，且可能受到年輕人或兒童的歡迎，而其他開源模型則誤判為冰激凌。在分析東鵬特飲的廣告時，我們的模型能夠識別出這是一種運動飲料，并與運動力量和冒險聯系起來，而其他模型如 Gemini 則錯誤地將其歸類為旅行或冒險。

｜機器模擬人類主觀感受的應用場景

我們開發了一款名為 Adeff 的產品，它能夠從主觀和客觀兩個維度對廣告內容進行評測。以 YouTube 上蘭蔻的廣告為例，Adeff 可以提供整個視頻的客觀描述，對視頻分鏡進行詳細分析，并給出每個分鏡的主觀指標，如腦電效果、情緒和注視比例。Adeff 的應用不僅限于單一廣告。通過對比不同受眾群體的反應，如普通受眾與特定年齡和性別的受眾，Adeff 能夠展示廣告對不同人群的吸引力差異。這種能力對于廣告創意的評測至關重要，可以幫助品牌主理解色彩、角度、情緒等廣告元素如何影響受眾的主觀感受。

利用機器模擬人類主觀感受進行廣告創意評測，可以顯著降低成本。傳統上，進行全面的創意評測需要大量人力和設備，而 AI 的介入使這一過程更加經濟高效。AI 模型可以通過真人測量數據進行訓練和校正，提供快速、全面的評測，降低投放風險，縮短測試周期，并實現規模化測量。

我們的研究不僅在理論上有所突破，而且在實踐中也取得了成功。我們的產品能夠提前預測廣告效果，幫助客戶優化廣告內容，避免無效投放。例如，通過分析廣告母片和街片的分鏡，我們可以識別出哪些分鏡更受歡迎，從而指導廣告剪輯和投放策略。

我們的工作得到了科技部科技創新 2030 新一代人工智能重大項目的支持，并在 ACMMM 2024 會議上獲得了最佳論文提名。我們的論文和項目代碼已經公開，數據集也對外開放，供學術界和工業界使用。感興趣的人士可以通過論文鏈接和 GitHub 項目鏈接進一步了解：

論文鏈接：
https://dl.acm.org/doi/10.1145/3664647.3680810

GitHub 地址：
https://github.com/mininglamp-MLLM/HMLLM

｜總? ?結

機器模擬人的主觀感受具有重大意義。這不僅是技術進步的體現，也是我們理解人類認知和情感的重要途徑。

機器模擬人的主觀感受可能是機器產生自我意識的開端。Google 員工關于模型自我意識的報道激發了人們對機器意識可能性的廣泛思考。

機器已經具備有效手段來模擬人類的主觀感受。通過先進的算法和多模態數據集，機器能夠分析和理解人類的情感和認知反應。

多模態大語言模型的范式仍有廣闊的發展空間。隨著大模型的不斷優化和擴展，我們可以期待 AI 在模擬人類主觀感受方面將取得更多的突破，這將為人工智能的發展開辟新的道路。

正在播放国产一区_亚洲精品字幕在线观看|HD中文字幕在线播放,少妇莹莹的放荡生活,日韩欧美综合一区,国产欧美一区二区三区96精品