人工智能技術如今在各個領域發展迅猛,各類人機交互(Human-Computer Interaction,HCI)的產品應運而生。無論是智能問答機器人、智能醫療看護系統,還是在自動駕駛、生產安全等方面,都有一個離不開的主題——情感識別。情感識別正在成為學術界和工業界的熱點研究課題。當人和機器人聊天時,機器人能夠根據人的面部表情,給出與人共情的對話;當病人有特殊需求時,看護系統能及時反應並通知醫生護士;當司機疲勞駕駛以及生產人員過度勞累時,情感檢測監控能及時發現並給出提醒,以防止交通事故和生產安全事故的發生。情感識別的應用場景十分貼近生活,當機器具備瞭“察言觀色”的能力,機器能夠在生活中與人進行和諧的交互,並為人們提供更好的服務。
情感計算是一個較大的概念,在這個概念下面有很多豐富多彩的任務類型或細節可以討論。例如,目前有很多學者組織舉辦各類情感預測的比賽和挑戰,有些基於離散情感模型(圖1),即預測數據的情感分類(開心,憤怒,悲傷等);有些基於連續情感模型,及預測媒體在不同維度上的分值(圖2)。目前研究熱點包括如何生成特定情感的表情,微表情的研究或者表情真實與虛假的判斷,以及由於不同文化場景下人們的情感表達也會有各式各樣的差異,因此跨文化的情感識別也是目前研究的熱點。
圖1 離散情感模型(圖片來自FERPlus 數據集)圖2 連續情感模型
情感計算的內容豐富多樣,我們將結合近些年來本組的工作,從幾個不同的角度為大傢介紹情感計算。
情感預測的特征表示
特征表示一直的研究的重點,無論是視覺內容,音頻還是文本,好的特征表示能夠使任務事半功倍,哪怕是在簡單的模型中也能有很好的表現。所以當面對不同模態的數據時,第一件事就是構思如何設計高效並魯棒的特征表示。
音頻:聽覺是一個既簡單又復雜的模態。簡單在於它的表示形式很簡單:一維信號;復雜在於它內容豐富,簡單的表示中不僅包含瞭語言語義信息,同時也傳達瞭說話人、語種、性別、年齡、情感、心理等多種豐富的副語言語音屬性。我們在 Speech emotion classification using acoustic features [12] 的工作中,從四個角度為音頻上的情感識別任務設計特征,分別是基礎的聽覺特征,如intensity, F0, jitter, shimmer 和 spectral contours,基於情感相關高斯混合模型模型轉化的分段倒譜特征,基礎聽覺特征的Bag of Words,以及高斯混合模型的超向量。
人臉:直觀地來看,面部表情能夠很直接地表現出一個人的情感狀態。Facial Action Coding System(FACS)是心理學傢Paul Ekman和研究夥伴W.V.Friesen經過多年研究於1976年所創制的面部表情編碼系統。他們根據人臉的解剖學特點,將其劃分成若幹既相互獨立又相互聯系的運動單元(AU)。在 Facial Action Units Detection with Multi-Features and -AUs Fusion [8] 的工作中,對於給定的一段人臉視頻,我們用LBP-TOP來編碼時序的動態內容,用CNN來學習靜態幀的特征表示,並用後融合來整合所有特征,最終在BP4D數據集上取得瞭不錯的效果。
文本: 文字也是我們生活中大量存在而又常見的信息媒介,無論是一段文字還是一個句子,都可能表現出特定的感情色彩或者中立的陳述。在 Emotion Classification of Chinese Microblog Text via Fusion of BoW and eVector Feature Representations [8] 中,我們通過設定三種不同情感詞性的類別,即Emotional words,Common words 和 Not emotional but uncommon words 來對所有的詞判定權重。文本所有詞的權重平均值可以代表整個句子的情感傾向,統計得到7種不同離散情感類別得分,構成7維的情感向量,並取得不錯的結果。
基於上下文的情感預測模型
上下文信息描述瞭情感表達的環境狀況,是情感計算中需要考慮的重要因素。
時序信息:在目前的研究中,很多數據是非時序的,如根據圖片的內容判斷人物的情感狀態。然而現實中真正需要的情感識別系統是在一個動態的環境下運行的。動態的環境既是機遇也是挑戰,帶有時序信息的數據,例如視頻,包含有更多可捕捉可利用的內容,但同時我們也挑戰去設計出良好的時序特征來表征動態內容,以及魯棒的系統去處理它們。在 Multimodal Multi-task Learning for Dimensional and Continuous Emotion Recognition [6] 和 Emotion Recognition with Multimodal Features and Temporal Models [7] 中,我們都利用LSTM對從視頻抽取出的幀或人臉序列進行編碼,並發現時序特征具有非常好的效果。所以,單獨的靜態面孔能夠表顯出特定的情感狀態,但人臉表情的動態細節在人臉情感預測中更加具有區分性。
視頻對話中的交互信息:在AVEC 音頻/視頻情感挑戰(The Audio/Visual Emotion Challenge)比賽中,數據是由二人在視頻對話場景下對一段廣告內容進行評價。在對話交流中,一個人的情感必定會受到對話者的影響。例如對話者對廣告內容的喜歡或者厭惡等行為表達,必定會影響到對方的情緒。為瞭探究在對話交流中,對話者對一個人的情感的影響,在 Multimodal Dimensional and Continuous Emotion Recognition in Dyadic Video Interactions [4] 中,我們提出瞭幾種多模態的交互策略。多模態交互策略的目的是能夠引入對話者的多模態信息,將其與說話者的多模態信息融合,得到一種表示交互信息的特征。我們根據說話者和對話者的輪替交談的特點,可以自然而又直觀地設計出不同的多模態交互策略。
在Speech Emotion Recognition in Dyadic Dialogues with Attentive Interaction Modeling [1] 中,我們利用attention機制來學習權重,融合瞭上下文中自身以及對話者的信息。如圖3,在一段對話中,我們可以得到speaker過去時段和未來時段的特征,也有interlocutor在過去和未來時段的特征,以及當前時段的音頻特征。我們利用Scaled Dot Product Attention Block(圖4)動態地調整對這些不同時間段的上下文信息地關註程度,並給予不同的權重,能夠充分的利用上下文中自身和對話者的有用的上下文信息。
圖3 動態條件註意力融合框架 圖4 Scaled Dot Product Attention Block
視頻記憶度與興趣度:除瞭直接的情感狀態預測的任務(離散情感模型,連續情感模型,AU預測等),還有一些媒體屬性預測任務也是較為相關的。例如視頻的記憶度(Memorability),表示用戶看到一段媒體時能夠給用戶留下深刻印象的程度;興趣度(Interestingness)表示媒體吸引用戶的程度。這兩項任務模式大致相同,即給定一張圖片或一段視頻,我們去預測該圖片或視頻的分值(0到1之間的實數)。這種媒體的屬性(興趣度與記憶度)包含主觀和客觀的因素,比如汽車類的圖片是品會更加吸引汽車愛好者,而一段老朋友的視頻和一段陌生人的視頻相比起來,用戶會對老朋友的視頻印象更深刻。而我們在該任務中,是在沒有用戶個體信息和歷史信息的情況下,根據媒體內容(視頻,音頻,字幕,標題等)直接預測媒體的屬性值,也就是想要找到一個人們普遍的偏好,而非針對個體進行優化。
這些屬性來源於人對媒體數據的整體感知,我們在RUC at MediaEval 2018: Visual and Textual Features Exploration for Predicting Media Memorability [3] 中,對視頻的不同模態以及不同特征表示進行瞭初步的探索。我們發現視頻的標題(Caption)的預測效果極好,甚至比一些視覺的深度學習特征有更好的表現。所以在之後的研究中,一是文本和視覺內容的交互不可忽視,二是我們應該去更好的利用視頻標題這個天然具有總結性的上下文內容。之前的大部分工作都會是基於直接利用回歸模型計算數據的分值,我們在Video Interestingness Prediction Based on Ranking Model [14] 中,設計成對排序(Pairwise Ranking)去利用數據對之間的比較信息,並設計強化學習(Reinforcement Learning)的模型去直接優化評測指標(兩種模型框架如圖5所示),最終利用後期融合,結合兩種不同的模型的結果,去預測視頻的興趣度。
圖5 基於成對排序和強化學習的兩種模型視頻興趣度預測模型
多模態融合
前期和後期融合:多媒體數據的天然多模態是一片值得的開發的寶藏,不同模態之間的互補性可以帶來更多可利用的信息,所以一個關鍵的問題就是如何利用多模態。模態融合直接而又很有效的兩種方式是前期融合(Early Fusion)和後期融合(Late Fusion)。前期融合是指將不同模態的特征直接拼接,而後期融合是指根據第一層模型的輸出再次進行處理,比如訓練第二層分類器等等。這兩種融合模式在我們的工作Video Emotion Recognition in the Wild Based on Fusion of Multimodal Features [10](圖6)和Speech Emotion Recognition With Acoustic And Lexical Features [11] 中,無論是對於音頻還是視頻的情感識別任務,特征的融合能夠在表現最好特征的基礎上進一步提高實驗效果。
圖6 離散情感預測的多模態融合框架
動態條件註意力融合:我們在Multi-modal conditional attention fusion for dimensional emotion prediction[9] 中提出瞭一種多模態條件註意力融合的方法解決多模態連續情感預測任務,它能利用視頻的時序信息,結合不同模態的歷史信息以及不同模態的不同層次的特征,動態的給予LSTM每個時間步輸入的視覺和聽覺模態不同的權重(圖7)。另外本文還考慮到模態缺失的問題。這種融合方法更加接近人在理解視頻中情感時的行為,即動態地選擇更加明顯和置信度高的模態。同時,它也克服瞭兩種常用模態融合的弊端:前期融合簡單直接,但是模型自己學習其中復雜的交互關系比較困難,同時特征拼接容易導致過擬合;後期融合沒有維度災難的影響,但它屬於對高層結果的融合,沒有考慮到不同模態之間的交互。
圖7 Conditional attention fusion model
跨文化情感識別
在面對實際的情感預測問題時,其實還有我們很多沒有考慮到的細節問題。比如,微表情,表情的真實性(是否可以擺拍),情感表達的文化差異等等,都是值得深入探討的。不同區域,不同人種,以及不同文化的人可能在情感的面部表達上有著或多或少的差異,例如面部結構的差異,情感表達強烈或含蓄等。為瞭解決情感表達的文化差異問題,我們在Multimodal Emotion Recognition in Multi-Cultural Conditions [5] 中提出瞭3 種訓練策略提高在多文化場景下情感識別的性能,包括:分文化選擇模型、多文化聯合訓練以及基於共同情感空間的多文化聯合訓練。如圖8所示。其中,基於共同情感空間的多文化聯合訓練通過將文化影響與情感特征分離,在語音和多模態情感識別中均取得最好的識別效果。
圖8 基於共同情感空間的多文化聯合訓練模型結構
我們在Cross-culture Multimodal Emotion Recognition with Adversarial Learning [2] 中,利用對抗學習(Adversarial Learning)和梯度反轉(Gradient Reverse)的思想, 去訓練一個與文化無關的通用情感分類模型。如圖9所示,我們設計瞭兩個博弈的子任務,目的在於能夠學習到情感表達相關而與文化無關的特征。文化分類器嘗試保留文化相關信息,而情感分類器則嘗試保留情感信息並且對文化信息不敏感。文本采用對抗學習的思想,使得模型在博弈過程中,最終得到的生成特征就具備有良好的情感表現力和文化無關性,也就是達到將文化因素剝離的效果。
圖9 跨文化情感識別模型的對抗學習框架
展望
情感識別無論在學術界還是工業界都是一個研究熱點,同時它還具有很高的落地實用價值,是值得長遠看待和研究討論的。當機器具有瞭“高情商”,能夠對人行為進行察言觀色並做出不同的反應,人機交互的過程將會更加自然和流暢。
本期專欄從幾個不同層次的角度,結合我們的工作為大傢介紹我們在情感計算方面的研究成果。我們會在情感計算的話題上繼續挖掘,也會不定期為大傢帶來情感計算前沿的工作介紹,希望大傢能夠持續關註!~
文中所提到工作的論文列表:
[1] Zhao, Jinming; Chen, Shizhe; Jingjun, Liang; Jin, Qin. Speech Emotion Recognition in Dyadic Dialogues with Attentive Interaction Modeling. InterSpeech 2019.
[2] Liang, Jingjun; Chen, Shizhe; Zhao, Jinming; Jin, Qin; Liu, Haibo; Lu, Li. Cross-culture Multimodal Emotion Recognition with Adversarial Learning. ICASSP 2019.
[3] Wang, Shuai; Wang, Weiying; Chen, Shizhe; Jin, Qin. RUC at MediaEval 2018: Visual and Textual Features Exploration for Predicting Media Memorability. Mediaeval 2018.
[4] Zhao, Jinming; Chen, Shizhe; Jin, Qin. Multimodal Dimensional and Continuous Emotion Recognition in Dyadic Video Interactions. PCM 2018.
[5] CHEN, Shi-Zhe; WANG, Shuai; JIN, Qin,Multimodal Emotion Recognition in Multi-Cultural Conditions, Journal of Software, 2018.
[6] Chen, Shizhe; Jin, Qin; Zhao, Jinming; Wang, Shuai. Multimodal multi-task learning for dimensional and continuous emotion recognition. MM AVEC Workshop 2017.
[7] Wang, Shuai; Wang, Wenxuan; Zhao, Jinming; Chen, Shizhe; Jin, Qin; Zhang, Shilei; Qin, Yong. Emotion recognition with multimodal features and temporal models. ICMI 2017.
[8] Li, Xinrui; Chen, Shizhe; Jin, Qin. Facial action units detection with multi-features and aus fusion. FG 2017.
[9] Chen, Shizhe; Jin, Qin. Multi-modal conditional attention fusion for dimensional emotion prediction. ACM MM 2016.
[10] Chen, Shizhe; Li, Xinrui; Jin, Qin; Zhang, Shilei; Qin, Yong. Video emotion recognition in the wild based on fusion of multimodal features. ICMI 2016.
[11] Jin, Qin; Li, Chengxin; Chen, Shizhe; Wu, Huimin. Speech emotion recognition with acoustic and lexical features. ICASSP 2015.
[12] Chen, Shizhe; Jin, Qin; Li, Xirong; Yang, Gang; Xu, Jieping. Speech emotion classification using acoustic features. ISCSLP 2014.
[13] Wu, Huimin; Jin, Qin. Emotion classification of chinese microblog text via fusion of bow and evector feature representations. NLPCC 2014.
[14] Wang, Shuai; Chen, Shizhe; Zhao, Jinming; Jin, Qin. Video Interestingness Prediction Based on Ranking Model. ACMMM2018 ASMMC-MMAC
-
扫码下载安卓APP
-
微信扫一扫关注我们微信扫一扫打开小程序手Q扫一扫打开小程序
-
返回顶部