視頻對話任務-論文筆記整理

日内瓦医生 2024-07-01 14:22 10次浏览 0 条评论 taohigo.com

論文目錄

1-EMNLP18-Game-Based Video-Context Dialogue

貢獻

目前的對話系統更多地關註文本和言語上下文知識,通常是基於兩個說話人。最近的一些工作研究瞭基於靜態圖像的對話。然而,一些真實世界中的人類互動也涉及到動態的視覺環境(類似於視頻)以及多個發言者之間的對話交流。為瞭更接近這種多模式會話技能和視覺定位應用,我們引入瞭一個新的視頻上下文、多說話者對話數據集,該數據集基於http://Twitch.tv上的足球比賽直播視頻和聊天。這個具有挑戰性的測試平臺允許我們開發基於視覺的對話模型,該模型應該從現場視頻中生成相關的時間和空間事件語言,同時也與聊天歷史相關。對於強基線,我們也提出瞭一些判別模型和生成模型,如基於三向註意流(TriDAF)。我們通過檢索排序召回,自動短語匹配指標,以及人類評價研究來評估這些模型。我們還提供數據集分析、模型消融和可視化,以理解不同模式和模型組件的貢獻。我們希望這個實驗將是一個很好的起點,鼓勵未來在具有挑戰性的視頻情境對話范式上的工作。在未來的工作中,我們計劃調查多用戶的影響,即該數據集的多方方面。我們還計劃探索高級視頻功能,如活動識別,人體識別等。

6-CVPR19-Audio Visual Scene-Aware Dialog

貢獻

本文引入瞭一個新的人工智能任務:視聽場景感知對話,目標是通過使用自然語言回答用戶關於動態場景的問題來進行對話。我們收集瞭音頻視覺場景感知對話(AVSD)數據集,使用兩人聊天協議對11000多個人類行為視頻進行瞭分析。我們還開發瞭一個模型並進行瞭許多變量控制研究,強調瞭數據的質量和復雜性。我們的結果表明,數據集是豐富的,所有不同的數據模式都在解決這一任務中發揮作用。我們相信我們的數據集可以作為評估和促進視聽智能系統進展的有用基準。

7-CVPR19-A Simple Baseline for Audio-Visual Scene-Aware Dialog

貢獻

最近提出的視聽場景感知對話任務,為學習虛擬助手、智能揚聲器和汽車導航系統的數據驅動方式鋪平瞭道路。然而,關於如何有效地從大量傳感器中提取有意義的信息,到目前為止,我們所知甚少。因此,本文為視聽場景感知對話提供並仔細分析瞭一個簡單的端到端訓練的基準模型作為後續參考對比試驗。我們的方法以數據驅動的方式從使用註意力機制分散的信號中區分有用的信號。作為這項任務的先驅,我們在最近引入的具有挑戰性的視聽場景感知數據集上評估瞭所提出的方法,在CIDEr度量上超過當前技術20%,並展示瞭允許在CIDEr上比當前最先進的性能高出20%以上的關鍵特征。希望可以在視頻推理和圖像推理之間架起一座橋梁。

8-ACL19-Multi-step Reasoning via Recurrent Dual Attention for Visual Dialog

貢獻

本文提出瞭一種新的多模態對話模型——循環雙註意網絡(ReDAN),它利用多步推理來回答一系列關於圖像的問題。通過一個循環更新的查詢向量將圖像和對話歷史上下文結合起來進行多步驟推理。在對話的每個問答環節中,ReDAN通過多個推理步驟逐步推斷出答案。在推理過程的每一步中,問題的語義表示都是基於圖像和之前的對話歷史進行更新的,並在後續的步驟中使用反復精煉的表示進行進一步的推理。這種迭代推理過程使模型能夠實現對多模態上下文的細粒度理解,從而比最先進的方法提高問題回答的性能。在VisDial數據集上的實驗驗證瞭該方法的有效性。在VisDial v1.0數據集上,所提出的ReDAN模型達到瞭64.47%的新水平。推理過程的可視化進一步證明,ReDAN可以通過迭代求精,找到與上下文相關的視覺和文本線索,逐步得到正確答案。

4-ACL19-Multimodal Transformer Networks for End-to-End Video-Grounded Dialogue Systems

詳見4(MTN,開始使用註意力機制,前述都是基於LSTM)

後續方法是使用預訓練模型(2,3),時空推理(5,9)

目前可以嘗試方法是時空場景圖(音,視頻)+預訓練語言模型(文本),進行端到端訓練

ICLR20-VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS

貢獻

本文引入瞭一種新的視覺-語言任務的可訓練前泛型表征,稱為視覺-語言BERT (visual- language BERT,簡稱VL-BERT)。VL-BERT采用瞭簡單但功能強大的Transformer模型作為骨幹,並對其進行瞭擴展,以視覺和語言嵌入特性作為輸入。其中,輸入的每個元素要麼是輸入句子中的一個單詞,要麼是輸入圖像中的感興趣區域(RoI)。它被設計用於大多數視覺-語言下遊任務。為瞭更好地利用通用表示,我們在大規模概念標題數據集和純文本語料庫上對VL-BERT進行預訓練。大量的實證分析表明,訓練前的程序可以更好地對齊視覺-語言線索,並有利於下遊任務,如視覺常識推理、視覺問答和指稱表達理解。值得註意的是,VL-BERT在VCR基準排行榜上獲得瞭第一名。在未來,我們希望尋求更好的訓練前任務,這將有利於更多的下遊任務(如圖像標題生成)

code:https://github.com/jackroos/VL-BERT