近日,beat365官方网站彭玉佳研究員在Psychonomic Bulletin Review期刊上發表了題為Patterns of saliency and semantic features distinguish gaze of expert and novice viewers of surveillance footage的研究論文,基于兩種視覺計算模型揭示了閉路電視專家和新手之間,社會認知推理過程背後的不同策略。
Background
在觀察他人行為時,人們可以快速解析他人的意圖和社會關系。然而,人們在複雜的現實世界互動過程中如何分析社會信号,視覺系統如何從不同層面提取社會特征,以及這些社會特征如何交互影響社交認知,目前還存在很多未知。
在本研究中,我們利用監控閉路電視(CCTV)視頻中記錄的真實人類活動以及監控專家來嘗試回答這些問題。監控閉路電視系統通常采用一系列攝像機,部署在複雜的城市環境中。監控專家會對攝像機錄制的視頻進行實時監控,以識别人群中是否存在可能帶來負面沖突的事件(如,打架鬥毆、搶劫),從而及時采取應對措施。這些專業監控專家積累了豐富的經驗,為回答社會意圖推理背後有哪些高效的策略,提供了獨特的視角。


(圖片來自網絡)
Methods
在本研究中,我們對監控專家和無經驗的普通人在觀看相同監控錄像時的眼動軌迹進行了分析。研究基于眼動捕捉技術,收集被試觀看視頻時的注視點,進而對以注視點為中心的圖像刺激進行了計算分析。為了提取視覺特征,研究使用了兩種計算模型:顯著性模型(Saliency model)和深度卷積神經網絡模型 (CNN model)。如圖所示,顯著性模型用于捕捉吸引注意力的低級圖像特征(如,顔色、運動、朝向信号),而深度卷積神經網絡模型則用于提取CNN全連接層中抽象高級的視覺特征,以捕捉被試關注視覺場景中的語義信息。

Results
我們發現,監控專家的眼動注視與新手不同,他們會積極關注具有不同顯著性和語義特征模式的視覺内容。有選擇性地利用視覺信号中不同層次的信息,實驗有害意圖的有效檢測。具體而言,無論是基于顯著性模型提取的低層次視覺線索,或基于CNN 提取的抽象視覺表征,機器學習分類器都能将專家與新手區分開來。同時,監控專家在使用低級和高級視覺信号方面都具有更高的一緻性,可能采用了共同的策略來關注某些視覺線索模式(如某些運動模式),這可能有助于更高效地檢測社會交互中危害性意圖。
基于對AlexNet輸出标簽分析所示,監控專家表現出更高的觀察面部和衣服區域的概率,而新手可能會被視頻片段中的紋理和顔色信息所幹擾。因此,高級視覺信号可能使監控專家更快在視頻中探測到暴力事件的發起人,快速捕捉暴力意圖,而新手則可能會被路燈或移動的交通工具等抓人眼球的低級視覺信号分散注意力。
此外,通過研究解碼準确率随時間的變化,我們發現在不同的時間階段,這兩類特征可能會分别主導視覺觀察。在早期階段,顯著性線索的貢獻可能更大,而在視頻觀察的後半期,CNN提取的抽象特征可能會表現出更強的主導性,這表明社會意圖推斷可能從低級視覺線索開始,逐漸過渡到語義級視覺處理。
綜上,本研究将眼動數據與計算模型分析相結合,從一個獨特的角度揭示了監控專家在分析社會意圖時所采取的可能策略。目前的研究結果不僅揭示了在生物系統中,豐富的經驗是如何形成對複雜刺激的視覺處理的,也展示了使用計算模型來分析不同群體所關注的視覺信息的前景。計算機視覺算法如果既能識别圖像中的初級視覺模式,又能在抽象語義層面上對人際關系進行編碼,就有可能提高人工智能推斷社會意圖的能力。
參考文獻
Peng, Y., Burling, J.M., Todorova, G.K. et al. Patterns of saliency and semantic features distinguish gaze of expert and novice viewers of surveillance footage. Psychon Bull Rev (2024).
原文鍊接: https://doi.org/10.3758/s13423-024-02454-y
2024-01-27