近日,beat365官方网站彭玉佳研究員與方方教授課題組合作在Journal of Cognitive Neuroscience雜志上發表了題為“Human Visual Pathways for Action Recognition Versus Deep Convolutional Neural Networks: Representation Correspondence in Late But Not Early Layers”的論文。這項研究深入探讨了深度卷積神經網絡(DCNN)在動态視覺信息處理方面的性能,并與人類視覺系統進行了比較。
DCNN被認為可作為人類大腦可靠的替代模型,大量研究表明,DCNN在靜态物體識别方面的表現與人類水平相當,并且存在神經網絡與大腦的層級映射(representational correspondence):低層級網絡與低級腦區的表征更相似,高層級網絡與高級腦區的表征更相似。然而,這種神經網絡與大腦的層級映射關系是否局限于靜态識别任務,能否泛化到其他視覺任務,尤其是動态視覺任務,仍不清楚。
本研究聚焦于動态視覺信息的加工,分别使用逼真的人物模型和精簡的電光源人生成的動作視頻作為研究材料,系統探索了 DCNN和人類視覺系統在動态視覺信息加工過程中的異同。研究團隊通過功能性核磁共振成像技術,采集了人類被試在觀看動作視頻時的大腦活動,結合多變量解碼分析和表征相似性分析,與DCNN進行比較。
本研究依托于生物運動識别的雙通路理論:空間通路負責加工運動軀體的空間結構,時間通路負責加工時間維度上的動态變化。因此,研究重點關注了雙通路上的5個重要節點腦區:V1, MT, EBA, LOC和pSTS。同樣基于雙通路理論,本研究構造雙通路DCNN模型,該模型在運動識别任務表現明顯優于傳統單通路DCNN。
圖1 研究流程圖:基于 fMRI獲得人類視覺表征,基于計算模拟得到 DCNN的運動視覺表征,通過 RSA方法分析比較 DCNN與人腦的運動表征異同。
因此,研究系統比較了經大量數據訓練後的雙通路DCNN與人類視覺系統對動态運動信息的表征。fMRI的結果驗證了人腦的層級化表征。然而有趣的是,在運動識别任務上,并未發現DCNN與人類視覺系統的層級映射關系。各腦區均與DCNN模型的高層級網絡(如最後一層卷積層Conv5和全連接層FC1,FC2)的表征相似性更高。這些發現提示我們,在完成認知任務時,DCNN模型與人類大腦的層級映射并非必然存在,單純基于大數據自下而上的機器學習在模拟人腦處理複雜認知任務上存在局限性。
彭玉佳研究員和方方教授為該文章的通訊作者,彭玉佳研究員與方方教授課題組已畢業博士生龔曦紫為該文章的共同第一作者。該研究為理解DCNNs在視覺任務中的工作原理提供了新的視角,同時也為未來的人機交互和人工智能算法的發展提供了重要的參考。
論文鍊接:
https://direct.mit.edu/jocn/article/doi/10.1162/jocn_a_02233/123926/Human-Visual-Pathways-for-Action-Recognition
引用
Peng, Y.*#, Gong, X.*, Lu, H., & Fang, F.# (2024). Human Visual Pathways for Action Recognition Versus Deep Convolutional Neural Networks: Representation Correspondence in Late but Not Early Layers. Journal of Cognitive Neuroscience, 1-23. https://doi.org/10.1162/jocn_a_02233 (* equal contribution, # corresponding authors)
2024-10-08