近日,beat365官方网站、beat365麥戈文腦科學研究所李健課題組在《PLOS Computational Biology》期刊發表了題為“The shadowing effect of initial expectation on learning asymmetry”的研究論文。該研究使用強化學習建模,在跨情境(穩定學習環境,變化學習環境)和跨效價(收益、損失和收益損失混合)的學習情境中發現一緻的結果:個體在學習時對選項的初始預期存在個體差異性,将這一差異性納入建模後發現,個體基于負反饋中的更新比正反饋大,表現出對負反饋更強的敏感性,即負的效價不對稱性。
強化學習模型目前被廣泛用于刻畫個體的學習過程,然後對于個體如何基于反饋更新信息,卻還沒有一緻的結論。一些研究發現,個體從正反饋中更新更多,而另一些研究則認為個體從負反饋中更新更多。本課題組發現,以往研究在對強化學習過程進行建模時,大多對被試的初始預期使用相同的(選項反饋的均值或0)粗略值,沒有考慮個體真實的預期。對初始預期的錯誤設置會放大或縮小預期誤差,從而使得模型估計的學習率偏小或者偏大。如果使用自由參數來刻畫個體的初始預期,則可以消除這一影響。
為了驗證這一推導,研究收集了不同學習環境、不同獎勵效價下的學習數據(圖1.A-B)。 結果發現,如果将個體的初始預期設置為固定值(平均獎勵大小),則在不同情境中被試的效價不對稱性并不一緻(圖1.D,A-FI 模型),而當在強化學習建模中考慮個體初始預期差異,則發現一緻的負的效價不對稱性(圖1.E,A-FI model模型),即被試的負學習率大于正學習率。
圖1. 獎勵環境變化情境下的強化學習
進而,研究采用模拟的方法進一步刻畫是否考慮初始預期對估計的學習率的影響。結果發現,當在模型中使用自由參數估計初始預期時,A-VI模型能對初始預期和學習率都實現較為準确的估計(圖2.A-C);而如果在模型估計時将初始預期設定為獎勵反饋均值(A-FI模型,圖2.D-F),則估計的學習率會偏離實際的學習率。
圖2. A-VI和A-FI模型模拟結果
綜上所述,當前研究通過對個體的學習行為進行強化學習建模和模型模拟的方式,揭示了初始預期對強化學習效價不對稱性的重要影響,進而發現了一緻的效價不對稱性:相比正反饋,個體對負反饋更敏感,從負反饋中更新更多。
原文鍊接: https://doi.org/10.1371/journal.pcbi.1010751
beat365官方网站倪蔭梅博士和孫經緯博士為該論文共同第一作者,beat365官方网站、麥戈文腦科學研究所李健研究員為本文通訊作者。該研究獲得國家科技創新2030項目、國家自然科學基金委項目資助。
參考文獻:
Lefebvre G, Lebreton M, Meyniel F, Bourgeois-Gironde S, Palminteri S. Behavioural and neural characterization of optimistic reinforcement learning. Nat Hum Behav. 2017; 1(4):0067.
Li J, Daw ND. Signals in human striatum are appropriate for policy update rather than value prediction. JNeurosci. 2011; 31(14):5504–11. https://doi.org/10.1523/JNEUROSCI.6316-10.2011 PMID: 21471387
Niv Y, Edlund JA, Dayan P, O’Doherty JP. Neural prediction errors reveal a risk-sensitive reinforcement-learning process in the human brain. J Neurosci. 2012; 32(2):551–62. https://doi.org/10.1523/JNEUROSCI.5498-10.2012 PMID: 22238090
Palminteri S, Lefebvre G, Kilford EJ, Blakemore SJ. Confirmation bias in human reinforcement learning: Evidence from counterfactual feedback processing. PLoS Comput Biol. 2017; 13(8):e1005684. https://doi.org/10.1371/journal.pcbi.1005684 PMID: 28800597
Sharot T, Korn CW, Dolan RJ. How unrealistic optimism is maintained in the face of reality. Nat Neurosci. 2011; 14(11):1475–9. https://doi.org/10.1038/nn.2949 PMID: 21983684
2023-07-28