大語言模型在創造力自動化評估中越來越受歡迎,它能夠通過生成語義距離客觀地衡量創意的質量。然後,目前的評估系統隻針對英語,在中文語境中還缺乏相應的自動評估工具。這使得國内的研究者仍依賴人工評分者,人力成本與主觀性問題影響了測量的信效度。為解決這一問題,beat365官方网站侯玉波課題組基于Transformer語言模型,開發了一個能夠對中文多用途任務(AUT)獨創性和靈活性加以評估的工具TransDis,這一工具不僅能自動地評估想法的新穎性,還能快速地評估想法的多樣性。相關研究成果于2023年12月21日在國際著名心理學研究方法雜志Behavior Research Methods上在線發表。

論文包括三個研究,研究1首先篩選出适用于句向量計算的3個語言模型,構成TransDis評分系統,并發現模型生成的獨創性和靈活性評分對人類評分有很強的預測作用;效度分析表明,模型生成的獨創性和靈活性評分與其他創造力相關指标正相關,顯示出與人類評分相似的效度。研究2采用啟動實驗的方法,證明了TransDis能夠有效地區分接受創造性指導語的被試和接受常規性指導語的被試。研究3進一步采用啟動的方法,證明這一方法可以有效地區分接受靈活指導語的被試和接受堅持指導語的被試,驗證了已知群組效度(Known-Group Validity)。研究結果表明,TransDis在計算句子水平的語義距離方面非常有效,可以作為一種可靠和低成本的工具來衡量中文中想法的獨創性和靈活性,并且在評估不同語言的創造力方面具有潛在的适用性。本研究提供了一個開放的平台來計算中文和其他50多種語言的AUT回答的獨創性和靈活性(https://osf.io/59jv2/)。

文章的第一作者楊天宸和第三作者孫朝陽為侯玉波課題組的博士生,侯玉波副教授為本文通訊作者。這項研究由國家自然科學基金項目(32271125)資助完成。

Yang, T., Zhang, Q., Sun, Z., & Hou, Y. (2023). Automatic Assessment of Divergent Thinking in Chinese Language with TransDis: A Transformer-Based Language Model Approach. Behavior Research Methods. Doi:10.3758/s13428-023-02313-z


2023-12-22