中青報·中青網記者王燁捷
“您好,蔣院士!請問您在華東師范大學讀書時印象最深的事情是什么?”
“在華東師大讀書時,我印象最深的是1990年深秋,潘道暟先生鼓勵研究生們自己去參加學術會議。我與戴立益一起參加第三屆全國量子化學會議,結識了許多專業領域的頂尖人物,這次經歷點燃了我的新志向。”
2024年1月,在華東師范大學上海普陀校區的理科大樓二樓軟件工程學院大廳,一塊一人高的電子屏幕上,出現的是已故中國科學院院士、中國科學院上海藥物研究所原所長、華東師大校友蔣華良的形象。屏幕中的“蔣華良”,是該校軟件工程學院國家工程中心副主任、高級工程師王江濤團隊研發的數智人形象,該項目的發起人是華東師大校長、中國工程院院士錢旭紅,牽頭人是蔣華良的學生、華東師大藥學院院長李洪林。數智人能模擬蔣華良院士的語氣、南方普通話口音以及說話的形態等,并與提問者自然對話。
“我們未來可能建成全球首個數智人教育平臺——數智人大學,采用文理工大跨度交叉、虛擬與現實深度融合方式,建立數智人的關鍵技術標準,打造數智人的標準化應用與數據庫,不斷完善‘數智化’評價治理體系。”錢旭紅介紹,未來各種數智人可能會出現在華東師大的各個角落,與師生互動。
“復現”大師難度遠超想象
“爸爸雖然不在了,但能以這樣的形式讓他‘復現’,對我們來說也是一種陪伴。”蔣華良院士的女兒蔣雨惜說,她全程參與了用新技術“復現大師”的過程。
從2023年4月開始,蔣雨惜每個月都會與王江濤團隊至少溝通一次,“項目組團隊每個月會根據我、我母親和李洪林老師的意見更新迭代數智人模型,然后再讓我們提意見”。
蔣雨惜提出的意見,包括“與父親的語氣不太一致”“父親的南方普通話口音問題”“表情有些太生硬”“眨眼睛的頻次太低”等。
為了塑造一個更加真實的“蔣華良”,王江濤團隊想了很多辦法。比如,他們前期向蔣院士的親朋好友收集了大約450條數據,每一條數據都要人工核對,刪除部分無用數據。數據確定后,他們要用大模型算法,讓數智人對數據內容進行學習——不過,由于數據總量不算多,數智人訓練2萬次和5萬次,所表現出來的區別不大。
“我們能獲得的數據非常有限,這是‘復現大師’的一個難點。”王江濤介紹,團隊“復現大師”的想法最早是校長錢旭紅提出的。早在3年前,在“中國哲學社會科學國際化研究前沿”跨學科項目中,華東師大就首次提出了數智人概念,結合教育、管理、心理、大數據、計算機等學科基礎先行探索。兩年前,王江濤團隊嘗試“復現”過2017年逝世的華東師大老校長袁運開,當時受制于數據不夠、技術不強等因素,“復現”效果一般。
那時采用的,是如今直播中普遍使用的數字技術——需要一個真人在后臺講話、做動作,再由電腦合成聲音和形象——還不是真正運用大模型算法的數智人。這種技術,一方面對“演員”表演技術要求高,要能模擬老校長的言行舉止,另一方面對前臺數字形象制作的要求也高,很難做到“生動”,數字形象可以說話,但無法做到與人對話。
兩年后,在蔣華良院士數智人實驗上,王江濤團隊要實現更高的目標——不僅不再需要后臺“演員”,還要求數智人的表情生動、自然,能夠與師生親朋實現“對話”。
用算法“教會”數智人“說話”
前期的研發,總會出現這樣那樣的問題。一個數智人的推出,包括發音驅動和形象驅動兩個方面,哪怕只是一個細微的面部表情,都是由后臺算法時時刻刻計算出來的。
“一開始,數智人說話時,身體總是在搖晃,還不會眨眼睛。”華東師大軟件工程學院工程師徐剛負責蔣院士數智人的形象驅動部分,他告訴記者,由于蔣院士生前視頻資料多為公開場合的講座、演講、發言等,表情相對正式,所以機器對其形態進行學習時,往往捕捉不到“眨眼睛”這個動作。后來,團隊成員一方面聯系家屬收集院士的日常生活視頻,另一方面修改后臺算法,解決數智人說話時眼神和身體不自然的問題。
蔣華良院士是江蘇常州人,他講話時有比較重的南方口音,這也需要后臺進行專門的計算模擬。團隊成員介紹,最開始的版本有些生硬,蔣院士的家人和學生都不滿意。一眼就能辨識出是“數字人”——既不逼真,也不智能。
語氣、表情、神態處理好了,下一步的難點是讓數智人“把話說準確”。為此,研發團隊收集了蔣院士生前大量的文字素材,內容涵蓋其所專注的藥物專業領域、有關他帶學生的故事等,此外還有個人生活、業余興趣愛好等。其中,個人生活方面,華東師大專門為蔣院士召開了一場追思會,由他的生前好友、同事、學生、家屬等一一回憶他的生活點滴和有趣的故事。“數據收集越多,研發出來的數智人,回答問題的能力就越強。”王江濤說。
隨之而來的問題是,數智人在學習了大量文獻后,經常“一回答就說個不停”。這與蔣華良院士生前講話“言簡意賅、準確到位”并不相符。
為此,給數智人的回答“設置邊界”,又被研究團隊提上了日程。
華東師大軟件工程學院副研究員姚俊杰負責大模型的底層數據優化,他和同事們的工作是讓數智人有認知能力。數智人不僅要悉數掌握蔣院士的生平、事跡,還要對藥學、生物學等領域的相關知識了如指掌。
“一開始我們做的數智人會使用很多情緒詞,問一個問題,他會把所有相關的內容一股腦兒地倒出來。”姚俊杰說,蔣華良院士的數智人創新,一定程度上也是華東師大未來教師數智人的預演,“不管將來換成哪個領域的其他老師,都會面臨設置邊界、讓數智人把話說準確的問題”。
數智人的想象和應用空間有多大
人工智能不僅是自然科學與工程技術領域的問題,同樣也是人文社會科學領域關注的問題。
中國社會科學院科學技術和社會研究中心副主任、哲學研究所助理研究員雷環捷就預測,未來人工智能一定會驅動人文社會科學的研究。
比如,在課程教學中,人工智能可以協助教師生成課程大綱、習題作業等教學材料,還可以答疑解惑;在人才培養過程中,人工智能可以幫助學生訓練辯證、批判、創新等思維,形成獨立思考和解決問題的能力。在學科建設中,人工智能還能促進新的研究方法和思路的產生,不僅有助于一些新興學科和交叉學科的孵化,還有助于基礎學科、重點學科、冷門學科找到新的生長點。
實際上,華東師大已經在校園內逐步嘗試“高仿真數智人(視頻)教學”,由高仿真的“教授”制作了一堂教育部產學合作協同育人項目的數據分析課程;該校還出品了“小花獅作文智能輔導系統”,輔導對象為三年級到九年級中小學生,它基于大語言模型技術,為上千所中小學孩子提供智能化評估及反饋。
目前,華東師大已建構出國內首個大模型綜合教育能力評測框架,研制出我國第一個專門面向教育領域的大語言模型“EduChat”。
王江濤告訴記者,無論是袁運開校長的數智人,還是蔣華良院士的數智人,都屬于前期探索。未來,數智人的應用場景可以在檔案館、博物館、校史館等,“可以讓歷史人物重現,也許公眾可以和李白一起賦個詩、和魯迅來一場交流?”
再比如,學生學習英語的需求,也可以通過數智人來滿足,“現在一個英語老師或許只能與幾名學生充分對話、上小課,未來如果有仿真的英語系教授給孩子上課,他可以和更多的孩子實現‘一對一’。
王江濤介紹,團隊目前還在與對外漢語專業人士對接,嘗試設計一個數智人來教外國人漢語,“如果每天都有一個漢語數智人教師陪你聊天、練普通話,你的漢語水平是不是會有很大長進?”
責任編輯:蔡星雨
見習編輯:周一