除了打字,失去說話能力的人還可以依靠什么方式與他人交流?人工智能或許帶來了新的解決方案。
4 月 24 日,《自然》雜志刊登了加州大學(xué)舊金山分校的一項(xiàng)研究成果:科學(xué)家研發(fā)了一種實(shí)驗(yàn)性的“大腦解碼器”,將研究對(duì)象的大腦信號(hào)與人工智能、語音合成相結(jié)合,從而幫助語言能力受損的人“說出”他們的想法。
許多疾病會(huì)導(dǎo)致人失去說話能力,比如中風(fēng)、癌癥,以及肌萎縮性脊髓側(cè)索硬化癥(俗稱“漸凍癥”)。著名科學(xué)家霍金就患有漸凍癥,在很長的時(shí)間里,他只能借助輪椅上的電腦和幾根手指與外界交流,每分鐘拼出15-20個(gè)單詞。2008 年病情惡化后,霍金連手指都無法再活動(dòng),唯一能控制打字的只剩下右臉頰的一塊肌肉,打字速度下降到每分鐘5-6個(gè)單詞。
人的正常說話速度約為每分鐘 150 個(gè)單詞。研究人員希望借助“大腦解碼器”,讓苦于相關(guān)疾病的患者用正常速度與他人對(duì)話。
不過,“大腦解碼器”并不能像科幻電影里那樣直接“讀心”。研究負(fù)責(zé)人、加州大學(xué)舊金山分校的神經(jīng)外科學(xué)家Edward Chang介紹,解碼的關(guān)鍵是聲音系統(tǒng)的數(shù)據(jù)建模。
換言之,“大腦解碼器”是通過比照說話時(shí)的大腦信號(hào)與發(fā)聲部位的運(yùn)動(dòng)情況,推斷出患者想說什么。
在實(shí)驗(yàn)中,研究人員找到了五名能正常說話的癲癇患者作為志愿者。為了治療癲癇,這些患者的大腦表面被植入了能夠監(jiān)測(cè)電信號(hào)的電極,因此有條件開展額外的實(shí)驗(yàn)。
實(shí)驗(yàn)中使用的電極。圖片源自加州大學(xué)舊金山分校。
一方面,研究人員要求患者大聲朗誦數(shù)百個(gè)句子,并記錄下大腦皮層信號(hào)。另一方面,研究人員記錄了患者說話時(shí)的肌肉運(yùn)動(dòng)數(shù)據(jù),涉及到舌頭、嘴唇、下頜和喉部等地方的大約 100 塊肌肉。打個(gè)比方,研究人員就像記錄了一套“發(fā)聲樂譜”,但樂譜上寫的不是音符,而是一塊塊肌肉的運(yùn)動(dòng)情況。
接下來,研究人員用這些數(shù)據(jù)建模,訓(xùn)練出一套深度學(xué)習(xí)的算法,然后將其輸入到解碼器中。解碼器對(duì)大腦信號(hào)進(jìn)行轉(zhuǎn)換,推算出相應(yīng)的聲道運(yùn)動(dòng),再將這些運(yùn)動(dòng)轉(zhuǎn)換為合成語音。
算法的轉(zhuǎn)換過程。圖片源自《自然》雜志。
圣地亞哥州立大學(xué)神經(jīng)科學(xué)家Stephanie Riès對(duì)《自然》表示,通過聲道運(yùn)動(dòng)的映射來合成語音,比直接將大腦信號(hào)轉(zhuǎn)換為語音要容易理解得多。
不過,這套系統(tǒng)目前還停留在實(shí)驗(yàn)階段,沒有精確到足夠應(yīng)用的程度。芝加哥西北大學(xué)神經(jīng)學(xué)家Marc Slutzky說,研究邁出了重要一步,但要使得合成語音易于理解,科學(xué)家們還有很長的路要走。
這個(gè)視頻里展示了合成語音和原聲的效果。跟原聲相比,合成語音在某些發(fā)音上會(huì)顯得不夠清楚。視頻來源:加州大學(xué)舊金山分校。
采寫:南都實(shí)習(xí)生陳志芳 記者馮群星
關(guān)鍵詞:
責(zé)任編輯:Rex_01