
語言腦機(jī)接口技術(shù)與人工智能和具身智能技術(shù)融合。
中科院上海微系統(tǒng)與信息技術(shù)研究所供圖

中科院上海微系統(tǒng)與信息技術(shù)研究所供圖
漢語語句實(shí)時解碼。
近日,中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所聯(lián)合相關(guān)團(tuán)隊(duì),在語言腦機(jī)接口領(lǐng)域取得突破性進(jìn)展。
研究人員開發(fā)出植入式高通量柔性腦機(jī)接口系統(tǒng)和漢語言實(shí)時神經(jīng)網(wǎng)絡(luò)解碼算法,并在國際上首次實(shí)現(xiàn)腦機(jī)接口實(shí)時漢語解碼和語句合成。這項(xiàng)研究不僅讓中文失語患者有望重新“開口說話”,也為腦機(jī)接口在多語言、多場景下的應(yīng)用打開了新空間。
實(shí)現(xiàn)解碼任意漢字和語句
語言是人與人之間溝通交流的主要形式。然而,腦卒中、漸凍癥、腦外傷等重大腦疾病,常讓患者失去語言表達(dá)能力,陷入意識清醒卻無法開口的困境。
“中國有近800萬因各類腦疾病失去語言能力的患者,漢語解碼對他們有著很大的意義和應(yīng)用價值!敝袊茖W(xué)院上海微系統(tǒng)與信息技術(shù)研究所研究員周志濤說,近年來,國際上的多個頂尖科研團(tuán)隊(duì)在腦機(jī)接口英語解碼上取得了多項(xiàng)突破性進(jìn)展,包括英語和西班牙語雙語解碼,但是使用人數(shù)最多、與英語差異很大的漢語解碼研究由于起步較晚而進(jìn)展相對慢。
周志濤說,團(tuán)隊(duì)此次研究的核心突破主要有兩點(diǎn),“首次實(shí)現(xiàn)了漢語實(shí)時解碼,以及實(shí)現(xiàn)了覆蓋漢語幾乎全部音節(jié)的全譜解碼”。
相比于英語,漢語具有其獨(dú)特性。具體而言,英語是以多音節(jié)為主的非聲調(diào)語言,漢語則是以單音節(jié)為主的聲調(diào)語言。同時,英語詞匯量較大,常用英語單詞約為2萬個,而漢語通過約400個漢語音節(jié)加4個聲調(diào),可構(gòu)建出覆蓋日常需求的3500多個常用漢字。
漢語的獨(dú)特性蘊(yùn)含優(yōu)勢。研究團(tuán)隊(duì)從這些漢語音節(jié)和聲調(diào)入手,將其作為穩(wěn)定的中間解碼單元,實(shí)現(xiàn)從腦電到文字的“翻譯”。英語難以直接解碼海量單詞,而漢語則可以通過解碼這些漢語音節(jié)和聲調(diào),實(shí)現(xiàn)覆蓋全部發(fā)音組合,進(jìn)而實(shí)現(xiàn)解碼任意漢字和語句。
“音節(jié)+聲調(diào)”解碼策略
圍繞漢語特點(diǎn),研究團(tuán)隊(duì)提出了以“音節(jié)+聲調(diào)”為核心的中間解碼單元。
據(jù)科研人員介紹,與音素相比,音節(jié)是更完整、更充分的發(fā)音單位,持續(xù)時間更長、神經(jīng)表征更穩(wěn)定,更有利于從腦電信號中提取區(qū)分特征。同時,通過直接解碼音節(jié),可以省去聲母、韻母再組合的復(fù)雜中間步驟,大幅提升解碼效率。
在具體實(shí)現(xiàn)上,研究團(tuán)隊(duì)通過構(gòu)建多級實(shí)時解碼數(shù)據(jù)流,以50毫秒滑動窗口提取70Hz至170Hz的High-γ頻段腦電信號,并對齊腦電信號與發(fā)音起始點(diǎn),驅(qū)動雙流解碼器同步生成音節(jié)與聲調(diào)的概率分布,進(jìn)而融合語言模型進(jìn)行最合適的句子組合選擇,實(shí)現(xiàn)實(shí)時漢語語句輸出。
這一流程,實(shí)現(xiàn)了從“腦電—音節(jié)—漢字—語句”的閉環(huán)。
研究顯示,受試者經(jīng)過9天的語言解碼任務(wù)后,394個漢語音節(jié)(解碼未覆蓋音節(jié)為生僻音節(jié)且受試者不認(rèn)識)純神經(jīng)解碼平均準(zhǔn)確率達(dá)到71.2%,單音節(jié)解碼延時65ms,實(shí)時漢語語句解碼速率達(dá)到49.6字/分鐘。
在此基礎(chǔ)上,團(tuán)隊(duì)進(jìn)一步將語言腦機(jī)接口與人工智能、具身智能技術(shù)相融合,基于自主研發(fā)的通用型腦機(jī)操作系統(tǒng),實(shí)現(xiàn)了多種全新交互方式。
例如受試者可以通過腦電解碼,驅(qū)動數(shù)字分身進(jìn)行表達(dá);可以直接與人工智能大模型對話;也可以將解碼出的語言轉(zhuǎn)化為控制指令,實(shí)時操控靈巧手完成抓握等動作。
拓展“說話”的邊界
“語言解碼在AI時代,已經(jīng)不局限于單純實(shí)現(xiàn)‘說話’!敝苤緷J(rèn)為,語言解碼還可以增強(qiáng)人本身的能力,讓人變成“超人”,并極大地拓展控制和交互的想象力和可能性!罢Z言腦機(jī)接口可以作為一個控制中樞和信息樞紐,通過上述及未來各種新型交互方式的實(shí)現(xiàn),幫助人控制各種先進(jìn)軟硬件并與其高效協(xié)作。”
面向臨床應(yīng)用,語言腦機(jī)接口依舊面臨一些挑戰(zhàn)。例如如何長期穩(wěn)定植入,以及在更長時間內(nèi)保持高質(zhì)量腦信號采集,降低組織反應(yīng)。此外,漢語神經(jīng)編碼機(jī)制本身也需進(jìn)一步探索。
研究團(tuán)隊(duì)表示,下一步他們將優(yōu)先考慮利用團(tuán)隊(duì)最新的全無線全植入全功能腦機(jī)接口設(shè)備,開展長期植入實(shí)驗(yàn),實(shí)現(xiàn)實(shí)時靜默解碼,進(jìn)一步提高實(shí)時解碼速率和準(zhǔn)確性。
(責(zé)任編輯:華康)