基於人工智慧之語音溝通輔具
2019-06-20 |
就聽覺而言,長年的聽損會造成年長者與他人產生隔閡,造成生活上的不便,失智風險亦隨之上升。
學齡兒童的聽損,導致學業成績落後及與其同儕互動不良,對於兒童學習及社交能力發展具負面影響。
就口語及發音而言,發聲構造異常或受損是言語清晰度降低(構音異常)最常見的成因。構音異常影響語者與他人的溝通效能及其自身生活品質。
由於環境噪音(特別是與人類語音特性相近的噪音)通常難以準確估測;因此,要能夠有效消除雜訊是語音訊號處理相當棘手也是多年懸而未決的問題。
好消息是,近年來人工智慧(特別是深度學習理論)的進步對解決這個問題帶來了曙光。
基於深度學習理論,學者們提出了多項新穎的語音訊號處理演算法應用於消除加乘式噪音、摺機式噪音 (空間混響)、以及收音設備及通道不匹配問題,進而還原出高品質的語音訊號,讓聽者聽得更懂、聽得更舒服。
目前筆者實驗室努力的方向為:
1.
開發以任務導向的語音訊號處理技術:
2.
語音訊號處理模型壓縮技術:
Computation-Performance
Optimization (CPO) 壓縮技術,主要的設計概念是基於最後的效能動態消除深度學習模型的參數。
另一種技術為Parameter Quantization (PQ),此技術是基於Quantization演算法減少參數的精度,藉以壓縮深度學習模型,同時加速線上運算效能。
3.
結合多模態之語音訊號處理技術:
人與人的溝通包含口語與非口語的部分,發話端傳遞口語訊息時,收話端的聽者除了專注於聲音本身外,也接收相關的視覺訊息來協助了解語音的內容。
近年人工智慧技術大幅進步,各種新穎的技術大量應用在提高機器影像辨識器、語音辨識器、下棋及電玩、對話及問答系統上,確實讓很多任務的效能可以超越人類的能力。
然而筆者認為,相對於追求開發超越人類的機器,我們或許可以運用人工智慧來發展輔具,提供給需要幫助的障礙者,這樣的研究或許能讓人工智慧的進步對人類社會更有實質上的助益,也讓科學研究更有溫度。
標籤:
AI,人工智慧,人工智能