近日,網易有道在語音研究領域頂級峰會INTERSPEECH 2021上的兒童語音識別比賽 ETLT 2021上榮膺英語開放賽道和封閉賽道兩項第一。INTERSPEECH是由國際語音通信協會ISCA組織的語音研究領域的頂級會議之一,是全球最大的綜合性語音信號處理領域的科技盛會。作為年度一次的語音界盛會,全球眾多語音領域以及人工智能領域的知名學者、企業以及研發人員都會前往出席會議。 據悉,此次競賽的賽題是解決非母語兒童語音識別問題。由于兒童語音天生的差異性,包含生理差異如兒童聲道長度較短、認知差異如語言習得水平較低,常出現語法邏輯錯誤、發音前置錯誤、發音不完整和語種混雜等情況,以及行為差異如兒童習慣低聲私語等,導致通用語音識別模型難以適配,這就讓非母語兒童語音識別系統的構建更具挑戰性。另一方面則是非母語兒童語音的數據資源較為稀缺,使得常規聲學建模方法在該場景下很難奏效。 網易有道團隊憑借在多年對ASR自動語音識別Automatic Speech Recognition技術研發以及實際教育場景中積累的豐富經驗,充分結合兒童語音在生理特征及語言認知方面的特殊性,獲得了英語開放賽道和封閉賽道兩項第一。其中,封閉賽道中的主要難題在于如何在非英語母語兒童語音數據稀缺的情況下獲得優秀的識別效果;而開放賽道則聚焦于如何有效地將大量的成人語音數據遷移到兒童語音識別模型訓練中。從數據中不難看出,網易有道能夠面對復雜的環境下有出色表現,在眾多競爭對手中脫穎而出獲得大獎,無疑是對有道在ASR技術研發及應用領域的認可。 此次網易有道的獲獎并不意外,在 2020年 INTERSPEECH口音英語語音識別挑戰賽中,有道研究人員提交的系統在口音識別任務中就排名第二。有道的吳昊、王海魏等人,僅準備了十天時間就在口音種類識別和英語語音識別兩個賽道上獲得了第二名、第三名的好成績。 有業內人士表示,相比打比賽,一項技術的工程落地是個長期過程。而網易有道的這支語音團隊一直秉承著以技術落地為導向,以用戶反饋為指標。 網易人工智能對語音識別技術ASR的研究開始于2014年。目前,網易有道K12教育領域上有諸多兒童語音識別方面的應用,例如有道樂讀,有道精品課等。其中,有道樂讀的在線教學過程中,通過ASR技術,兒童可進行語音互動答題,不必進行手動選擇答案。而有道精品課在高中語文課程中,則上線了“智能背誦計劃”功能,通過AI識別語音中的錯漏內容,并給予完成度打分,學生可以根據自己的學習節奏進行有效練習。經過測試,有道語音識別技術在一些場景上識別準確率超過98,不止支持中文、英文,還支持日、韓、法、德等多種語言。 近年來,以翻譯技術起家的有道,在AI時代攻堅神經網絡翻譯技術NMT,目前其NMT準確度已達到國際領先水平;作為王牌技術之一的OCR識別技術,已經能支持26種主流語言文字,是目前國內識別語言最多的OCR識別引擎。有道在AI領域除了不斷更新迭代的有道詞典筆等硬件產品,有道精品課、有道詞典等產品上也應用了語音識別、口語打分、AI作文批改等智能技術。只有有符合市場需求的技術才能在一代代產品的穩定推出中,扎實生根。 |