從核心技術(shù)到應(yīng)用場景,從家庭生活到工作生產(chǎn),從現(xiàn)實(shí)世界到虛擬世界,科大訊飛正在描繪數(shù)字世界新未來。這一年來,科大訊飛在多模感知、深度理解、多維表達(dá)等方面獲得重大技術(shù)突破。這些最新技術(shù)將如何開啟萬物智能時代人機(jī)交互的下一種可能呢? 科大訊飛董事長看到IT產(chǎn)業(yè)從第五次浪潮往第六次浪潮發(fā)展,預(yù)判到“以語音為主,以鍵盤觸摸為輔,以肢體語言動作為補(bǔ)充的人機(jī)交互時代正在到來。”在萬物皆智能的時代,更智能的人機(jī)交互是一項核心能力。訊飛輸入法總經(jīng)理程坤表示,人工智能技術(shù)是人機(jī)交互升級迭代的內(nèi)驅(qū)力;新時代面臨的復(fù)雜多樣的交互界面、復(fù)雜多樣的輸入場景以及復(fù)雜多樣的用戶需求,同步加速人機(jī)交互的變革。面對新考題,訊飛輸入法已經(jīng)儲備了豐富的技術(shù),旨在給出解決方案。 依托于高噪識別技術(shù)能力的支撐,訊飛輸入法在家居、車載、街區(qū)、公共交通、多人說話等不同高噪場景下依然能“聽得清”、“更懂你”。這一次,訊飛輸入法全新升級語音個性化方言免切換模型,采用Conformer Encoder音頻編碼和全語言專家系統(tǒng),可支持普通話與20多種方言免切換語音識別。也就是說,人與形態(tài)多樣的設(shè)備之間的交互難題通過搭載通用的免切換語音有了新的突破口。此外,離線方言語音識別技術(shù)和多語種識別的持續(xù)突破,進(jìn)一步拓寬了語音輸入場景。 程坤特別提到,“我們看到語音交互的增長、看到越來越多用戶的認(rèn)可,我們相信萬物智能時代,AI將助力訊飛輸入法建構(gòu)更大的用戶價值。因?yàn)橛嶏w輸入法12.0的發(fā)布,基于輸入服務(wù)與用戶需求深度鏈接。在新版中,訊飛輸入法一方面對識別率精益求精,另一方面實(shí)現(xiàn)方言免切換,進(jìn)一步降低語音輸入的使用門檻。對于習(xí)慣說方言和帶口音的用戶而言,可在同一個識別模式下免去切換對應(yīng)方言的操作,自由使用家鄉(xiāng)話語音輸入。例如,四川話說“老漢兒喊你吃嘎嘎”,上海話說“阿拉上海人儂曉得伐”,合肥話說“從肥東到肥西,買了一只老母雞”……字里行間帶出家鄉(xiāng)的煙火氣。 互聯(lián)網(wǎng)的快速發(fā)展連接起全世界,隨之而來的互聯(lián)網(wǎng)上各國語言交流也日益頻繁。早前,訊飛輸入法已支持主流的12種外語,而這次新版加入荷蘭、土耳其、印尼、馬來、菲律賓等更多語言的語音輸入,總數(shù)達(dá)30種,貼合各國母語者的使用需求,使溝通更暢快。 從“拼詞庫”到“拼云計算”,再到“拼服務(wù)”,輸入法旨在提升人機(jī)交互體驗(yàn)。得益于AI技術(shù)的普及,如今的輸入法不斷迭代,除了幫助用戶完成基礎(chǔ)“打字”之外,還能“讀懂”用戶心思,甚至“適配”各類輸入場景。新版采用定制的AI智能化輸入引擎,不僅能為用戶提供準(zhǔn)確的首選內(nèi)容,更能區(qū)分不同輸入場景,例如聊天、音樂、綜藝、影視、生活服務(wù)不同場景,主動提供智能候選,讓指尖的輸入更加輕松。 值得一提的是,科大訊飛的多模感知做到了業(yè)界領(lǐng)先水平。比如手勢識別,不光是簡單的動作,還可以凌空手寫識別,憑借單攝像頭就實(shí)現(xiàn)一流的效果。這意味著,在虛擬世界,你可以拋開實(shí)體鍵盤形態(tài),只需寫寫畫畫,就能輸出信息。 還有一項擁有實(shí)際應(yīng)用的眼神識別技術(shù),不用動手、不用開口,眼睛看到鍵盤上的按鍵就能準(zhǔn)確打字,讓每一個人都能夠體驗(yàn)近未來的人機(jī)交互。 隨著時代發(fā)展,輸入法逐漸從手機(jī)平臺上脫離、獨(dú)立出來,在其他終端平臺上落地生根,展現(xiàn)出更豐富的形態(tài)。訊飛輸入法全新打造的“新輸入”,通過AI技術(shù)全面賦能,進(jìn)一步拉近與用戶的距離。 |