新華社重慶8月29日電? 特稿:人工智能助力保護“多彩鄉(xiāng)音”
新華社記者彭茜 黎華玲
“干啥子喲?”“你瞅啥?瞅你咋地?”
在2019中國國際智能產業(yè)博覽會(簡稱“智博會”)上,一款內嵌了最新人工智能方言識別技術的智能翻譯機逗樂了來自天南海北的觀眾。
無論是四川話、東北方言,還是吳儂軟語,都被科大訊飛翻譯機逐字逐句轉換成漢語文本,再實時翻譯成英文。
此次參展的阿里巴巴人工智能實驗室也開發(fā)了可識別四川方言的智能音箱“天貓精靈”,預計今年9月后正式發(fā)布,未來還會以智能音箱終端為基礎,通過語音交互采樣建立覆蓋全國的動態(tài)方言數據信息庫。
人工智能,正在幫助我們留下“多彩鄉(xiāng)音”。
方言是中國語言文化的瑰寶,傳承豐富的歷史文化內涵;方言也是人們鄉(xiāng)情的根系,具有豐富的人文價值。在我國,部分“小方言”在經濟社會飛速發(fā)展的背景下有消失風險,方言的保護和留存極具緊迫性。
長期在中國進行漢語方言調研的韓國首爾大學中文系主任樸正九教授接受新華社記者采訪時說,漢語方言使用人口多、地域廣,在全球語言學研究中占有非常重要的地位,漢語方言有助于研究人類語言的共性和個性。
早在2012年,科大訊飛就以粵語為突破口,開展方言識別技術攻關。2017年,科大訊飛輸入法聯合中國聲谷發(fā)起“方言保護計劃”,近3年來已收集超過86萬條方言語音,支持23種方言語音輸入,實現包括粵語、四川話、湖南話等11種方言的語音合成;微信小程序“我AI說方言”還方便公眾隨時隨地上傳方言,建設中國方言庫。
阿里巴巴人工智能實驗室今年也宣布,正式成立方言保護專項小組,投入1億元人民幣對漢語方言進行保護和開發(fā)。
科大訊飛輸入法業(yè)務部副總經理、“方言保護計劃”發(fā)起人李強軍介紹,方言語料的采集、記錄和歸納是方言識別的基礎。以前,這項工作很大程度依賴于調查者主觀感知,而歸納完整的語音變化、進行句法和語義分析等工作難以單靠人力完成,所以有必要建立分屬不同方言的數據庫,利用人工智能系統(tǒng)地對方言文字、發(fā)音等進行整理。
“各種漢語方言在語法語音上的特征都不相同,很難被系統(tǒng)整理。用上人工智能技術,對方言保護和研究大有幫助。”樸正九說。
其實,外語語音識別與方言識別的人工智能訓練方法是相通的。隨著技術進步,可用統(tǒng)一的語音識別模型,導入各地方言等不同語料進行無監(jiān)督訓練。我國語言學界將現代漢語方言分為十大方言區(qū),方言識別難度有所不同,落實到輸入法產品中,識別準確率也略有差異。
“適配不同的方言識別,對整體語音識別技術也會是一種促進和優(yōu)化?!卑⒗锇桶腿斯ぶ悄軐嶒炇腋呒壆a品專家張平介紹,做方言是為了讓更多地域人群能更好地交流,同時也更多保護地域文化?!拔覀兊谝豢钕茸鏊拇ǚ窖裕褪且驗樗拇ǚ窖栽谥袊窖灾杏脩粽急却蟆?。
開發(fā)“方言版”語音識別,還有助于設計出更貼合消費者需求的智能語音交互產品。美國“風險投資節(jié)奏(Venturebeat.com)”網站數據顯示,中國已超過美國成為全球最大的智能語音市場,2019年第一季度智能音箱出貨量占全球總出貨量一半以上。
國外智能語音產品廠商也在努力開發(fā)能識別各種英語口音的版本。有趣的是,曾經有一位美國消費者投訴亞馬遜公司的智能語音助手“亞歷克薩(Alexa)”,因為它不能識別自己母親的口音。
目前,亞馬遜的“亞歷克薩”、蘋果的Siri和谷歌助手均可以識別標準美音、“印度味”英語和“中國味”英語。不過,據Vocalize.ai實驗室測評,這三種產品識別中國口音英語的準確率最低。另外,它們都沒有識別漢語方言的功能。
由此可見,獨具中國特色的“方言版”語音識別產品還有助于中國企業(yè)開展差異化競爭。
![](http://www.news.cn/res/xhwimg/xl2017/images/bg6.jpg)
-
大數據"坑熟客",技術之罪需規(guī)則規(guī)避
2018-03-02 08:58:39
-
高質量發(fā)展,怎么消除“游離感”?
2018-03-02 08:58:39
-
學校只剩一名學生,她卻堅守了18年
2018-03-01 14:40:53
-
有重大變動!騎共享單車的一定要注意了
2018-03-01 14:40:53
-
2018年,樓市會有哪些新變化?
2018-03-01 09:01:20