7月11日消息,今天上午,為期三天的2017中國互聯(lián)網(wǎng)大會在北京國家會議中心開幕。谷歌翻譯研發(fā)科學(xué)家高勤發(fā)表演講。主要講述了谷歌翻譯最近一年在神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)方面,所取得的最新進(jìn)展,及谷歌的目標(biāo)——利用機(jī)器學(xué)習(xí)消除語言障礙。
高勤表示,經(jīng)過11年的發(fā)展,谷歌翻譯現(xiàn)在提供超過100種語言互通,覆蓋全球99%的網(wǎng)民,每天提供超過10億次的翻譯,大約相當(dāng)于100萬本書的文本總量。月度活躍用戶超過10億人次,其中95%來自于美國以外地區(qū)。
隨著互聯(lián)網(wǎng)大潮的到來,谷歌利用機(jī)器學(xué)習(xí)帶來了許多全新的翻譯體驗,例如即時翻譯、對話、離線支持、在任意安卓程序內(nèi)翻譯。高勤在現(xiàn)場用了一個例子,反映了谷歌翻譯在質(zhì)量方面,這一年內(nèi)的進(jìn)展。
神經(jīng)網(wǎng)絡(luò)相對于傳統(tǒng)技術(shù)是一種革命性的改變。高勤說:“基于短語的統(tǒng)計機(jī)器翻譯是離散、局部的翻譯,但神經(jīng)網(wǎng)絡(luò)翻譯則反其道而行,智能鏈接全網(wǎng),可實現(xiàn)連續(xù)、全局的決策?!?/span>
從數(shù)據(jù)上來看,完美翻譯為6分的話,神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)與非專業(yè)人工翻譯差距極小,達(dá)到接近4-5分。
2015年起,這個項目計劃計劃歷時3年發(fā)布,但高勤表示,谷歌在13個月達(dá)成了目標(biāo),這其中TensorFlow平臺功不可沒。
面對繁重的200個模型的訓(xùn)練與維護(hù),谷歌選擇了“多語言模型”,是指用同一套神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)多種語言的互相翻譯。只需要將目標(biāo)語言代碼通過特殊符號形式告訴神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)就可以處理多種語言的翻譯,效率遠(yuǎn)超單語言情況。
利用TPU、張量處理器以及谷歌在機(jī)器翻譯上多年的積累,谷歌在較短時間內(nèi)發(fā)布了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型,同時該模型也在業(yè)界和研究界掀起了研究的熱潮。據(jù)統(tǒng)計,去年一年時間內(nèi),有200篇關(guān)于神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的論文被發(fā)表,但高勤表示:“我們對神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的認(rèn)識依舊膚淺,它也僅僅是初露鋒芒,沒有達(dá)到性能的極限”
對于神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù),谷歌下一步將繼續(xù)致力于改進(jìn)數(shù)字、日期、姓名、品牌以及不常見短語翻譯,同時進(jìn)一步研究新的模型結(jié)構(gòu)與訓(xùn)練方法。
最近谷歌大腦剛剛發(fā)布了完全基于注意力模型的新的模型結(jié)構(gòu),未來谷歌將繼續(xù)投入對神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的研究。
(責(zé)任編輯:程璐 HA010)