“江湖(a kind of social enviornment exsits politics and tactics,一種存在政治和詭計的社會環境)這個詞,是中國文化中一種獨特的表達,用機器將它正確地翻譯成英文是很難的,它一般都會按照字面意義直接翻譯,機器有可能會認為那是江西省和湖南省(the province of Jiangxi and Hunan)或者江和湖(rivers and lakes)的意思。”說起AI同傳場景中涉及的一個關鍵技術——機器翻譯存在的問題,微軟首位華人“全球技術院士”、首席語音科學家黃學東近日這樣形象地向《中國經營報》記者舉例表示。
事實上,AI同傳場景中,機器翻譯的問題還不僅僅是上文所提及的。并且,在該場景牽涉的另兩項技術——語音識別和語音合成中,也存在一些問題。
此外,通過與同傳行業人士以及業內專業人士的交流,本報記者初步了解到,在AI技術運用到同傳的實際應用場景中,當前是否真的能為人工同傳的工作提供實質性幫助,或也值得關注。
概念上的厘清和界定
近日,在接受記者采訪的一些專業人士看來,同傳本來指的是同聲傳譯,也就是說話者的源語言發出的聲音與人工同傳人員將這種語言轉譯為另一種語言,口譯出來的聲音基本同步。在延時時長上,它對譯者有很嚴格的要求,這也是同聲傳譯與其他普通形式的翻譯的一個很重要的區別。AI同傳是機器翻譯的一個具體應用任務。
科大訊飛方面告訴本報記者:“目前AI同傳的概念更傾向于理解為人機耦合,即同傳和機器的配合。”
在AI技術模擬人工同傳的做法、滲透到該行業的過程中,主要運用了上文提及的語音識別、機器翻譯和語音合成這三種技術。
一些受訪人士認為,實際的應用場景中,通常會看到只有機器識別講者聲音并轉錄為文本、然后機器實時地將這種文本翻譯為目標語言文本的形式,顯示在講者PPT旁邊的大屏幕上。雖然沒有最后一步,但完成了最關鍵、最有技術難度的兩個步驟,所以某種程度上,這也可以算是一種廣義上的機器同傳的表現形式。
京東集團AI事業部副總裁、深度學習及語音語言實驗室主任何曉冬告訴本報記者:“這基本上也可以算作是同傳,只是最后聲音沒放出來。”
“AI同傳到文本翻譯這一步,后面接一個語音合成系統就可以輸出語音。”來自中國科學院自動化研究所下屬的中科凡語公司的一名專業人士向本報記者這樣表示。
何曉冬認為:“機器翻譯的結果至于說是以文本形式顯示在屏幕上,還是用語音合成的技術,以聲音的形式輸送到耳朵里,這個問題其實倒不是那么大,因為語音合成現在還是比較成熟的,是這三種技術中比較容易控制的。”
AI同傳場景依舊面臨的挑戰
與人工同傳的工作類似,運用AI技術進行廣義上的機器同傳時,首先要對說話者的聲音進行語音識別。這是第一步,甚至也可以說是最關鍵的步驟之一,因為如果機器不能聽清講者在說些什么,后面的翻譯結果可想而知。
在語音識別環節,近日,來自全球一家世界500強科技公司的專業人士在接受本報記者采訪時稱:“之前參加過一些活動,看到配用的機器同傳系統一旦碰到co-mixing(講者演講中出現中英文混雜的情況)的時候,就會出現一些問題。”
該人士補充道:“基本上現有的語音識別系統都是在單語種上進行優化的,機器翻譯現在的訓練數據或者訓練語料當中,co-mixing出現的比例其實并不高,它對目前的翻譯系統的訓練可能并沒有產生什么影響,所以目前碰到co-mixing或者是co-switching(中英文編碼轉換,指的就是多種不同的語言結合在一起的時候)這種現象時,機器處理得并不好。”
黃學東也向記者表示,因為“一般的PC麥克風遠場不是很好”,微軟具有語音識別和實時機器翻譯功能的PPT當前也面臨著“需要把麥克風遠場交互做得更好”的挑戰。
而除了上述語音識別方面的問題,對于復雜場景、嘈雜環境中的語音識別,以及方言、嚴重的口音、口語等的語音識別,AI也依然面臨挑戰。
此外,在最關鍵的機器翻譯環節,除了文章開頭即提及的不能根據上下文語境進行精準翻譯、只能從字面直接的意義去理解外,機器同傳翻譯對詩歌、抒情散文等的翻譯,與人工同傳相比仍舊還有距離,還難以達到語言翻譯追求的“雅”的境界。
近日,搜狗語音交互技術中心高級總監陳偉在接受記者采訪時稱:“詩歌的詞和詞之間的對應關系很弱,機器如果直接按照詩歌里面說的,把它轉化成白話文去翻譯的話,是反映不出意境的。所以詩歌翻譯上,目前如果真的要靠模型的方式來做,距離人工還有很大差距。”科大訊飛方面也對本報記者表示:“后續在整體識別翻譯的準確度和流暢度上仍有進步空間,要達到標準的‘信達雅’還有一段路要走。”
何曉冬還向記者提到了同傳場景中機器翻譯的一個很重要的問題:“機器需要去判斷什么時候出翻譯,很多時候要等著聽到后面的內容才知道前面該怎么翻,但因為是同傳,所以也不能等太久,這時候就需要做一個決策,是等下去損失用戶體驗,還是先把前面的部分翻譯出來。”
但這樣同樣會面臨一個問題。他以“美國第42屆新當選的總統特朗普和安倍晉三在某地方會晤”的中英翻譯為例補充提到,這是一句較長的話,中英文語句對主謂賓的表達順序不同,在翻譯成英文的過程中,如果譯者一直等到后面的關鍵詞“會晤”出現,就會出現延時長的問題,但如果為了顧及實時性趕緊翻譯,甚至有可能會翻錯。
“因為它有可能不是‘會晤’,而是別的動詞,不到最后那個詞出來,你就不知道具體是什么。實時性和翻譯質量之間比較難兼顧。這個問題目前其實業界也沒有很好的辦法去解決。”他向本報記者提及。
清華大學計算機系教授劉洋也向本報記者提到:“目前距離開放域、開放環境的全自動、高質量語音翻譯還有很大距離,未來還需要學術界和工業界長期的共同努力。”
而即使是在業界普遍認為的技術成熟度相對最高的語音合成環節,也依然還有問題待解。
何曉冬認為,這項技術雖然并不是很難,但如果做得不好,也會影響用戶的體驗。“語音合成的聲音比較平和、柔順,聽起來比較符合人的自然的聲音。”
此外,被看作是深度學習神經網絡在機器翻譯領域的成功應用、支撐機器翻譯的NMT(神經機器翻譯)架構本身,也被指存在可靠性、數據偏差、無意義輸出、記憶力、對常識的判斷力以及機器翻譯質量評估方面的問題。劉洋向本報記者稱:“過去一兩年,基于神經網絡的機器翻譯方法的大體框架沒有發生重大變化。”
而正如前文所述,AI技術到底對人工同傳的工作有多大實際的輔助作用,也還依舊值得關注。
劉洋向本報記者提及:“一般而言,很多實用化的、對譯文質量要求非常高的機器翻譯系統都會采用人機協同的方式,充分發揮人類專家和機器的優勢,通常由機器先生成初始譯文,然后由人類專家進行后編輯。”
然而,近日,有在同傳行業工作10年之久的一位人工同傳向本報記者稱:“我一般自己翻自己的,不看機器翻譯的結果。同傳的程序就應該是聽-譯,而不是聽-看-譯(或照著機器初翻的結果跟著讀),后者分散精力,對翻譯員的壓力更大。”
上述500強公司的專業人士也向本報記者提及:“技術上自動同傳或者自動機器翻譯的系統,可以給人工同傳提供一定的輔助和支持。但這個目前還沒有在實踐上被驗證。至于怎么起到這種輔助作用,那也是未來實現的事情。”
而在投資市場,近日,星瀚資本創始人楊歌在接受記者采訪時提及,同傳行業本身屬于一個“高頻的小眾市場”,市場整體產能相對有限,AI同傳領域應更關注其能否延展到其他行業的應用中去。
相較于與不同語種的機器人進行同傳的對話和交流的“深AI”表現形式,楊歌認為,對于單個人的語音進行機器同傳則是一種“淺AI”的表現形式,前者“因更多地涉及到對話內容、邏輯,還有理解長段對話的一個過程,難度非常大,現在還屬于早期發展階段”。
業界探索和進展略舉
作為人類區別于其他生物的標志之一,語音、語言方面的相關技術,在黃學東看來,堪稱鑲在AI皇冠上的明珠。
他本人在這顆“明珠”上幾十年的雕琢和打磨,也見證了科技進步所帶來的改變。
他或許還記得,早年間求學蘇格蘭愛丁堡大學時,臺上操著濃重蘇格蘭英語的教授的發音,給自己帶來的“痛苦的經歷”。
而這一切,現在已經徹底成為歷史。2019年,通過整合此前就已推向市場的PPT插件,微軟向其office 365訂閱用戶推出了在講者演示時具有實時字幕和機器同步翻譯等功能的PPT。
在他看來,技術在現實場景中最后一公里的落地是AI所面臨的最大挑戰。而微軟的AI技術在同傳場景中的這項應用,在他看來“可圈可點”,讓同傳走上了新的臺階,使用量和用戶量都出現了前所未有的增長,已經實際惠及全球千萬級用戶。
“大家在臺上演講,有些人有語言障礙,同聲字幕和翻譯,對PPT的用戶來說,就很深入人心。”他表示。而對于前面提到的微軟PPT麥克風遠場交互方面的問題,他表示可以用佩戴無線頭戴耳機的方式來解決。
此外,不久前搜狗推出的3.0版本的同傳產品,據稱還用到了計算機視覺方面的技術,是業內首個“多模態”同傳產品,首創語境引擎,不僅會聽、會看還會思考。
科大訊飛方面近日也向記者表示,其人機耦合模式下的同聲傳譯“已經涉及醫療和科技領域,特別是在醫療領域對相關垂直科室的專有名詞的優化,大大提升了識別和翻譯的準確性,解決了通用引擎在垂直領域上效果的不足”。
在AI同傳的研究方面,據黃學東向本報記者介紹,2019年,微軟在斯坦福大學進行的對話轉語音識別方面,也“達到了可以媲美人類的水平”。
何曉冬向本報記者稱,在學術研究層面,當前業界有關于探討“能否做成一個很大的端到端的系統,把語音識別和機器翻譯整個包起來,直接從語音到語音,而不是說分語音識別、機器翻譯和語音合成這三步走”的問題。劉洋同時提到,關于該領域的學術研究還包括低延遲搜索算法等方面。
劉洋還向本報記者稱,當前業界針對同傳的具體特點(如實時性高、需有效處理環境噪聲等)做了很多優化工作,但總體而言還沒有取得新的里程碑式的重大突破。






