跳至主要內容
翻譯員

微軟翻譯器部落格

政治不正確的機器

在過去的幾個月中,我們機器翻譯團隊的各種產品的流量不斷增加,但昨天我們注意到流量突然暴增。我是在阿加莎‧克里斯蒂 (Agatha Christie) 和夏洛克‧福爾摩斯 (Sherlock Holmes) 的故事中長大的,因此對於這類神秘的故事無法抗拒 - 而團隊中的其他幾位成員也同樣好奇,想要找出導致流量突然增加的原因。我們認為 IE8 活動/加速器,......。 信使機器人, 搜尋翻譯, 辦公室翻譯 都顯示出與前幾天相同的上漲趨勢,因此並非造成此次上漲的特定原因。

最後,我們找到了一個可能的原因。我們的使用者社群發現機器翻譯引擎在處理從英文翻譯成德文的幾個人名時,出現了一個怪現象。鑑於目前美國選舉前的政治氣氛,當引擎將一個政黨的候選人翻譯成另一個政黨的候選人時,最後會變成新聞,這是意料中事。我們當然歡迎所有來查看此現象的新使用者 - 我們希望與我們的使用者分享,為什麼我們和其他公司的統計訓練機器翻譯系統似乎不時會發生這樣的事情。

統計機器翻譯引擎是在大量平行資料上訓練出來的,也就是同時存在於來源語言 (例如英文) 和目標語言 (例如德文) 的資料,其中來源語言和目標語言是彼此的翻譯。我們的引擎會針對我們支援的每一種語言對,在數百萬個句子上進行訓練。為了在特定的資料庫 (可能是大量翻譯成德語的英文新聞報紙文章) 上進行訓練,我們必須先將資料庫分解成句子。在將語料分割成句子之後,我們會將產生的句子送入句子對齊器,其唯一目的就是找出來源端的句子與目標端的句子對齊。這並不是一件小事,因為一邊的句子有可能與目標邊的一個或多個句子對齊(也有可能完全不對齊!)。對齊器有時會犯錯,將一個句子與另一個實際上不是翻譯的句子錯誤對齊。這可能會導致一些錯誤的翻譯,尤其是當源語和目標語中有一些字不常出現的時候。由於我們的翻譯引擎是統計式的,因此高度依賴來源與目標資料中字詞的共現頻率。如果某些詞彙出現的頻率很低,例如人名在數百萬個句子的語料庫中可能只出現幾次,那麼頻率的不足可能會導致源代碼和目標代碼之間的錯誤「猜測」(即分配給特定源代碼和目標代碼詞彙的概率很低)而造成翻譯錯誤。這可能會導致我們的翻譯系統出現一些滑稽的錯誤。

就這樣,「機器」決定以一種方式進行翻譯,結果社群將其歸咎於我們團隊的幽默感。儘管我們將繼續努力以確保正確的對齊,但對於一個建立在數百萬到數十億字基礎上的統計系統而言,這樣的情況可能會重演,這是意料之中的事。

目前的對齊問題應已解決,但我們仍呼籲使用者社群透過本部落格與我們聯絡,協助我們識別任何此類情況。

-維克拉姆

Vikram Dendi 領導 Microsoft 翻譯器團隊的業務策略與產品規劃