統計機器翻譯 - 嘉賓部落格 (已更新附加論文)
Will Lewis 是 Microsoft Translator 團隊的計畫經理,負責語言品質與資料擷取。 今天的客座部落格高層次地說明引擎如何運作:
許多人都知道,Microsoft Translator 的引擎蓋下採用的是統計機器翻譯 (SMT) 引擎。 統計系統與基於規則的系統不同之處在於,將單字和詞組從一種語言映射到另一種語言的 「規則 」是由系統自行學習的,而非手工編碼。 訓練 SMT 需要累積大量的平行訓練資料 - 最好是品質優良且來自不同來源的資料 - 並在這些資料上訓練引擎。 (我們所說的平行,是指一種語言的內容與另一種語言的內容相同的資料來源)。 引擎會學習一種語言的單字和詞組與另一種語言的單字和詞組之間的對應關係,而這種對應關係通常會因為相同的單字和詞組在整個輸入資料中重複出現而得到強化。 例如,在訓練英語-德語系統時,如果引擎看到短語 保留所有權利 在英語一側,也注意到 保留所有權利 在德語一側,它可能會將這兩個短語對齊,並為此對齊分配一定的概率。 在訓練資料中重複出現的來源與目標詞組只會強化此對齊方式。
一般而言,擁有語言對的平行資料意味著我們可以在兩個方向上訓練引擎 (也就是說,英語-德語和德語-英語系統可以在相同的輸入句子上訓練)。 有些人對於我們為何在推出西班牙語-英語之前先推出英語-西班牙語系統有一些疑問。 其實有兩個原因。 首先,英文-西班牙文是我們發佈的第一對一般領域語言。 發佈一個語言對讓我們可以在開始發佈更多之前測試基礎架構。 第二,西班牙文-英文的技術與英文-西班牙文的技術略有不同,我們需要一些額外的時間來進行必要的基礎架構變更以適應。 未來,我們計畫以成對的方式發佈新的翻譯系統 (有幾個例外)。 我無法透露我們接下來有哪些語言的計畫,但希望不久之後會有一些新的語言!
如果您對我們引擎的技術討論及其運作方式感興趣,請參閱開發這些引擎的研究人員所撰寫的一些論文。 最近值得注意的三篇論文如下
Chris Quirk, Arul Menezes. 我們需要短語嗎?挑戰統計機器翻譯的傳統智慧 2006 年 5 月 美國紐約州紐約市 2006 年 HLT-NAACL 論文集
Chris Quirk, Arul Menezes. 依存樹狀小節翻譯:統計與範例式機器翻譯的融合? 2006 年 3 月 機器翻譯 43-65 (附加檔案)
Chris Quirk, Arul Menezes. 使用依存順序範本來改善翻譯的通用性 2007年7月 計算語言學協會