Azure AI 自訂翻譯神經字典:提供更高的術語翻譯品質
今天,我們超級興奮地宣布推出神經字典,這是我們平台翻譯品質的重大改進。在這篇博文中,我們將探討神經字典功能。
簡介
神經字典是我們 動態字典 和 短語字典 Azure AI 翻譯器中的功能。這兩種功能都允許我們的使用者針對特定詞彙或詞組提供自己的翻譯,自訂翻譯輸出。我們之前的方法使用逐字詞典,這是一種精確的尋找與取代作業。對於可能包含一個或多個詞彙翻譯的句子,神經字典可讓機器翻譯模型同時調整詞彙和上下文,以產生更流暢的翻譯,從而改善翻譯品質。與此同時,它也保留了較高的詞彙翻譯準確度。
以下英文-德文範例展示了在要求自訂術語翻譯時,兩種方法在翻譯輸出上的差異:
輸入: | Basic Knowledge of <mstrans:dictionary translation=”regelmäßiges Testen”>Periodic Maintenance</mstrans:dictionary> |
逐字詞典: | 基礎 德 定期es 測試en |
神經字典: | 基礎 des 定期en 測試確保 |
品質改善
下圖說明了新功能在汽車業常見的公開術語測試集上所帶來的顯著改進 (https://aclanthology.org/2021.eacl-main.271)、健康 (https://aclanthology.org/2021.emnlp-main.477) 和 Covid-19 領域 (https://aclanthology.org/2021.wmt-1.69) 使用我們的一般翻譯模型。
我們也針對 Custom Translator 平台和神經字典模型進行了一系列的客戶評估。我們測量了有神經字典擴充和沒有神經字典擴充的模型在客戶資料上的翻譯品質提升。共有五位客戶參與,涵蓋不同商業領域的德文、西班牙文和法文。
下圖顯示了 COMET 在教育領域中,英德、英西和英法的翻譯品質;左側為一般模型,右側為客製化模型。藍色柱體代表不使用神經字典的一般翻譯品質,橘色柱體代表使用神經字典的翻譯品質。這些是在整個測試集上的整體平均改進。對於包含一個或多個客戶字典詞條(介於 19% 與 63% 之間)的區段,改善幅度高達 +6.3 至 +12.9 COMET 點。
支援的語言
- 目前可用 (截至 2023 年 12 月 6 日):簡體中文、法文、德文、義大利文、日文、韓文、波蘭文、俄文、西班牙文和瑞典文 - 與英文互換。
- 我們將在未來增加更多。如需更新,請參閱 自訂翻譯器 發行紀錄.
神經字典如何運作
在處理自訂詞彙翻譯時,神經字典不會採用精確的查找和取代作業。相反,它會以最適合整個上下文的方式翻譯字典中的詞彙或詞組。這表示詞彙可以轉折或有不同的詞彙,或周圍的詞彙可以調整,從而產生更流暢、更連貫的翻譯。
舉例來說,我們有以下英文輸入句子,在沒有任何字典詞組的情況下翻譯成波蘭文如下:
輸入: | 我們需要一個可以理解的快速解決方案。 |
標準翻譯: | 您可以在您的瀏覽器上選擇您想要的內容。 |
如果您要確保「解決方案」被翻譯成「」,請參閱「解決方案」。alternatywa「(英文中為 」an alternative"),您可以新增動態字典註解來達成此目的:
輸入: | We need a fast <mstrans:dictionary translation=”alternatywa“>solution</mstrans:dictionary> that will be understandable. |
逐字詞典: | 鍋具自尊心 alternatywa, który 滾動滾動y. |
神經字典: | 鍋具ej 替代方案wy, która 滾動滾動a. |
由於違反了語法上的性別一致性,先前方法所產生的輸出並不流暢。神經詞典透過 a) 對所要求的替代詞進行語態轉換,以及 b) 在需要時變更周圍的詞來產生流暢的輸出。在某些情況下,它也可以改變詞性,就像下面的例子一樣:
輸入: | This company’s <mstrans:dictionary translation=”akcje“>stock</mstrans:dictionary> is cheap. |
逐字詞典: | akcje Tej firmy 玩笑 tani. |
神經字典: | Akcje Tej firmy s tanie. |
神經字典希望所要求的詞彙翻譯是以其基本語法形式提供。也支援多詞彙,並且應以名詞詞組的形式提供,也就是說,詞彙不應單獨進行詞彙化 (例如,「愛沙尼亞議會選舉」將會比「愛沙尼亞議會選舉」更好)。
如何啟用神經字典
對於以上列出的所有支援語言,所有使用 Custom Translator 平台的客戶都可立即使用神經字典,並可使用 短語字典.要啟用神經字典,需要完整 (或僅字典) 的自訂模型重新訓練。
建議
- 如果您想確保在使用神經詞典時,詞組詞條被更多地使用,您可以考慮以各種形式將詞組詞條與來源部分一起加入。在上面的範例中,在「解_ alternatywa",您可能還需要新增下列項目:"解決方案 _ alternatywa"、"解決方案 _ 替代方法"、"解決方案 _ 替代方法".
- 如果使用詞組辭典時,目標是確保特定的字或詞組「原封不動」地從輸入文字複製到輸出翻譯,請考慮執行逐字辭典,因為它可能更一致。
- 避免在短語詞典中加入常見或常用單字或詞組的翻譯。
若要進一步瞭解 Custom Translator 以及它如何幫助您的企業在全球市場中蓬勃發展,請從 自訂翻譯器新手指南.
使用 Microsoft 自訂翻譯器可以做什麼
使用您特定領域的術語建立自訂模型,並使用 微軟翻譯器 API.
使用 微軟自訂翻譯器 與您的翻譯解決方案,協助您的業務全球化並改善客戶互動。
如需更多資訊,請造訪 Microsoft 翻譯器業務解決方案 和 自訂翻譯器 發行紀錄.