使用文件翻譯功能翻譯掃描的 PDF 文件
今天 文件翻譯 Translator是Microsoft Azure Cognitive Service的一項功能,增加了翻譯包含掃描影像內容的PDF文件的能力,讓客戶無需在翻譯前透過OCR引擎進行預處理。
文件翻譯已於去年(2021 年 5 月 25 日)全面推出,讓客戶可以將整份文件和批次文件翻譯成超過 110 種語言和方言 同時保留原始檔案的排版和格式。文件翻譯支援多種檔案類型,包括 Word、PowerPoint 和 PDF,客戶可以使用預先建立或自訂的機器翻譯模型。文件翻譯可透過 Azure Active Directory 認證進行企業就緒,透過 Managed Identity 提供服務與儲存之間的安全存取。
翻譯具有掃描影像內容的 PDF 是文件翻譯客戶要求極高的功能。客戶發現很難透過自動化來分隔具有一般文字或掃描影像內容的 PDF 文件。這造成了工作流程上的問題,因為客戶必須先將具有掃描影像內容的 PDF 文件傳送至 OCR 引擎,然後再傳送至文件翻譯。
文件翻譯服務現在擁有智慧
- 來識別 PDF 文件是否包含掃描的影像內容、
- 將包含掃描影像內容的 PDF 傳送至內部的 OCR 引擎以擷取文字、
- 將翻譯的內容重構為一般的 PDF 文字,同時保留原始的排版與結構。
掃描的 PDF 內容不會保留字體格式,例如粗體、斜體、底線、高亮等,因為 OCR 技術目前無法擷取這些字體格式。但是,在翻譯一般文字 PDF 文件時,字體格式會被保留。
文件翻譯目前支援包含掃描影像內容的 PDF 文件 從 68 種原始語言轉換成 87 種目標語言.我們會在適當的時候增加對其他來源和目標語言的支援。
現在,客戶可以更輕鬆地將所有 PDF 文件直接傳送至 Document translation,並讓它決定何時及如何有效地使用 OCR 引擎。
對於已在使用文件翻譯的客戶,無需更改程式碼即可使用此新功能。具有掃描內容的 PDF 文件可以像其他支援的文件格式一樣提交進行翻譯。
我們也很高興地宣布,文件翻譯增加了對掃描 PDF 文件內容的支援,且不向客戶收取額外費用。透過 Azure 提供的文件翻譯有兩種定價方案 - 隨用隨付方案和適用於較高文件翻譯量的 D3 量產折扣方案。定價詳情請參閱 aka.ms/TranslatorPricing.
瞭解如何開始文件翻譯 aka.ms/DocumentTranslationDocs.
請將您的意見寄至 [email protected]。