Google Cloudは最近、Document Translationの一般提供を発表した。Translation API Advancedの新機能では、翻訳プロセスにおいてドキュメントのフォーマットが保持される。
これまで、ドキュメントの翻訳では、テキストをレイアウト属性から分離する必要があった。ドキュメントの構造は失われるか、テキストの翻訳後にが再作成されていた。GoogleのプロダクトマネージャであるSarah Weldon氏は、次のように説明している。
Translation API Advancedのドキュメント翻訳機能の最大の差別化要因の1つは、単一のファイルに対してリアルタイムの同期処理を実行する機能です。たとえば、HRドキュメントなどのビジネスドキュメントを翻訳する場合、オンライン翻訳は小さなファイルに対しては柔軟性を提供し、より高速な結果を提供します(...)一方、バッチ翻訳では、顧客は1回のリクエストで複数のファイルを複数の言語に翻訳できます。
この新しいサービスにより、顧客は100以上の言語でドキュメントを翻訳できるようになる。そして、ドキュメントのフォーマットを維持しながら、Docx、PPTx、XLSx、PDFなどのフォーマットをサポートする。GAでは、PDFの右から左へ記述される言語のサポート、フォントサイズ、フォントの色、フォントスタイル、ネイティブPDFのハイパーリンクの保持が追加されている。また、欧州連合で機械翻訳処理を保存するための構成可能なエンドポイントを導入されている。
結果の精度を向上させるために、現状Document Translationは4つの異なる翻訳アプローチをサポートしている。顧客はGoogleのSOTA翻訳モデルを使ったり、優先翻訳を定義する特定の用語やフレーズのための用語集をインポートしたり、事前にトレーニングされたモデルを選択したり、AutoMLでカスタム翻訳モデルを構築したりできる。
別の記事で、GoogleのカスタマーエンジニアのTristan Li氏とGoogleのカスタマーエンジニアリングマネージャのWayne Davis氏が、Translation APIを使用してWebサイトを翻訳するためのベストプラクティスを強調している。ドキュメント翻訳用のAPIを提供しているクラウドプロバイダーはGoogleだけではない。InfoQで最近報告されたように、Microsoft Translatorは現在100以上の言語と方言をサポートしている。世界人口の72%がネイティブとして話す言語をカバーしている。AWSは、ウェブサイトやアプリケーションをローカライズしたり、分析のために大量のテキストを翻訳したりするためにAmazon Translateを提供している。
Rafael Quevedo氏は、新しいAPIの正確性に疑問を投げかけている。
クラウドプロジェクトは、それらを設計したダイバーシティチームのなすがままです。Google翻訳は、既存の文献を使用してすべての種類の言語を翻訳できると主張できますが、古いスタイルのTVフレーズを処理できるでしょうか。あるいはスラングはどうでしょう。
Cloud Translationでは、サービスによって処理されたテキストの量に応じて、100万文字ごとに20米ドルを顧客に請求する。Advanced API呼び出しのdetectLanguage、translateText、batchTranslateText、translateDocument、batchTranslateDocumentには追加料金が適用される。たとえば、TranslateDocumentの費用は、処理されるページごとに0.08米ドルである。