先日のプレスリリースで、Amazonは、テキストおよび構造化文書データからコンテンツを抽出する、フルマネージドなマシンラーニングサービスであるAmazon Textractの一般供与を開始すると発表した。Amazon Textractを使用することにより、ドキュメントワークフローの自動化、ダウンストリームアプリケーションで使用する重要な情報のインデックス化およびカタログ化が実現する。このサービスでは、数百万のドキュメントページを数時間で処理することができる。
Amazonは、インテリジェントなドキュメント抽出を民主化することによる、ビジネス成果の向上を目標としている。Amazon Machine Learning副社長のSwami Sivasubramanian氏は、次のように説明する。
Amazon Textractのパワーは、マシンラーニングの経験を必要とせずに、事実上あらゆるドキュメントから、テキストと構造化データの正確な抽出を可能にすることにあります。他のAWSサービスとの統合に加えて、Amazon Textractを中心として開発中の豊富なパートナコミュニティにより、ファイルのコレクションからの真意の取得、オペレーションの効率化、セキュリティコンプライアンスの改善、データ入力の自動化、ビジネス決定の迅速化の促進が可能になります。
Amazon Textractは、重要なフィールドあるいはコンテンツの識別において、従来の光学式文字認識(OCR)技術を超越する。Textract APIを使用してPDF、画像、テキスト、表といったファイル形式から抽出し、Amazon Comprehend、Amazon Comprehend Medical、Amazon Translateなどのマシンラーニングサービスに渡すことで、よりインテリジェントなコンテンツ抽出を実現している。
Textractから抽出されたデータは、ページ番号、セクション、ラベル、データタイプなどのメタデータを含んだJSON形式で提供される。コンテンツとメタデータを合わせてAmazon Elasticsearch Service、Amazon DynamoDB、Amazon Athenaなどのデータベースや分析サービスにロードすることで、会計、監査、コンプライアンスなどの他のアプリケーションでの使用が可能になる。
データ抽出プロセスの精度を評価するため、Textractでは、識別するデータ属性毎に、パーセンテージで表された信頼スコアを出力する。これを参照し、不正確性のフラグを設定することで、該当する情報を人に渡してさらなる検証を行うことが可能になる。データの抽出元を具体的に識別するためのバウンディングボックス座標(bounding box coordinates)も提供される。
PwC、Healthfirst、Informed Inc、UiPath、The Global and Mailといったユーザが、Textractサービスを既に使用している。The Globe and Mail(訳注: カナダの新聞社)では、Textractを使用してジャーナリストの生産性を向上すると同時に、これまで十分に活用されていなかった膨大なデータセットを活用を可能にしている。The Globe and MailのデジタルおよびデータサイエンスのマネージングディレクタであるMichael O'Neill氏は、次のように説明している。
ニュースメディア企業として、当社は、FOIs(情報公開要求)など多数のPDFやスキャンされたソースドキュメントに依存していますが、これまでは、表に記載された重要な情報へのアクセスができていませんでした。このような資料は、ジャーナリストが簡単にアクセスできなかったり、あるいはその存在を知らなかったため、十分に活用されていなかったのです。Amazon Textractを使用して、PDFのテーブルから情報を抽出し、そのデータをCSVに簡単に出力して、ジャーナリストが検索クエリで使用できるようになること、でこれらのドキュメントに簡単にアクセス可能になり、ジャーナリストの情報へのアクセス効率が1桁向上しました。
Amazon Textractの詳細については、製品内のドキュメントを参照して頂きたい。