AzureのOCRサービス「Azure Form Recognizer」入門
- POST
AzureのOCRサービス「Azure Form Recognizer」入門 注意 サービス名称に伴い最新版の記事はこちらに記載しました。
https://ohina.work/post/azure_ocr_di/#google_vignette
はじめに Azureには、Azure Cognitive ServicesとAI機能をWeb APIして提供するサービスがあります。 本記事では、Azure Cognitive Servicesのうち、OCRサービス「Azure Form Recognizer」の使い方について紹介します。 Azure Cognitive Servicesとは Azure Cognitive Servicesは、視覚、音声、言語、決定、検索の5ジャンルからなるAI機能をWeb APIとして利用できるAzureのサービスです。
https://azure.microsoft.com/ja-jp/services/cognitive-services/#overview
Azure Form Recognizerとは 請求書、レシート、名刺などのドキュメントから文字情報を取得するAzure Cognitive ServicesのOCR機能の一つです。
Azure Form RecognizerのAPIを実行すると、リクエスト時で渡されたPDFファイルなどのドキュメントのURLを解析し、 解析したテキスト情報をHTTPレスポンスとして返します。
https://docs.microsoft.com/ja-jp/azure/applied-ai-services/form-recognizer/
もう一つのOCRサービス「Azure Computer Vision」 Azure Cognitive ServicesのOCRサービスには、Computer Visionというものもあります。
Computer Visonは画像やビデオのコンテンツを分析するAIサービスです。
こちらもOCRの機能がありますが、画像内のオブジェクトの検出、画像の説明の生成、顔認識などOCR以外にも、画像に対してより幅広いことができます。
PDFファイルの上の表にあるテキストの取得や、指定したテキストを取得したい場合は、Azure Form Recognizerの方が適しています。
https://stackoverflow.com/questions/71071309/ai-form-recognizer-vs-cognitiveservices-computervision
https://azure.microsoft.com/ja-jp/services/cognitive-services/computer-vision/#overview
https://www.alirookie.com/post/azure-ocr-with-pdf-files
Azure Form Recognizerの機能 Azure Form Recognizerは、機能で、次のサービスで構成されています。
Layout API 事前構築済みモデル カスタムモデル Layout API Azure Form RecognizerのAPIを実行することで、ドキュメントから、テキストや、テーブルの構造、テキスト、バウンディングボックスの座標と共にドキュメントから抽出します。
事前構築済みモデル(Prebuilt Model) 事前構築済みモデルは請求書、レシート、名刺などMicrosoftが事前に用意している特定のドキュメント専用のAIモデルを使用して、フォームを解析する機能です。