Azure OpenAIの各デプロイメントタイプ
- POST
Azure OpenAIの各デプロイメントタイプ はじめに Azure OpenAIでは、モデルをデプロイするときに5つのデプロイメントタイプを選択することができます。
この記事では、Azure OpenAIのそれぞれのデプロイメントタイプについて紹介します。
Azure OpenAI のデプロイメントタイプ Azure Open AIでは、以下の5つのデプロイメントタイプが存在します。
Standard Provisioned Global Standard Global Provisioned Global Batch Azure公式ドキュメント: Azure OpenAI デプロイメントタイプ
Azure公式ドキュメント: Azure Open価格
Standard Standardは、Azure OpenAIのサービス開始当初からあるデプロイメントタイプです。
モデルのデプロイ時に設定したTPM(1分当たりのトークン数)を処理上限として、APIのコール時に使用したトークン数に応じて従量課金される形式になっています。
データを処理するリージョンは、作成したAzure OpenAIリソースのリージョンで固定されるため、データを処理する所在地の指定があるリージョンでの利用に適しています。
Azure公式ドキュメント: Azure OpenAI デプロイメントタイプ
Provisioned Provisionedは、月間または、年間通して使用するスループット(PTU: Provisioned Throughput)を事前予約することができるデプロイメントタイプ。
事前にモデルの処理可能量にあたるPTUを購入することで、以下のメリットが得られます。
Azure公式ドキュメント: Azure OpenAI Provisioned Throughput
一貫したレイテンシ: レートリミットによる429エラーの発生が抑止され、応答時間が安定する コストの削減: 月間または、年間通しての利用により従量課金よりも安いコストでOpenAIを利用できる デメリットとしては、
未使用時のコストの増加: 事前にPTUを購入するため、使用量が少ない場合にもコストが発生する Azure OpenAIのモデルバージョンごとに、購入できるPTUの単位や、PTU当たりの処理能力(単位時間当たりで何トークン処理できるかなど)は異なります。
PTU当たりの処理能力や、PTU当たりの料金はドキュメントに記載がないが、Azure OpenAI Studioのモデルのデプロイの画面から、 プロンプトトークン、生成トークン、1分当たりのピーク時のリクエスト数から必要な推定PTUを算出と価格の確認が可能です。
Global Standard/Provisioned Globalデプロイメントは、Azure基盤側でAzure Open AIへの各リクエストを最も可用性の高いリージョンのデータセンターにルーティングすることで、 通常のデプロイメントタイプよりも高い可用性を提供するデプロイメントタイプ。