はじめに

この記事では、Azure、AWS、Google Cloudの3大クラウドサービスのAIサービスの新規機能リリース履歴をまとめています。

備考

主に以下のURLの情報をもとに新機能のキャッチアップを行っています。

Azure

2025年01月21日: gpt-4o-realtime-previewがグローバルデプロイ可能に

gpt-4o-realtime-previewのモデルバージョン 2024-12-17がEast US 2とSweden Centralリージョンでグローバルデプロイメント可能になりました。


2025年01月21日: GPT-4o Realtime APIがプロンプトキャッシュをサポート

GPT-4o Realtime APIがプロンプトキャッシュをサポートしました。

プロンプト キャッシュを使用すると、プロンプトの開始時に同じ内容だった長いプロンプトに対して、全体的なリクエストの遅延とコストを削減できます。

Azure公式: プロンプトキャッシュについて


2025年01月21日: GPT-4o Realtime APIが新音声をサポート

GPT-4o Realtime APIで以下の新しい音声が使用できるようになりました。

  • alloy
  • ash
  • ballad
  • coral
  • echo
  • sage
  • shimmer
  • verse

2025年01月21日: GPT-4o Realtime APIのレート制限がRPMとTPMベースに変更

従来は1分あたりの接続数(connections per minute)に基づいてレート制限が設定されていましたが、1分あたりのリクエスト数(RPM: Requests Per Minute)と1分あたりのトークン数(TPM: Tokens Per Minute)に基づいて設定されるようになりました。

gpt-4o-realtime-previewモデルの各デプロイメント(配置)におけるレート制限は、100K TPM と 1K RPM に設定されています。

つまり、1分間に最大1,000回のリクエストを送信でき、1分間に処理できるトークンの最大数は100,000トークンです。


2025年01月21日: gpt-4o-audio-previewがグローバルデプロイ可能に

gpt-4o-audio-previewモデルがEast US 2とSweden Centralリージョンでグローバルデプロイメント可能になりました。 gpt-4o-audio-previewモデルはテキスト、音声、およびテキスト+音声のモダリティをサポートしています。

Azure公式: 音声クイックスタート Azure公式: グローバルスタンダードデプロイメント


2025年01月29日: DeepSeek-R1がAzure AI Foundryでプレビュー開始

中国産の高度な推論モデルDeepSeek-R1がAzure AI Foundryでプレビュー提供開始されました。

対応データタイプ

  • 入力: text
  • 出力: text

対応言語

以下は、DeepSheek公式サイトにおける各モデルのAPI料金です。 ※2/4現在Azureにおける料金については記載がない状態

モデル コンテキスト長 最大CoTトークン数 最大出力トークン数 1Mトークン入力価格 1Mトークン出力価格
DeepSeek-R1 64K 32K 8K $0.14 $2.19

2025年01月31日: Azure OpenAIでo3-miniが利用可能に

OpenAIの最新の推論モデルo3-mini (2025-01-31) がAzrure OpenAIで使用可能になりました。

コーディング、数学能力はo1の性能を超え、安価かつ回答が早いことが特徴です。

o1-miniとo3-miniの機能差異については下表の通りです。

Azure公式ブログ Azure公式: 推論ガイド

機能 内容 o1-mini o3-mini
Reasoning Effort Control 応答速度と推論レベルを選択 ×
Developer Messages role:developer 対応 ×
Structured Outputs JSON等の構造出力 ×
Functions/Tools Support 外部API連携 ×
Vision Support 画像解析 × ×

Azure公式: グローバルデプロイメント

モデル 入力 キャッシュ入力 出力 キャッシュ出力 コンテキスト 最大出力 カットオフ
gpt-4o $2.50 $1.25 $10.00 $5.00 128K 16K 2023年10月
o1-mini $1.10 $0.55 $4.40 - 128K 64K 2023年10月
o1 $15.00 $7.50 $60.00 $30.00 200K 100K 2023年10月
o3-mini $1.10 $0.55 $4.40 $2.20 200K 100K 2023年10月

OpenAI公式: 価格ページ


AWS

2025年01月22日: Amazon Bedrock FlowでAgent Nodeとの会話が可能に

Amazon Bedrock flowでユーザーとフロー上のAgent nodeがフローの間で双方向の会話が可能になり、 エージェントが必要に応じて追加情報を要求できるようになりました。

具体例:

ユーザー「プレイリスト作成して」

→ エージェント「曲数、ジャンル、テーマは?」

→ ユーザー「5曲、ウェールズロック、お城」

→ エージェント「プレイリスト出力」


2025年01月23日: Luma Ray v2がBedrockで利用可能

Amazon BedrockでLuma Ray v2が利用可能になりました。

Luma Ray2 はアメリカ・サンフランシスコ発のAIカンパニーによって開発された動画生成を行うモデルです。

現状は、テキストをインプットとして、動画をアウトプットする機能が利用可能で、画像や動画をインプットとした近日中に提供される予定です。


2025年01月24日: Cohere Embed English/MultilingualがBedrockで利用可能に

Amazon BedrockでCohere Embed EnglishとCohere Embed Multilingualが利用可能になりました。

Cohereは カナダの人工知能開発の会社です。

Cohere Embed には、英語モデル(Englishと多言語モデル(Multilingual)の 2 つのモデルがあります。

Google Cloud

2025年01月16日: Vertex AI Workbenchの認証関連問題を修正


2025年01月17日: Gen AI評価サービスでエージェント評価がプレビュー利用可能

Vertex AIのGenAI評価サービスでは以下の機能を使用することができます。

モデル選択: タスクに最適な事前学習済みモデルを選択。

生成設定調整: パラメータ調整で出力を最適化。 プロンプトエンジニアリング: 効果的なプロンプトを作成し、モデルの動作を制御。

ファインチューニングの改善と保護: パフォーマンス向上とバイアス軽減のためのファインチューニング。

RAG最適化: 最適なRetrieval Augmented Generationアーキテクチャを選択。

モデル移行: パフォーマンス向上のための新しいモデルへの移行。

翻訳 (プレビュー): 翻訳品質の評価。

AIエージェント評価: エージェントのパフォーマンス評価。

エージェント評価ではエージェントが期待通りに動作しているかを確認するために、最終的な応答内容と、その応答に至るまでのツール使用状況の両方を評価することができます。

エージェント評価指標の例

最終応答評価: モデル応答評価と同じ指標を使用します (例: ROUGE-L, BLEU)。

軌跡評価: 以下の指標が用意されています。

完全一致 (Exact Match): 予測された軌跡と参照軌跡が完全に一致する場合に1、そうでない場合に0を返します。

順序一致 (In-order Match): ツールの使用順序が一致するかどうかを評価します。

任意順序一致 (Any-order Match): ツールの使用順序に関わらず、使用されたツールが一致するかどうかを評価します。

適合率 (Precision): 予測されたツール呼び出しのうち、実際に参照軌跡に含まれるものの割合。

再現率 (Recall): 参照軌跡に含まれるツール呼び出しのうち、予測されたツール呼び出しに含まれるものの割合。

単一ツール使用 (Single Tool Use): 特定のツールが使用されたかどうかを評価します。

さらに、以下の2つの指標はデフォルトで追加されます。

レイテンシ: エージェントが応答を返すまでの時間。

失敗: エージェントがエラーを起こした場合に記録されます。


2025年01月21日: Claude 3 Sonnetが廃止

Anthropic Claude 3 SonnetのModel as a Service (MaaS)モデルが廃止されました。


2025年01月22日: LangChain on Vertex AIの料金体系発表

LangChain on Vertex AIの課金が2025年3月4日から開始

  • vCPU: $0.0994/vCPU-時
  • メモリ: $0.0105/GiB-時

2025年01月29日: Imagen 3画像生成モデルが提供開始

新しいImagen 3画像生成モデル(imagen-3.0-generate-002)が全ユーザーに提供されました。

以下の追加機能をサポートしています:

プロンプト強化:LLMベースのプロンプトリライターツールが、入力されたプロンプトをより詳細かつ説明的に改善し、高品質な画像生成を促進。デフォルトで有効化されています。


2025年01月30日: Mistral LargeとCodestralが非推奨に

Model GardenのMaaSモデルであるMistral Large (24.07)とCodestral (24.05)が非推奨となりました。


2025年01月31日: モデル使用状況監視とトラブルシューティング機能が追加

Vertex AI Model Gardenの基盤モデル(例:Google Gemini、Anthropic Claude)の使用状況、スループット、イテンシーの監視および429エラーのトラブルシューティングが可能なダッシュボードが提供されました。

モデル観測性:クエリを実行したモデル名をVertex AI Dashboardの「Model observability」に表示。

Cloud Monitoringでのメトリクスカスタマイズ機能も利用可能。「Show All Metrics」をクリックしてメトリクスを探索可能。