はじめに

この記事では、Azure、AWS、Google Cloudの3大クラウドサービスのAIサービスの新規機能リリース履歴をまとめています。

主に以下のURLの情報をもとに新機能のキャッチアップを行っています。


Azure

2025年02月05日: GPT-4o Mini Audioがリリース

GPT-4o-mini-audio-preview (2024-12-17) とGPT-4o-mini-realtime-preview (2024-12-17)が提供開始されました。

GPT-4o-mini-audio-preview (2024-12-17) は最新の音声生成モデルです。

モデル名 種別 入力 出力
GPT-4o-Mini-Audio-Preview-2024-12-17-Global テキスト $0.15 $0.60
GPT-4o-Mini-Audio-Preview-2024-12-17-Global オーディオ $10 $20
GPT-4o-Mini-Audio-Preview-2024-12-17 – Data Zones テキスト $0.165 $0.66
GPT-4o-Mini-Audio-Preview-2024-12-17 – Data Zones オーディオ $11 $22
GPT-4o-Mini-Audio-Preview-2024-12-17-Regional テキスト $0.165 $0.66
GPT-4o-Mini-Audio-Preview-2024-12-17-Regional オーディオ $11 $22

GPT-4o-mini-realtime-preview (2024-12-17) は最新のリアルタイム音声モデルです。
低遅延のリアルタイム音声対話用に最適化されています。

モデル名 種別 入力 キャッシュ入力 出力
GPT-4o-Mini-Realtime-Preview-2024-12-17-Global テキスト $0.60 $0.30 $2.40
GPT-4o-Mini-Realtime-Preview-2024-12-17-Global オーディオ $10 $0.30 $20
GPT-4o-Mini-Realtime-Preview-2024-12-17– Data Zones テキスト $0.66 $0.33 $2.64
GPT-4o-Mini-Realtime-Preview-2024-12-17– Data Zones オーディオ $11 $0.33 $22
GPT-4o-Mini-Realtime-Preview-2024-12-17-Regional テキスト $0.66 $0.33 $2.64
GPT-4o-Mini-Realtime-Preview-2024-12-17-Regional オーディオ $11 $0.33 $22

https://learn.microsoft.com/en-us/azure/ai-services/openai/realtime-audio-quickstart

https://azure.microsoft.com/en-us/pricing/details/cognitive-services/openai-service/#pricing

2025年2月19日: o3-miniがData Zones Standard Deploymentで利用可能に

o3-miniがData Zones Standard Deploymentでデプロイ可能になりました。

Data Zones

Data Zonesの場合、データはAzure OpenAIを作成したリージョンに留めることができ、推論はMicrosoft定義のデータゾーン内の空いているコンピューティングリソースを使用して行われます。

※o3-miniデータスタンダードデプロイメンは米国リージョン(eastus, eastus2, northcentralus, southcentralus,westus,westus2)でのみで利用可能

https://learn.microsoft.com/en-us/azure/ai-services/openai/concepts/models?tabs=datazone-standard%2Cstandard-chat-completions#model-summary-table-and-region-availability

https://learn.microsoft.com/en-us/azure/ai-services/openai/how-to/deployment-types#data-zone-standard

2025年02月27日: ストアドコンプリーションAPI提供開始

ストアドコンプリーションAPIは、チャットコンプリーションセッションから会話履歴をキャプチャし、評価やファインチューニングのためのデータセットとして使用することができます。

https://learn.microsoft.com/en-us/azure/ai-services/openai/how-to/stored-completions?tabs=python-secure#stored-completions-api

2025年02月27日: Azure OpenAIでGPT-4.5プレビュー提供開始

Azure OpenAIで多様なテキストと画像タスクに優れた最新のGPTモデルであるGPT-4.5が利用可能になりました。 以下の2つのリージョンで利用可能です。

  • East US 2 (Global Standard)
  • Sweden Central (Global Standard)

以下はOpenAIの各種モデルの料金比較です。

モデル 入力トークン料金 ($/1M) キャッシュ入力料金 ($/1M) 出力トークン料金 ($/1M) バッチAPI入力料金 ($/1M) バッチAPI出力料金 ($/1M) コンテキストウィンドウ (トークン) 最大出力トークン (トークン) ナレッジカットオフ
gpt-4o 2.50 1.25 10.00 2.50 5.00 128K 16K 2023年10月
o1-mini 1.10 - 4.40 - - 128K 64K 2023年10月
o1 15.00 7.50 60.00 15.00 30.00 200K 100K 2023年10月
o3-mini 1.10 0.55 4.40 1.10 2.20 200K 100K 2023年10月
gpt-4.5-preview 75.00 37.50 150.00 37.50 75.00 128K 16K 2023年10月

GPT-4.5プレビューにアクセスするには登録が必要です。

https://aka.ms/oai/gptaccess

https://learn.microsoft.com/en-us/azure/ai-services/openai/concepts/models?tabs=global-standard%2Cstandard-chat-completions#gpt-45-preview

https://platform.openai.com/docs/models/gpt-4.5-preview

https://openai.com/ja-JP/api/pricing/

https://azure.microsoft.com/en-us/pricing/details/cognitive-services/openai-service/

2025年02月28日: Azure AI SearchでManaged HSMを使用してCustomer-managed keysを保存する機能が提供開始

Azure Key VaultまたはAzure Key Vault Managed HSM(Hardware Security Module)を使用して、機密コンテンツの追加暗号化のためにカスタマーマネージドキーを保存する機能が追加されました。

https://learn.microsoft.com/en-us/azure/search/search-security-manage-encryption-keys


AWS

2025年02月24日: AWS BedrockでClaude 3.7 Sonnetがプレビュー提供開始

Claude 3.7 Sonnet PreviewがAWS Bedrockで利用可能になりました。

Claude 3.7 Sonnet vs Claude 3.5 Haiku 比較表

モデル コンテキストウィンドウ 入力価格 ($/MTok) 出力価格 ($/MTok) キャッシュ書き込み ($/MTok) キャッシュ読み込み ($/MTok)
Claude 3.7 Sonnet 200K $3.00 $3.75 $0.30 $15.00
Claude 3.5 Haiku 200K $0.80 $1.00 $0.08 $4.00

Claude 3.7 Sonnet 追加情報

  • モデルID: anthropic.claude-3-7-sonnet-20250219-v1:0
  • サポートリージョン:
    • us-east-1
    • us-east-2
    • us-west-2
  • サポートモーダル:
    • Text
    • Image

https://docs.aws.amazon.com/bedrock/latest/userguide/models-supported.html

https://www.anthropic.com/pricing#anthropic-api

2025年02月27日: オープンソースフレームワークの生成AIアプリの状態管理にAmazon Bedrock session management APIを使用可能に

オープンソースフレームワークで構築された生成AIアプリケーションの状態を管理するために、Amazon Bedrock session management APIを使用できるようになりました。

LangGraphやLlamaIndexなどのオープンソースフレームワークを使用して構築された生成AIアプリケーションで、進行中の会話のチェックポイントを保存することができます。

セッションはAmazon Bedrockのリソースとして管理されるため、AWS Identity and Access Management (IAM)を使用してセッションへのアクセスを制御できます。

これにより、マルチステップの生成AIワークフロー全体で状態や会話のコンテキストを安全に管理することができます。

https://docs.aws.amazon.com/bedrock/latest/userguide/sessions.html

2025年02月27日: Amazon Bedrockがヨーロッパ(ストックホルム)でサポート開始

Amazon Bedrockがヨーロッパのストックホルムリージョンで利用可能になりました。

https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bedrock_region


Google Cloud

2025年02月05日: Gemini 2.0 Flashのテキスト出力の一般提供開始とGemini 2.0 Flash-Liteモデルの提供

Gemini 2.0 Flash: テキスト出力専用で一般提供開始されました。(gemini-2.0-flash-001)

Gemini 2.0 Flash-Lite: 最速かつコスト効率の高いモデル。プレビュー版として利用可能。(gemini-2.0-flash-lite-preview-02-05)

100 万トークンのコンテキスト ウィンドウに前バージョンのGemini 1.5と比較して大幅なパフォーマンス向上を実現。

※マルチモーダル出力は現状は引き続きプライベートプレビューのみ利用可能。

モデル タイプ 価格 バッチAPI価格
Gemini 2.0 Flash 1M 入力トークン $0.15 $0.075
1M 入力音声トークン $1.00 $0.50
1M 出力テキストトークン $0.60 $0.30
Gemini 2.0 Flash Lite 1M 入力トークン $0.075 $0.0375
1M 入力音声トークン $0.075 $0.0375
1M 出力テキストトークン $0.30 $0.15

https://cloud.google.com/vertex-ai/generative-ai/docs/gemini-v2

https://developers.googleblog.com/en/gemini-2-family-expands/

https://cloud.google.com/vertex-ai/generative-ai/pricing?hl=en

2025年02月05日: Gemini 2.0 Proが実験版として提供開始

Gemini 2.0 Proは、コーディングや幅広い知識に特化した強力なモデルです。(gemini-2.0-pro-exp-02-05)

2Mのコンテキストウィンドウをサポートしています。

現状は実験版モデルとして利用可能です。

https://cloud.google.com/vertex-ai/generative-ai/docs/gemini-v2

2025年02月07日: Vertex AIのModel Gardenにdeepseek-ai/deepseek-r1とmicrosoft/Phi-4モデルが追加

deepseek-ai/deepseek-r1:

中国産の高度な推論モデル「DeepSeek-R1」がVertex AIのModel Gardenに追加されました。

https://api-docs.deepseek.com/quick_start/pricing

Vertex AIで使用可能なDeepseekモデルは以下の通りです。

  • deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
  • deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
  • deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
  • deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
  • deepseek-ai/DeepSeek-R1-Distill-Llama-8B
  • deepseek-ai/DeepSeek-R1-Distill-Llama-70B

https://console.cloud.google.com/vertex-ai/publishers/deepseek-ai/model-garden/deepseek-r1

※料金はVertex AIで使用するマシンタイプに準ずる

https://cloud.google.com/vertex-ai/pricing?_gl=11chuykw_gaMTkyMDI4NjgyNS4xNzE4NzYxMzQy_ga_WH2QY8WWF5*MTczOTgzMDUxMC4xMDMuMS4xNzM5ODMyMzMyLjQ2LjAuMA..&hl=ja#prediction-prices

microsoft/Phi-4

Phi-4は2024年12月13日にMicrosoftから提供された小規模言語モデルです。

https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft’s-newest-small-language-model-specializing-in-comple/4357090

数学関連の推論に関するベンチマークにおいて、GPT-4oやGemini Proといった大規模モデルよりも優れた結果をマークしたという技術レポートも公開されています。

https://arxiv.org/pdf/2412.08905

項目 内容
パラメータ数 140億
トークン上限 16K
トレーニングデータ量 9.8兆トークン
トレーニング期間 21日間(2024年10月~11月)
知識のカットオフ日 2024年10月

https://console.cloud.google.com/vertex-ai/publishers/microsoft/model-garden/phi-4

※料金はVertex AIで使用するマシンタイプに準ずる

https://cloud.google.com/vertex-ai/pricing?_gl=11chuykw_gaMTkyMDI4NjgyNS4xNzE4NzYxMzQy_ga_WH2QY8WWF5*MTczOTgzMDUxMC4xMDMuMS4xNzM5ODMyMzMyLjQ2LjAuMA..&hl=ja#prediction-prices

2025年02月07日: Vertex AIの高度なLLM推論最適化技術がプレビュー提供開始

以下の高度なLLM推論最適化技術がPreviewで利用可能

Prefix caching

共通のプロンプト接頭辞を持つリクエストの計算を再利用し、処理の冗長性を排除。
初トークン生成までの時間を短縮。

対応モデルは以下のとおりです。

  • vLLM: Llama 3.1 (8b, 70b), Llama 3.3 (70b)
  • Hex-LLM: Llama 2 (7b, 13b), Llama 3 (8b), Llama 3.1 (8b, 70b), Llama 3.2 (1b, 3b), Llama Guard (1b, 8b), CodeLlama (7b, 13b), Gemma (2b, 7b), CodeGemma (2b, 7b), Mistral-7B (v0.2, v0.3), Mixtral-8x7B (v0.1)

Speculative decoding(投機的デコーディング)

LLMの推論速度を向上させ、出力トークン生成の遅延を削減する効果的な最適化技術。

従来の自己回帰デコーディングを用いてトークンを一つずつ逐次生成する方式に対して、Speculative decodingは2つのモデルを協調させることで機能します。

ドラフトモデルは、次に生成される可能性のある複数のトークンを高速で生成する
メインモデルは、それらのトークンを並行で確認または修正し、出力トークン全体の全体の生成速度を向上させる

https://github.com/GoogleCloudPlatform/vertex-ai-samples/blob/main/notebooks/community/model_garden/model_garden_advanced_features.ipynb

https://research.google/blog/looking-back-at-speculative-decoding/

2025年02月11日: Vertex AIでLlama 3.3 70Bモデルがプレビュー提供開始

Vertex AIでLlama 3.3 70Bモデルがプレビューで利用可能になりました。

Meta社開発の多言語対応大規模言語モデル(LLM)。

70Bパラメータを持ち、テキスト入出力に最適化。多言語対話ユースケースで高い性能を発揮。

対応言語: 英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語。

学習データ: 公開オンラインデータの新たなミックス、トークン数15T+、知識のカットオフは2023年12月。

https://console.cloud.google.com/vertex-ai/publishers/meta/model-garden/llama-3.3-70b-instruct-maas

2025年02月12日: Vertex AIでDeepSeek-V3およびDeepSeek-R1がModel Gardenにプレビュー追加

DeepSeek-V3 (671B): 671Bパラメータを持つMixture-of-Experts (MoE) 言語モデルで、各トークンに対して37Bが活性化。

以下のモデルIDが使用可能。

  • deepseek-ai/DeepSeek-V3
  • deepseek-ai/DeepSeek-V3-base

https://console.cloud.google.com/vertex-ai/publishers/deepseek-ai/model-garden/deepseek-v3?inv=1&invt=Abp2zA&project=translator-186602

※料金はVertex AIで使用するマシンタイプに準ずる

https://cloud.google.com/vertex-ai/pricing?_gl=11chuykw_gaMTkyMDI4NjgyNS4xNzE4NzYxMzQy_ga_WH2QY8WWF5*MTczOTgzMDUxMC4xMDMuMS4xNzM5ODMyMzMyLjQ2LjAuMA..&hl=ja#prediction-prices

DeepSeek-R1 (671B): DeepSeekの第1世代推論モデルで、数学、コード、推論タスクにおいてOpenAI-o1と同等のパフォーマンスを提供。

https://console.cloud.google.com/vertex-ai/publishers/deepseek-ai/model-garden/deepseek-r1?inv=1&invt=Abp2zA&project=translator-186602

※料金はVertex AIで使用するマシンタイプに準ずる

https://cloud.google.com/vertex-ai/pricing?_gl=11chuykw_gaMTkyMDI4NjgyNS4xNzE4NzYxMzQy_ga_WH2QY8WWF5*MTczOTgzMDUxMC4xMDMuMS4xNzM5ODMyMzMyLjQ2LjAuMA..&hl=ja#prediction-prices

これらのモデルはノートブックを使用してデプロイ可能。

2025年02月24日: Vertex AIでClaude 3.7 Sonnetがプレビュー提供開始

Claude 3.7 Sonnet PreviewがVertex AIで利用可能になりました。

3.7 Sonnetと3.5 Haikuの比較表

モデル コンテキストウィンドウ 入力価格 出力価格 プロンプトキャッシング書き込み プロンプトキャッシング読み込み
Claude 3.7 Sonnet 200K $3 / MTok $3.75 / MTok $0.30 / MTok $15 / MTok
Claude 3.5 Haiku 200K $0.80 / MTok $1 / MTok $0.08 / MTok $4 / MTok
モデル モデルID サポートリージョン サポートモーダル
Claude 3.7 Sonnet anthropic.claude-3-7-sonnet-20250219-v1:0 us-east-1 / us-east-2 / us-west-2 Text / Image

https://console.cloud.google.com/vertex-ai/publishers/anthropic/model-garden/claude-3-7-sonnet?inv=1&invt=AbrFDw

https://www.anthropic.com/pricing#anthropic-api

2025年02月25日: Vertex AIのGemini 2.0 Flash-Liteが一般提供開始

Gemini 2.0 Flash-Liteが一般提供開始されました。

https://cloud.google.com/vertex-ai/generative-ai/docs/gemini-v2?hl=ja

2025年02月27日: Colab Enterpriseの機能追加

Terraformリソースを使用して、ノートブックの実行スケジュール、ランタイムおよびランタイムテンプレートの管理が可能になりました。

https://cloud.google.com/colab/docs/schedule-notebook-run?hl=ja#run_notebook_once-terraform

https://cloud.google.com/colab/docs/create-runtime#colab-create-runtime-terraform

https://cloud.google.com/colab/docs/create-runtime-template#colab-create-runtime-template-terraform