【2025年02月】3大クラウドのAI系サービスリリースノート

はじめに

この記事では、Azure、AWS、Google Cloudの3大クラウドサービスのAIサービスの新規機能リリース履歴をまとめています。

主に以下のURLの情報をもとに新機能のキャッチアップを行っています。

Azure

2025年02月05日: GPT-4o Mini Audioがリリース

GPT-4o-mini-audio-preview (2024-12-17) とGPT-4o-mini-realtime-preview (2024-12-17)が提供開始されました。

GPT-4o-mini-audio-preview (2024-12-17) は最新の音声生成モデルです。

モデル名	種別	入力	出力
GPT-4o-Mini-Audio-Preview-2024-12-17-Global	テキスト	$0.15	$0.60
GPT-4o-Mini-Audio-Preview-2024-12-17-Global	オーディオ	$10	$20
GPT-4o-Mini-Audio-Preview-2024-12-17 – Data Zones	テキスト	$0.165	$0.66
GPT-4o-Mini-Audio-Preview-2024-12-17 – Data Zones	オーディオ	$11	$22
GPT-4o-Mini-Audio-Preview-2024-12-17-Regional	テキスト	$0.165	$0.66
GPT-4o-Mini-Audio-Preview-2024-12-17-Regional	オーディオ	$11	$22

Azure公式: 音声生成

GPT-4o-mini-realtime-preview (2024-12-17) は最新のリアルタイム音声モデルです。
低遅延のリアルタイム音声対話用に最適化されています。

モデル名	種別	入力	キャッシュ入力	出力
GPT-4o-Mini-Realtime-Preview-2024-12-17-Global	テキスト	$0.60	$0.30	$2.40
GPT-4o-Mini-Realtime-Preview-2024-12-17-Global	オーディオ	$10	$0.30	$20
GPT-4o-Mini-Realtime-Preview-2024-12-17– Data Zones	テキスト	$0.66	$0.33	$2.64
GPT-4o-Mini-Realtime-Preview-2024-12-17– Data Zones	オーディオ	$11	$0.33	$22
GPT-4o-Mini-Realtime-Preview-2024-12-17-Regional	テキスト	$0.66	$0.33	$2.64
GPT-4o-Mini-Realtime-Preview-2024-12-17-Regional	オーディオ	$11	$0.33	$22

https://learn.microsoft.com/en-us/azure/ai-services/openai/realtime-audio-quickstart

https://azure.microsoft.com/en-us/pricing/details/cognitive-services/openai-service/#pricing

2025年2月19日: o3-miniがData Zones Standard Deploymentで利用可能に

o3-miniがData Zones Standard Deploymentでデプロイ可能になりました。

Data Zones

Data Zonesの場合、データはAzure OpenAIを作成したリージョンに留めることができ、推論はMicrosoft定義のデータゾーン内の空いているコンピューティングリソースを使用して行われます。

※o3-miniデータスタンダードデプロイメンは米国リージョン(eastus, eastus2, northcentralus, southcentralus,westus,westus2)でのみで利用可能

https://learn.microsoft.com/en-us/azure/ai-services/openai/concepts/models?tabs=datazone-standard%2Cstandard-chat-completions#model-summary-table-and-region-availability

https://learn.microsoft.com/en-us/azure/ai-services/openai/how-to/deployment-types#data-zone-standard

2025年02月27日: ストアドコンプリーションAPI提供開始

ストアドコンプリーションAPIは、チャットコンプリーションセッションから会話履歴をキャプチャし、評価やファインチューニングのためのデータセットとして使用することができます。

https://learn.microsoft.com/en-us/azure/ai-services/openai/how-to/stored-completions?tabs=python-secure#stored-completions-api

2025年02月27日: Azure OpenAIでGPT-4.5プレビュー提供開始

Azure OpenAIで多様なテキストと画像タスクに優れた最新のGPTモデルであるGPT-4.5が利用可能になりました。以下の2つのリージョンで利用可能です。

East US 2 (Global Standard)
Sweden Central (Global Standard)

以下はOpenAIの各種モデルの料金比較です。

モデル	入力トークン料金 ($/1M)	キャッシュ入力料金 ($/1M)	出力トークン料金 ($/1M)	バッチAPI入力料金 ($/1M)	バッチAPI出力料金 ($/1M)	コンテキストウィンドウ (トークン)	最大出力トークン (トークン)	ナレッジカットオフ
gpt-4o	2.50	1.25	10.00	2.50	5.00	128K	16K	2023年10月
o1-mini	1.10	-	4.40	-	-	128K	64K	2023年10月
o1	15.00	7.50	60.00	15.00	30.00	200K	100K	2023年10月
o3-mini	1.10	0.55	4.40	1.10	2.20	200K	100K	2023年10月
gpt-4.5-preview	75.00	37.50	150.00	37.50	75.00	128K	16K	2023年10月

GPT-4.5プレビューにアクセスするには登録が必要です。

https://aka.ms/oai/gptaccess

https://learn.microsoft.com/en-us/azure/ai-services/openai/concepts/models?tabs=global-standard%2Cstandard-chat-completions#gpt-45-preview

https://platform.openai.com/docs/models/gpt-4.5-preview

https://openai.com/ja-JP/api/pricing/

https://azure.microsoft.com/en-us/pricing/details/cognitive-services/openai-service/

2025年02月28日: Azure AI SearchでManaged HSMを使用してCustomer-managed keysを保存する機能が提供開始

Azure Key VaultまたはAzure Key Vault Managed HSM（Hardware Security Module）を使用して、機密コンテンツの追加暗号化のためにカスタマーマネージドキーを保存する機能が追加されました。

https://learn.microsoft.com/en-us/azure/search/search-security-manage-encryption-keys

AWS

2025年02月24日: AWS BedrockでClaude 3.7 Sonnetがプレビュー提供開始

Claude 3.7 Sonnet PreviewがAWS Bedrockで利用可能になりました。

Claude 3.7 Sonnet vs Claude 3.5 Haiku 比較表

モデル	コンテキストウィンドウ	入力価格 ($/MTok)	出力価格 ($/MTok)	キャッシュ書き込み ($/MTok)	キャッシュ読み込み ($/MTok)
Claude 3.7 Sonnet	200K	$3.00	$3.75	$0.30	$15.00
Claude 3.5 Haiku	200K	$0.80	$1.00	$0.08	$4.00

Claude 3.7 Sonnet 追加情報

モデルID: anthropic.claude-3-7-sonnet-20250219-v1:0
サポートリージョン:
- us-east-1
- us-east-2
- us-west-2
サポートモーダル:
- Text
- Image

https://docs.aws.amazon.com/bedrock/latest/userguide/models-supported.html

https://www.anthropic.com/pricing#anthropic-api

2025年02月27日: オープンソースフレームワークの生成AIアプリの状態管理にAmazon Bedrock session management APIを使用可能に

オープンソースフレームワークで構築された生成AIアプリケーションの状態を管理するために、Amazon Bedrock session management APIを使用できるようになりました。

LangGraphやLlamaIndexなどのオープンソースフレームワークを使用して構築された生成AIアプリケーションで、進行中の会話のチェックポイントを保存することができます。

セッションはAmazon Bedrockのリソースとして管理されるため、AWS Identity and Access Management (IAM)を使用してセッションへのアクセスを制御できます。

これにより、マルチステップの生成AIワークフロー全体で状態や会話のコンテキストを安全に管理することができます。

https://docs.aws.amazon.com/bedrock/latest/userguide/sessions.html

2025年02月27日: Amazon Bedrockがヨーロッパ（ストックホルム）でサポート開始

Amazon Bedrockがヨーロッパのストックホルムリージョンで利用可能になりました。

https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bedrock_region

Google Cloud

2025年02月05日: Gemini 2.0 Flashのテキスト出力の一般提供開始とGemini 2.0 Flash-Liteモデルの提供

Gemini 2.0 Flash: テキスト出力専用で一般提供開始されました。(gemini-2.0-flash-001)

Gemini 2.0 Flash-Lite: 最速かつコスト効率の高いモデル。プレビュー版として利用可能。(gemini-2.0-flash-lite-preview-02-05)

100 万トークンのコンテキストウィンドウに前バージョンのGemini 1.5と比較して大幅なパフォーマンス向上を実現。

※マルチモーダル出力は現状は引き続きプライベートプレビューのみ利用可能。

モデル	タイプ	価格	バッチAPI価格
Gemini 2.0 Flash	1M 入力トークン	$0.15	$0.075
	1M 入力音声トークン	$1.00	$0.50
	1M 出力テキストトークン	$0.60	$0.30
Gemini 2.0 Flash Lite	1M 入力トークン	$0.075	$0.0375
	1M 入力音声トークン	$0.075	$0.0375
	1M 出力テキストトークン	$0.30	$0.15

https://cloud.google.com/vertex-ai/generative-ai/docs/gemini-v2

https://developers.googleblog.com/en/gemini-2-family-expands/

https://cloud.google.com/vertex-ai/generative-ai/pricing?hl=en

2025年02月05日: Gemini 2.0 Proが実験版として提供開始

Gemini 2.0 Proは、コーディングや幅広い知識に特化した強力なモデルです。(gemini-2.0-pro-exp-02-05)

2Mのコンテキストウィンドウをサポートしています。

現状は実験版モデルとして利用可能です。

https://cloud.google.com/vertex-ai/generative-ai/docs/gemini-v2

2025年02月07日: Vertex AIのModel Gardenにdeepseek-ai/deepseek-r1とmicrosoft/Phi-4モデルが追加

deepseek-ai/deepseek-r1:

中国産の高度な推論モデル「DeepSeek-R1」がVertex AIのModel Gardenに追加されました。

https://api-docs.deepseek.com/quick_start/pricing

Vertex AIで使用可能なDeepseekモデルは以下の通りです。

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
deepseek-ai/DeepSeek-R1-Distill-Llama-8B
deepseek-ai/DeepSeek-R1-Distill-Llama-70B

https://console.cloud.google.com/vertex-ai/publishers/deepseek-ai/model-garden/deepseek-r1

※料金はVertex AIで使用するマシンタイプに準ずる

https://cloud.google.com/vertex-ai/pricing?_gl=11chuykw_gaMTkyMDI4NjgyNS4xNzE4NzYxMzQy_ga_WH2QY8WWF5*MTczOTgzMDUxMC4xMDMuMS4xNzM5ODMyMzMyLjQ2LjAuMA..&hl=ja#prediction-prices

microsoft/Phi-4

Phi-4は2024年12月13日にMicrosoftから提供された小規模言語モデルです。

https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft’s-newest-small-language-model-specializing-in-comple/4357090

数学関連の推論に関するベンチマークにおいて、GPT-4oやGemini Proといった大規模モデルよりも優れた結果をマークしたという技術レポートも公開されています。

https://arxiv.org/pdf/2412.08905

項目	内容
パラメータ数	140億
トークン上限	16K
トレーニングデータ量	9.8兆トークン
トレーニング期間	21日間（2024年10月～11月）
知識のカットオフ日	2024年10月

https://console.cloud.google.com/vertex-ai/publishers/microsoft/model-garden/phi-4

※料金はVertex AIで使用するマシンタイプに準ずる

https://cloud.google.com/vertex-ai/pricing?_gl=11chuykw_gaMTkyMDI4NjgyNS4xNzE4NzYxMzQy_ga_WH2QY8WWF5*MTczOTgzMDUxMC4xMDMuMS4xNzM5ODMyMzMyLjQ2LjAuMA..&hl=ja#prediction-prices

2025年02月07日: Vertex AIの高度なLLM推論最適化技術がプレビュー提供開始

以下の高度なLLM推論最適化技術がPreviewで利用可能

Prefix caching

共通のプロンプト接頭辞を持つリクエストの計算を再利用し、処理の冗長性を排除。
初トークン生成までの時間を短縮。

対応モデルは以下のとおりです。

vLLM: Llama 3.1 (8b, 70b), Llama 3.3 (70b)
Hex-LLM: Llama 2 (7b, 13b), Llama 3 (8b), Llama 3.1 (8b, 70b), Llama 3.2 (1b, 3b), Llama Guard (1b, 8b), CodeLlama (7b, 13b), Gemma (2b, 7b), CodeGemma (2b, 7b), Mistral-7B (v0.2, v0.3), Mixtral-8x7B (v0.1)

Speculative decoding（投機的デコーディング）

LLMの推論速度を向上させ、出力トークン生成の遅延を削減する効果的な最適化技術。

従来の自己回帰デコーディングを用いてトークンを一つずつ逐次生成する方式に対して、Speculative decodingは2つのモデルを協調させることで機能します。

ドラフトモデルは、次に生成される可能性のある複数のトークンを高速で生成する
メインモデルは、それらのトークンを並行で確認または修正し、出力トークン全体の全体の生成速度を向上させる

https://github.com/GoogleCloudPlatform/vertex-ai-samples/blob/main/notebooks/community/model_garden/model_garden_advanced_features.ipynb

https://research.google/blog/looking-back-at-speculative-decoding/

2025年02月11日: Vertex AIでLlama 3.3 70Bモデルがプレビュー提供開始

Vertex AIでLlama 3.3 70Bモデルがプレビューで利用可能になりました。

Meta社開発の多言語対応大規模言語モデル（LLM）。

70Bパラメータを持ち、テキスト入出力に最適化。多言語対話ユースケースで高い性能を発揮。

対応言語: 英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語。

学習データ: 公開オンラインデータの新たなミックス、トークン数15T+、知識のカットオフは2023年12月。

https://console.cloud.google.com/vertex-ai/publishers/meta/model-garden/llama-3.3-70b-instruct-maas

2025年02月12日: Vertex AIでDeepSeek-V3およびDeepSeek-R1がModel Gardenにプレビュー追加

DeepSeek-V3 (671B): 671Bパラメータを持つMixture-of-Experts (MoE) 言語モデルで、各トークンに対して37Bが活性化。

以下のモデルIDが使用可能。

deepseek-ai/DeepSeek-V3
deepseek-ai/DeepSeek-V3-base

https://console.cloud.google.com/vertex-ai/publishers/deepseek-ai/model-garden/deepseek-v3?inv=1&invt=Abp2zA&project=translator-186602

※料金はVertex AIで使用するマシンタイプに準ずる

https://cloud.google.com/vertex-ai/pricing?_gl=11chuykw_gaMTkyMDI4NjgyNS4xNzE4NzYxMzQy_ga_WH2QY8WWF5*MTczOTgzMDUxMC4xMDMuMS4xNzM5ODMyMzMyLjQ2LjAuMA..&hl=ja#prediction-prices

DeepSeek-R1 (671B): DeepSeekの第1世代推論モデルで、数学、コード、推論タスクにおいてOpenAI-o1と同等のパフォーマンスを提供。

https://console.cloud.google.com/vertex-ai/publishers/deepseek-ai/model-garden/deepseek-r1?inv=1&invt=Abp2zA&project=translator-186602

※料金はVertex AIで使用するマシンタイプに準ずる

https://cloud.google.com/vertex-ai/pricing?_gl=11chuykw_gaMTkyMDI4NjgyNS4xNzE4NzYxMzQy_ga_WH2QY8WWF5*MTczOTgzMDUxMC4xMDMuMS4xNzM5ODMyMzMyLjQ2LjAuMA..&hl=ja#prediction-prices

これらのモデルはノートブックを使用してデプロイ可能。