はじめに
この記事では、Azure、AWS、Google Cloudの3大クラウドサービスのAIサービスの新規機能リリース履歴をまとめています。
主に以下のURLの情報をもとに新機能のキャッチアップを行っています。
Azure
2025年02月05日: GPT-4o Mini Audioがリリース
GPT-4o-mini-audio-preview (2024-12-17) とGPT-4o-mini-realtime-preview (2024-12-17)が提供開始されました。
GPT-4o-mini-audio-preview (2024-12-17) は最新の音声生成モデルです。
モデル名 | 種別 | 入力 | 出力 |
---|---|---|---|
GPT-4o-Mini-Audio-Preview-2024-12-17-Global | テキスト | $0.15 | $0.60 |
GPT-4o-Mini-Audio-Preview-2024-12-17-Global | オーディオ | $10 | $20 |
GPT-4o-Mini-Audio-Preview-2024-12-17 – Data Zones | テキスト | $0.165 | $0.66 |
GPT-4o-Mini-Audio-Preview-2024-12-17 – Data Zones | オーディオ | $11 | $22 |
GPT-4o-Mini-Audio-Preview-2024-12-17-Regional | テキスト | $0.165 | $0.66 |
GPT-4o-Mini-Audio-Preview-2024-12-17-Regional | オーディオ | $11 | $22 |
GPT-4o-mini-realtime-preview (2024-12-17) は最新のリアルタイム音声モデルです。
低遅延のリアルタイム音声対話用に最適化されています。
モデル名 | 種別 | 入力 | キャッシュ入力 | 出力 |
---|---|---|---|---|
GPT-4o-Mini-Realtime-Preview-2024-12-17-Global | テキスト | $0.60 | $0.30 | $2.40 |
GPT-4o-Mini-Realtime-Preview-2024-12-17-Global | オーディオ | $10 | $0.30 | $20 |
GPT-4o-Mini-Realtime-Preview-2024-12-17– Data Zones | テキスト | $0.66 | $0.33 | $2.64 |
GPT-4o-Mini-Realtime-Preview-2024-12-17– Data Zones | オーディオ | $11 | $0.33 | $22 |
GPT-4o-Mini-Realtime-Preview-2024-12-17-Regional | テキスト | $0.66 | $0.33 | $2.64 |
GPT-4o-Mini-Realtime-Preview-2024-12-17-Regional | オーディオ | $11 | $0.33 | $22 |
https://learn.microsoft.com/en-us/azure/ai-services/openai/realtime-audio-quickstart
https://azure.microsoft.com/en-us/pricing/details/cognitive-services/openai-service/#pricing
2025年2月19日: o3-miniがData Zones Standard Deploymentで利用可能に
o3-miniがData Zones Standard Deploymentでデプロイ可能になりました。
Data Zones
Data Zonesの場合、データはAzure OpenAIを作成したリージョンに留めることができ、推論はMicrosoft定義のデータゾーン内の空いているコンピューティングリソースを使用して行われます。
※o3-miniデータスタンダードデプロイメンは米国リージョン(eastus, eastus2, northcentralus, southcentralus,westus,westus2)でのみで利用可能
2025年02月27日: ストアドコンプリーションAPI提供開始
ストアドコンプリーションAPIは、チャットコンプリーションセッションから会話履歴をキャプチャし、評価やファインチューニングのためのデータセットとして使用することができます。
2025年02月27日: Azure OpenAIでGPT-4.5プレビュー提供開始
Azure OpenAIで多様なテキストと画像タスクに優れた最新のGPTモデルであるGPT-4.5が利用可能になりました。 以下の2つのリージョンで利用可能です。
- East US 2 (Global Standard)
- Sweden Central (Global Standard)
以下はOpenAIの各種モデルの料金比較です。
モデル | 入力トークン料金 ($/1M) | キャッシュ入力料金 ($/1M) | 出力トークン料金 ($/1M) | バッチAPI入力料金 ($/1M) | バッチAPI出力料金 ($/1M) | コンテキストウィンドウ (トークン) | 最大出力トークン (トークン) | ナレッジカットオフ |
---|---|---|---|---|---|---|---|---|
gpt-4o | 2.50 | 1.25 | 10.00 | 2.50 | 5.00 | 128K | 16K | 2023年10月 |
o1-mini | 1.10 | - | 4.40 | - | - | 128K | 64K | 2023年10月 |
o1 | 15.00 | 7.50 | 60.00 | 15.00 | 30.00 | 200K | 100K | 2023年10月 |
o3-mini | 1.10 | 0.55 | 4.40 | 1.10 | 2.20 | 200K | 100K | 2023年10月 |
gpt-4.5-preview | 75.00 | 37.50 | 150.00 | 37.50 | 75.00 | 128K | 16K | 2023年10月 |
GPT-4.5プレビューにアクセスするには登録が必要です。
https://platform.openai.com/docs/models/gpt-4.5-preview
https://openai.com/ja-JP/api/pricing/
https://azure.microsoft.com/en-us/pricing/details/cognitive-services/openai-service/
2025年02月28日: Azure AI SearchでManaged HSMを使用してCustomer-managed keysを保存する機能が提供開始
Azure Key VaultまたはAzure Key Vault Managed HSM(Hardware Security Module)を使用して、機密コンテンツの追加暗号化のためにカスタマーマネージドキーを保存する機能が追加されました。
https://learn.microsoft.com/en-us/azure/search/search-security-manage-encryption-keys
AWS
2025年02月24日: AWS BedrockでClaude 3.7 Sonnetがプレビュー提供開始
Claude 3.7 Sonnet PreviewがAWS Bedrockで利用可能になりました。
Claude 3.7 Sonnet vs Claude 3.5 Haiku 比較表
モデル | コンテキストウィンドウ | 入力価格 ($/MTok) | 出力価格 ($/MTok) | キャッシュ書き込み ($/MTok) | キャッシュ読み込み ($/MTok) |
---|---|---|---|---|---|
Claude 3.7 Sonnet | 200K | $3.00 | $3.75 | $0.30 | $15.00 |
Claude 3.5 Haiku | 200K | $0.80 | $1.00 | $0.08 | $4.00 |
Claude 3.7 Sonnet 追加情報
- モデルID:
anthropic.claude-3-7-sonnet-20250219-v1:0
- サポートリージョン:
us-east-1
us-east-2
us-west-2
- サポートモーダル:
- Text
- Image
https://docs.aws.amazon.com/bedrock/latest/userguide/models-supported.html
https://www.anthropic.com/pricing#anthropic-api
2025年02月27日: オープンソースフレームワークの生成AIアプリの状態管理にAmazon Bedrock session management APIを使用可能に
オープンソースフレームワークで構築された生成AIアプリケーションの状態を管理するために、Amazon Bedrock session management APIを使用できるようになりました。
LangGraphやLlamaIndexなどのオープンソースフレームワークを使用して構築された生成AIアプリケーションで、進行中の会話のチェックポイントを保存することができます。
セッションはAmazon Bedrockのリソースとして管理されるため、AWS Identity and Access Management (IAM)を使用してセッションへのアクセスを制御できます。
これにより、マルチステップの生成AIワークフロー全体で状態や会話のコンテキストを安全に管理することができます。
https://docs.aws.amazon.com/bedrock/latest/userguide/sessions.html
2025年02月27日: Amazon Bedrockがヨーロッパ(ストックホルム)でサポート開始
Amazon Bedrockがヨーロッパのストックホルムリージョンで利用可能になりました。
https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bedrock_region
Google Cloud
2025年02月05日: Gemini 2.0 Flashのテキスト出力の一般提供開始とGemini 2.0 Flash-Liteモデルの提供
Gemini 2.0 Flash: テキスト出力専用で一般提供開始されました。(gemini-2.0-flash-001)
Gemini 2.0 Flash-Lite: 最速かつコスト効率の高いモデル。プレビュー版として利用可能。(gemini-2.0-flash-lite-preview-02-05)
100 万トークンのコンテキスト ウィンドウに前バージョンのGemini 1.5と比較して大幅なパフォーマンス向上を実現。
※マルチモーダル出力は現状は引き続きプライベートプレビューのみ利用可能。
モデル | タイプ | 価格 | バッチAPI価格 |
---|---|---|---|
Gemini 2.0 Flash | 1M 入力トークン | $0.15 | $0.075 |
1M 入力音声トークン | $1.00 | $0.50 | |
1M 出力テキストトークン | $0.60 | $0.30 | |
Gemini 2.0 Flash Lite | 1M 入力トークン | $0.075 | $0.0375 |
1M 入力音声トークン | $0.075 | $0.0375 | |
1M 出力テキストトークン | $0.30 | $0.15 |
https://cloud.google.com/vertex-ai/generative-ai/docs/gemini-v2
https://developers.googleblog.com/en/gemini-2-family-expands/
https://cloud.google.com/vertex-ai/generative-ai/pricing?hl=en
2025年02月05日: Gemini 2.0 Proが実験版として提供開始
Gemini 2.0 Proは、コーディングや幅広い知識に特化した強力なモデルです。(gemini-2.0-pro-exp-02-05)
2Mのコンテキストウィンドウをサポートしています。
現状は実験版モデルとして利用可能です。
https://cloud.google.com/vertex-ai/generative-ai/docs/gemini-v2
2025年02月07日: Vertex AIのModel Gardenにdeepseek-ai/deepseek-r1とmicrosoft/Phi-4モデルが追加
deepseek-ai/deepseek-r1:
中国産の高度な推論モデル「DeepSeek-R1」がVertex AIのModel Gardenに追加されました。
https://api-docs.deepseek.com/quick_start/pricing
Vertex AIで使用可能なDeepseekモデルは以下の通りです。
- deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
- deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
- deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
- deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
- deepseek-ai/DeepSeek-R1-Distill-Llama-8B
- deepseek-ai/DeepSeek-R1-Distill-Llama-70B
https://console.cloud.google.com/vertex-ai/publishers/deepseek-ai/model-garden/deepseek-r1
※料金はVertex AIで使用するマシンタイプに準ずる
https://cloud.google.com/vertex-ai/pricing?_gl=11chuykw_gaMTkyMDI4NjgyNS4xNzE4NzYxMzQy_ga_WH2QY8WWF5*MTczOTgzMDUxMC4xMDMuMS4xNzM5ODMyMzMyLjQ2LjAuMA..&hl=ja#prediction-prices
microsoft/Phi-4
Phi-4は2024年12月13日にMicrosoftから提供された小規模言語モデルです。
https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft’s-newest-small-language-model-specializing-in-comple/4357090
数学関連の推論に関するベンチマークにおいて、GPT-4oやGemini Proといった大規模モデルよりも優れた結果をマークしたという技術レポートも公開されています。
https://arxiv.org/pdf/2412.08905
項目 | 内容 |
---|---|
パラメータ数 | 140億 |
トークン上限 | 16K |
トレーニングデータ量 | 9.8兆トークン |
トレーニング期間 | 21日間(2024年10月~11月) |
知識のカットオフ日 | 2024年10月 |
https://console.cloud.google.com/vertex-ai/publishers/microsoft/model-garden/phi-4
※料金はVertex AIで使用するマシンタイプに準ずる
https://cloud.google.com/vertex-ai/pricing?_gl=11chuykw_gaMTkyMDI4NjgyNS4xNzE4NzYxMzQy_ga_WH2QY8WWF5*MTczOTgzMDUxMC4xMDMuMS4xNzM5ODMyMzMyLjQ2LjAuMA..&hl=ja#prediction-prices
2025年02月07日: Vertex AIの高度なLLM推論最適化技術がプレビュー提供開始
以下の高度なLLM推論最適化技術がPreviewで利用可能
Prefix caching
共通のプロンプト接頭辞を持つリクエストの計算を再利用し、処理の冗長性を排除。
初トークン生成までの時間を短縮。
対応モデルは以下のとおりです。
- vLLM: Llama 3.1 (8b, 70b), Llama 3.3 (70b)
- Hex-LLM: Llama 2 (7b, 13b), Llama 3 (8b), Llama 3.1 (8b, 70b), Llama 3.2 (1b, 3b), Llama Guard (1b, 8b), CodeLlama (7b, 13b), Gemma (2b, 7b), CodeGemma (2b, 7b), Mistral-7B (v0.2, v0.3), Mixtral-8x7B (v0.1)
Speculative decoding(投機的デコーディング)
LLMの推論速度を向上させ、出力トークン生成の遅延を削減する効果的な最適化技術。
従来の自己回帰デコーディングを用いてトークンを一つずつ逐次生成する方式に対して、Speculative decodingは2つのモデルを協調させることで機能します。
ドラフトモデルは、次に生成される可能性のある複数のトークンを高速で生成する
メインモデルは、それらのトークンを並行で確認または修正し、出力トークン全体の全体の生成速度を向上させる
https://research.google/blog/looking-back-at-speculative-decoding/
2025年02月11日: Vertex AIでLlama 3.3 70Bモデルがプレビュー提供開始
Vertex AIでLlama 3.3 70Bモデルがプレビューで利用可能になりました。
Meta社開発の多言語対応大規模言語モデル(LLM)。
70Bパラメータを持ち、テキスト入出力に最適化。多言語対話ユースケースで高い性能を発揮。
対応言語: 英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語。
学習データ: 公開オンラインデータの新たなミックス、トークン数15T+、知識のカットオフは2023年12月。
https://console.cloud.google.com/vertex-ai/publishers/meta/model-garden/llama-3.3-70b-instruct-maas
2025年02月12日: Vertex AIでDeepSeek-V3およびDeepSeek-R1がModel Gardenにプレビュー追加
DeepSeek-V3 (671B): 671Bパラメータを持つMixture-of-Experts (MoE) 言語モデルで、各トークンに対して37Bが活性化。
以下のモデルIDが使用可能。
- deepseek-ai/DeepSeek-V3
- deepseek-ai/DeepSeek-V3-base
※料金はVertex AIで使用するマシンタイプに準ずる
https://cloud.google.com/vertex-ai/pricing?_gl=11chuykw_gaMTkyMDI4NjgyNS4xNzE4NzYxMzQy_ga_WH2QY8WWF5*MTczOTgzMDUxMC4xMDMuMS4xNzM5ODMyMzMyLjQ2LjAuMA..&hl=ja#prediction-prices
DeepSeek-R1 (671B): DeepSeekの第1世代推論モデルで、数学、コード、推論タスクにおいてOpenAI-o1と同等のパフォーマンスを提供。
※料金はVertex AIで使用するマシンタイプに準ずる
https://cloud.google.com/vertex-ai/pricing?_gl=11chuykw_gaMTkyMDI4NjgyNS4xNzE4NzYxMzQy_ga_WH2QY8WWF5*MTczOTgzMDUxMC4xMDMuMS4xNzM5ODMyMzMyLjQ2LjAuMA..&hl=ja#prediction-prices
これらのモデルはノートブックを使用してデプロイ可能。
2025年02月24日: Vertex AIでClaude 3.7 Sonnetがプレビュー提供開始
Claude 3.7 Sonnet PreviewがVertex AIで利用可能になりました。
3.7 Sonnetと3.5 Haikuの比較表
モデル | コンテキストウィンドウ | 入力価格 | 出力価格 | プロンプトキャッシング書き込み | プロンプトキャッシング読み込み |
---|---|---|---|---|---|
Claude 3.7 Sonnet | 200K | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
Claude 3.5 Haiku | 200K | $0.80 / MTok | $1 / MTok | $0.08 / MTok | $4 / MTok |
モデル | モデルID | サポートリージョン | サポートモーダル |
---|---|---|---|
Claude 3.7 Sonnet | anthropic.claude-3-7-sonnet-20250219-v1:0 | us-east-1 / us-east-2 / us-west-2 | Text / Image |
https://www.anthropic.com/pricing#anthropic-api
2025年02月25日: Vertex AIのGemini 2.0 Flash-Liteが一般提供開始
Gemini 2.0 Flash-Liteが一般提供開始されました。
https://cloud.google.com/vertex-ai/generative-ai/docs/gemini-v2?hl=ja
2025年02月27日: Colab Enterpriseの機能追加
Terraformリソースを使用して、ノートブックの実行スケジュール、ランタイムおよびランタイムテンプレートの管理が可能になりました。
https://cloud.google.com/colab/docs/schedule-notebook-run?hl=ja#run_notebook_once-terraform
https://cloud.google.com/colab/docs/create-runtime#colab-create-runtime-terraform
https://cloud.google.com/colab/docs/create-runtime-template#colab-create-runtime-template-terraform