はじめに
この記事では、Azure、AWS、Google Cloudの3大クラウドサービスのAIサービスの新規機能リリース履歴をまとめています。
主に以下のURLの情報をもとに新機能のキャッチアップを行っています。
Azure
2025年06月17日: codex-mini と o3-pro モデルがリリース
codex-mini と o3-pro モデルが利用可能になりました。
codex-miniは、OpenAIのo4-miniから派生した、コーディングタスクに特化したAIモデルです。
o3-proは6月10日にOpenAIから提供されたo3シリーズはで最も高性能なモデルです。
項目 | o3-pro | codex-mini |
---|---|---|
リージョン | East US2, Sweden Central(Global Standard) | East US2, Sweden Central(Global Standard) |
アクセス要否 | o3アクセス済みなら申請不要、それ以外は申請必要 | アクセス申請不要 |
価格 | $20(入力) / $80(出力) | $1.5(入力) / $6(出力) |
入力形式 | テキスト、画像 | テキスト、画像 |
出力形式 | テキスト | テキスト |
コンテキストウィンドウ | 200,000 トークン | 200,000 トークン |
最大出力トークン数 | 100,000 トークン | 100,000 トークン |
ナレッジカットオフ | 2024年6月1日 | 2024年6月1日 |
特徴 | 強化学習で「考えてから答える」高精度モデル。multi-turn対応。高負荷。 | o4-mini を Codex CLI 向けに微調整。API使用は gpt-4.1 推奨 |
Azure公式ドキュメント: Reasoningモデル o3早期アクセス申請 OpenAI公式ドキュメント: codex-mini OpenAI公式ドキュメント: o3-pro
AWS
2025年06月19日: Amazon Bedrock Flowでインラインコードノードがプレビュー提供開始
Amazon Bedrock Flowでフロー内でコードを直接実行できるインラインコードノード機能がプレビュー提供されました。
2025年06月19日:「Amazon Bedrock Flowsの非同期実行(Flow Executions)」のプレビュー開始
Amazon Bedrock Flowで長時間のフロー実行が可能となる機能がプレビュー提供されました。
従来の最大1時間制限を突破し、最大24時間のフロー実行が可能になりました。
Google Cloud
2025年06月02日: Vertex AIでGeminiのThinkingモデルで思考プロセス「Thought signatures」の応答が可能に
GeminiシリーズのモデルでThinkingモデルを利用する際に、その生成過程や内部的判断の痕跡に相当するThought signatures
を付与できるようになりました。
Thought singnatures
には、例えばモデルがどのルールや知識源を参照したか、どのステップでどんな計算を行ったかなどのメタ情報が含まれます。
モデルの推論過程を可視化できるため、応答の妥当性やバイアスのチェックがしやすくなり、モデルがどういう判断を経てその答えに至ったかを細かく解析可能になります。
サポートモデル
- Gemini 2.5 Pro preview
- Gemini 2.5 Flash preview
APIで利用するとき
REST APIでGeminiモデルを呼び出す際は、APIのリクエストボディに、includeThoughts
をTRUE
に設定して、リクエストすることでThought singnatures
が有効になります。
{
"contents": [
{
"role": "user",
"parts": [
{
"text": "こんにちは、元気ですか?"
}
]
}
],
"system_instruction": {
"parts": [
{
"text": "You are a helpful assistant."
}
],
"role": "model"
},
"generation_config": {
"maxOutputTokens": 4096,
"temperature": 0.1,
"frequencyPenalty": 0.1,
"presencePenalty": 0.1,
"topP": 0.1,
"thinkingConfig": {
"thinkingBudget": 4,
"includeThoughts": true
}
}
}
レスポンスボディのうち、thought
がTrue
になっているメッセージがThought singnatures
になります。
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Alright, let's see... I'm about to greet someone in Japanese. Now, the core phrase I need is \"Konnichiwa.\" That's the standard, polite greeting for \"Hello\" during the day. Simple enough. Just gotta make sure my pronunciation is clear. I should add a slight upward inflection at the end, to make it sound like a genuine greeting and not a declarative statement. Focus on the \"chi\" and the \"wa\", a bit more than the \"konni\". Got it. Now, I'm saying it, *internally* of course. Let's roll! \"Konnichiwa.\" Yeah, that's pretty solid. Good start.\n",
"thought": true
},
{
"text": "こんにちは!はい、元気ですよ。ありがとうございます。"
}
]
},
"finishReason": "STOP",
"avgLogprobs": -0.37282960755484446
}
],
"usageMetadata": {
"promptTokenCount": 11,
"candidatesTokenCount": 14,
"totalTokenCount": 41,
"trafficType": "ON_DEMAND",
"promptTokensDetails": [
{
"modality": "TEXT",
"tokenCount": 11
}
],
"candidatesTokensDetails": [
{
"modality": "TEXT",
"tokenCount": 14
}
],
"thoughtsTokenCount": 16
},
"modelVersion": "gemini-2.5-flash-preview-05-20",
"createTime": "2025-06-05T13:52:51.369624Z",
"responseId": "M6FBaNjHFo23k7QP7a2AqAk"
}
2025年06月03日: Vertex AIのModel GardenにDeepSeekのマイナーバージョンアップのDeepSeek-R1-0528が追加
Vertex AIのModel GardenにDeepSeek-R1-0528が追加されました。
「DeepSeek-R1-0528」は、元のDeepSeek-R1をベースにしており、さらに性能を向上させるための**蒸留バリアント(distilled variants)**も同時に追加されています。
「DeepSeek-R1-0528」は数学、コード、推論タスクにおける性能が向上しており、O3やGemini 2.5 Proなどのリーダーモデルに匹敵する性能水準に近づいています。
2025年06月03日: Vertex AIのModel Gardenに新たなファインチューニング機能が追加
- Gemma 3 UIのPEFT(Parameter-Efficient Fine Tuning) dockerによるファインチューニング
- Qwen 2.5のPEFT(Parameter-Efficient Fine Tuning) docker用ノートブック
- Qwen 3のAxolotl docker用ノートブック
- Llama 3.3、3.1、Gemma 3、Gemma 2用のファインチューニングノートブックにlm-evaluation-harnessを評価サービスとして統合
Gemma 3 モデルページ(Vertex AI Model Garden) Qwen 2.5 ファインチューニング(PEFT, PyTorch ノートブック) Qwen 3 ファインチューニング(Axolotl ノートブック)
2025年06月05日: Gemini 2.5 Proのバージョンアップモデル「gemini-2.5-pro-preview-06-05」が追加
Gemini 2.5 Proのパブリックプレビューバージョンが「gemini-2.5-pro-preview-06-05」に更新され、“thinking” 機能のサポートが拡張されました。
2025年06月09日: Vertex AIのGemini APIにlogprobsパラメータが正式提供
Gemini APIで リクエスト時にlogprobs
および response_logprobs
パラメータが正式に利用可能になりました。
LLMは出力トークンを決定する際に、複数のトークン候補を生成する。
一般的には出現確率が高い上位のトークンが選択されやすいが、常に上位の候補トークンが選択されるとは限らない。
該当トークンがなぜ、選択されたのか、どのトークンが上位候補トークンで出現確率はどれぐらだったかという情報を調べたい場合に、logprobs
パラメーターが有効です。
-
logprobs
: レスポンスに含める上位のトークン候補の数を1〜20
の範囲で整数値を指定する。- logprobsはlog probabilitiesの略で、対数確率。
- logprobが大きい(※最大は0) → そのトークンが選ばれる確率が高い
- logprobが小さい → そのトークンはほとんど選ばれない
- 対数を使う理由は、複数の確率を算出する場合に、対数を使うと掛け算が足し算になる → 計算が簡単になる。
- このパラメータを使用するには、
responseLogprobs
を有効にする必要がある。
- logprobsはlog probabilitiesの略で、対数確率。
-
response_logprobs
: 各ステップでモデルによって選択されたトークンの対数確率をレスポンスに含めるかどうかをbooleanで指定- デフォルトでは、このパラメータは
false
に設定されている。
- デフォルトでは、このパラメータは
-
avgLogprobs
: 候補者の平均対数確率。 -
logprobsResult
:topCandidates
とchosenCandidates
。topCandidates
: 上位の候補トークンとその出現対数確率。chosenCandidates
: 実際に選択されたトークンとその出現対数確率。
{
"candidates": [
.
.
.
{
"avgLogprobs": double,
"logprobsResult": {
"topCandidates": [
{
"candidates": [
{
"token": string,
"logProbability": float
}
]
}
],
"chosenCandidates": [
{
"token": string,
"logProbability": float
}
]
}
}
]
}
2025年06月10日: Vertex AIでVector Searchのカスタム制約がOrganization Policyと連携可能に
Vector Searchのインデックスやエンドポイントに対して、Organization Policy Serviceでカスタム制約を設定できるようになりました。
Google Cloud の Organization Policy Service は、組織内のリソースに対して、集中管理かつプログラム的な制御を行う仕組みです。
組織ポリシー管理者は、「制約(Constraint)」というルールを定義し、それをポリシーとして組織・フォルダ・プロジェクト単位で適用することが可能です。
Constraintにはあらかじめ用意されたManaged Constraintsが多数存在しますが、 より柔軟な制御が必要な場合には、「Custom Constraint」を自ら定義して利用することができます。
このCustom Constraintを利用することで、標準では対応できない高度な制御が可能になります。
Custom ConstarintはYAML形式で記述します。
以下の例では、暗号化されていないインデックスの作成を無効化しています。
name: organizations/ORGANIZATION_ID/customConstraints/custom.disableUnencryptedIndexes
resourceTypes:
- aiplatform.googleapis.com/Index
methodTypes:
- CREATE
condition: "has(resource.encryptionSpec) == false"
actionType: DENY
displayName: Block creation of unencrypted Indexes
description: This constraint blocks the creation of Index resources that aren't encrypted
2025年06月10日: Vertex AI WorkbenchがCompute Engineのリザベーションに対応(プレビュー)
Vertex AI WorkbenchインスタンスでCompute Engineのゾーンリソース予約を使用できるようになりました(プレビュー機能)。
Vertex AI Workbench は、環境構築不要のJupyterノートブック環境を提供する Google Cloud のサービスです。
今回の対応で、実行に必要なマシンを事前に予約できるようになっているので、サービスの信頼性が向上します。
2025年06月11日: Imagen 4のパブリックプレビューが更新
Vertex AIにおいてImagen 4のプレビュー版のモデルが 05/20 → 06/06に更新されました.
- imagen-4.0-generate-preview-06-06
- imagen-4.0-fast-generate-preview-06-06
- imagen-4.0-ultra-generate-preview-06-06
旧モデル(imagen-4.0-ultra-generate-exp-05-20等)は2025年07月07日までに移行が必要となります。
2025年06月16日: Vertex AIでDeepSeek APIがプレビュー提供開始
Vertex AI上でDeepSeek APIサービスがプレビューで利用可能になりました。
これまでのようにDeepSeekのモデルをデプロイすることなく、Vertex AIのAPIを介して、DeepSeekにアクセスすることができます。
- サポート対象モデル: deepseek-r1-0528-maas
ENDPOINT=us-central1-aiplatform.googleapis.com
REGION=us-central1
PROJECT_ID="YOUR_PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" https://${ENDPOINT}/v1/projects/${PROJECT_ID}/locations/${REGION}/endpoints/openapi/chat/completions \
-d '{"model":"deepseek-ai/deepseek-r1-0528-maas", "stream":true, "messages":[{"role": "user", "content": "Summer travel plan to Paris"}]}'
2025年06月17日: Vertex AIでGemini 2.5モデル群が一般提供(GA)開始
Gemini 2.5 FlashおよびGemini 2.5 Proのプレビューが解され、一般的提供開始されました。
これにともない、Gemini 2.5 Flash GAの価格が変更されています。
入力トークンのコストが上がり、ThinkingなしとThinkingありの場合の価格が統一されています。
項目 | Preview | GA | 備考 |
---|---|---|---|
入力(テキスト/画像/動画) | $0.15 | $0.30 | |
入力(音声) | $1.00 | $1.00 | |
出力(Thinkingなし) | $0.60 | $2.50 | |
出力(Thinkingあり) | $3.50 | $2.50 |
PT(Provisioned Throughput)は新規購入はすべてGA後のエンドポインとなり、プレビュー時に購入した既存PTは7月15日までにGAへ移行が必要となります。
以下のGemini 2.5 Flash/Proプレビューエンドポイントは2025年7月15日まで利用可能で、以降は廃止される予定。
- gemini-2.5-flash-preview-04-17
- gemini-2.5-flash-preview-05-20
- gemini-2.5-pro-preview-03-25
- gemini-2.5-pro-preview-05-06
- gemini-2.5-pro-preview-06-05
2025年6月19日よりプレビューエンドポイントはGA昇格モデルに更新されます。
この更新により、移行期間中のサービス継続性が確保されます。
Google Cloud公式ドキュメント: Gemini 2.5 Flash Google Cloud公式ドキュメント: Gemini 2.5 Pro
2025年06月17日: Vertex AIでGemini 2.5 Flash-Liteがプレビュー提供として利用可能に
Gemini 2.5 Flash-Liteがプレビュー提供として利用可能になります。
最大入力出力トークンはGeminI 2.5 Flashと同等のスペックを持ちつつ、価格が下がっており、よりお手軽に利用できる軽量モデル になっています。
項目 | 内容 |
---|---|
Model ID | gemini-2.5-flash-lite-preview-06-17 |
Knowledge Cutoff | 2025年1月 |
最大入力トークン数 | 1Mトークン |
最大出力トークン数 | 64Kトークン |
サポートリージョン | global |
項目 | トークン | 備考 |
---|---|---|
入力(テキスト/画像/動画) | $0.10 | |
入力(音声) | $0.50 | |
出力(テキスト) | $0.40 |
2025年06月17日: Live APIがプライベートGAとして提供開始
Live APIがプライベートGAとして利用可能になりました。
プライベートGAのため、アクセスを希望する場合は、Googleアカウント担当者に連絡が必要となります。
Live APIは、Geminiとの低遅延の音声会話を行うAPIです。
おわりに
この記事が、AIサービスに関する最新リリース情報の把握に役立てば幸いです。
今後も主要なアップデートがあれば随時追記していきます。
ご意見や追加情報があれば、ぜひコメントやお問い合わせフォームからお知らせください。