はじめに

この記事では、Azure、AWS、Google Cloudの3大クラウドサービスのAIサービスの新規機能リリース履歴をまとめています。

主に以下のURLの情報をもとに新機能のキャッチアップを行っています。


Azure

2025年06月17日: codex-mini と o3-pro モデルがリリース

codex-mini と o3-pro モデルが利用可能になりました。

codex-miniは、OpenAIのo4-miniから派生した、コーディングタスクに特化したAIモデルです。
o3-proは6月10日にOpenAIから提供されたo3シリーズはで最も高性能なモデルです。

項目 o3-pro codex-mini
リージョン East US2, Sweden Central(Global Standard) East US2, Sweden Central(Global Standard)
アクセス要否 o3アクセス済みなら申請不要、それ以外は申請必要 アクセス申請不要
価格 $20(入力) / $80(出力) $1.5(入力) / $6(出力)
入力形式 テキスト、画像 テキスト、画像
出力形式 テキスト テキスト
コンテキストウィンドウ 200,000 トークン 200,000 トークン
最大出力トークン数 100,000 トークン 100,000 トークン
ナレッジカットオフ 2024年6月1日 2024年6月1日
特徴 強化学習で「考えてから答える」高精度モデル。multi-turn対応。高負荷。 o4-mini を Codex CLI 向けに微調整。API使用は gpt-4.1 推奨

Azure公式ドキュメント: Reasoningモデル o3早期アクセス申請 OpenAI公式ドキュメント: codex-mini OpenAI公式ドキュメント: o3-pro


AWS

2025年06月19日: Amazon Bedrock Flowでインラインコードノードがプレビュー提供開始

Amazon Bedrock Flowでフロー内でコードを直接実行できるインラインコードノード機能がプレビュー提供されました。

AWS公式ドキュメント: Amazon Bedrock Flow

2025年06月19日:「Amazon Bedrock Flowsの非同期実行(Flow Executions)」のプレビュー開始

Amazon Bedrock Flowで長時間のフロー実行が可能となる機能がプレビュー提供されました。
従来の最大1時間制限を突破し、最大24時間のフロー実行が可能になりました。

AWS公式ドキュメント: Amazon Bedrockのフローをフロー実行で非同期に実行する


Google Cloud

2025年06月02日: Vertex AIでGeminiのThinkingモデルで思考プロセス「Thought signatures」の応答が可能に

GeminiシリーズのモデルでThinkingモデルを利用する際に、その生成過程や内部的判断の痕跡に相当するThought signaturesを付与できるようになりました。

Thought singnaturesには、例えばモデルがどのルールや知識源を参照したか、どのステップでどんな計算を行ったかなどのメタ情報が含まれます。

モデルの推論過程を可視化できるため、応答の妥当性やバイアスのチェックがしやすくなり、モデルがどういう判断を経てその答えに至ったかを細かく解析可能になります。

サポートモデル

  • Gemini 2.5 Pro preview
  • Gemini 2.5 Flash preview

APIで利用するとき

REST APIでGeminiモデルを呼び出す際は、APIのリクエストボディに、includeThoughtsTRUEに設定して、リクエストすることでThought singnatures が有効になります。

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "こんにちは、元気ですか?"
        }
      ]
    }
  ],
  "system_instruction": {
    "parts": [
      {
        "text": "You are a helpful assistant."
      }
    ],
    "role": "model"
  },
  "generation_config": {
    "maxOutputTokens": 4096,
    "temperature": 0.1,
    "frequencyPenalty": 0.1,
    "presencePenalty": 0.1,
    "topP": 0.1,
    "thinkingConfig": {
      "thinkingBudget": 4,
      "includeThoughts": true
    }
  }
}

レスポンスボディのうち、thoughtTrueになっているメッセージがThought singnaturesになります。

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Alright, let's see... I'm about to greet someone in Japanese. Now, the core phrase I need is \"Konnichiwa.\" That's the standard, polite greeting for \"Hello\" during the day. Simple enough. Just gotta make sure my pronunciation is clear. I should add a slight upward inflection at the end, to make it sound like a genuine greeting and not a declarative statement. Focus on the \"chi\" and the \"wa\", a bit more than the \"konni\". Got it. Now, I'm saying it, *internally* of course.  Let's roll! \"Konnichiwa.\"  Yeah, that's pretty solid.  Good start.\n",
            "thought": true
          },
          {
            "text": "こんにちは!はい、元気ですよ。ありがとうございます。"
          }
        ]
      },
      "finishReason": "STOP",
      "avgLogprobs": -0.37282960755484446
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 11,
    "candidatesTokenCount": 14,
    "totalTokenCount": 41,
    "trafficType": "ON_DEMAND",
    "promptTokensDetails": [
      {
        "modality": "TEXT",
        "tokenCount": 11
      }
    ],
    "candidatesTokensDetails": [
      {
        "modality": "TEXT",
        "tokenCount": 14
      }
    ],
    "thoughtsTokenCount": 16
  },
  "modelVersion": "gemini-2.5-flash-preview-05-20",
  "createTime": "2025-06-05T13:52:51.369624Z",
  "responseId": "M6FBaNjHFo23k7QP7a2AqAk"
}

Google Cloudドキュメント: Thiningモデル

2025年06月03日: Vertex AIのModel GardenにDeepSeekのマイナーバージョンアップのDeepSeek-R1-0528が追加

Vertex AIのModel GardenにDeepSeek-R1-0528が追加されました。

「DeepSeek-R1-0528」は、元のDeepSeek-R1をベースにしており、さらに性能を向上させるための**蒸留バリアント(distilled variants)**も同時に追加されています。

「DeepSeek-R1-0528」は数学、コード、推論タスクにおける性能が向上しており、O3やGemini 2.5 Proなどのリーダーモデルに匹敵する性能水準に近づいています。

Google Cloud Console: DeepSeek-R1

2025年06月03日: Vertex AIのModel Gardenに新たなファインチューニング機能が追加

  • Gemma 3 UIのPEFT(Parameter-Efficient Fine Tuning) dockerによるファインチューニング
  • Qwen 2.5のPEFT(Parameter-Efficient Fine Tuning) docker用ノートブック
  • Qwen 3のAxolotl docker用ノートブック
  • Llama 3.3、3.1、Gemma 3、Gemma 2用のファインチューニングノートブックにlm-evaluation-harnessを評価サービスとして統合

Gemma 3 モデルページ(Vertex AI Model Garden) Qwen 2.5 ファインチューニング(PEFT, PyTorch ノートブック) Qwen 3 ファインチューニング(Axolotl ノートブック)

2025年06月05日: Gemini 2.5 Proのバージョンアップモデル「gemini-2.5-pro-preview-06-05」が追加

Gemini 2.5 Proのパブリックプレビューバージョンが「gemini-2.5-pro-preview-06-05」に更新され、“thinking” 機能のサポートが拡張されました。

Google Cloud公式ドキュメント: Gemini 2.5 Pro モデル

2025年06月09日: Vertex AIのGemini APIにlogprobsパラメータが正式提供

Gemini APIで リクエスト時にlogprobs および response_logprobsパラメータが正式に利用可能になりました。
LLMは出力トークンを決定する際に、複数のトークン候補を生成する。
一般的には出現確率が高い上位のトークンが選択されやすいが、常に上位の候補トークンが選択されるとは限らない。
該当トークンがなぜ、選択されたのか、どのトークンが上位候補トークンで出現確率はどれぐらだったかという情報を調べたい場合に、logprobsパラメーターが有効です。

  • logprobs : レスポンスに含める上位のトークン候補の数を1〜20の範囲で整数値を指定する。

    • logprobsはlog probabilitiesの略で、対数確率。
      • logprobが大きい(※最大は0) → そのトークンが選ばれる確率が高い
      • logprobが小さい → そのトークンはほとんど選ばれない
      • 対数を使う理由は、複数の確率を算出する場合に、対数を使うと掛け算が足し算になる → 計算が簡単になる
    • このパラメータを使用するには、responseLogprobs を有効にする必要がある。
  • response_logprobs : 各ステップでモデルによって選択されたトークンの対数確率をレスポンスに含めるかどうかをbooleanで指定

    • デフォルトでは、このパラメータは false に設定されている。
  • avgLogprobs : 候補者の平均対数確率。

  • logprobsResult :topCandidateschosenCandidates

    • topCandidates : 上位の候補トークンとその出現対数確率。
    • chosenCandidates : 実際に選択されたトークンとその出現対数確率。
{
  "candidates": [
    .
    .
    .
    {
      "avgLogprobs": double,
      "logprobsResult": {
        "topCandidates": [
          {
            "candidates": [
              {
                "token": string,
                "logProbability": float
              }
            ]
          }
        ],
        "chosenCandidates": [
          {
            "token": string,
            "logProbability": float
          }
        ]
      }
    }
  ]
}

Google Cloud公式ドキュメント: Gemini API

2025年06月10日: Vertex AIでVector Searchのカスタム制約がOrganization Policyと連携可能に

Vector Searchのインデックスやエンドポイントに対して、Organization Policy Serviceでカスタム制約を設定できるようになりました。

Google Cloud の Organization Policy Service は、組織内のリソースに対して、集中管理かつプログラム的な制御を行う仕組みです。
組織ポリシー管理者は、「制約(Constraint)」というルールを定義し、それをポリシーとして組織・フォルダ・プロジェクト単位で適用することが可能です。

Constraintにはあらかじめ用意されたManaged Constraintsが多数存在しますが、 より柔軟な制御が必要な場合には、「Custom Constraint」を自ら定義して利用することができます。

このCustom Constraintを利用することで、標準では対応できない高度な制御が可能になります。
Custom ConstarintはYAML形式で記述します。
以下の例では、暗号化されていないインデックスの作成を無効化しています。

name: organizations/ORGANIZATION_ID/customConstraints/custom.disableUnencryptedIndexes
resourceTypes:
- aiplatform.googleapis.com/Index
methodTypes:
- CREATE
condition: "has(resource.encryptionSpec) == false"
actionType: DENY
displayName: Block creation of unencrypted Indexes
description: This constraint blocks the creation of Index resources that aren't encrypted

Google Cloud公式ドキュメント: Custom Constraints

2025年06月10日: Vertex AI WorkbenchがCompute Engineのリザベーションに対応(プレビュー)

Vertex AI WorkbenchインスタンスでCompute Engineのゾーンリソース予約を使用できるようになりました(プレビュー機能)。

Vertex AI Workbench は、環境構築不要のJupyterノートブック環境を提供する Google Cloud のサービスです。
今回の対応で、実行に必要なマシンを事前に予約できるようになっているので、サービスの信頼性が向上します。

Google Cloud公式ドキュメント:

2025年06月11日: Imagen 4のパブリックプレビューが更新

Vertex AIにおいてImagen 4のプレビュー版のモデルが 05/20 → 06/06に更新されました.

  • imagen-4.0-generate-preview-06-06
  • imagen-4.0-fast-generate-preview-06-06
  • imagen-4.0-ultra-generate-preview-06-06

旧モデル(imagen-4.0-ultra-generate-exp-05-20等)は2025年07月07日までに移行が必要となります。

Google Cloud公式ドキュメント: Preview Imagen models

2025年06月16日: Vertex AIでDeepSeek APIがプレビュー提供開始

Vertex AI上でDeepSeek APIサービスがプレビューで利用可能になりました。
これまでのようにDeepSeekのモデルをデプロイすることなく、Vertex AIのAPIを介して、DeepSeekにアクセスすることができます。

  • サポート対象モデル: deepseek-r1-0528-maas
ENDPOINT=us-central1-aiplatform.googleapis.com
REGION=us-central1
PROJECT_ID="YOUR_PROJECT_ID"

curl \
  -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" https://${ENDPOINT}/v1/projects/${PROJECT_ID}/locations/${REGION}/endpoints/openapi/chat/completions \
  -d '{"model":"deepseek-ai/deepseek-r1-0528-maas", "stream":true, "messages":[{"role": "user", "content": "Summer travel plan to Paris"}]}'

Google Cloud Console: DeepSeek API

2025年06月17日: Vertex AIでGemini 2.5モデル群が一般提供(GA)開始

Gemini 2.5 FlashおよびGemini 2.5 Proのプレビューが解され、一般的提供開始されました。

これにともない、Gemini 2.5 Flash GAの価格が変更されています。
入力トークンのコストが上がり、ThinkingなしとThinkingありの場合の価格が統一されています。

項目 Preview GA 備考
入力(テキスト/画像/動画) $0.15 $0.30
入力(音声) $1.00 $1.00
出力(Thinkingなし) $0.60 $2.50
出力(Thinkingあり) $3.50 $2.50

PT(Provisioned Throughput)は新規購入はすべてGA後のエンドポインとなり、プレビュー時に購入した既存PTは7月15日までにGAへ移行が必要となります。

以下のGemini 2.5 Flash/Proプレビューエンドポイントは2025年7月15日まで利用可能で、以降は廃止される予定。

  • gemini-2.5-flash-preview-04-17
  • gemini-2.5-flash-preview-05-20
  • gemini-2.5-pro-preview-03-25
  • gemini-2.5-pro-preview-05-06
  • gemini-2.5-pro-preview-06-05

2025年6月19日よりプレビューエンドポイントはGA昇格モデルに更新されます。
この更新により、移行期間中のサービス継続性が確保されます。

Google Cloud公式ドキュメント: Gemini 2.5 Flash Google Cloud公式ドキュメント: Gemini 2.5 Pro

2025年06月17日: Vertex AIでGemini 2.5 Flash-Liteがプレビュー提供として利用可能に

Gemini 2.5 Flash-Liteがプレビュー提供として利用可能になります。
最大入力出力トークンはGeminI 2.5 Flashと同等のスペックを持ちつつ、価格が下がっており、よりお手軽に利用できる軽量モデル になっています。

項目 内容
Model ID gemini-2.5-flash-lite-preview-06-17
Knowledge Cutoff 2025年1月
最大入力トークン数 1Mトークン
最大出力トークン数 64Kトークン
サポートリージョン global
項目 トークン 備考
入力(テキスト/画像/動画) $0.10
入力(音声) $0.50
出力(テキスト) $0.40

Google Cloud公式ドキュメント: Gemini 2.5 Flash Lite

2025年06月17日: Live APIがプライベートGAとして提供開始

Live APIがプライベートGAとして利用可能になりました。
プライベートGAのため、アクセスを希望する場合は、Googleアカウント担当者に連絡が必要となります。

Live APIは、Geminiとの低遅延の音声会話を行うAPIです。

Google Cloud公式ドキュメント: Live API


おわりに

この記事が、AIサービスに関する最新リリース情報の把握に役立てば幸いです。
今後も主要なアップデートがあれば随時追記していきます。
ご意見や追加情報があれば、ぜひコメントやお問い合わせフォームからお知らせください。

本サイトへのご意見、お問い合わせなどありましたらこちらからご連絡下さい。 お問合せフォーム