ai

【2025年10月】3大クラウド(Azure, AWS, Google Cloud)のAI系サービスリリースノート

  • POST
はじめに この記事では、Azure、AWS、Google Cloudの3大クラウドサービスのAIサービスの新規機能リリース履歴をまとめています。 主に以下のURLの情報をもとに新機能のキャッチアップを行っています。 Azure公式ドキュメント: Azure OpenAI Serviceニュース Azure公式ドキュメント: Azure AI Agent Serviceニュース Github: Azure公式ドキュメント管理リポジトリ Github: Azure OpenAI APIプレビューバージョン一覧 Github: Azure OpenAI API安定版バージョン一覧 AWS公式ドキュメント: AWS Bedrockリリースノート Google Cloud公式ドキュメント: Vertex AIリリースノート Anthropic公式ドキュメント: APIバージョン一覧 Azure 2025年10月01日: Microsoftがエージェント型AIアプリ開発基盤「Microsoft Agent Framework」を発表 エージェント型AIアプリを開発するためのSDKとランタイム「Microsoft Agent Framework」を発表し、パブリックプレビューを開始されました。 概要:AutoGenとSemantic Kernelを統合し、エンタープライズ対応のマルチエージェント開発基盤として設計。 AutoGen=Microsoft開発のA2A(Agent to Agent)連携用フレームワーク。 Semantic Kernel=Microsoft開発のエージェント内部の機能・プラグイン・メモリ管理を担うフレームワーク。 今後の統合計画:

【初心者向け】思い通りに画像を生成する!画像生成プロンプト作成ガイド

  • POST
はじめに 以前は画像生成AI技術はなかなか思い通りの画像が生成されなかったり、日本語テキストの生成の精度が低いなどの課題がありましたが、 昨今ではOpenAIやGoogleなどが提供している画像生成モデルの精度が大幅に向上し、ビジネスにおいても活用の幅が広がっています。 この記事ではChatGPTやMicrosoft Copilotで画像生成AIを使って思い通りの画像を生成するためのプロンプトの書き方について説明します。 ※初心者向けのため、応用的な内容ではなく、基本的な内容になります。 ビジネスにおける画像生成のユースケース ビジネスにおいての画像生成系AIの活用事例として以下のようなものがあります。 1. デザイン・コンテンツ制作 製品ロゴやアイコン、サムネイル画像、キャラクター、書籍表紙、UI素材などの生成。 新しく生成するコンテンツに対して、AIにアイディアを提案させたい場合に使用します。 例 (新製品の画像をAIに提案させる) 最先端感のある最新スペックPCのデザインを提案せよ。 例 (新製品のアイコンをAIに提案させる) 新しいAIチャットサービス「Hogehoge AI」のアイコンを生成せよ 2. マーケティング・プロモーション 商品画像、広告用画像、イベント告知画像などの生成。 販売促進や集客目的で視覚的訴求を強化したい場合に使用します。 例 (イベント告知用画像を生成系AIに作成させる) 10月開催のテックカンファレンス告知用のSNS投稿用の画像 3. 業務・資料作成支援 図解、構成図、スライド背景、資料添付用画像などの生成。 文章だと分かりづらい事柄を図で表現させたり、資料作成の素材を生成させたい場合に使用します。 例 (図解: 生成系AIとチャットしていて分からなかったことなどを図で表現させる) 今までの会話内容をもとにLLMの概念について説明する画像を作成して 例: PowerPointのスライド背景 テクノロジー×イノベーションを象徴するデザインのスライド背景を生成して 既存画像への編集 最新の生成系AIでは既存の画像に対しての編集も可能になっており、以下のようなことができます。 テロップ挿入 キャッチコピーの挿入 タイトルの挿入 日付情報の挿入 この画像にキャッチコピーを追加した画像を生成して 画像の一部を別の画像と差し替え 商品や人物画像の背景を変更し、商品、人物にあった背景を検証 商品や人物画像を変更し、背景にあった商品、人物を検証 画像内の花瓶をコーヒーカップに変更した画像を生成して 画像の一部を削除 商品写真の余計な影や撮影機材を削除 観光地やイベント写真の通行人を消去 画像内の机を削除して 特に最新の画像生成AIモデルは日本語の生成精度が上がったことにより、テキスト画像の生成が期待した通りの結果が得やすくなっており、テロップ挿入などがビジネスツールとしてかなり強力になってきています。

Azure OpenAIでGPT-Image-1をPythonのopenaiライブラリから使用する方法まとめ【注意点・トークン消費検証】

  • POST
はじめに GPT-Image-1は、OpenAIが提供する最新の画像生成モデルです。 この記事では、PythonのopenaiライブラリからGPT-Image-1を使用するにあたって導入から実装、料金や注意点まで体系的に整理します。 GPT-Image-1の概要 GPT-Image-1は、テキストからの画像生成や既存画像の編集を行うことができる画像生成モデルです。 以下の2つの機能が提供されています。 Image Genaration (画像生成) Image Edit (画像編集) OpenAI公式: GPT-Image-1 Image Genaration (画像生成) 入力したテキストプロンプトを元に画像を生成するAPIです。 gpt-image-1ではストリーミングを設定することができ、ストリーミングを有効にすると生成途中の中間画像を生成させることができます。 中間画像 完成画像 Image Edit (画像編集) 既存の画像に対して、画像の編集し、新たな画像を生成することが可能です。 入力したプロンプトにもとづき画像を編集 (例:背景を赤色にして、人物画像を追加して) 複数の入力画像を合成して、新たな画像を生成 (例: 2つの画像を合成して) 入力画像とともにマスク画像を指定することで、マスク画像に表示されている画像のみを編集対象にできる (例: 背景は同じまま、男性の画像を女性に変更する) マスク画像は入力画像の一部を透過したもので透明になっている部分のみが編集対象 以下にImage Editでマスク画像を使って既存の画像を編集した例を示します。 元画像 マスク画像 編集画像 料金体系 Azure OpenAIでは以下の料金体系で提供されています。 GPT-5と比較すると入力テキストのトークンの料金も4倍に上がっています。 ※GPT-Image-1 Globalの料金 モデル名 バージョン 提供状態 入力テキスト料金[$/1Mトークン] 入力画像[$/1Mトークン] 出力料金[$/1Mトークン] 備考 GPT-Image-1 gpt-image-1 GA 5 10 40 GPT-5 gpt-5-2025-08-07 GA 1.

Azure AI Fondry Agenst ServiceのSDKについてまとめてみた

  • POST
はじめに 2025年05月20日からAzure AI Foundry Agent Serviceが一般提供が開始されました。 この記事では、Azure AI Foundry Agent ServiceのSDKについて紹介します。 GitHub: azure-sdk-for-python Azure公式ドキュメント: azure-sdk-for-python Azure公式ドキュメント: azure-sdk-for-python: readme Azure AI Foundry Agent Serviceとは Azure AI Foundry Agent Serviceは、AI エージェントの構築・管理ができるAzureのマネージドサービスです。 Azure AI Foundry Agent Serviceは、以下のような機能を提供しています。 AI Foundry PortalやAzure AI Foundry SDKを使って、エージェントの構築、管理が可能 複数のAIエージェントを組み合わせるマルチエージェントの構築が可能 A2A(Agent2Agent)、MCP(Model Context Protocol) などの業界標準プロトコルをサポート スレッドによるステートフルAPIをサポートしており、クライアントアプリ側での対話履歴の保持が不要 Azure AI Foundry Agent Service のセットアップパターン Azure AI Foundry Agent Service には、以下の2つのセットアップパターンがあります。 1. Basic setup(基本セットアップ) Agent Serviceで使用するデータをMicrosoftのマネージドリソース上に保持させる方法です。 通常、AzureでRAGアーキテクチャを構築する場合、Azure AI Searchなど高額なリソースを作成する必要がありますが、Basic setupを使用すれば、リソースの用意が不要なのでコストを下げることができます。

Github Copilot チートシート

  • POST
はじめに この記事では、Github Copilotの機能の一覧をまとめたチートシートを紹介します。 Github Copilotとは Microsoftによって開発されたAIベースのコーディングアシスタントです。 AIによるコードの自動補完やコードの提案機能を提供します。 コード補完: コーディング中にAIが提案するコード補完を活用して、効率的にコーディングを進めます。 ドキュメントやコメントの生成: コードに関するドキュメントやコメントをAIが自動生成してくれる機能を活用します。 IDEの拡張機能 CopilotはそれぞれのIDEに対応するGitHub Copilot拡張機能をインストールすることで、IDEで開いているファイルのコードの自動補完や、コードの提案を提供します。 対応するエディタとして以下のようなものがあります。 Azure Data Studio JetBrains IDEs Vim/Neovim Visual Studio Visual Studio Code Github copilot公式ドキュメント: IDE拡張機能 GitHub Copilot Chat GitHub Copilot Chatは、コーディング関連の質問をしたり、回答を受け取ったりできるチャットインターフェイスを提供します。 Copilot Chatは、Visual Studio Codeの場合は4種類のチャット欄から利用できます。 クイックチャット(画面上部に表示) インラインチャット(現在のカーソル位置に表示) チャットビュー(サイドパネルに表示) チャットエディタ(エディタのタブに表示) Copliot Chatで生成したテキストはチャット欄からコピーやインサートをすることができます。 Github Copilot公式ドキュメント Participants Visual StudioやVs Codeでは、「Participants」という機能が使えます。 GitHub Copilot Chatの「Participants」は、エディタ上で開いているファイル以外だけでなく、より幅広いコンテキストに対しての回答や操作を可能にする機能です。 Participantsはネット上では、Agentsなどとも呼ばれています。 従来のCopilotは主にエディタで開いているファイルや直接関連するコードブロックに対してのみ操作や提案を行っていましたが、Participantsを使用することで、エディタで開いているファイル以外にも質問が可能になります。 以下の3種類のParticipantsが用意されており、チャット欄の先頭に@から始まるコマンドを入力することで使用することができます。 @workspace : プロジェクト全体への質問、操作を行う @vscode : VS Codeの操作方法などについて質問する @terminal : ターミナルで何かをする方法について質問する Visual Studioブログ

Vertex AI GroundingのRest API仕様の調査

  • POST
はじめに この記事では、VertexAIのGroundingをREST API仕様についてまとめています。 公式ドキュメントにはSDKを使った例は載っていたのですが、REST APIを使った例が古いAPI仕様に基づくものになっていたので、紹介します。 Groundingとは Vertex AIの「Grounding」は、生成AIモデルの出力を信頼できる情報源に結びつけ、回答時に出典が明記したレスポンスを生成する機能です。 現状は、以下の2種類のGroundingが可能です。 Google 検索によるGrounding ユーザー独自データでのGrounding Google Cloud公式ドキュメント: Grounding 料金 VertexAI GroundingでGemini 2.0 Flashを使った場合の料金は以下のようになっています。 1日1500件までは無料ですが以降は1000件当たり、$35と割高 1日のリクエスト数 料金(米ドル 備考 ~1,500件 無料 無料枠 1,501~1,000,000件 $35 / 1,000件 従量課金 1,000,001件以上 要問い合わせ アカウント担当者に要連絡 公式ページ: Vertex AI Pricing ちなみに、AzureでGroundingをする場合も1000件当たり$35。 プラン名 最大コール数 料金 主な特徴 Grounding with Bing Search 1秒あたり150トランザクション1日あたり100万件 $35 / 1,000トランザクション - Bing Search APIを活用したグラウンディング- Azure AI Foundry Agentの知識ソースとして利用可 Grounding with Bing Custom Search 1秒あたり150トランザクション1日あたり100万件 $35 / 1,000トランザクション - カスタム検索空間を指定してグラウンディング- Azure AI Foundry Agentの知識ソースとして利用可 公式ページ: Microsoft Bing Grounding API Pricing

Anthropic Claude 3.7 Sonnetの拡張思考(Extended Thiking)をPython SDKから使用

  • POST
はじめに この記事では、Anthropic Claude 3.7 Sonnetから導入された拡張思考モードをPython SDKで実装する際のコードについて紹介します。 Anthropoc Caludeとは Anthropic Claudeは、Anthropic社が開発した高度なAI言語モデルです。 このモデルは、自然言語処理タスクにおいて高い性能を発揮し、特に会話型AIやテキスト生成、分析などの用途に適しています。 Anthropic Claudeは、AWSやGoogle Cloudなどのクラウドプラットフォームを通じて利用可能であり、さまざまな業界で活用されています。 Anthropic公式サイト Anthropic Claude 3.7 Sonnetとは 2025年2月にAnthropicから提供されたClaude Sonnetシリーズの最新モデルです。 3.7 Sonnetから新たに拡張思考モード(Extended Thinking mode)が導入されています。 Anthropic公式: Claude 3.7 Sonnet 拡張思考モードとは Claude 3.7 Sonnetは2つのモードで動作します。 標準モード:以前のClaudeモデルと同様に、内部の推論を表示せずに直接応答を提供 拡張思考モード:最終的な回答を提供する前にClaudeの推論プロセスを表示 拡張思考モードを使用した場合Reasoning model(推論モデル)として動作します。 Reasoning modelは、Chain of Thought(COT)という手法を活用することで、 問題解決や質問に対して、単に答えを返すのではなく、段階的に考えながら回答を導き出すAIモデルのことです。 モデルが推論の各ステップを明確に示すことができ、問題解決の過程を理解しやすくします。 Anthropic公式サイト: 拡張思考 拡張思考モード使用時の注意点 リクエストヘッダにのanthropic-betaフィールドにoutput-128k-2025-02-19を指定する必要がある リクエストヘッダに以下のように、output-128k-2025-02-19設定が必要です。 anthropic-beta: output-128k-2025-02-19 リクエストボディにthinkingパラメータを使用して、推論に使用するトークン予算(budget_tokens)を設定する 拡張思考モード使用時は回答生成とは別に、CoTによる推論でトークンが使用されるため、推論用のトークン数の予算を設定する必要があります。 "thinking": { "type": "enabled", "budget_tokens": 32000 } 設定するトークン予算(budget_tokens)はmax_tokens以下に設定する必要がある budget_tokensに設定している値がmax_tokens(出力時の最大トークン)を超過している場合は推論だけでトークン上限に達してしまうため、budget_tokensはmax_tokens以下に設定する必要があります。

Anthropic Claudeのプロンプトキャッシュ入門

  • POST
はじめに この記事では、Anthropic Claudeのプロンプトキャッシュについてまとめました。 Anthropoc Caludeとは Anthropic Claudeは、Anthropic社が開発した高度なAI言語モデルです。 このモデルは、自然言語処理タスクにおいて高い性能を発揮し、特に会話型AIやテキスト生成、分析などの用途に適しています。 Anthropic Claudeは、AWSやGoogle Cloudなどのクラウドプラットフォームを通じて利用可能であり、さまざまな業界で活用されています。 Anthropic公式サイト Anthropic Claudeのプロンプトキャッシングの仕組み プロンプトキャッシングを導入すると、指定したプロンプトをキャッシュすることができます。 キャッシュするとキャッシュブレークポイント(cache_control)が設定されているプロンプトのプレフィックス(先頭部分)が、キャッシュされているかを確認します。 キャッシュされている場合、プレフィックス部分のプロンプトを再利用することで、LLM側での内部処理が不要になり、処理時間とコストを削減することができます。 キャッシュされていない場合は、プロンプト全体を新規に処理した後に、プロンプトのプレフィックスを保存します。 この仕組みにより、繰り返し使用されるプロンプトの再処理を避け、システム全体の効率を向上させています。 OpenAIにも同様にプロンプトキャッシュが導入されています。 GoogleのGeminiシリーズにもコンテキストキャッシュという名称は異なりますが、同様の機能があります。 Anthropic: プロンプトキャッシュ Google Cloud: Claudeモデルのプロンプトキャッシュ OpenAI: プロンプトキャッシングAPI Medium: LLMのプロンプトキャッシュのメカニズム 株式会社Algomatic: テックブログ Zenn: Claude Prompt Cachingは本当に効果的なのか検証してみた プロンプトキャッシュの料金 料金 キャッシュの料金は以下の通りです。 キャッシュ書き込み: 入力トークンよりも25%高価格 キャッシュ読み取り: 入力トークンよりも90%低価格 初回に発生するキャッシュの書き込みでは、料金が上がってしまいますが、複数回LLMとの会話が行われると、キャッシュが活用されるので、その分料金が安くなります。 サポートモデル プロンプトキャッシュをサポートしているモデルは以下になります。 Claude 3.7 Sonnet(claude-3-7-sonnet@20250219) Claude 3.5 Sonnet v2(claude-3-5-sonnet-v2@20241022) Claude 3.5 Sonnet(claude-3-5-sonnet@20240620) Claude 3.5 Haiku(claude-3-5-haiku@20241022) Claude 3 Haiku(claude-3-haiku@20240307) Claude 3 Opus(claude-3-opus@20240229) プロンプトキャッシュの利用方法 プロンプトキャッシュを利用するにはClaudeのAPIをコールする際にcache_controlパラメータを指定します。