Python

音声認識ライブラリ「Whisper」とXbox Game Barを使ってWEB会議の議事録を文字起こし

  • POST
音声認識ライブラリ「Whisper」とXbox Game Barを使ってWEB会議を文字起こし はじめに この記事では、音声認識ライブラリ「Whisper」を使って文字起こしを行い、Zoom、Teams、Google MeetなどのWEB会議の議事録の作成に活用する方法を紹介します。 Whisperとは whisperはOpenAIが提供しているPythonの音声認識ライブラリです。 OpenAIはOpenAI は、人工知能を研究する非営利団体です。 音声データからテキスト情報を抽出することができます。 文字起こし環境構築 whisperのインストール 公式によるとPython 3.7 以降であれば動作するようです。 Pythonのインストール後、同梱されるPythonのパッケージマネージャPIPからインストールが可能です。 コマンドプロンプトなどで以下のコマンドを実行することで、インストールが可能です。 pip install git+https://github.com/openai/whisper.git https://github.com/openai/whisper ffmpegのインストール 音声・動画ファイルのフォーマットを変換するツールです。 mp4(動画と音声) → mp3(音声)に変換する際に利用します。 https://ffmpeg.org/ FFMPEGをインストールするには、以下のURLからWindows用のffmpeg-master-latest-win64-gpl-shared.zip ダウンロードします。 https://github.com/BtbN/FFmpeg-Builds/releases ダウンロードしたZIPを展開するとbinフォルダ配下に実行ファイルがあるので、 binフォルダのフォルダパスを環境変数のPathに追加します。 Xbox Game Barでビデオ会議を録画 Xbox Game Bar(以下、ゲームバー)はWindows 10に標準搭載されているゲームの録画などを行う機能です。 [Windows]キー+[G]キーを押すと、ゲームバーが起動します。 ゲームバーの録画開始ボタンを押すと、録画が始まり、録画終了ボタンを押すと C:\Users\%ユーザ名%\Videos\Captures 配下に録画したMP4ファイルが保存されます。 文字起こしを実施 ゲームバーでキャプチャした audio.mp4 から文字起こしを実行します。 コマンドプロンプトなどで以下のコマンドを実行します。 # MP4 → MP3に変換 ffmpeg -i audio.mp4 -ab 256k audio.mp3 # 文字起こし # 初回時はモデルのダウンロード処理で2分ぐらいかかります # 私のPCのスペックだと、モデルのDL時間を除くと20秒の動画で文字起こしに5分ぐらい時間がかかりました whisper audio.mp3 --language Japanese C:\Python310\lib\site-packages\whisper\transcribe.