音声認識ライブラリ「Whisper」とXbox Game Barを使ってWEB会議の議事録を文字起こし
- POST
音声認識ライブラリ「Whisper」とXbox Game Barを使ってWEB会議を文字起こし はじめに この記事では、音声認識ライブラリ「Whisper」を使って文字起こしを行い、Zoom、Teams、Google MeetなどのWEB会議の議事録の作成に活用する方法を紹介します。
Whisperとは whisperはOpenAIが提供しているPythonの音声認識ライブラリです。
OpenAIはOpenAI は、人工知能を研究する非営利団体です。
音声データからテキスト情報を抽出することができます。
文字起こし環境構築 whisperのインストール 公式によるとPython 3.7 以降であれば動作するようです。
Pythonのインストール後、同梱されるPythonのパッケージマネージャPIPからインストールが可能です。
コマンドプロンプトなどで以下のコマンドを実行することで、インストールが可能です。
pip install git+https://github.com/openai/whisper.git https://github.com/openai/whisper
ffmpegのインストール 音声・動画ファイルのフォーマットを変換するツールです。
mp4(動画と音声) → mp3(音声)に変換する際に利用します。
https://ffmpeg.org/
FFMPEGをインストールするには、以下のURLからWindows用のffmpeg-master-latest-win64-gpl-shared.zip ダウンロードします。
https://github.com/BtbN/FFmpeg-Builds/releases
ダウンロードしたZIPを展開するとbinフォルダ配下に実行ファイルがあるので、
binフォルダのフォルダパスを環境変数のPathに追加します。
Xbox Game Barでビデオ会議を録画 Xbox Game Bar(以下、ゲームバー)はWindows 10に標準搭載されているゲームの録画などを行う機能です。
[Windows]キー+[G]キーを押すと、ゲームバーが起動します。
ゲームバーの録画開始ボタンを押すと、録画が始まり、録画終了ボタンを押すと C:\Users\%ユーザ名%\Videos\Captures 配下に録画したMP4ファイルが保存されます。
文字起こしを実施 ゲームバーでキャプチャした audio.mp4 から文字起こしを実行します。
コマンドプロンプトなどで以下のコマンドを実行します。
# MP4 → MP3に変換 ffmpeg -i audio.mp4 -ab 256k audio.mp3 # 文字起こし # 初回時はモデルのダウンロード処理で2分ぐらいかかります # 私のPCのスペックだと、モデルのDL時間を除くと20秒の動画で文字起こしに5分ぐらい時間がかかりました whisper audio.mp3 --language Japanese C:\Python310\lib\site-packages\whisper\transcribe.