whisper - 音声/動画から文字起こし・英訳を行うCLI（OpenAI Whisper）

whisper は OpenAI が公開している音声認識モデル Whisper をローカルで実行する コマンドライン です。音声/動画ファイルを読み込み、日本語など多言語の**文字起こし（transcribe）や英語への翻訳（translate）**を行い、txt/srt/vtt/tsv/json などで書き出します。(GitHub)
実務では会議録の作成、動画字幕の自動生成、ポッドキャストやインタビューの書き起こしに使います。Whisper の CLI は Python 製で、実行には PyTorch と ffmpeg のインストールが必要です。(AssemblyAI)

構文（Syntax）
主なオプション一覧
実行例
関連コマンド
備考
参考
関連記事

構文（Syntax）

# 基本
whisper INPUT... [OPTIONS]

# 代表例
# 1) 文字起こし（日本語を日本語のまま）
whisper in.wav --model small --language ja --output_format srt

# 2) 英訳（多言語→英語）
whisper in.mp4 --task translate --model medium

# 3) 出力先や形式を指定
whisper in.m4a --output_dir out --output_format txt

# 4) GPU を明示、CPU では fp16 を無効化
whisper in.wav --device cuda
whisper in.wav --device cpu --fp16 False

INPUT は1つ以上の音声/動画ファイル。複数指定で一括処理できます。(GitHub)

主なオプション一覧

オプション	説明	使用例
`--model {tiny,base,small,medium,large...}`	使用モデルを指定（`.en` は英語特化、`large-v2/v3` などもあり）	`--model small` (GitHub, Hugging Face)
`--language LANG`	音声の言語を指定（未指定なら自動判定）	`--language ja` (GitHub)
`--task {transcribe,translate}`	文字起こし / 英訳（英語への翻訳）を選択	`--task translate` (GitHub)
`--output_dir DIR`	出力先ディレクトリ	`--output_dir ./out` (GitHub)
`--output_format {txt,vtt,srt,tsv,json,all}`	出力形式（未指定ですべて生成）	`--output_format srt` (GitHub)
`--device {cpu,cuda}`	実行デバイスを指定（GPU 利用には CUDA 対応 PyTorch が必要）	`--device cuda` (Stack Overflow, Vegas Creative Software)
`--fp16 {True,False}`	半精度 FP16 を使用（CPU の場合は `False` 推奨）	`--fp16 False` (GitHub)
`--verbose {True,False}`	進捗や候補の表示	`--verbose True` (GitHub)
`--initial_prompt TEXT`	文脈となるプロンプト（句読点や用語の誘導）	`--initial_prompt "会議: "` (GitHub)
`--temperature, --beam_size, --best_of`	デコード周りの探索設定	`--beam_size 5` (GitHub)

出力フォーマットは txt（素のテキスト）、srt/vtt（字幕）、tsv、json をサポートします。(GitHub, Emory Libraries Guides)

実行例

1) 日本語の会議録を字幕ファイル（SRT）にする

説明: 日本語をそのまま文字起こしし、SRT を出力します。
コマンド:

whisper meeting.wav --model small --language ja --output_format srt --output_dir captions

2) 動画を英語字幕付きで出したい（翻訳）

説明: 日本語など多言語の音声を 英語に翻訳して出力。
コマンド:

whisper lecture.mp4 --task translate --model medium --output_format srt

--task translate は英語への翻訳専用です。(GitHub)

3) 複数ファイルをまとめて処理（カレントディレクトリ）

説明: 主要な音声拡張子を一括で処理します。
コマンド:

for f in *.{wav,mp3,m4a}; do whisper "$f" --model base --output_format txt; done

（シェルの展開は環境に合わせて調整） (Stack Overflow)

4) GPU で高速化 / CPU での実行

説明: CUDA 対応の PyTorch が入っていれば GPU を使えます。CPU の場合は --fp16 False 推奨。
コマンド:

# GPU
whisper in.wav --model small --device cuda
# CPU
whisper in.wav --model small --device cpu --fp16 False

GPU 利用には CUDA 対応の PyTorch をインストールしておく必要があります。(Stack Overflow)

5) エラー例：ffmpeg が見つからない

説明: ffmpeg が PATH にないとデコードできず失敗します。
コマンド:

whisper in.mp3 --model base

出力例（代表例）:

FileNotFoundError: [Errno 2] No such file or directory: 'ffmpeg'

対処: OS のパッケージマネージャ等で ffmpeg をインストールし、PATH を通してください（Linux: sudo apt install ffmpeg / macOS: brew install ffmpeg など）。(AssemblyAI)

備考

モデル選択: tiny/base/small/medium/large 系と、英語専用の .en 版があります。英語専用モデルは一部サイズで精度が良い傾向。large 系は多言語対応です。(Hugging Face, GitHub)
出力形式: 何も指定しないと複数形式を同時に書き出す挙動（--output_format all 相当）です。字幕用途なら srt/vtt、解析用途なら json/tsv が便利。(GitHub)
パフォーマンス: 大きいモデルほど精度は上がりますが重くなります。GPU が使えない場合は小さめのモデル＋--fp16 False を検討。(AssemblyAI)
インストールの要点: pip install openai-whisper（または GitHub 版）と、CUDA 対応の PyTorch（GPU 利用時）、そして ffmpeg の導入がポイントです。(AssemblyAI)
ライセンス/利用上の注意: モデル・コードは MIT ライセンス。扱う音声の権利・機密性に配慮してください。(GitHub)

参考

Whisper 公式リポジトリ（README / 使い方）
https://github.com/openai/whisper
CLI の出力形式と --output_format
https://github.com/openai/whisper/discussions/388
https://github.com/openai/whisper/discussions/1457
翻訳タスク（--task translate）の例
https://github.com/openai/whisper/blob/main/README.md
モデル概要（英語専用 .en / 多言語）
https://huggingface.co/openai/whisper-large-v3
依存関係（ffmpeg の必要性・導入例）
https://assemblyai.com/blog/how-to-run-openais-whisper-speech-recognition-model/

ffmpeg – 音声・動画の変換/編集/録画/抽出を行う多機能CLI ffmpeg はあらゆる形式の音声・動画を入出力し、エンコード・デコード・フィルタ処理・切り出し・連結・録画などを行うコマンドラインツールです。実務ではフォーマット変換、ビットレート/解像度変更、サムネ生成、クリップ作成 […]...
youtube-dl – 動画/音声をダウンロード・変換するCLI youtube-dl は、多数の動画サイトからコンテンツを取得し、ファイルに保存したり音声抽出・字幕取得などの後処理を行うコマンドラインツールです。※コマンド名は youtube-dl（ハイフン）。youtube_dl […]...
docker – コンテナ/イメージを操作する Docker CLI の基底コマンド docker は Docker CLI の基底コマンドで、コンテナ・イメージ・ボリューム・ネットワークなどを操作します。多くの環境では sudo が必要になる場合があり、非特権で使うには docker グループ追加や R...
nvm – Node.js のバージョンを切り替える（Node Version Manager） nvm は、複数の Node.js をユーザー単位・シェル単位でインストール／切り替えできるバージョンマネージャです（POSIX シェル向け）。macOS／Linux／WSL で動き、Windows ネイティブは別実装（ […]...
pip – Pythonパッケージのインストール・管理を行うCLI pip は Python の公式パッケージインストーラで、PyPI や私設インデックス、ローカルファイル/リポジトリからパッケージを導入・更新・削除できます。python -m pip の形式で実行すると、使いたい Py […]...
docker compose – マルチコンテナアプリを定義・実行する docker compose は、compose.yaml（または docker-compose.yml）で定義した複数コンテナの起動・停止・ログ・スケールなど、スタックのライフサイクルをまとめて操作する CLI です（ […]...
composer – PHPの依存関係を管理するパッケージマネージャ composer は、composer.json に宣言した依存パッケージを解決・インストール・更新し、vendor/ に配置するツールです。既定のリポジトリは Packagist（packagist.org）です。(g […]...
dmesg – カーネルリングバッファのメッセージを表示するコマンド dmesg コマンドは、Linux カーネルが出力するカーネルリングバッファのメッセージを表示するコマンドです。主にシステム起動時のログ、デバイス認識状況、ドライバのエラーメッセージなどを確認するのに利用されます。 […]...

whisper – 音声/動画から文字起こし・英訳を行うCLI（OpenAI Whisper）

構文（Syntax）

主なオプション一覧

実行例

1) 日本語の会議録を字幕ファイル（SRT）にする

2) 動画を英語字幕付きで出したい（翻訳）

3) 複数ファイルをまとめて処理（カレントディレクトリ）

4) GPU で高速化 / CPU での実行

5) エラー例：ffmpeg が見つからない

関連コマンド

備考

参考

コメント

構文（Syntax）

主なオプション一覧

実行例

1) 日本語の会議録を字幕ファイル（SRT）にする

2) 動画を英語字幕付きで出したい（翻訳）

3) 複数ファイルをまとめて処理（カレントディレクトリ）

4) GPU で高速化 / CPU での実行

5) エラー例：ffmpeg が見つからない

関連コマンド

備考

参考

関連記事

コメント