基本的な使い方

VTTの基本操作を順を追って解説します。以下の5つのステップで、動画や音声ファイルから字幕ファイルを生成できます。

ステップ1：ファイルを選択する

ツールページ（/app/）にアクセスすると、画面中央にファイルのドロップゾーンが表示されます。字幕を生成したい動画・音声ファイルをドラッグ＆ドロップするか、ドロップゾーンをクリックしてファイル選択ダイアログからファイルを選択してください。ファイルを選択すると、ファイル名とファイルサイズが表示されます。

ステップ2：モデルを選択する

ドロップゾーンの下にあるモデル選択ドロップダウンから、使用するAIモデルを選択します。デフォルトでは「small」が選択されています。モデルごとの特徴については「モデルの選び方ガイド」セクションをご参照ください。

ステップ3：言語を選択する

言語選択ドロップダウンから、文字起こしの対象言語を選択します。デフォルトでは「日本語」が選択されています。対応言語は日本語、English、中文、한국어、自動検出の5つです。音声の言語が分からない場合は「自動検出」を選択してください。

ステップ4：文字起こしを開始する

「文字起こし開始」ボタンをクリックすると処理が始まります。初回はモデルデータのダウンロードが行われるため、数分程度の時間がかかる場合があります。2回目以降はキャッシュが利用されるため高速に処理が開始されます。処理の進捗はプログレスバーとログで確認できます。

ステップ5：VTTファイルをダウンロードする

処理が完了すると、生成された字幕テキストが画面下部のテキストエリアに表示されます。内容を確認し、「VTTダウンロード」ボタンをクリックすると、元のファイル名に基づいた .vtt ファイルがダウンロードされます。

モデルの選び方ガイド

VTTでは4種類のWhisperモデルを選択できます。それぞれの特徴と使い分けを以下に解説します。

tiny（約40MB）

最も軽量で高速に処理が完了するモデルです。精度は他のモデルに比べて低いですが、まずツールの動作を確認したい場合や、短い音声を手早く処理したい場合に適しています。

base（約75MB）

tinyよりも精度が向上しつつ、処理速度も比較的高速なモデルです。速度と精度のバランスを重視する場合に適しています。

small（約250MB）

多くのユーザーにおすすめのデフォルトモデルです。実用的な精度で文字起こしが行え、処理時間も許容範囲内に収まることが多いです。どのモデルを選ぶか迷った場合はこのモデルを選択するとよいでしょう。

turbo/q4（約400MB）

最大のモデルサイズでありながら、量子化技術（q4）により高速な処理を実現したモデルです。最高の精度を求める場合に適しています。初回ダウンロードに時間がかかる点にご留意ください。

対応ファイル形式の詳細

UI上で案内している対応形式は以下の通りです。動画形式としてMP4、MOV、WebM、音声形式としてMP3、WAV、M4A、OGG、FLACに対応しています。

ただし、実際にデコード可能なフォーマットはブラウザのWeb Audio APIの実装に依存します。例えば、特定のコーデックで圧縮されたファイルは一部のブラウザでは処理できない場合があります。

ファイルが処理できない場合は、別のブラウザを試すか、事前にファイルをMP4やMP3などの汎用的な形式に変換してからご利用ください。一度に選択可能なファイルは1ファイルのみです。ファイルサイズの明示的な上限はありませんが、ブラウザのメモリ容量に制約されます。

生成されたVTTファイルの使い方

WebVTT（Web Video Text Tracks）はW3Cが策定した字幕フォーマットであり、HTML5の <video> 要素や多くの動画プレーヤーで標準的にサポートされています。以下に代表的な利用方法を紹介します。

HTML5 Video要素で使用する

<video> タグ内に <track> タグを追加し、src 属性にVTTファイルのパスを指定します。以下はコードの記述例です。

<video controls>

  <source src="video.mp4" type="video/mp4">

  <track src="subtitle.vtt" kind="subtitles" srclang="ja" label="日本語" default>

</video>

VLC Media Playerで使用する

動画再生中に「字幕」メニューから「字幕ファイルを追加」を選択し、ダウンロードしたVTTファイルを読み込みます。

YouTube動画に字幕を追加する

YouTube Studioの字幕管理画面からVTTファイルをアップロードすることで、動画に字幕を追加できます。

その他の動画編集ソフト

多くの動画編集ソフトでもWebVTT形式の字幕ファイルのインポートに対応しています。お使いのソフトウェアのドキュメントをご確認ください。

トラブルシューティング

よくあるトラブルとその解決方法を解説します。

ファイルを選択してもエラーになる

ファイル形式がブラウザでサポートされていない可能性があります。MP4やMP3など汎用的な形式に変換してから再度お試しください。

モデルの読み込みに失敗する

インターネット接続を確認してください。初回はモデルデータをダウンロードするため、安定したネットワーク接続が必要です。また、ブラウザのストレージ容量が不足している場合も失敗する可能性があるため、キャッシュの整理をお試しください。

処理が途中で止まる・非常に遅い

大きなファイルや長時間の音声を処理する際は時間がかかる場合があります。より軽量なモデル（tinyやbase）を選択するか、音声ファイルを分割してから処理することをお試しください。端末のCPU/GPU性能にも大きく依存します。

文字起こしの精度が低い

より大きなモデル（smallやturbo/q4）を選択することで精度が向上する可能性があります。また、正しい言語を選択しているかご確認ください。音声の品質（ノイズ、話者の明瞭さ）も精度に影響します。

VTTファイルの時刻がずれている

Whisperモデルの特性上、チャンクの境界付近でわずかな時刻のずれが生じる場合があります。必要に応じてテキストエディタでVTTファイルを手動修正してください。

推奨ブラウザ・動作環境

VTTを快適にご利用いただくための推奨環境は以下の通りです。

ブラウザ	対応バージョン
Google Chrome	91以降
Microsoft Edge	91以降
Mozilla Firefox	108以降
Safari	16.4以降

Web Audio API、Web Workers（ESモジュール対応）、ES2020以降のJavaScript構文をサポートするモダンブラウザが必要です。

スマートフォンやタブレットのブラウザでもアクセスは可能ですが、音声認識の推論処理は端末のCPU性能に大きく依存するため、デスクトップ環境での利用を推奨します。

使い方ガイド