Whisper_文字起こしAI

はじめに
　噂によると，OpenAI社のWhisperという文字起こしAIの精度がとても高いようだ。学部2年の時に20分程度の面接法を行ったが，手作業で1文字ずつ文字起こしするのがとても辛かった思い出がある。そこで，AIが普及している今これを解消できるのでは？と思い試した記録をのこす。

1. Whisper_Web版：簡易版リンク
　こちらのWeb版Whisperは，ソフト不要で扱えるようだ。試しに，1分程度の音声合成AIのボイスで因子分析の解説音声を読み込ませてみたら，修正不要だった。20分程度の肉声動画ファイルもほぼほぼ修正不要であった。

操作方法は，「Audio file→音声ファイルをドラッグアンドドロップ→Transcribe→送信」で終了。translateを選択すると翻訳もできる。

Whisperは，どの形式の動画ファイルも読み込むことができる。この利点は，一台のスマホでメインの作業(例えば，通話やカンペを見る)を行い，バックグラウンドで録画できることだ。旧式のレコーダーいらずで，スマホ1台あれば事足りそうだ。録画は，カメラや下記画像のレコーダーアプリなどから行える。

2. Whisper_ソフト版：使い方，無料ソフト

Web版の他に，ソフト版のWhisperがある。こちらは，プログラムを書かないといけないが，ソースコードはネットに掲載されており，APIキーも取得できるようだ。

ソフト版のメリットは，Web版に比べ多機能であること。その中の一つに，環境音を限りなく除去できるということ。上記画像2枚が，その一例のようだ。

3. 応用方法
　実際に面接を行ったデータをWhisperに読み込ませると，出力結果は下記のように文章が全てつながった状態で出力されてしまう。そこで，ChatGPT-4oに会話形式で出力してもらったところ，見事調査者と対象者に分かれ文章の誤字脱字も訂正してくれた。

しかし，所々語尾が変わったり，脱字の修正が適切でない場合があるため，プロンプトを練り直すこと，録画に気を付けること，そしてファクトチェックをすること。人間の仕事は，AIが出力した結果を確認し，指示を出すことで済みそうだ。

Playground4ALL