業界トップの正確率で作業効率爆上げ!
音声認識AIの「Whisper」をご存知でしょうか?
Whisperは誰でも無料で扱えるため、会議やインタビュー、講義など幅広い場面で気軽に扱えます。
しかし
「Whisperってどうやったら使えるようになるんだろう」
「無料なのは嬉しいけど、ちゃんと文字起こしできるのだろうか」
とお悩みの方もいらっしゃるかと思います。
本記事では、Whisperで文字起こしする方法やWhisperモデル精度、そのほかのおすすめ文字起こしツールなどをご紹介しています。
文字起こしでお困りの方は、ぜひ最後までご覧ください。
Whisperとは、ChatGPTで有名なOpenAIが発表した高性能な音声認識AIのことで、日本語や英語といった言語にかかわらず、精度の高い文字起こしができる点が評価されています。
Whisperは2022年9月から無料で一般公開され、約68万時間もの膨大な音声データをインターネットから収集して学習しているため、当時は文字起こし精度の高さで話題となりました。
また、現在では約100言語に対応しており、さまざまな地域のアクセントやイントネーションの違いや専門用語も問題なく認識できるため、世界中の人々が利用するようになりました。
音声認識技術をもっと知りたいという方は「日本語の音声認識を徹底解説!仕組みや精度を高めるコツも紹介」をご覧ください。
ここからは実際にWhisperを利用して文字起こしする方法をご紹介します。
まずはWhisper実行環境を実装する必要があります。
今回はGoogle Colaboratoryを利用して、Whisper実行環境を実装する手順をご紹介します。
1. まずはGoogle Colaboratoryにアクセスし、「ノートブックを新規作成」ボタンをクリックします。
2. 「接続」ボタンをクリックし、「RAMディスク」と表示されるのを確認します。
3. 下記画像赤枠のコード入力欄に、「!pip install git+https://github.com/openai/whisper.git」を入力後、「▷」ボタンをクリックします。
4. 上記のコード入力後、実行が完了したら「+コード」ボタンをクリックし、下記赤枠の新規コード入力欄が表示されたのを確認します。
5. 上記で表示した新規コード入力欄に「import whisper」を入力後、「▷」ボタンをクリックします。
以上でWhisper実行環境が実装されました。
時間も手間もかからず。慣れてしまえば3分程度で完了する作業ですので、ぜひこれを機にマスターしてみましょう。
ここからはWhisperを利用して音声ファイルを文字起こしする方法を解説していきます。
1. 下記画像赤枠のファイルアイコンをクリックします。
2. 表示されたファイルの中から「content」をクリックします。
3. 用意した音声ファイルを「content」内にドラッグ&ドロップ後、「+コード」ボタンをクリックします。
4. 上記で表示した新規コード入力欄に、以下のコードを入力後、「▷」ボタンをクリックすると、音声データが画面上で文字起こしできます。
model = whisper.load_model('base')
result = model.transcribe('ファイル名')
print(result['text'])
以上がWhisperを利用して音声ファイルを文字起こしする方法です。
画面だけ見ると、プログラミング言語が多く、難しそうに見えてしまいますが、手順通りに進めるだけで簡単に文字起こしができるので、まずは一度試してみることをおすすめします。
Whisperのモデルは「tiny」「base」「small」「medium」「large」の5種類が用意されています。
「tiny」の精度が一番低く、「base」「small」「medium」ときて「large」の精度が一番高くなっています。
プライベートでの使用や短くて簡単な文章を文字起こしする場合は「tiny」「base」を使用し、本格的な使用や複雑で難しい文章を文字起こしする際は「small」以上のモデルを利用するとよいでしょう。
Whisperは無料で誰でも利用できる点が大きなメリットですが、利用するまでの敷居が高く、いつでもどこでも文字起こしできるとは言えません。
しかし、Nottaを利用すれば、高性能なAIによる文字起こしがいつでもどこでも可能です。
1時間程度の音声でもたったの5分程度で文字起こしできるので、スキマ時間でもお手軽に文字起こしできる点が大きな魅力です。
ここからは、実際にNottaを利用して音声データを文字起こしする方法を画像付きでわかりやすく解説していきます。
まずはNotta Web版での文字起こし方法を解説していきます。
1. Notta Web版の起動後、「インポート」ボタンをクリックする。
2. 「音声/動画ファイルをドラッグ&ドロップ、あるいはファイルを選択する」欄にファイルをドラッグ&ドロップする。
3. 文字起こし記録をクリックして文字起こし結果を確認する。
次にはNotta アプリ版での文字起こし方法を解説していきます。
1. アプリ起動後、「+」ボタンをタップします。
2. 「インポート」ボタンをタップします。
3. 「ファイルからインポート」をタップします。
4. 文字起こししたいファイルを選択します。
5. 文字起こし記録をタップして文字起こし結果を確認する。
以上がNottaを利用して音声データを文字起こしする方法です。
NottaはWeb版もアプリ版も用意されているため、環境によっていつでもどこでも文字起こしができます。
ぜひ、これを機にNottaの導入を検討してみてはいかがでしょうか。
Nottaは日本語に特化した国内最先端AI音声文字起こしツールです。
Whisperに関する質問事項をまとめました。
Whisperについてもっと詳しく知りたい方は、参考にしてください。
Whisperの文字起こしは無料で利用可能です。
日本語の文字起こしの精度は、「単語誤り率」の順位で6位の「5.3%」となっており、他の言語に比べて高い精度で文字起こしができます。
出典:https://github.com/openai/whisper
Whisperが文字起こしできるファイルサイズは25MBまでとなっています。
ファイルサイズが25MBよりも大きくなってしまう場合は、ファイルを分割するなどの対策が必要です。
本記事では、Whisperで文字起こしする方法やWhisperモデル精度、そのほかのおすすめ文字起こしツールとしてNottaをご紹介しました。
無料で誰でも扱えるWhisperは、使いこなせればプライベート・業務問わず幅広いシーンで活用ができ、文字起こし作業では大いに役に立ちます。
また、いつでもどこでも、もっとお手軽に精度の高い文字起こしがしたいという方は、Nottaなどのほかの文字起こしツールの導入も検討してみましょう。
自分に最適な文字起こしツールを知りたい方は「音声認識エンジンとは【選び方やメリット、おすすめ7選】」をご覧ください。
本記事が、文字起こし作業の効率化につながれば幸いです。