業界トップの正確率で作業効率爆上げ!
議事録の作成や学習の振り返り、ライターやインタビュアーの業務の効率化には自動文字起こしサービスの活用が効果的です。
現在、さまざまな文字起こしサービスが提供されていますが、なかでもGoogle社が提供している音声認識APIの「Google Speech-to-Text API」は文字起こし精度が高く、スピーディーな文字起こしが実現できます。
本記事ではGoogle音声認識APIの概要や特徴・料金プラン、使い方やメリット・デメリットなどをわかりやすく解説しています。
「Google音声認識APIについて詳しく知りたい」
「日々の作業を、文字起こしサービスを使って効率化したい」
とお悩みの方は、ぜひ参考にしてください。
Google音声認識APIは、Google社が提供している文字起こしサービスです。
APIとは「Application Programming Interface」の略語で、アプリケーションとプログラミングを連携して、制御を行うための仕組みを指します。
また、正式には「Google Speech-to-Text API」と呼ばれ、高精度な音声認識技術と多くの言語にも対応している点が高い評価につながっています。
さらに、音声適応機能により、特定の専門分野特有の用語でも問題なく文字起こしができるため、プライベートシーンのみならずビジネスシーンでも安心して利用できる点が大きなメリットです。
Google音声認識の特徴としては「ノイズ除去機能」「コンテンツフィルタリング機能」がデフォルトで備わっている点が挙げられます。
そのため、自然な文字起こしができるうえ、倫理やモラルが欠如した内容は文字起こしされないので、動画などのコンテンツ作成時に字幕を書き起こす際や、インタビュアーとして取材内容をまとめる際に大いに役に立ちます。
料金プランは以下の通りで、「Speech-to-Text V1 API」「Speech-to-Text V2 API」のどちらのAPIを利用するのかで料金が変わります。
【Speech-to-Text V1 APIの場合】
Category | モデル | 料金 | |
---|---|---|---|
0 ~ 60 分/月 | 月に 60 分超 | ||
音声認識(データロギングなし - デフォルト) | 標準 1 | 無料 | $0.024 / 分 |
医療 2 | 無料 | $0.078 / 分 | |
音声認識(データロギングを有効化) | 標準 1 | 無料 | $0.016 / 分 |
【Speech-to-Text V2 APIの場合】
Category | モデル | 料金 | |||
---|---|---|---|---|---|
0 ~ 500,000 分 / 月 | 500,000 ~ 1,000,000 分 / 月 | 1,000,000 ~ 2,000,000 分 / 月 | 2,000,000 分以上 / 月 | ||
音声認識(データロギングなし - デフォルト) | 標準 1 | $0.016 / 分 | $0.010 / 分 | $0.008 / 分 | $0.004 / 分 |
医療 2 | $0.078 / 分 | $0.078 / 分 | $0.078 / 分 | $0.078 / 分 | |
音声認識(データロギングを有効化) | 標準 1 | $0.012 / 分 | $0.0075 / 分 | $0.006 / 分 | $0.003 / 分 |
動的バッチ音声認識 | 標準 1 | $0.003 / 分 | $0.003 / 分 | $0.003 / 分 | $0.003 / 分 |
動的バッチ音声認識(データロギングを有効化) | 標準 1 | $0.00225 / 分 | $0.00225 / 分 | $0.00225 / 分 | $0.00225 / 分 |
どちらを利用するのかは上記の表を確認しつつ、どのモデルで何分利用するのかを想定したうえで検討するとよいでしょう。
ここからは、Google音声認識APIの使い方について画像付きで解説いたします。
「実際にGoogle音声認識APIでどうやって文字起こしするんだろう」とお悩みの方は、ぜひ参考にしてください。
Google Cloudにログイン後、ホーム画面左上の「メニュー」ボタンをクリックします。
2. 「APIとサービス」タブをクリックします。
3. 「APIとサービスの有効化」ボタンをクリックします。
4. 検索欄に「speech」と入力し、検索結果に表示された「Cloud Speech-to-Text API」「Cloud Text-to-Speech API」のAPIを有効化します。
ホーム画面右上の「Cloud Shell」ボタンをクリックします。
2. 下記のコマンドを入力し、APIをアップデートします。
sudo pip install --upgrade google-cloud-speech
3. ホーム画面左上の「メニュー」ボタンをクリックします。
4. 「APIとサービス」ボタンをクリックします。
5. 「認証情報」タブをクリックします。
6. 「認証情報を作成」ボタンをクリックします。
7. 「サービスアカウント」を選択します。
8. 「サービスアカウント名」の入力後、「完了」ボタンをクリックします。
9. 作成したサービスアカウントをクリックします。
10. 「キー」タブをクリックします。
11. 「鍵を追加」ボタンをクリックします。
12. 「新しい鍵を作成」ボタンをクリックします。
13. キーのタイプを「JSON」に指定し、「作成」ボタンをクリックします。
以下のプログラムを実行し、Google Driveをマウントします。
from google.colab import drive
drive.mount('/content/drive/')
working_dir = '{colabファイルが配置されているディレクトリのフルパスを記載}'
# 作業ディレクトリに移動
%cd {working_dir}
以下のプログラムを実行し、秘密鍵を読み込みます。
import os
voice_file_path = '用意した音声ファイル名'
API_key_path = '用意した秘密鍵名'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = API_key_path
以下のプログラムを実行すると、Speech-to-Text APIを使用して用意した音声ファイルの文字起こしができます。
import io
from google.cloud import speech
with io.open(voice_file_path, 'rb') as f:
content = f.read()
audio = speech.RecognitionAudio(content=content)
config = speech.RecognitionConfig(
encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
sample_rate_hertz=44100,
language_code='ja-JP')
client = speech.SpeechClient()
response = client.recognize(config=config, audio=audio)
for result in response.results:
print(result.alternatives[0].transcript)
Google音声認識APIのメリットとしては「文字起こし精度が高い」「柔軟な使い方ができる」の2点が挙げられます。
Google音声認識APIでは最新のディープランニング技術で学習された結果をアウトプットするように設計されているため、若干あいまいな音声や「あー」や「えー」などのフィラーが入ってしまっている音声でも、問題無く文字起こしができるのです。
また、カスタムリソースのテスト、作成、管理といったモデルのカスタマイズができたり、クラウド環境やオンプレミス環境に合わせてデプロイしたりできるため、ユーザーや環境に合わせて柔軟な使い方ができます。
Google音声認識APIのデメリットとしては「導入が難しい」「コストがかかってしまう」の2点が挙げられます。
Google音声認識API導入時にはプログラミングの知識が必須となります。
そのため、しっかりと事前に導入方法について調べておき、どんなプログラムを記述する必要があるのかを把握していなければなりません。
また、先述したとおり長時間にわたって使用する場合は料金がかかってしまうため、注意が必要です。
あらかじめ、どのくらい文字起こしに時間をかけるのかを検討しておき、どの程度料金がかかるのかを想定しておくことが重要です。
Google音声認識APIはさまざまなアプリケーションと連携して文字起こしができるため、便利ではあるものの、プログラミングの知識がないと思った通りに文字起こしすることができません。
しかし、Nottaを利用すれば、高性能なAIによる文字起こしがワンタップ・ワンクリックで実現可能です。
また、1時間程度の音声でもたったの5分程度で文字起こしできるので、スキマ時間でもお手軽に文字起こしできる点が大きな魅力です。
ここからは、実際にNottaを利用して音声データを文字起こしする方法を画像付きでわかりやすく解説していきます。
まずはNotta Web版での文字起こし方法を解説していきます。
1. Notta Web版の起動後、「インポート」ボタンをクリックする。
2. 「音声/動画ファイルをドラッグ&ドロップ、あるいはファイルを選択する」欄にファイルをドラッグ&ドロップする。
3. 文字起こし記録をクリックして文字起こし結果を確認する。
次にはNotta アプリ版での文字起こし方法を解説していきます。
1. アプリ起動後、「+」ボタンをタップします。
2. 「インポート」ボタンをタップします。
3. 「ファイルからインポート」をタップします。
4. 文字起こししたいファイルを選択します。
5. 文字起こし記録をタップして文字起こし結果を確認する。
以上がNottaを利用して音声データを文字起こしする方法です。
Nottaは起動してワンクリックして話したり、ファイルをワンタップで指定するだけで簡単かつスピーディーに文字起こしができます。
ぜひ、これを機にNottaの導入を検討してみてはいかがでしょうか。
本記事ではGoogle音声認識APIの概要や特徴・料金プラン、使い方やメリット・デメリット、おすすめの文字起こしツールなどをわかりやすく解説しました。
高精度で柔軟な文字起こしができる点はGoogle音声認識APIの大きな強みですが、導入にはプログラミング知識が必須となるため、導入前にはどうすれば文字起こしができるのかをよく調べておくことが重要です。
また、Nottaであれば簡単かつスムーズな文字起こしができますので、手間をかけずに本格的な文字起こしがしたい、とお考えの方はNottaのご利用もご検討いただければ幸いです。
本記事を文字起こし作業の効率化にお役立ていただき、時間を有効活用してみてはいかがでしょうか。