Google音声認識APIとは？特徴や料金プラン、使い方を画像付きで徹底解説！

更新日：2023-10-085分

Google音声認識APIとは Google音声認識の特徴・料金プラン Google音声認識APIの使い方 Google音声認識APIのメリット Google音声認識APIのデメリット文字起こしならNottaがおすすめ！まとめ

音声文字起こし＆AI要約

業界トップの正確率で作業効率爆上げ！

無料トライアル

議事録の作成や学習の振り返り、ライターやインタビュアーの業務の効率化には自動文字起こしサービスの活用が効果的です。

現在、さまざまな文字起こしサービスが提供されていますが、なかでもGoogle社が提供している音声認識APIの「Google Speech-to-Text API」は文字起こし精度が高く、スピーディーな文字起こしが実現できます。

本記事ではGoogle音声認識APIの概要や特徴・料金プラン、使い方やメリット・デメリットなどをわかりやすく解説しています。

「Google音声認識APIについて詳しく知りたい」

「日々の作業を、文字起こしサービスを使って効率化したい」

とお悩みの方は、ぜひ参考にしてください。

Google音声認識APIとは

Google音声認識APIは、Google社が提供している文字起こしサービスです。

APIとは「Application Programming Interface」の略語で、アプリケーションとプログラミングを連携して、制御を行うための仕組みを指します。

また、正式には「Google Speech-to-Text API」と呼ばれ、高精度な音声認識技術と多くの言語にも対応している点が高い評価につながっています。

さらに、音声適応機能により、特定の専門分野特有の用語でも問題なく文字起こしができるため、プライベートシーンのみならずビジネスシーンでも安心して利用できる点が大きなメリットです。

Google音声認識の特徴・料金プラン

Google音声認識の特徴としては「ノイズ除去機能」「コンテンツフィルタリング機能」がデフォルトで備わっている点が挙げられます。

そのため、自然な文字起こしができるうえ、倫理やモラルが欠如した内容は文字起こしされないので、動画などのコンテンツ作成時に字幕を書き起こす際や、インタビュアーとして取材内容をまとめる際に大いに役に立ちます。

料金プランは以下の通りで、「Speech-to-Text V1 API」「Speech-to-Text V2 API」のどちらのAPIを利用するのかで料金が変わります。

【Speech-to-Text V1 APIの場合】

Category	モデル	料金
Category	モデル			0 ～ 60 分/月	月に 60 分超
音声認識（データロギングなし - デフォルト）	標準 1	無料	$0.024 / 分
音声認識（データロギングなし - デフォルト）	医療 2	無料	$0.078 / 分
音声認識（データロギングを有効化）	標準 1	無料	$0.016 / 分

【Speech-to-Text V2 APIの場合】

Category	モデル	料金
Category	モデル			0 ～ 500,000 分 / 月	500,000 ～ 1,000,000 分 / 月	1,000,000 ～ 2,000,000 分 / 月	2,000,000 分以上 / 月
音声認識（データロギングなし - デフォルト）	標準 1	$0.016 / 分	$0.010 / 分	$0.008 / 分	$0.004 / 分
音声認識（データロギングなし - デフォルト）	医療 2	$0.078 / 分	$0.078 / 分	$0.078 / 分	$0.078 / 分
音声認識（データロギングを有効化）	標準 1	$0.012 / 分	$0.0075 / 分	$0.006 / 分	$0.003 / 分
動的バッチ音声認識	標準 1	$0.003 / 分	$0.003 / 分	$0.003 / 分	$0.003 / 分
動的バッチ音声認識（データロギングを有効化）	標準 1	$0.00225 / 分	$0.00225 / 分	$0.00225 / 分	$0.00225 / 分

出典：Speech-to-Text の料金

どちらを利用するのかは上記の表を確認しつつ、どのモデルで何分利用するのかを想定したうえで検討するとよいでしょう。

Google音声認識APIの使い方

ここからは、Google音声認識APIの使い方について画像付きで解説いたします。

「実際にGoogle音声認識APIでどうやって文字起こしするんだろう」とお悩みの方は、ぜひ参考にしてください。

初期設定方法

Google Cloudにログイン後、ホーム画面左上の「メニュー」ボタンをクリックします。

ホーム画面左上の「メニュー」ボタンをクリックし

2. 「APIとサービス」タブをクリックします。

「APIとサービス」タブをクリックし

3. 「APIとサービスの有効化」ボタンをクリックします。

「APIとサービスの有効化」ボタンをクリックし

4. 検索欄に「speech」と入力し、検索結果に表示された「Cloud Speech-to-Text API」「Cloud Text-to-Speech API」のAPIを有効化します。

検索欄に「speech」と入力し

API認証方法

ホーム画面右上の「Cloud Shell」ボタンをクリックします。

API認証方法

ホーム画面右上の「Cloud Shell」ボタンをクリックし 2. 下記のコマンドを入力し、APIをアップデートします。

sudo pip install --upgrade google-cloud-speech

3. ホーム画面左上の「メニュー」ボタンをクリックします。

ホーム画面左上の「メニュー」ボタンをクリックし

4. 「APIとサービス」ボタンをクリックします。

「APIとサービス」タブをクリックし

5. 「認証情報」タブをクリックします。

「認証情報」タブをクリックし

6. 「認証情報を作成」ボタンをクリックします。

「認証情報を作成」ボタンをクリックし

7. 「サービスアカウント」を選択します。

「サービスアカウント」を選択し

8. 「サービスアカウント名」の入力後、「完了」ボタンをクリックします。

「完了」ボタンをクリックし

9. 作成したサービスアカウントをクリックします。

作成したサービスアカウントをクリックし

10. 「キー」タブをクリックします。

「キー」タブをクリックし

11. 「鍵を追加」ボタンをクリックします。

「鍵を追加」ボタンをクリックし

12. 「新しい鍵を作成」ボタンをクリックします。

「新しい鍵を作成」ボタンをクリックし

13. キーのタイプを「JSON」に指定し、「作成」ボタンをクリックします。

「新しい鍵を作成」ボタンをクリックし

音声ファイル文字起こし方法

以下のプログラムを実行し、Google Driveをマウントします。

from google.colab import drive
drive.mount('/content/drive/')
working_dir = '{colabファイルが配置されているディレクトリのフルパスを記載}'
# 作業ディレクトリに移動
%cd {working_dir}

以下のプログラムを実行し、秘密鍵を読み込みます。

import os
voice_file_path = '用意した音声ファイル名'
API_key_path = '用意した秘密鍵名'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = API_key_path

以下のプログラムを実行すると、Speech-to-Text APIを使用して用意した音声ファイルの文字起こしができます。

import io
from google.cloud import speech
with io.open(voice_file_path, 'rb') as f:
    content = f.read()
audio = speech.RecognitionAudio(content=content)
config = speech.RecognitionConfig(
    encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
    sample_rate_hertz=44100,
    language_code='ja-JP')
client = speech.SpeechClient()
response = client.recognize(config=config, audio=audio)
for result in response.results:
    print(result.alternatives[0].transcript)