Google音声認識API

Google音声認識APIとは?特徴や料金プラン、使い方を画像付きで徹底解説!

議事録の作成や学習の振り返り、ライターやインタビュアーの業務の効率化には自動文字起こしサービスの活用が効果的です。

現在、さまざまな文字起こしサービスが提供されていますが、なかでもGoogle社が提供している音声認識APIの「Google Speech-to-Text API」は文字起こし精度が高く、スピーディーな文字起こしが実現できます。

本記事ではGoogle音声認識APIの概要や特徴・料金プラン、使い方やメリット・デメリットなどをわかりやすく解説しています。

「Google音声認識APIについて詳しく知りたい」

「日々の作業を、文字起こしサービスを使って効率化したい」

とお悩みの方は、ぜひ参考にしてください。

Google音声認識APIとは

Google音声認識APIは、Google社が提供している文字起こしサービスです。

APIとは「Application Programming Interface」の略語で、アプリケーションとプログラミングを連携して、制御を行うための仕組みを指します。

また、正式には「Google Speech-to-Text API」と呼ばれ、高精度な音声認識技術と多くの言語にも対応している点が高い評価につながっています。

さらに、音声適応機能により、特定の専門分野特有の用語でも問題なく文字起こしができるため、プライベートシーンのみならずビジネスシーンでも安心して利用できる点が大きなメリットです。

Google音声認識の特徴・料金プラン

Google音声認識の特徴としては「ノイズ除去機能」「コンテンツフィルタリング機能」がデフォルトで備わっている点が挙げられます。

そのため、自然な文字起こしができるうえ、倫理やモラルが欠如した内容は文字起こしされないので、動画などのコンテンツ作成時に字幕を書き起こす際や、インタビュアーとして取材内容をまとめる際に大いに役に立ちます。

料金プランは以下の通りで、「Speech-to-Text V1 API」「Speech-to-Text V2 API」のどちらのAPIを利用するのかで料金が変わります。

【Speech-to-Text V1 APIの場合】

Category モデル 料金
0 ~ 60 分/月 月に 60 分超
音声認識(データロギングなし - デフォルト) 標準 1 無料 $0.024 / 分
医療 2 無料 $0.078 / 分
音声認識(データロギングを有効化) 標準 1 無料 $0.016 / 分

【Speech-to-Text V2 APIの場合】

Category モデル 料金
0 ~ 500,000 分 / 月 500,000 ~ 1,000,000 分 / 月 1,000,000 ~ 2,000,000 分 / 月 2,000,000 分以上 / 月
音声認識(データロギングなし - デフォルト) 標準 1 $0.016 / 分 $0.010 / 分 $0.008 / 分 $0.004 / 分
医療 2 $0.078 / 分 $0.078 / 分 $0.078 / 分 $0.078 / 分
音声認識(データロギングを有効化) 標準 1 $0.012 / 分 $0.0075 / 分 $0.006 / 分 $0.003 / 分
動的バッチ音声認識 標準 1 $0.003 / 分 $0.003 / 分 $0.003 / 分 $0.003 / 分
動的バッチ音声認識(データロギングを有効化) 標準 1 $0.00225 / 分 $0.00225 / 分 $0.00225 / 分 $0.00225 / 分

出典:Speech-to-Text の料金

どちらを利用するのかは上記の表を確認しつつ、どのモデルで何分利用するのかを想定したうえで検討するとよいでしょう。

Google音声認識APIの使い方

ここからは、Google音声認識APIの使い方について画像付きで解説いたします。

「実際にGoogle音声認識APIでどうやって文字起こしするんだろう」とお悩みの方は、ぜひ参考にしてください。

初期設定方法

  1. Google Cloudにログイン後、ホーム画面左上の「メニュー」ボタンをクリックします。

ホーム画面左上の「メニュー」ボタンをクリックし

2. 「APIとサービス」タブをクリックします。

「APIとサービス」タブをクリックし

3. 「APIとサービスの有効化」ボタンをクリックします。

「APIとサービスの有効化」ボタンをクリックし

「APIとサービスの有効化」ボタンをクリックし

4. 検索欄に「speech」と入力し、検索結果に表示された「Cloud Speech-to-Text API」「Cloud Text-to-Speech API」のAPIを有効化します。

検索欄に「speech」と入力し

API認証方法

  1. ホーム画面右上の「Cloud Shell」ボタンをクリックします。

API認証方法

ホーム画面右上の「Cloud Shell」ボタンをクリックし2. 下記のコマンドを入力し、APIをアップデートします。

sudo pip install --upgrade google-cloud-speech

3. ホーム画面左上の「メニュー」ボタンをクリックします。

ホーム画面左上の「メニュー」ボタンをクリックし

4. 「APIとサービス」ボタンをクリックします。

「APIとサービス」タブをクリックし

5. 「認証情報」タブをクリックします。

「認証情報」タブをクリックし

6. 「認証情報を作成」ボタンをクリックします。

「認証情報を作成」ボタンをクリックし

7. 「サービスアカウント」を選択します。

「サービスアカウント」を選択し

8. 「サービスアカウント名」の入力後、「完了」ボタンをクリックします。

「完了」ボタンをクリックし

9. 作成したサービスアカウントをクリックします。

作成したサービスアカウントをクリックし

10. 「キー」タブをクリックします。

「キー」タブをクリックし

11. 「鍵を追加」ボタンをクリックします。

「鍵を追加」ボタンをクリックし

12. 「新しい鍵を作成」ボタンをクリックします。

「新しい鍵を作成」ボタンをクリックし

13. キーのタイプを「JSON」に指定し、「作成」ボタンをクリックします。

「新しい鍵を作成」ボタンをクリックし

音声ファイル文字起こし方法

  1. 以下のプログラムを実行し、Google Driveをマウントします。

from google.colab import drive

drive.mount('/content/drive/')

working_dir = '{colabファイルが配置されているディレクトリのフルパスを記載}'

# 作業ディレクトリに移動

%cd {working_dir}

  1. 以下のプログラムを実行し、秘密鍵を読み込みます。

import os

voice_file_path = '用意した音声ファイル名'

API_key_path = '用意した秘密鍵名'

os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = API_key_path

  1. 以下のプログラムを実行すると、Speech-to-Text APIを使用して用意した音声ファイルの文字起こしができます。

import io

from google.cloud import speech

with io.open(voice_file_path, 'rb') as f:

    content = f.read()

audio = speech.RecognitionAudio(content=content)

config = speech.RecognitionConfig(

    encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,

    sample_rate_hertz=44100,

    language_code='ja-JP')

client = speech.SpeechClient()

response = client.recognize(config=config, audio=audio)

for result in response.results:

    print(result.alternatives[0].transcript)

Google音声認識APIのメリット

Google音声認識APIのメリットとしては「文字起こし精度が高い」「柔軟な使い方ができる」の2点が挙げられます。

Google音声認識APIでは最新のディープランニング技術で学習された結果をアウトプットするように設計されているため、若干あいまいな音声や「あー」や「えー」などのフィラーが入ってしまっている音声でも、問題無く文字起こしができるのです。

また、カスタムリソースのテスト、作成、管理といったモデルのカスタマイズができたり、クラウド環境やオンプレミス環境に合わせてデプロイしたりできるため、ユーザーや環境に合わせて柔軟な使い方ができます。

Google音声認識APIのデメリット

Google音声認識APIのデメリットとしては「導入が難しい」「コストがかかってしまう」の2点が挙げられます。

Google音声認識API導入時にはプログラミングの知識が必須となります。

そのため、しっかりと事前に導入方法について調べておき、どんなプログラムを記述する必要があるのかを把握していなければなりません。

また、先述したとおり長時間にわたって使用する場合は料金がかかってしまうため、注意が必要です。

あらかじめ、どのくらい文字起こしに時間をかけるのかを検討しておき、どの程度料金がかかるのかを想定しておくことが重要です。

文字起こしならNottaがおすすめ!

Notta

Google音声認識APIはさまざまなアプリケーションと連携して文字起こしができるため、便利ではあるものの、プログラミングの知識がないと思った通りに文字起こしすることができません。

しかし、Nottaを利用すれば、高性能なAIによる文字起こしがワンタップ・ワンクリックで実現可能です。

また、1時間程度の音声でもたったの5分程度で文字起こしできるので、スキマ時間でもお手軽に文字起こしできる点が大きな魅力です。

ここからは、実際にNottaを利用して音声データを文字起こしする方法を画像付きでわかりやすく解説していきます。

Notta Web版で文字起こし

まずはNotta Web版での文字起こし方法を解説していきます。

1. Notta Web版の起動後、「インポート」ボタンをクリックする。

文字起こし方法

2. 「音声/動画ファイルをドラッグ&ドロップ、あるいはファイルを選択する」欄にファイルをドラッグ&ドロップする。

文字起こし方法を解説

文字起こし方法の手順3. 文字起こし記録をクリックして文字起こし結果を確認する。

文字起こしの手順

文字起こし方法の手順Notta アプリ版で文字起こし

次にはNotta アプリ版での文字起こし方法を解説していきます。

1. アプリ起動後、「+」ボタンをタップします。

「+」ボタンをタップ

2. 「インポート」ボタンをタップします。

「インポート」ボタンをタップ

3. 「ファイルからインポート」をタップします。

「ファイルからインポート」をタップ

4. 文字起こししたいファイルを選択します。

ファイルを選択

5. 文字起こし記録をタップして文字起こし結果を確認する。

記録をタップ

結果を確認

以上がNottaを利用して音声データを文字起こしする方法です。

Nottaは起動してワンクリックして話したり、ファイルをワンタップで指定するだけで簡単かつスピーディーに文字起こしができます。

ぜひ、これを機にNottaの導入を検討してみてはいかがでしょうか。

まとめ

本記事ではGoogle音声認識APIの概要や特徴・料金プラン、使い方やメリット・デメリット、おすすめの文字起こしツールなどをわかりやすく解説しました。

高精度で柔軟な文字起こしができる点はGoogle音声認識APIの大きな強みですが、導入にはプログラミング知識が必須となるため、導入前にはどうすれば文字起こしができるのかをよく調べておくことが重要です。

また、Nottaであれば簡単かつスムーズな文字起こしができますので、手間をかけずに本格的な文字起こしがしたい、とお考えの方はNottaのご利用もご検討いただければ幸いです。

本記事を文字起こし作業の効率化にお役立ていただき、時間を有効活用してみてはいかがでしょうか。

to top