音声認識エンジン

音声認識エンジンとは?選び方やメリット、おすすめエンジン7選

  • 音声認識エンジンを詳しく知りたい

  • 具体的にどんなエンジンがあるのか知りたい

  • どんな活用シーンがあるのか分からない

音声認識エンジンとは、音声を認識して様々な形にアウトプットするためのシステムです。iPhoneに搭載されている「Siri」やAndroidに搭載されている「OK、google」というとイメージできる方も多いのではないでしょうか。

音声認識エンジンは身近な存在でありながら、「内容や種類」、「導入することのメリット」など具体的にどういうものなのか分からないと悩んでしまいませんか?

そこで、今回は「音声認識エンジン」を選ぶポイントや主な音声認識エンジン7選を紹介します。具体的な活用シーンに加えて、音声認識エンジンを使っているサービス「Notta」についてもまとめていきます。

初めて音声認識について学ぶ方でも分かりやすく解説しますので、ぜひ最後までご覧ください。

音声認識エンジンとは

音声認識エンジンの「音声認識」とは、コンピューターが私たちの話している内容を音のパターンなどから分析することを意味します。私たちの言葉を分析したデータを元に、文字起こしをおこなったり家電などの機械を操作したりする技術が進んでいます。

近年では、音声データの分析には主にAIが使われています。AIによる音声認識には、ディープラーニングと呼ばれる技術が組み込まれています。ディープラーニングによって、音声認識エンジンの精度は飛躍的に向上しました。

音声認識エンジンを利用すれば、多言語の通訳や翻訳も可能です。この多言語の通訳や翻訳には、音声認識エンジンとともに「翻訳システム」を相互に利用する必要があります。他にも音声認識エンジンを利用して、私たちの言葉に反応して会話ができるチャットボットも利用され始めています。

チャットボットにしても、通訳・翻訳システムにしても、一番中心に存在するのが「音声認識エンジン」です。音声認識エンジンについて、さらに知りたい方は下記の記事を参考にしてください。

参考記事:日本語の音声認識を徹底解説!仕組みや精度を高めるコツも紹介

音声認識エンジンの選定ポイント

音声認識エンジンを選定する際の注意事項を紹介します。

1.認識精度

音声認識エンジンで最も重要なのが、音声の認識精度です。音声認識精度が低いエンジンでは、音声を正しく聞き取れない可能性もあります。

また、音声認識精度が高い場合は搭載されている言葉の数が多かったり、ディープラーニングによる学習機能が長けていたりします。システムの要ともいえる音声認識精度は、非常に大切な要素のひとつです。

2.汎用、または領域特化型

汎用型とは一般的な利用において、言語の音声認識ができるものを指します。対して、領域特化型は専門的な分野でも音声認識が利用できるシステムのことです。

一般的な音声を広く学習させている汎用型エンジンは、どのような用途で使ってもある程度は対応できます。一般的な用途で認識させるだけであれば、汎用型を選択すればいいでしょう。

しかし医療分野やIT企業など、専門性の高い音声を認識させる場合には、日常的な会話だけを認識する汎用型では認識が難しくなります。その場合は、専門用語や語彙を中心に学習させている領域特化型エンジンを選ぶのがおすすめです。

さらに領域特化型エンジンの場合は、専門性の高い用語を学習させているため、必要ない単語などはあえて学習させていないのが特徴です。自社には領域特化型に向いているのか、汎用型で音声認識をさせるだけで十分なのかでエンジンの種類を選ぶのがポイントです。

3.費用面

音声認識エンジンを導入するコストも、選定時の大きなポイントです。音声認識エンジンの開発会社が違えば、価格も異なります。音声認識エンジンの利用料が月額で提供されているのか、また課金性なのか買い切りなのか、といった点も会社によってさまざまです。

多くの機能が搭載されている音声認識エンジンは多機能な分、値段も上がるのが一般的です。また、利用料以外にも、導入するための初期費用も確認しておきましょう。

導入コストは音声認識エンジンの種類によってさまざまで、システムの規模によって条件が変わります。多くの音声認識エンジンの導入コストは、要相談となっていますので気になる場合は問い合わせてみましょう。

多機能な音声認識エンジンを導入するためにコストをかけても、実際に使い始めてみると機能が不要な場合もあります。導入コストの見積もりと利用料を自社での効果に照らし合わせて、音声認識エンジンを選ぶのもポイントです。

4.導入形態

音声認識エンジンの導入形態は大きく分けて3つに分類されます。オンプレミスとクラウドサービス、両方を合わせたハイブリッド型の3種類です。

オンプレミスは、音声認識エンジンを自社のサーバーにのみインストールして動かします。自社のみで利用するため、外部からの影響はほとんど受けません。反面、サーバーやネットワークといった、インフラの構築やメンテナンスなどの維持は自社で負担しなければなりません。

クラウドサービスは、インターネットを介して音声認識エンジンにアクセスし利用する方法です。オンプレミスのように、サーバーを自分で用意する必要もメンテナンスにかかる負担もありません。しかし、インターネットの回線に制限がかかってしまい、音声認識エンジンにアクセスできないなどのエラーが発生することもあります。

上記のオンプレミスとクラウドサービスを組み合わせたのがハイブリッド型です。オンプレミスの利用の制御をかけられる利点と、クラウドサービスのサーバーを持たずにメンテナンスなどの維持費がかからない利点を合わせ持っています。

ハイブリッド型に弱点はないように思えますが、オンプレミスとクラウドサービスの両方の特徴をしっかり確認する必要があります。さらに、導入の形によって費用の面も大きく変わりますので、自社の規模や利用目的なども含めて選びましょう。

主な音声認識エンジン7選

ここでは、実際に使用されている主な音声認識エンジン7選を紹介します。それぞれ機能や使用される場面の違いも詳しく解説しますので、参考にしてください。

1.Amazon Transcribe

Amazon Transcribe

  • 概要

Amazon Transcribeは、Amazonが開発研究を進めている音声検索エンジンです。誰が発言しているかを認識する「話者ダイアライゼーション機能」を搭載しています。Amazonでのトレーニングが重ねられているため、顧客との電話の声や動画ファイル、会議の場での音声などもハッキリと認識します。

さらに派生音声認識エンジンとして、医療従事者向けに「Amazon Transcribe Medical」も利用可能です。医療機関においての専門用語にも対応できるのはAmazonの技術が高いことを表しています。

  • こんな方におすすめ

高い技術力と幅広い分野で活用できますので、安心して使いたい方におすすめです。

  • 特徴・機能

導入して利用を開始してから1年間は、毎月最大で60分の無料利用が可能です。機密情報などのプライバシーに関する問題もマスキング技術によって安全に確保されています。

(出典)

https://aws.amazon.com/jp/transcribe/

2.Google Cloud Speech-to-Text

Google Cloud Speech-to-Text

  • 概要

Google Cloud Speech-to-Textは、大手検索エンジンGoogle社が開発提供している音声認識エンジンで、Google Cloudの機能のひとつとして利用可能です。音声認識の精度も高く、普段使わない特定の分野の言葉にも対応しているのが特徴といえます。

認識方法も同期認識、非同期認識、ストリーミング認識の3つの方法が導入されています。同期認識は短い音声、非同期認識は長い音声、ストリーミング音声認識はリアルタイムで行われている音声をそれぞれ認識します。

  • 特徴・機能

インターネットに接続することなく音声を認識し、25以上の言語の音声にも対応しています。また、毎月60分間は無料で利用できます。

  • こんな方におすすめ

多様な言語や用途に適した音声認識エンジンですので、幅広い言語でのコミュニケーションが必要な方におすすめです。

(出典)

https://cloud.google.com/speech-to-text?hl=ja

3.AmiVoice

AmiVoice API

  • 概要

AmiVoice APIは、アドバンスト・メディア社が開発し提供している音声認識エンジンです。音声認識市場で国内シェアNo.1を達成するほど優秀で、世界でもトップレベルに匹敵する音声認識エンジンとして有名です。この技術を利用して、ビジネスシーン向けに特化しているのがAmiVoiceの特徴です。

  • 特徴機能

25年以上蓄積してきたデータやノウハウと、最新のディープラーニング技術を活用した音声認識エンジンです。利用シーンを選ばない汎用的な日本語・英語・中国語のエンジンと、医療・製薬・金融・保険など、さまざまな業界向けにチューニングした領域特化型のエンジンをラインアップしており、専門用語も高精度でテキスト化します。

  • こんな方におすすめ

業務やビジネス、一般会話で使用することのない不適切な用語を省いた、ビジネスユースに強い言語モデルを用いています。不要語を省いているため、幅広いシーンで安心して使用できます。

(出典)

https://acp.amivoice.com/

4.Microsoft Speech Services

Microsoft Speech Services

  • 概要

Microsoft Speech Servicesは、Microsoft社が提供している音声認識エンジンサービスです。話している人の音声を認識する識別能力において高い品質を持っていて、大きな会議の場であっても発言者を識別することが可能です。

また、セキュリティーやコンプライアンスの面も強化されており、安心して利用できるのが特徴です。カスタマイズ性も充実しており、特定の単語の追加なども行えるため自社で使う音声認識エンジンを作り上げられます。

  • 特徴機能

Microsoft Speech Servicesは、クラウドサービス「Azure」に含まれる音声認識エンジンなので、「Azure」のアカウントを開設することで無料のお試し利用が可能です。

  • こんな方におすすめ

多言語対応や豊富な機能が特徴なので、ビジネスマンやライターなどの職種におすすめです。

(出典)

https://azure.microsoft.com/ja-jp/products/cognitive-services/speech-services

5.Watson Speech to Text

Watson Speech to Text

  • 概要

Watson Speech to Textは、IBM社が提供している音声認識エンジンサービスです。IBM社はコンピューターなどの機械を主に扱っている会社であるため、最先端の機械学習に対応しています。

テキストなどの文字起こしで使えるだけでなく、顧客との会話のログを解析し、音声から感情を認識することも可能です。通話中の顧客の感情を認識すれば、自社の生産性やスキル向上にも役立ちます。

  • 特徴機能

それぞれの企業に合わせたチューニングが可能で、より使いやすいサービスを提供するために研究や開発を進めています。また、無料評価版で実際に試用できます。

  • こんな方におすすめ

多言語対応に加え豊富なカスタマイズ機能が特徴で、字幕作成やAIエンジニアにもおすすめです。

(出典)

https://www.ibm.com/jp-ja/cloud/watson-speech-to-text

6.Nuance Recognizer

Nuance Recognizer

  • 概要

Nuance Recognizerは、高い精度の音声認識ができるIVR(Interactive Voice Response)を搭載した音声認識エンジンです。IVRで音声認識をすることによって、顧客音声を正確に認識します。

AIによる返答も、自然にやり取りができるようになります。自然な対応を可能にしているので、自動音声サービスの利用による効率も向上させているのが特徴です。

また、IVRを搭載している音声認識エンジンですので、多くのIVRのプラットフォームにも適応させることが可能です。IVRの運用コストなども減らせるのは、他の音声認識エンジンと大きく異なる点です。

  • 特徴機能

独自の音声認識辞書を搭載しているので、人と人の自然な会話を認識できます。

  • こんな方におすすめ

高度な言語モデルを有していますので、医療など専門性が高い方におすすめです。

(出典)

https://www.logit.co.jp/solution/nuance.php

7.NTT SpeechRec

NTT SpeechRec

  • 概要

NTT SpeechRecは、NTTテクノクロスが提供している音声認識エンジンです。大手通信会社NTTが研究開発を行っているので、人と人との会話を認識できる高い能力が特徴です。

その強みから、電話などのコンタクトセンターの会話にも利用されています。人同士の会話に見られる、特有のくだけた表現にも対応が可能です。それだけではなく自社だけの社内用語もカスタマイズできます。

さらに会話での音声認識に強いため、テキストなどの文字起こしなどと組み合わせることも効果的です。

  • 特徴機能

NTTが開発、研究をしている音声認識エンジンであるため音声の信号を処理する技術も高く、ノイズ除去にも対応しています。

  • こんな方におすすめ

日本語に特化しているため、国内の会議などで活用したい方におすすめです。

(出典)

https://www.speechrec.jp/

音声認識エンジンの活用シーン

多くの場面で実際に利用されているのが、音声認識エンジンです。音声認識エンジンがすでに活用されているのはどのような場面なのか、今後どのような活用シーンが増えていくのかも紹介します。

1.音声による対話

スマホの普及によって、端末に話しかけると言葉が返ってくるといった経験をされた方も多いでしょう。これには音声認識エンジンのシステムが使われています。

スマホが私たちの言葉に反応して返信をするためには、音声認識エンジン以外のシステムも必要です。そのほかのエンジンであるチャットボットエンジンや音声合成エンジンなども組み合わせることで言葉を返してくるようになっています。

このように機械との対話ができるのは、音声認識エンジンの機能を使っているからです。

2.音声のみの文字入力

スマホやパソコンでの文字入力の際に、声で入力ができるようになっています。今では、便利な機能のひとつとして感じている方が多いかもしれません。

文字を打つのが難しい人でも文字入力ができるように、音声入力が利用されるようになったのですが、これも音声認識エンジンの活用例です。

3.議事録などの作成や録音された音声ファイルからの文字起こし

音声認識エンジンを使うことで、会議などの音声を認識させます。その音声を文字起こしのツールを介して議事録の作成を行う活用法が進んでいます。

文字起こし自体は、音声認識エンジンだけではできません。逆に音声認識エンジンを活用しないと、文字起こしのツールを動かすこともできません。いくつかのツールやシステムを掛け合わせて、便利な仕組みを作り上げているのです。

4.多言語での通訳や翻訳

今はさまざまなタイプの音声翻訳機や通訳機が世の中に出回っていますが、これらの音声翻訳機や通訳機にも音声認識エンジンが必須です。

翻訳機や通訳機を動かすためには、デバイスに向かって発話して音声認識エンジンに音と認識させます。音声認識エンジンが音として認識したものを、翻訳エンジンを通して自動的に翻訳するという仕組みです。翻訳エンジンを動かすためには、音声認識エンジンがなければなりません。

5.テレフォンオペレーターなどのスキル向上

テレフォンオペレーターのスキルは、会社のイメージに大きく関わります。高いスキルを持つ会社は顧客からの満足度も高く、自然と良いイメージも持ってもらえるでしょう。

音声認識エンジンで顧客の会話を認識させることで、オペレーターのスキル向上に役立ちます。音声認識エンジンが認識した会話を、文字起こしするツールで通話内容をテキスト化すればオペレーターのスキル向上が実現します。

実際にカスタマーサポートへ電話した際に「この通話を録音させていただいております」という機械の声を聞いたことがある方も多いと思います。これは音声認識エンジンの活用シーンのひとつといえます。

まとめ

今回は音声認識エンジンの概要や選ぶためのポイントを解説しました。内容をまとめると以下のとおりです。

  • 認識エンジンは「Siri」など身近に使われている

  • 音声入力や通訳、翻訳など活用シーンが増えている

  • 導入時は、精度や特性などのポイントを確認するのが重要

  • 自社に適しているかを比較することもポイント

とはいえ音声認識エンジンの力を体感するには、実際に触れてみるのが一番です。音声認識エンジンの特徴を最大限に活かし、さらに有効に使うのであればAIによる自動テキスト化サービス「Notta」がおすすめです。

「Notta」は無料でも月に120分(リアルタイム文字起こし、音声ファイルの文字起こし:1回につき3分まで)の文字起こしが可能ですので、気になる方は公式ホームページから試してみてください。

to top