音声認識技術は、人が話した言葉をテキスト化する手段として、スマートフォンや他のサービスに広く利用されています。また、「Siri」や「スマートスピーカー」といったAIを活用した高度な音声認識技術も、一般的な存在となっています。

AI音声認識の原理

AI音声認識は、音声や音源をテキストの形式に変換する自然言語処理技術です。AIアルゴリズムと音声認識技術を使用して、音声データをテキストデータに変換します。音声認識、リアルタイムの字幕表示、音声アシスタントなど、さまざまな分野で活用されています。

「Notta」の文字起こし(音声認識)の精度は98.86%にも達することができます。さらに精度をを高めたい、またはそれでも精度が低いという場合の原因とその対策方法をご紹介します。※当社調べ。静かなの会議室(環境音が約40db)で、話者と外部マイクとの距離が1mで4名の会話(発言がかぶらないようにする)をテキスト化結果。実際の精度は話し方や音環境により大きく変わります。

一部の動画ガイドはこちは:

なぜ音声認識が上手くいかないのか?

音声認識が上手くいかない理由としてはいくつかの原因によって起こります。

1)収音設備

集音範囲には大きな差がある

内蔵マイク

内蔵マイクはスマートフォンやタブレットなどの携帯デバイスに組み込まれているマイクです。音声認識において内蔵マイクの問題が生じる場合があります。

  1. ノイズの影響:内蔵マイクは携帯デバイス本体に近接しているため、デバイスから発生する電子的なノイズや振動が影響を与えることがあります。

  2. 距離と音量:内蔵マイクは口元から離れている場合、音量が十分ではなく、クリアな音声を収集できないことがあります。また、音声が遠すぎる場合も問題が生じる可能性があります。

外部マイク

外部マイクは独立して接続されるマイクです。外部マイクは内蔵マイクよりも高品質な音声収集を提供する場合がありますが、いくつかの注意点があります。

  1. マイクの収音性:内蔵マイクよりも収音性が高いのですが、離れた場所からボソボソとした声で話すと上手く収音できない可能性があります。

  2. 音質の違い:一般的に内部マイクよりも音質が向上しますが、マイクの品質によっても差があります。低品質の外部マイクを使用すると、期待通りの精度向上が得られない可能性があります。

  3. 使い勝手:持ち運びやすい一方で、常に外部デバイスと接続する必要があります。接続が不安定な場合、音声収集に問題が生じる可能性があります。

Bluetoothイヤホン

Bluetoothイヤホンは、音楽や通話を楽しむためのワイヤレスイヤホンで、スマートフォン、タブレット、パソコンなどのBluetooth対応デバイスにシームレスに接続できます。

Bluetoothイヤホンを使用する場合はいくつかの注意点があります。

  1. サンプリングレート:一部のBluetoothイヤホンは、8kHzの低いサンプリングレートしか対応していません。そのため、文字起こし精度に影響を与えています。

  2. 使用しているBluetoothイヤホンが16kHzのWide Band Speech(HD Voice)に対応し、かつデバイス上で16kHzイヤホンとして認識される場合には問題ありません。また16kHzを超えるサンプリングレートは、音声認識する必要ありません。

その他の録音設備

購入前に録音品質と距離、マイク指向性をテストすることをおすすめします。

マイクの指向性

マイクの指向性とは、マイクの収音特性を表す用語です。どの方向から音を収音するかによって異なります。

  • カーディオイド指向性(Cardioid)

マイクの前方(通常、マイクの頭部側)に集中的に音を収音し、後方はあまり受け取らない指向性です。背面ノイズを軽減できるため、特に単一の音源を明確に録音したい場合に使用されます。

  • オムニ指向性(Omnidirectional)

360度全方向から音を収音する指向性です。マイクの周囲からの音を均等に受け取ります。環境音を含めた自然な音を録音するのに適しています。

  •  バイディレクショナル指向性(bidirectional)

前方と後方の方向からの音声を優れた感度で収音することができますが、側方からの音声には感度が低くなる傾向があります。

会議室での会話やインタビューの収録、パフォーマンスの録音、ステージ上の音声の収音などで利用されます。マイクが前方と後方の音声に高い感度を持つため、周囲のノイズを最小限に抑えて、対象とする音源をよりクリアに録音することができます。

  • スーパーカーディオイド指向性(Supercardioid)

カーディオイドよりも前方集中性が高く、前後方向のノイズをより抑える指向性です。複数の音源が近くにある場合に効果的です。

  • ハイパーカーディオイド指向性(Hypercardioid)

スーパーカーディオイドよりもさらに前方集中性が高く、広い範囲で音源を収音しますが、正面からの音を重点的に収音します。

  • バイノーラル指向性(Binaural)

人間の耳の形状を模倣し、立体音響録音を行う指向性です。立体音を再現することで、リアルな立体音響体験を提供します。

2)録音環境

音声認識の正解性には、録音環境も重要な要素です。周囲の騒音が多い環境では、音声認識の精度が低下する可能性があり、適切な録音環境が整っていることで、精度が向上することが期待されます。

 利用するシーンに応じて上手く録音するコツ

  • 会議

会議で音声を録音する場合は、スピーカーフォンの使用がおすすめです。スピーカーフォンとは、マイクとスピーカーを組み合わせたデバイスのことです。

スピーカーフォンは、複数の参加者が同時に通話を行う場合に便利で、参加者全員が自由に発言できるため、コミュニケーションが円滑になります。会議室やオフィス環境などでよく利用され、人気のアイテムです。

スピーカーフォンは集音性の高さが最大のメリットです。PCの内蔵マイクは小さく、集音性に欠けるため、複数人での会議には不十分です。しかし、スピーカーフォンは遠くに座る人の声まで明瞭に収集することができます。さらに、音量の自動調整などの機能も備えており、会議相手によりクリアな音声を提供できるでしょう。

複数人の会議でスピーカーフォンの利用イメージ

  • インタビュー

インタビューの音声を録音する場合はいくつかのコツがあります。

まず、静かで騒音の少ない場所で行い、出来るだけマイクに近づけて話しましょう。ただし、ポップノイズを防ぐために適切な距離を保ちます。そして、実際のインタビュー前に、テスト収録を行います。音声のレベルやクリアさを確認し、問題があれば修正します。最後にインタビュアーがはっきりと発声することも重要です。

これらのコツを守ることで、インタビューの音声をクリアで正確に録音することができます。

Notta Botを使って会議をリアルタイムで文字起こししよう!

Notta Bot

*Notta Botは Zoom/Microsoft Teams/Google Meetの会議に対応しています。

Notta Botを使用すると、録音と文字起こしの精度がZoomなどのWeb会議のデフォルト文字起こし精度よりもはるかに高くなります。

Googleカレンダーにイベントを登録することで、Notta Botを自動的に会議に参加させることもできます。これにより、さらなる効率化が実現できます。

会議終了後は、必要に応じて文字起こしした内容を編集できます。さらに、パソコンやスマートフォンを使って参加者と即座に議事録を共有できます。

また、翻訳機能を利用することで、海外のメンバーと会議内容を共有することも可能です。これにより、翻訳にかかる時間を削減し、リアルタイムに近いタイミングで情報を共有できます。

詳しくは以下の記事をご覧ください。

Zoom会議を直接文字起こしできる!ウェブ会議向けの文字起こし機能Notta Bot

Notta、再進化。Google Meet・Microsoft Teams会議を自動文字起こしする新機能追加!

3)録音距離

拾った音量は方向と距離に関わる

PC内蔵のマイクやカメラは、複数人で使用することを前提とした設計ではありません。

内蔵マイクは通常、約30cm〜1mまでの限られた範囲や指向性を持っているため、複数人の会話を同時に正確に録音することが難しいのは事実です。そのため、複数人で内蔵マイクで録音を行う際にはいくつかの注意点があります。

マイクと話者との適切な距離を調整すること

話者に近すぎると、音声が歪んだり、ノイズが発生する可能性があります。一方、遠すぎると話者の音声が遮られ、聞き取りづらくなる可能性があります。

話者の位置を考慮してマイクを配置すること

マイクをできるだけ中央に配置すると、複数の話者の音声をより均等に収集することができます。

複数人の会話を内蔵マイクで録音して文字起こしを行う場合は、上記の注意点に気をつけて適切な録音環境を整えることで、より正確で聞き取りやすい文字起こしを実現できるでしょう。

ただし、より高品質な録音を求める場合には、スピーカーフォンなどの外部マイクの使用がおすすめです。

4)話者の多様性

音声認識システムは多様な話者の声に対応できるようにトレーニングされていますが、人間でも理解しづらい音声は、音声認識システムにとっても認識が難しいというのが現実です。理解しづらい音声には、以下のような特徴があります。

・早口である

・音量が大きすぎる/小さすぎる

・訛り/方言 

など

発音が似ている文字

日本語では「し」と「しゃ」、「こ」と「ご」、「ん」と「な」など、発音が似ている文字があります。これらも音声認識でも判断がしづらいものの一つです。

これらを工夫をすることによって、音声データの質が上がり、認識精度を高めることができます。

複数人による同時発言

複数人が同時に発話すると、個々の発話が区別されにくくなり、音声認識システムは正確な認識が困難になります。また、周囲のノイズや干渉も増加します。これらのノイズや干渉が音声認識の精度に悪影響を与えることになります。出来るだけ2人以上で同時に発言を控えるようにしましょう。

専門用語や固有名詞

専門用語や固有名詞が含まれる文章の文字起こしは正確に文字に起こされないことがあります。これらの用語は特定の分野に関連しており、一般的な辞書や一般的な知識だけでは音声認識が困難です。その場合、単語登録機能を使用することをおすすめします。

Notta は製品名、固有名詞など、認識させたい単語を登録することができます。これにより、社内用語や氏名など、特定の単語やフレーズの認識精度が向上します。

よく使う単語を辞書に登録読みと表記を登録します。

音声認識辞書登録で、専門用語の認識精度を向上

登録後、認識精度が大幅に向上されます。

※単語登録機能は、日本語の文字起こしのみ利用できます。

詳しく登録方法については下記の記事をご参照ください。

アプリ版の場合:よく使う単語を辞書登録する方法

ウェブ版の場合:よく使う単語を辞書登録する方法

また、ユーザーが登録できる単語数については、下記をご参照ください。

  • フリープラン:3個まで

  • プレミアムプラン:200個まで

  • ビジネスプラン:1,000個まで

  • エンタープライズ:カスタマイズ可能

 各環境下での文字起こし効果

 各環境下での文字起こし効果を比較しましょう。

WAV、MP3ファイルの場合

変換したテキストファイルには単語の間違いが生じることがありますが、はっきりとした声で音質がクリアな場合は、ほとんど正しく認識できています。

ニュースのような正しい日本語を使用した音声の場合

プロのアナウンサーがはっきりとした声とクリアな音質で話すため、ほぼ正確にテキスト化することができます。

インタビュー形式、またはZoomミーティング・会議の場合

文法的に必ずしも正しくない会話の日本語であるため誤字になる部分があり、フィラーもそのままテキストに含まれる場合があります。また 片方が話しているときに、同時に話したり笑い声が重なったりすると正しくテキスト化することができません。

マイクで録音する場合

マイクに向かって話している内容はそのままテキスト化されます。

そのため、フィラーと呼ばれる話し言葉や文章で意味のない言葉もテキストに含まれることがあります。一般的な例としては、「えー」「あの」「まあ」「それで」「というか」などがあります。また、クリアな音質で録音するためには、話者とマイクの距離を20cm〜60cm程度にするのが理想的です。

to top