AIによる98.86%の文字起こし精度は達成|「AI要約機能」で動画と音声も要約できる
AIとナチュラルな会話をする時代がやってきました!「ちょっとこれ知りたい」が前よりもっと身近になります。
「ChatGPTにテキストを打ち込むのって面倒…」と思いませんか?
このたび、OpenAI社が対話型AIチャットボットであるChatGPTのスマートフォン向けアプリに、音声会話機能を実装しました。
今回は、2023年11月に無料ユーザーにも開放されたChatGPTの音声会話機能のやり方について解説します。
筆者自ら使ってわかった正直な感想と一緒に紹介しますので、ChatGPTをもっと便利に使いこなしたい方は必読です。
ChatGPTの音声会話機能には、text-to-speechモデルというアルゴリズムが採用されています。
本モデルは音声会話機能のために新たに開発されたもので、自然言語生成技術によりAIが人間のような音声を生成するためのアルゴリズムです。
ちなみにtext-to-speechモデルでは、5種類の音声から好きなものを選ぶことができますが、音声についてはプロの声優の声をもとに制作したそうです。
対話を書き起こすための音声認識エンジンには、OpenAI社が開発するAI音声認識エンジンであるWhisperを搭載。
音声会話機能ではユーザの音声を認識しテキストか、質問に対する回答をテキストで作成し最後に読み上げる仕組みとなっています。
※音声会話機能と同時に画像認識機能も搭載されていますので、気になる方はそちらもチェックしてみてください。
日本語に特化した国内最先端のAI音声文字起こしツール「Notta」
2023年9月、ChatGPTを開発するOpenAI社が新たに画像認識機能と音声会話機能を追加すると発表しました。
音声会話機能はiPhoneとAndroidアプリの両方で利用できます。
当初は有料プランユーザーのみ利用可能でしたが、同年11月22日に無料プランへの開放を発表。
従来ChatGPTとのやり取りはテキストベースが原則でしたが、今後は画像や音声でもChatGPTとやりとりが行えるようになります。
なお、有料プランユーザーのみに音声会話機能を提供していた期間も、いずれ無料プランユーザーに機能を開放することを仄めかしていたため、もともとすべてのユーザーに機能を提供する予定だった可能性があります。
まずはサンプルをチェックしたい…という方は、OpenAIが9月25日に投稿したブログでサンプルを確認してください。
ChatGPTは使用言語を自動で認識できます。設定の「SPEECH」から言語を指定することも可能ですが、「Auto-Detect(自動検出)」を設定することで、言語を自動で検出。
例えば、何の言語か不明であるシチュエーションや複数の言語を使用してChatGPTと会話したい場合などに役立つでしょう。
ちなみにAuto-Detect設定で、文字起こしアプリの活用シーンを日本語と英語を織り交ぜて質問してみましたが、きちんと日本語と英語が切り替わっていました。
音声入力とテキスト入力はアイコンをタップすることで簡単に切り替えられます。
音声の認識率が低い場合はテキスト入力に切り替えるといった使い方をすることで、回答の精度を上げることができるでしょう。
音声会話機能が追加された最新のGPT-4Vは、従来モデルであるDALL-E 3と併用できます。
DALL-E 3はOpneAI社が開発した画像生成AI。ChatGPT Plusという月額20ドルの有料プランで利用できます。
従来はテキストを打ち込んで画像生成を行う必要がありましたが、アップデート後は声でプロンプト(指示文)を作成し画像が作れるようになりました。
音声会話機能は、アプリ版ChatGPTに実装された機能です。(ちなみに画像認識機能はPC版でも利用できます)
ChatGPTの音声会話機能は、ビジネスの業務効率化はもちろんのこと、文章の朗読を頼んだり、今ある食材でできるレシピを教えてもらったり、複数のアイデアから最も良いものをおすすめしてもらったり、さまざまな場面で活用できます。
ChatGPTの音声会話機能を使う前に設定から「SPEECH」へ移動して、読み上げる声の種類と使用言語を設定しておきましょう。
より整合性の高い回答を得るには、5W1H
いつ(When)
誰が(Who)
どこで(Where)
何を(What)
どうして(Why)
どのように(How)
に沿って質問を作成するようにしてください。また回答に必要な文字数や形式(ですます)を指定することもChatGPTをうまく使いこなすコツです。
なお、途中で会話が終了した場合も、時間をおいて対話を再開することができます。
メニューバーを表示する
アカウント名の横の「・・・」をクリックする
「SPEECH」から音声の種類と言語を選択する
ChatGPTの音声会話機能には言語検出機能があり自動的に言語を特定できますが、あらかじめ設定しておくことでより精度を上げることができます。
音声会話機能はアプリ右下にあるイヤホンのアイコンをタップすることで利用できます。
今回はiPhoneでの操作画面でやり方を解説していきますが、Androidでも無料で利用可能です。
(Android版アプリにおけるChatGPTの音声会話機能画面)
ChatGPTのアプリを開いてログインする
右下にあるイヤホンのアイコンをタップする
音声を選んで話し始める
回答が作成される
ChatGPTとの音声会話が文字起こしされ読み上げられる
得られた回答を再生成したい場合は、メッセージを長押しし「Regenerate Response(再生成)」をクリックする
今回は文字起こしアプリのメリットについて聞いてみましたが、時間の節約、正確性の向上など論理的かつ的確な回答が得られました。
文字起こしの精度についてもほとんど誤字脱字がなく、高性能な機能であることがわかります。
音声を変更するときは、設定のときと同じ手順で行います。
メニューを表示させアイコンの隣の「・・・」をタップし「SPEECH」の「Voice」から変更してください。
名前をクリックするとそれぞれの音声サンプルを再生できます。最後に「Confirm」をクリックして設定を保存しましょう。
ChatGPTの音声会話機能は英語にも対応しているため、英会話の練習を行うこともできます。AIを相手に会話するため「間違えては恥ずかしい」という羞恥心が生まれることもありません。
正しく書き起こされる発音で英語を話せているか確認したり、英語での返答を翻訳したり、ChatGPTから読み上げる英語リスニングしたり、アウトプットとインプットにおいて英語力を向上することができるでしょう。
英会話を行う場合は設定から言語を英語に変更するのを忘れないでください!
英語での音声会話のやり方は日本語のときと同じ。英語を学習中の方は、ハッキリ話すことを意識すると書き起こしの精度が上がります。
(文字起こしアプリの精度を上げる方法について聞きました)
ChatGPTの精度の高さは理解していたものの、音声会話機能でも整合性の取れた回答が得られました。回答が読み上げられ、それからテキストで確認できるため、必要な情報だけを拾って参考にすることもできます。
今までもスマホの読み上げ機能を使ってChatGPTの解答を音声化することはできましたが、音声だけで連続した対話ができるようになった点は素晴らしいです。
テンプレートを引き出しているのではなく、文脈を理解して発展性のある対話ができるため、ビジネスシーンや日常背活において実用性があると思います。
デメリットだと感じたのは、読み上げ機能をスキップできないところ。特に長文の回答の場合は、その長文の読み上げが終わるまでテキストの回答を確認できません。
また、内容によっては回答の生成に時間がかかることがあり「大丈夫かな…?」と心配になることがありました。
とはいえ、声でChatGPTを操れるようになったのは大きな進歩であり、活用できるシーンが広がったことは間違いないでしょう。
ChatGPTの音声会話機能はモバイルアプリ向けの機能なので、パソコンでは使用できません。
(ただしChatGPTは同一アカウントでアプリ版とWeb版を同期できるため、アプリで音声会話中にパソコンのWeb版を開いておけば、その内容をリアルタイムに確認できます)
パソコンでChatGPTに質問文を音声入力し、その回答を読み上げたい場合は「Voice Control for ChatGPT」というGoogle Chrome 拡張機能を使いましょう。
*こちらの拡張機能はChatGPT公式のものではありません。
拡張機能を追加したいGoogleアカウントでログインし、Voice Control for ChatGPTを Google Webストアで開きます。
右上にある「Chromeに追加」をタップする
自動的にChatGPTが開くのでチュートリアルの右下にある「Okey, let’s go」をクリックする
「・・・」をクリックして言語を日本語に設定する
青いマイクのアイコンをタップする
質問を音声入力する(句読点は挿入されません)
矢印アイコンをタップする
回答が生成されテキストが読み上げられる
読み上げは想像以上にスムーズ。ナチュラルな日本語のイントネーションでした。
ChatGPTの音声会話機能が利用できないときは、下記3つの原因が考えられます。
マイクが消音になっている
アクセス集中によりサーバーが不安定になっている
ブラウザ版ChatGPT 4Vで音声会話をしようとしている
前提条件・使用環境を満たしているのに音声会話機能が利用できない場合は、システムの不具合を疑ってみましょう。
回答が生成されているのに、音が聞こえない場合、デバイスの音量がオフになっていませんか?音量が小さくて聞こえない場合はサウンド設定やスマホ横の音量ボタンを使って調節ができます。
同時に、マナーモードやサイレントモードになっていないかも確認しましょう。
また、気づかないうちにBluetoothイヤホンに接続されており、音がイヤホン経由で出力されている可能性も。有線イヤホンを使っている場合は、接続が緩んでいないか確認してください。
ネットワーク設備にアクセスが集中すると混雑が発生し、サービスに不具合が生じます。
実際、2023年11月にChatGPTの音声会話機能を全ユーザに開放した際も、アクセスが集中しChatGPTにアクセスできない状態が続きました。
特にOpenAI社による何かしらのアナウンスがされたタイミングや、新しい機能が実装されたタイミングなどはアクセスが集中する可能性があります。
この場合は、代替ツールを使って混乱が落ち着くのを待つしかありません。
ChatGPTの音声会話機能はiOS版ChatGPTとAndroid版ChatGPTでのみ利用できます。
スマホでChatGPTを使っていても、アプリ版ではなく、ブラウザ版を使用している場合は、たとえChatGPTが最新バージョンでも、音声会話機能が利用できません。
ChatGPTの音声会話機能を利用する場合は、必ずアプリをダウンロードするようにしましょう。
テキストを打つ際、目で見て手を動かすという2つのアクションが必要。一方、音声会話であれば、ある程度目を離していても、何かをしながらChatGPTに質問をしたり、議論を持ちかけたりできます。
*OpenAI社のホームページでは、下記のような使用例も紹介されていました。
ChatGPTは、言葉の意味や文化的な背景、歴史的な出来事などをまとめ、要点を伝えるスキルに長けています。
ちょっと気になった映画の解説や詩の解釈、歴史上の人物の概要などをハンズフリーで簡単に調べることができます。
音声会話機能は手をほとんど使うことなく利用できるため、両手がふさがっている時や手が汚れている料理中、ミーティング中わからないことが出てきた際などさまざまなシーンで活用できます。
ChatGPT音声会話機能を使えば、人為的なミスを最小限に抑えつつマニュアルの自動作成ができます。
業務の流れや目的、関連データをまとめたら必要な資料と一緒にChatGPTにアップロードしましょう。あとは細かい指示と一緒に業務フローや手順書をもとにマニュアル作成を依頼すれば完了です。
注意点としては、ChatGPTに入力されたデータは暗号化されているものの、情報漏洩のリスクはゼロではない点です。機密情報の入力には充分注意してください。
またマニュアルの作成後は必ず人によるプレビューが必要です。抜け漏れがあると業務上の過失やリスクにつながってしまう恐れがありますので気をつけましょう。
アイディアやキャッチコピーが思い浮かばないときも、ChatGPTの音声会話機能は大いに役立ちます。
会議中にちょっとしたアイディアを尋ねたり、キャッチコピーを考えてもらったりすると、業務効率化につながるでしょう。
ちなみにChatGPTは、既存の言葉だけでなく新しい言葉の創造も行うことができます。
キャッチコピーはインターネット上の情報をもとに作成されているため、コピー率が高くないかどうか最後に確認してください。
OpenAI社が開発する言語モデルは、Web上の情報を収集しテキスト化するという仕組みの上に成り立っています。
そのため、ChatGPTの音声会話機能により得られる情報やアドバイスは、すべてWebにアップロードされているソースから収集したものであり、もともとのソースに誤りがあっても、その正誤が検討されることはありません。
そのため、不正確な回答やアップデートされていない情報などを出力してしまう場合がありますので、音声会話により得た回答は鵜呑みにせず信じるに値するかどうか冷静に判断してください。
また、声には声紋と呼ばれる個人を特定できる情報が含まれています。音声は録音されていますので、情報の取り扱いには十分注意しましょう。
人間同士の会話を文字起こしし、記録や議事録作成に役立てたいならNottaがおすすめです。
Nottaは最新のAI音声認識エンジンが搭載された文字起こしアプリ。Webブラウザ版やアプリ版、Google拡張機能版がリリースされているため、パソコンでもスマホでもシームレスに文字起こしができます。
また、NottaはChatGPTによるAI要約機能も搭載。文字起こしした内容をAIを使って要約できます。
<NottaのAI要約機能を使う方法>
アプリ版Nottaを起動して「+」をクリックする
文字起こしするファイルをインポートする
誤字脱字があれば編集し「AI要約」をクリックし「生成」をタップする
要約結果を確認する
今回はChatGPTの音声会話機能の特徴や使い方について解説しました。
筆者も実際にChatGPTの音声会話機能を使ってみましたが、回答を読むという行為に聞くという行為をオプションとして追加できるのは非常に便利だと感じました。
読み上げ音声の発音はややカタコト感があったものの意味は充分通りますし、学習を重ねるにつれてどんどんブラッシュアップされていくと思うと期待感が大きいです。
ChatGPTの音声会話機能にも話者の質問を文字起こしする機能がありますが、それはあくまでもAIとの対話を目的とするもの。
議事録の作成やウェビナーの記録等音声を文字起こしし記録することが目的の方は、ぜひNottaを使ってみてください。
AIが専門用語と発言者までも適切に識別|長い音声データも一瞬で文字起こして要約|面倒な音声作業を「Notta」に任せませんか