業界トップの正確率で作業効率爆上げ!
音声合成ソフトとは、テキストを自然な人間の音声に変換して読み上げるソフトのこと。「文字情報だと相手になかなか伝わりづらい」「テキストと音声を組み合わせて効率的に情報を伝えたい」そんな悩みを解決します。本記事では、自然でなめらかな音声が合成できるソフトを10種類紹介しました。実際に使用してわかったメリットとデメリットを詳細にお伝えしていきますので、使いやすい音声合成ソフトをお探しの方はぜひ最後までご覧ください。
音声合成ソフトとは、テキストファイルを元に人工的に音声を作成し、読み上げるソフトのこと。音声読み上げソフトと似ていますが、音声合成ソフトとは音声を自動生成する技術が搭載されているソフトで、音声読み上げソフトはその音声合成技術を使って音声を出力するソフトです。音声合成技術は昔からありましたが、誤読が目立ったり、発音が不自然だったり、さまざまな課題がありました。しかし近年、AI機械学習であるディープラーニング技術の進化により、さらに自然な音声を再現できるようになっています。
音声合成ソフトを使えば、実際に人が音声を録音するよりも時間的かつ費用的コストを抑えられます。また、ソフトであれば読み上げ内容の修正にも柔軟に対応できるため、変更があるたびに録音し直す…なんてこともありません。
一方、人間の声と比較するとやや不自然な点が残るのは音声合成ソフトのデメリットだといえるでしょう。また、音声合成ソフトが生成する音声は抑揚やリズムに欠けるところがありますので、感情的に読み上げたい文章には向いていません。
お店の店内放送に
SNSで音声投稿をする
プレゼンの音声として活用
Webサイトのテキストを読み上げる
ライブ配信のコメント読み上げに
投稿動画のナレーターとして活用
本を読み上げてオーディオブックに
英語のダイアログを読み上げて英語学習に
ゲーム配信動画で動画のキャラとして喋らせる
ブログ記事を読み上げて動画としてシェアする
オンライン研修の動画のナレーションとして
作成した文章を読み上げて誤字脱字の確認に
オフィスの電話の留守電メッセージとして活用
カーナビの音声として交差点や通り名を読み上げる
スマートスピーカーに搭載し対話モデルを出力する
オーディオブックとして本の内容を読み上げる
VOICEVOXは、無料で使える自然な音声合成ソフトを使いたい人におすすめ。
本ソフトは商用・非商用にかかわらず完全無料で使えるからです。(ただし原則クレジット表記が必要)イントネーションまで細かく設定できるため、イメージぴったりの音声を作成できます。
使い方は簡単。ソフトを起動して音声合成エンジンを起動させ、キャラクターアイコンの横にあるテキストボックスに音声合成したい文章を入力しましょう。あとはエンターボタンで処理を実行すればOKです。
ファイルはWAV形式でエクスポートされます。Windows版はGPUハードアクセラレーション対応なので、PCにGPUが搭載されていれば、高速処理することも可能です。
メリット
商用利用できるのに無料
オフラインでも使用可能
辞書登録機能で読み方も指定できる
オープンソースなので柔軟な対応ができる
文字単位で細かなイントネーション調整ができる
人気ソフトでユーザーが多いので情報が得やすい
デメリット
句読点の認識度がやや低め
使用にはクレジット表記が必要
キャラクターとソフトウェアで権利者が異なるためややこしい
対応OS : Windows / Mac / Linux
料金 : 0円
棒読みちゃんは、ニコニコ動画や2チャンネル、Twitterの音声を読み上げたい方に最適なソフト。
ニコニコ動画や2チャンネルなどのコメントを読み上げる用途として広く知られています。声質変調や外部入力など機能拡張がなされているなど、無料であるにもかかわらず非常に高機能なのが特徴です。日本語の文章千四のソフトなので、発音やイントネーションが非常にナチュラル。読み上げたい文章をドラッグ&ドロップするだけでできる簡単な操作性も魅力です。音声合成ソフトでは、URLを一つひとつ読み上げてしまうことがありますが、「URL省略」とスマートに省略してくれる点もメリットだといえるでしょう。
メリット
辞書機能のクオリティが高い
声質を8種類から選べる
音量・速度・音程も調整できる
Text Convertというプラグインもあり
音声切り替え機能が標準で搭載されている
外部サイトとの連携がスムーズで使い勝手がよい
コメントビューア機能で生配信中のコメント読み上げもできる
デメリット
読み上げが単調で棒読み
抑揚がないため聞いている人が飽きやすい
WindowsのみでMacには対応していない
対応OS : Windows
料金 : 0円
英語にしか対応していない音声合成ソフトで日本語を使いたい…そんな方にはソフトークが便利です。
ソフトークは英語のみサポートしているMicrosoft Samに日本語を読み上げさせる機能を搭載しています。テキスト入力をするだけで好きな声で読み上げができる本ソフト。人気YouTubeチャンネル「ゆっくり実況」や「ゆっくり解説」でもソフトークを使った音声合成が行われています。読み上げ速度を変更したり、特定のセンテンスを別の声色で読ませたり、行単位で早送りができたり、バラエティに富んだ機能が特徴です。
ソフトークと棒読みちゃんの違いが知りたい方向けに解説すると、ソフトークは比較的平坦に読み続ける感じで、棒読みちゃんはソフトークに比べるとポーズ(少し止まる)感じがあります。また、ソフトークは音声を28人から選べるのに対し、棒読みちゃんは8人です。
メリット
単語登録機能あり
WAVファイルで出力できる
読み上げ音声の録音にも対応
他のソフトから呼び出して読み上げもできる
機械的な音声をナチュラルにできる機能付き
不要な箇所を読み飛ばすこともできる
テキストエディタのようなシンプルなインターフェース
デメリット
若干読み上げ音声に違和感あり
2022年にAquesTalkの対応は中止に
ときどきファイルが破損していることがある
対応OS : Windows
料金 : 0円
音声合成ソフト初心者の方には、シンプルなインターフェースのテキストークをおすすめします。
ツールバーで音量や速度、出力音声の性別などが選択できるため、初めて音声合成ソフトを使う方でも迷わず操作できるでしょう。起動した画面に音声合成したいテキストを入力、もしくは.txtファイルをドラッグ&ドロップして、設定をするだけで簡単に使えます。2015年以来開発されていないため正直クオリティが抜群に良いわけではありませんが、無料であることや多機能であることを考慮すると、自信を持っておすすめできます。(実際に試してみたところ、やや読み上げが機械的な印象でした)特定の単語とその読み方を登録できる辞書機能だけでなく、特定の機能や特殊文字を読み飛ばす読み飛ばし辞書機能があるのも特徴です。合成された音声はWAVもしくはMP3としてエクスポートできます。
メリット
日本語の読み上げがスムーズ
日本語だけでなく英語にも対応
シンプルなので直感的な操作ができる
音声合成エンジン「OpenJTalk」に対応
読み上げている箇所がマーキングされるためわかりやすい
デメリット
ソフトの動きが遅いことがある
たまにノイズが入ることがある
読み上げる時スペースはポーズとして考慮されない
対応OS : Windows
料金 : 0円
CoeFont STUDIOは、ビジネスでも使える高クオリティな音声合成ソフトを探している方におすすめです。
CoeFont STUDIOには5,000以上のAI音声が搭載されており、ナレーション事務所に依頼するよりも豊富な種類の音声が手に入ります。登録したらすぐに使える手軽さも魅力。テキストを入力して音声合成をして、ファイルをダウンロードするだけですぐに使い始めることができます。2021年には声色の高さまで調整できるようになりましたので、人と被らない音声が欲しい方にも最適でしょう。
プランは無料プランとLiteプラン、Businessプランの3種類。無料プランとLiteプランは商標利用不可となっていますが、収益化したYouTubeチャンネルやゲームチャンネルへの利用は商用に当たらないとされていますので、無料または月額500円のLiteプランでも個人的な利用はできます。
メリット
ダウンロードした動画はWAVで保存される
自分の声も音声もして登録できる
無料プランでも一部の商用利用OK
有名人やVTuberの声も利用できる
声だけでなくキャラクター利用もできる
料金はポイント制なので計算が簡単
有料プランのポイントは180日以内であれば繰越できる
デメリット
文字の組み合わせによっては発音に違和感がある
サ行とハ行に少しずつ弱い場合がある
フリープランとLiteプランの場合はクレジット表記が必要
対応ブラウザ : GoogleChrome、Safari、Firefox
料金 :
0円(フリープラン)
500円(Liteプラン)
5000円(Businessプラン)
なるべくリーズナブルな価格で商用利用できる音声合成ソフトをお探しですか?そんな方には音読さんが最適です。
音読さんは有料の音声合成ソフトですが、20万文字読み上げられるベーシックプランでも月額1,078円と非常にリーズナブル。会員登録なしの無料版でも1000文字まで読み上げができますので、ちょっと試してみたい方はぜひ。ファイルはさまざまなデバイスと互換性のあるMP3としてダウンロードできますので、使い勝手も抜群です。
音読さんにはブラウザ版以外にもGoogleChrome拡張機能版とWordPressプラグイン版があります。プラグイン版では、執筆した記事を音声で読み上げてくれるため、そのまま動画制作をしたい場合や、内容を耳で確かめたい場合に活用できるでしょう。有料プランにアップグレードすると、クレジット表記なしで商用利用できます。
メリット
音声は10種類から選べる
日本語や英語など47の言語に対応
PCにインストールすることなく使用できる
姉妹サイト「文字起こしさん」もあり
合成した音声はMP3としてエクスポートできる
デメリット
文字数の繰越はできない
文字数でプランが決まるため無制限で使いたい人には不向き
例え未完成な文章でも読み上げをするごとに文字数を消費してしまう
対応OS : GoogleChrome
料金 :
1,078円(ベーシックプラン)
2,178円(バリュープラン)
3,278円(プレミアムプラン)
VOICEROIDはアニメのキャラクターのような個性的な音声を合成したい方におすすめのソフトです。
発音や抑揚もナチュラルで、人の声に近い音声を合成できます。音声合成エンジンは株式会社エーアイが開発、企画販売は株式会社AHSです。「VOICEROID2」「VOICEROID+」などさまざまな製品がシリーズ化されており、種類によって使用できるキャラや利用できる機能が異なります。
VOICEROIDでは、ユーザーの声を録音してそれを元に音声合成をすることも可能です。人とは被らない音声が作成できるだけでなく、自分の声がキャラクターのような声に変身する楽しさも味わえるでしょう。人間的で自然な音声合成を実現することができる高性能音声合成ソフトウェアです。コーパスベース音声合成機能に加え、微妙なフレーズ(イントネーション)の調整やスピード調整、音声ファイルの作成などを行うことができます。
メリット
商用利用可能
話すだけでなく歌うこともできる
イントネーションが自然
有料版だが無料体験版もあり
関西弁のキャラクター(琴葉茜)もあり
デメリット
キャラクターにつき1万円以上と高額
人間の声に比べるとまだ少しぎこちない
高性能なCPUが必要な場合がある
対応OS : Windows、Mac
料金例 :
VOICEPEAK 彩澄しゅお ダウンロード版 : ¥10,800(税込)
VOICEPEAK 彩澄しゅお通常盤 : ¥13,800(税込)
豊富なラインナップから音声合成ソフトを選びたい方は、AITalkを使いましょう。
AITalkでは、総勢100名以上の話者・40種類以上の豊富な言語に対応しており、大人や子ども、関西弁にも対応できます。AITalkは車のナビやコールセンターの音声などさまざまな分野で利用されている本格派。「コーパスベース音声合成方式」と、最新の深層学習技術を活用した「DNN音声合成方式」を兼ね備えているため、自然な発話が可能です。外国語では、英語、中国語、韓国語など40言語・54方言・123話者に対応しています。外国語放送や外国語音声ガイダンスの作成にも役立つでしょう。
メリット
Webサイトでデモ使用ができる
独自開発した日本語解析技術を搭載
アニメ声ではなくビジネスに最適な音声が豊富
人間らしさを備えた高品質な音声合成ができる
特定の人の声で音声を作成できるサービスもあり
デメリット
Windowsでしか動作しない
商用利用できる範囲が分かりづらい
用途別にプランが分けられているため別途購入する必要あり
対応OS : Windows
料金(AITALK 声の職人の場合) :
基本料金 : 月額55,000円
ユーザ辞書再登録オプション : 15,000円/回
Synthesizer V AIは、音声合成ソフトを使って歌声を作り出したい方におすすめです。
歌声に特化した音声合成ソフトで、強力な音声処理エンジンが搭載されています。サンプルの歌声とAIが合成した歌声を採用しており、ソフト上でオリジナルソングを作ることも可能です。製品にはパッケージ版とダウンロード版があります。歌唱力の高いシンガー向けの音声合成機能も搭載されていますので、本格的な歌唱動画の制作に最適です。処理能力も高速で、ソフトの動作も非常に軽いのが魅力。他のソフトウェアと連携してより効率的に使用することもできます。
メリット
体験版あり
英語や中国語の歌唱にも対応
発音や声のトーンを自由に調整できる
自分で作成した音声を使うこともできる
カスタマイズ性が高いのでオリジナリティを出しやすい
デメリット
有料ソフトの中でもやや高額な部類
Pro版を購入しないと多言語対応できない
使用には一定のCPUの性能が必要
対応OS : Windows、Mac
料金 :
Synthesizer V Studio Pro : 14,080円(パッケージ版)
Synthesizer V Studio Pro : 10,780円(ダウンロード版)
有料でも良いので人間の声に近い音声合成ソフトを使いたい!という方におすすめなのが、CeVIO AIです。
AIにより感情を表現することもできるため、機械的なトーンではなく感情的なトーンで読み上げを行いたい方にも向いています。特に歌をうたう技術は素晴らしく、音楽制作にも最適です。ほんの少しの操作で高クオリティな読み上げができるため、編集時間を効率的にカットできるでしょう。音声の調整やエフェクトの追加など、カスタマイズができる点も魅力。一方、商用利用できるかどうかはキャラクターによって異なりますので、事前に確認してください。
メリット
CNNやRNNを使って人間らしい声を学習
エディタとセットになったスターター製品あり
ほとんど調整することなく自然な読み上げができる
ディープラーニングの技術を取り入れた最先端ソフト
出力音声を手直しするための機能も充実している
デメリット
トークとソングは別々に購入する
商用利用の規約が少しややこしい
エディタとボイスを別途購入する必要がある
対応OS : Windows
料金例 :
すずきつづみ トークスターター : 16,918円
すずきつづみ ソングターター : 19,580円
読み上げ音声の質はソフトを使う前に確認しておきましょう。ディープラーニング技術が搭載されているソフトは抑揚やイントネーションが人間に近く、ビジネスシーンでの活用にも最適です。
音声合成ソフトを使って動画共有サイトに動画をアップしたり、商品として売り出したりする場合、必ず商用利用の可否を確認してください。プランによって規約が異なるパターン、キャラクターによって規約が異なるパターン、運営会社によって「商用」の定義が異なるパターンなどがあるため注意が必要です。
合成音声のエクスポート形式も確認しておきましょう。MP4やMKVは比較的汎用性が高く、デバイスや再生ソフトを気にせずに広く使用できます。音声合成ソフトを使用して制作した動画を特定のサイトにアップロードする場合は、定められた形式で保存できるソフトを選びましょう。
Readitは、iPhoneで使える音声合成アプリです。読み上げたいテキストやWebページを読み込むだけで高音質な音声で読み上げをしてくれます。日本語、英語、中国語、韓国語、ドイツ語、スペイン語、イタリア語、フランス語など8言語に対応しているため、外国語音声の読み上げにも最適。
倍速再生や読み上げているテキストをハイライトする機能もありますので、よりシチュエーションに適した使用ができます。月額$7.99のプロ版にアップグレードすれば、24種類の音声から読み上げボイスを設定できます。
読むという行為は他の作業と同時進行できませんが、聞くという行為なら家事をしながら、デスクを整理しながら、など「ながら作業」にも向いています。大量の情報を効率的に入手したいとき、外国語のリスニング学習を行いたいとき、ぜひReaditを使って「読める」コンテンツに「聴ける」価値をプラスしましょう。
音声合成ソフトは近年増え続けており、既存のソフトにも次々と新しい機能が実装されています。日本語に対応しているソフトもあれば英語や中国語、スペイン語に対応しているソフトもありますので、動画制作で英語を読み上げたり、プレゼン動画に中国語の音声を入れたり、さまざまなシーンで活用できるでしょう。ちょっとイントネーションがおかしいな…と感じる場合は「ラーニ」「んぐ」という感じでカタカナとひらがなを混ぜて調整することをおすすめします。本記事で紹介しているソフトはどれも安全に使える高性能なものばかりなので、ぜひ参考にしてください。
Nottaは日本語に特化した国内最先端AI音声文字起こしツールです。