2020.06.17

“あの人”の声を活用して効果を最大化──音声合成技術が切り開く新たな可能性

声×プロモーション活用の新機軸「コエステーション」

スマートスピーカーの登場を機に、広く浸透した「音声UI」は、話しかけると、機械の音声で答えが返ってきます。ですが、もしその声を自由に選択することができれば、ユーザー満足度はさらに向上する可能性があります。

そこで今回、音声合成技術によって、さまざまな人の声をデータベース化するサービス「コエステーション」を運営するコエステ株式会社 執行役員 金子祐紀さんに、「データ化した、人の声のポテンシャル」についてお話を聞きました。

目次

AIを起点に拡大する「音声市場」

——まず、「音声UI」をはじめ、昨今、“声”活用への期待が高まっています。その背景について、教えてください。

さまざまな要因があると思いますが、私自身は技術革新の影響が大きいと考えています。

株式会社アイ・ティ・アールの調査によれば、2018年度のAI主要6市場(画像認識、音声認識、音声合成、言語解析、検索・探索、翻訳)の売上金額はおよそ200億円、前年度比53.5%増と大幅な伸びを見せています。さらに今後、その市場は拡大し、2023年度には640億円に達すると予測されています。

このように、AI関連の市場が成長しているのは、AIが実用レベルに達したからに他なりません。AIは画像との親和性が高いといわれますが、同様に、音声との相性もよく、その結果が「音声UI」などにつながったといえるでしょう。

また、株式会社日本能率協会総合研究所の調査によれば、音声認識システム市場は2023年度に約1,010億円に達するという予測もあるなど、AI×音声のポテンシャルは非常に高く、各社が競って研究開発を進めている分野でもあります。

——「声」活用は始まったばかり。まさにこれから“声”の時代がやってくる可能性があるのですね。

はい。音声UI、音声メディアなどが注目されており、活用エリアは現在進行形で拡大中という印象を受けています。

そのなかで、まだ手付かずだったのが「人の声」です。私たちは生活の中で、“声のインフォメーション”にさまざまな形で触れています。スマートスピーカーやカーナビ、店内放送や駅のアナウンスなどもそうですよね。

それらすべては、知らない誰かの声、もしくは機械の音声であることがほとんどです。しかし、テキストを入力するだけで、簡単に「指定した声」でアナウンスすることができたら、そこに新たな可能性が生まれるのではないでしょうか。

この思いをカタチにしたのが、私たちの提供している「コエステーション」です。さまざまな人の声をデジタル化してデータベースに蓄積し、音声合成技術によって、自由にしゃべらせることが可能です。

これまで、人の声をデータベースに記録するためには、数千文、さまざまな文章を読み上げていただき、そこから声の特徴をAIによって学習させるというのが一般的でした。その場合、数日間スタジオに缶詰めになっていただく必要がありました。しかしコエステでは、東芝の40年以上におよぶ研究開発から生まれた技術よって、従来の1/10、300文のデータがあれば、登録可能です。その結果、これまで高かった「人の声の活用」のハードルが下がり、事業として展開できる状況が生まれたわけです。

また、許可なく勝手に「声」を使用できないよう、声の権利をきちんと保護しながら、高いセキュリティ環境のもと、安心して利用できる仕組みも構築しています。

コエステーションでは、業界初となる、自分の声をデータベース化できるアプリを提供。登録後は、自分の声でさまざまなテキストを読み上げることができる

さまざまなシーンに“感動”をプラスする「人の声」

——「人の声」には、具体的にどのような活用法があるのでしょうか?

声のニーズは、大きく3つあると考えています。ひとつは、有名人の声。もうひとつは、一般人の声。そして最後が自分の声です。

有名人の声の活用法は、カーナビなどのオプション機能として、「好きな人の声を選べる」というものです。長時間の運転も、好きな人の声で案内されたら、もっと楽しくなりそうですよね。その特徴を生かすことで、プロモーション活用も可能です。たとえば、同じ商品をレコメンドされる場合でも、知らない人の声では琴線に触れなかったのに、大好きなタレントさんの声だったら思わず購入してしまう。そんなケースが、容易に想像できると思います。

こうした活用は、すでにカーナビなどで、アニメ声での音声案内のサービスもありますが、ただ、これを実際に収録し実現しようとすると、ものにもよりますが、途方もない労力と時間がかかってしまう可能性があります。また、あとから声のバリエーションを追加することも、コストと手間がかかってしまいます。ですが、コエステーションであれば、テキストを入力するだけ。その手間とコストは、実際の収録に比べて非常に低いものとなります。

なお、コエステーションでは現在、女優さんやアーティスト、お笑い芸人さんまで、幅広いラインナップを用意していますが、年内中に100人、今後さらに増えていく予定です。

テキストを打つだけで、コエステーションに登録されている有名人の声をさまざまな形で利用できる

一般人の声、というのは、たとえば店舗の店長さんなどを指します。現在、新型コロナと人手不足という2つの問題から、無人化店舗への注目度が加速しています。ですが、顧客の気持ちからすれば、ある日、突然、誰も人がいなくなってしまえば、戸惑うことになるでしょう。そこで、「いらっしゃいませ」や「ありがとうございました」などの掛け声やインフォメーションを店長さんの声で行うことで、その違和感を少しでも払拭しようという狙いがそこにはあります。

ここでも、「あの有名人の声で迎えられたら」という発想もあり、お客様へのサプライズとして、有名人の声を活用するという選択肢もあるでしょう。さらには、有人店舗においても、期間限定で「あの人の声が聞ける」といった声を活用した集客施策も可能です。これにより、接客業にエンタメ要素を簡単に加えることができますし、効果も出やすいと考えています。収録音声だとコストがかかり過ぎますが、合成音声ならスタンプラリーのように、店舗ごとに“違う声が集められる”なんてことも可能です。

登録した声は、カスタマイズ可能。喜び・怒り・悲しみなどの感情や、速度、抑揚など、細かな調整を行うことで、利用シーンに適した音声(表現)を実現する

そして最後が自分の声です。LINEなどのコミュニケーションアプリでは現在、スマートスピーカーと連動した音声の読み上げ機能を備えています。そこで自分の声が登録されていれば、自身の声でメッセージを届けることが可能になります。お母さんからお子さんへのメッセージ、お孫さんから祖父母へのメッセージ。どちらも本人の声で読んでもらえたら、深く伝わりそうですよね。ほかにも、ゲーム会社とコエステがコラボレーションすることで、自分の声でしゃべるキャラクターをゲームの世界に登場させたりすることも可能です。

声のパーソナライズ化によって生まれる、新しいカタチ

——「人の声」は、さまざまなニーズに対応可能なのですね。では、他にどのような活用が考えられるでしょうか。

スマートスピーカーや音声メディアへのニーズが高まるなか、昨今「音声広告」にも注目が集まっています。

発想はラジオCMと同じで、聴いているコンテンツに合わせて、最適な広告が流れたら、ユーザーにとってもそれはノイズではなく、有益な情報になりえるからです。特にスマートスピーカーは現在、まだ広告枠が少ないため、コンテンツとリスナーの最適なマッチングが実現できる仕組みを作れれば、新たな市場が生まれる可能性もあるでしょう。

しかし音声広告といえども、すぐに作るのは難しい。そんなとき、コエステーションを使えば、大量生産も容易になるのでコスト削減と時短というニーズを満たすことが可能です。さらに、コエステーションを使えば、リスナーごとに広告内容や紹介する声を変えるなんてこともできるわけです。

また、オーディオブックも昨今、人気が高まっていますが、有名人の声による読み聞かせができるようになれば、さらに人気は高まるのではないでしょうか。

次に音声チャットボットです。こちらは事例があります。2018 FIFAワールドカップにおいて、フジテレビの広報担当として「AIカビラくん」という、音声チャットボットで対話しながら、試合の予想を教えてくれたり、雑談できたりする仕組みを構築しました。

ほかにも、通信会社のCMキャラクターに採用された事例もあり、利用シーンは広がりを見せています。

ジョン・カビラさんの音声を使った音声チャットボットは、利用者の反応もよく、好評を博した

——さまざまな可能性を秘めた「人の声」のデータベース化。今後、どのような展望を描いていますか。

AI、IoTの昨今の勢いを見ていれば、「人の声」の活用は、今後さらにニーズは高まると考えています。音声合成技術の精度も同時に向上していきますので、使いやすさも日進月歩で進化していくはずです。

またスマートスピーカーはアメリカでの普及が著しいため、コエステとしては、グローバル展開も視野に入れています。そうやって、国内だけでなく、海外の「人の声」も集めていければ、本当にその人が求める「声のパーソナライズ化」が実現する未来も可能だと考えています。

現在も、100人の声のニーズに対応することは可能かもしれませんが、100万人のニーズに対応することはできません。しかしそれも、AIによる趣味趣向の分析と、音声合成技術を組み合わせることで、いつか実現できると思っています。そうなれば、音声の世界はもっと楽しく、快適なものへと変わるはずです。

コエステ株式会社 執行役員 金子祐紀さん
コエステ株式会社 執行役員 金子祐紀さん(写真:エイベックス株式会社コーポレートサイトより引用)

音声合成技術の精度が高まったことで実現した「人の声」の活用。アイデア次第でさまざまな利用が可能という特徴を生かし、サービスの向上、プロモーション利用など、ニーズに合わせて使うことで、効果を発揮しそうです。

Written by:
BAE編集部