近年、注目を集めているバーチャルYouTuberこと「VTuber」には、人間の動きをトレースしてリアルタイムで「3Dアバター」を動かす技術が使われています。テクノロジーを通じてキャラクターを演じる技術とも言えますが、「見た目」や「動き」だけでなく「声質」もリアルタイムで変換することができれば、よりリアルにキャラクターを演じることができるでしょう。
そこでAIを利用して、精度の高い「音声変換」を実現するのが、「AIリアルタイムボイス変換技術」です。より自然に、より少ないタイムラグで音声を変換できるこの技術は、「VTuber」の分野だけでなく、様々な分野で応用できる可能性を秘めています。「AIリアルタイムボイス変換技術」を活用して声質変換ソフトウェア「Voidol - Powered by リアチェンvoice -」などを開発している、クリムゾンテクノロジー株式会社 代表取締役の飛河和生さんにお話を聞きました。
音声学習の利用におけるAI技術の活用
――クリムゾンテクノロジー株式会社は以前より音楽や音声に特化したサービスを展開されていますが、AI技術を取り入れた理由はなんでしょうか。
弊社は、もともと電機メーカーの研究所にいたメンバーが立ち上げた会社で、音楽や音声に特化してサービスを提供してきました。きっかけは、とあるテーマパークさんが声によるキャラクターの演じ分けで苦労していると聞いたことでした。そこで私たちはそういった問題を解決し、AIのテクノロジーを音声や音楽の創作領域に適合させた「AIエンターテインメント市場」を作ろうと、新しく部署を立ち上げました。
その結果、生まれたのが「リアチェンvoice」です。AIを用いることで、どなたの声でも、声優さんやキャラクターの声にリアルタイムで変換することができるというサービスになります。
――具体的には、音声変換技術にどのようにAIが活用されているのでしょうか。
変換するキャラクターや声優さんの声と、サンプルとなるナレーターの声をシステムに機械学習させる場面でAIを利用しています。実際に音声を変換する際は、ナレーター(話し手)の言葉を事前に用意したAI学習結果のデータベースと突き合わせ、音声フィルターを構築しています。そのスピードは50ミリセカンドから70ミリセカンド(※)という、ほぼリアルタイムのスピードで変換しているのが特徴です。(※:ミリセカンドは1000分の1秒)
――キャラクターだけでなく、女性の声を男性の声に変えたり、男性の声を女性の声に変換したりするのも、問題なくできるのでしょうか。
はい、可能です。声質に大きな違いがあるため、ピッチシフターによるピッチ変換を行い、より自然なボイス変換をできるようにしています。異性間の方が、より変換結果に違いが出ますので効果的とも言えます。
――AIを使うことで、従来の音声変換とどのような違いがあるのでしょうか。
まず、よくあるボイスチェンジャー技術では、声を出す人によって音質が変わってしまうという弱点がありました。しかし、AI技術を使うことで、誰が声を出しても、高い精度で特定の声に入れ替えることができるようになります。ボイス・チェンジ(変化)というよりも、ボイス・エクスチェンジ(交換)というイメージです。
また、多くのAIを使った音声技術では「テキストtoスピーチ」という、打ち込んだテキストをもとに声のトーンや質を合成して出している場合が多いのですが、弊社の技術はマイクで入力した音声をそのまま変換する、単純に声の質だけを入れ替えるという技術です。自然な抑揚や自由なテンポが残り、機械的な音になりがちな「テキストtoスピーチ」とは決定的に異なります。極端な話でいうと、日本語で音声学習をしても、中国語や英語で音声変換することも可能なのです。言語や方言などに左右されず、学習ができます。
エンタメから実務まで、リアルタイム変換で広がる利用の場
――こういったAIリアルタイムボイス変換技術の活用シーンとして、キャラクターになりきる「VTuber」は非常にイメージしやすいのですが、企業が利用するとしたら、他にどのような活用方法が想定されるでしょうか。
アミューズメントパークのキャラクターや着ぐるみの声にも使えると思います。実例としては、バンダイナムコアミューズメント様の施設「屋内・冒険の島ドコドコ」で、キャラクターの声の使い分けに活用されています。
また、弊社を含むテクノロジー企業4社でAIリアルタイムボイス変換技術を用いてリアルタイムで声を変換するメガホンを開発しました。
制作したコンセプトムービーでは、賑やかな群衆の中でも女の子のかわいい声に変換して呼びかければ、思わず振り向いてしまうという様子を映像化しているのですが、この技術を応用して、イベント会場などでの注意喚起や集客に利用できるかもしれません。
――AIリアルタイムボイス変換技術には、その他どのようなお問い合わせが寄せられているでしょうか。
ホテルのフロントで使いたいという声もあります。キャラクターを前面に出して、遠隔接客も可能です。博物館で学芸員のかわりに、キャラクターが説明するように演出できないかという問い合わせもあります。
また、コールセンターからの引き合いも多いです。声質のいい人をサンプリングして使いたい、または女性しかいないコールセンターで男性の声で対応したいという話もありましたね。
――AIリアルタイムボイス変換技術を実用化していくうえで、今後どのような課題があるとお考えですか。
最近では、中国でバーチャルキャラクターが流行っているため、アジア圏からも問い合わせが多く来ています。より高い精度での変換を必要とする場合は、その国の言語で使われる全ての音(語彙)を学習しておくことが理想です。そのため、使われる言語に合わせた学習用台本の開発が必要になります。中国語への対応はできましたが、他の言語については要求に応じて開発を行う予定です。
「AIリアルタイムボイス変換技術」の未来ですが、当初この技術は声帯を手術した方の、失った声を取り戻すという目的から研究が始まりました。エンタメだけでなく、医療分野でも活用が期待されています。
また、誰でも声を変換できるシステムが広まることで、声を生業とされている職業の方の仕事を奪うのでは?という不安も聞かれるのですが、弊社では著作権と同じような考えで、ユーザーが声を利用することで、サンプリング元の声優さんやナレーターさんに印税のようなものが入るシステムも検討しています。テクノロジーの進歩によって、「声」のビジネスはますます発展し、広がっていくのではないでしょうか。
YouTubeで視聴者の心を掴む声、コールセンターでお客様に対応する声、博物館でガイドをする声、群衆の中で注意を喚起する声など、その場やその状況にふさわしい「伝わる声」というものが存在するのだとしたら、リアルタイムで、かつ高い精度で音声を変換できる「AIリアルタイムボイス変換技術」は非常に有効かもしれません。特に「声」は話者の本人性が宿り、人の心を大きく動かす力を秘めています。声によるソリューションは、今後様々な場で活用できそうです。
- Written by:
- BAE編集部