Amazon Alexa 搭載デバイスの日本発売を皮切りに、音声技術の利用はじわじわと広がってきています。2019年は、小型ディスプレイ付端末や音声操作の加わった小型デバイスが多数登場するなど利用シーンが広がりました。2020年の音声テック業界はどのように変革していくのでしょうか。ボイスメディア「Voicy(ボイシー)」の代表取締役CEO、緒方憲太郎さんに伺いました。
2019年はGAFA勢が本気で音声インフラを拡大した
——2019年の音声業界を振り返って、印象深いトピックスは何でしょうか。
何より、音声系ガジェットが非常に多く世に出たことです。AmazonとGoogleは、小型サイズやディスプレイ付など、様々なバリエーションのスマートスピーカーを発売しました。Appleでは、10月に発表したワイヤレスイヤフォンAirPods Proが人気です。画面をタップする代わりに声で操作できるApple Watchの音声コントロールも好意的に受け入れられています。これまではスマートスピーカーを欲しいと思わなかった層も、音声デバイスのバリエーションが増えたことで今年新たに購入することにした、という人が増えている印象がありますね。
私は、このガジェットラッシュを、「音声サービスが使えるためのインフラづくり」と捉えています。GAFAがデバイスを本気で増やしているということは、必ずこの領域(音声)の繁栄が来ることを確信しているからに他ならず、スマートフォン以来、久々に新しい産業が出たんだ、と実感しました。GAFAを街づくりのデベロッパーに喩えると、いまが新都市の開発中。インフラが整えば、その上に載るサービスのラッシュへと続くでしょう。
——AirPods Proに関しては、従来のワイヤレスイヤフォンとは異なる大きな反響があったように感じます。この理由はなんでしょうか。
ノイズキャンセリング機能によって得られる没入感には「耳が拡張された」という声もありました。これは聴覚によって現実世界に情報を付加する「音のAR(Augmented Reality-拡張現実)」体験のクオリティが評価されているのではないでしょうか。
ARは、やはりGAFA各社が力を入れている分野です。AR技術というと、ゲームや文字のアノテーションなど、視覚情報のイメージが強いかもしれません。ところがアメリカでは、これからのARは「視覚」ではなく「聴覚」が大きな役割を果たすのではないかと言われ始めています。視覚情報は、つくるのも大変ですし、利用者もスマホなど何かしらのデバイスを掲げなければいけないなど負担が大きいのがネックです。音声はつくり手にとっても、利用者にとっても手軽なものです。
——「音のAR」というと、どういったものでしょうか。
例えば、指向性スピーカーを歩道に付けて雑踏の中で道案内をする、音声ビーコンとワイヤレスイヤフォンを組み合わせて、美術館や公共施設である特定の場所に立つと案内が流れるなど、様々な利用方法が考えられます。
——そういったことも、技術が発展し、新しい音声デバイスが登場したからこそ実現できるようになったと言えそうですね。
これまでの音声サービスやデバイスは、例えば音声プレイヤーであれば、チャンネルや曲を選択して音を聴くという、「視覚」と「触覚」を使う操作が必要でした。いまは声だけでハンズフリー操作し、ワイヤレスイヤフォンで聴きたいものがいつでも聴けます。「声」と「耳」だけで成立する音声サービス系の時代は、じつは、これから来るものなのです。
アメリカでは低コストで作れる音声コンテンツへの大型投資が続く
——2019年の海外での音声コンテンツ界隈の動きを教えてください。
大きく2つあり、1つめは大金をかけた超大作がつくられ、話題をさらい始めたことです。今年、Spotify では3社のPodcastメディアを買収、そのうちの1社Parcast社の買収額は5,000万ユーロ(約62億円)でした。Parcastはオーディオドラマを中心にオリジナルコンテンツを制作配信するスタートアップ企業で、このような流れは、Netflixのオリジナル大作ドラマになぞらえ「音声版のNetflixが来る」とか、「音声コンテンツのディズニー化」とも言われています。
音楽ファンよりも幅広いリスナーを獲得できるコンテンツを強化することで、より多くのファンを獲得しようという狙いです。
オーディオドラマには大きな可能性が認められています。とくにSFやホラー・サスペンスのように音で楽しむことが効果的なジャンルで人気が高いです。映像化コストが上がりすぎてしまう作品でも、オーディオならば世界観を大切にしながらも低コストで制作できるという魅力もあります。
2つめは、Podcasterという人が生まれ、YouTuberのように喋るだけで稼げる人たちが出てきたことです。これによって、配信をしてみたいと考える人たちに対して未来も描けるようになってきました。
——Podcasterはどんな人たちですか?
最初から有名なタレントや芸能人というより、文化や経済、テクノロジーなどそれぞれに得意分野を持ったプロフェッショナルが自分たちの産業についての情報を発信しているという人が多いです。これはVoicyでいう「専門家」チャンネルに近いです。
——クリエーターから見て、YouTubeのような映像メディアよりも音声メディアを作る魅力はなんでしょうか。
なり手の手間を考えると、喋るだけで制作時間が短く済むというのは大きな違いです。頭の中を伝えるのには、着替えてカメラの前に立つより、文字を起こして文章にするより、喋るほうが早い。これはVoicyでも「音声を編集することが上手な内容のつまらない人でなく、内容が面白いのに技術を持っていない人のための配信環境」を心がけていて、スマホの前で15分喋ったらそのまま15分のコンテンツになる、また、視聴者側にも「その生の声がいい」と思ってくれるようなリスナーが育っています。
——派手でプロっぽい編集はないほうがウケるというのも、時代を反映しているように思いますね。
そうです。フェイクニュースやステマといった問題が複製メディアにはつきまといますが、Voicyがウケている理由のひとつは、声という「本人性」の高いツールを使ったメディアだからではないでしょうか。声によって信頼性が増すことで、有名無名問わずVoicyで発信し、またそれをリスナーも安心して聴けるということがあると思います。
企業のリレーションにおける音声コミュニケーションの可能性
——御社は企業向け音声ソリューション「VoicyBiz」をローンチされましたが、企業の音声メディア活用のニーズをどう見ますか。
現在は、新しい企業コミュニケーションができるだろうと考える先見性の高い企業様から利用され始めています。
ひとつ面白い特長を挙げるとすれば、音声を使ったコミュニケーションは「ニュアンスが伝わりやすく」そして「聴き手の納得感が高い」。そして声や話しぶりというのは親しみやぬくもりが伝わりやすく、好感度が上がりやすい。ですから、「声というメディアは、人と人とをつなぐということでだけでなく人と企業もつなげる」んだな、とわかってきました。
ある企業では社内報代わりに社長がVoicyBizで朝会を実施しています。社内での決定事項も、議事録で通達するより、細かい意図が伝わりやすいため、社員から理解も得られやすくなったそうです。
——学校の昼時に流れる校内放送のように音で流れてくれば、社内広報誌などに比べ、時短しながら無理なく社員とコミュニケーションできそうですね。
いいですね。いまは、時短労働で職場の人と過ごす時間が減っているにもかかわらず、若い社員は「温かみを感じる会社でないと残れない」という問題が出ています。コミュニケーション時間が取れないのに、会社を好きになれないと去って行ってしまう。そんななか、声を使ったリレーションは、笑い声や個性が表現しやすいため、炎上しづらく親しみがもたれやすい。コミュニケーション方法を模索する企業のニーズに応えられるものだと期待しています。
音声クリエーターを取りまとめるプラットフォームづくりが急務
——2020年、音声業界はどのように変わっていくでしょう。
来年は「声で稼ぐ職業」が本格化してくるでしょう。先述の通り、アメリカではPodcasterがすでにいます。日本ではYouTuberが人気ですが、今後は芸能人やエンタメのプロが本格参入してくるため、大きなバックアップのない個人YouTuberは戦っていくのが厳しくなってくるでしょう。音声業界はまだまだこれからの分野ですし、コンテンツをつくるコストも低いので、クリエーターも参入しやすい分野です。
また、人間の声のように「本人性」を宿した情報は、共感されやすく、大量複製ができないので価値が低下しにくいというメリットがあります。YouTubeの世界でもバーチャルキャラクターが人気を獲得していますが、複製できない「声」のコンテンツはこれからますます重要度や注目度は上がっていくと思います。
——音声業界にいま欠けているものはなんでしょうか。
コンテンツホルダーが増えれば、そういう「喋って稼ぐ人」を増やしまとめていくルートや組織が必要になるでしょう。他のメディア業界の収益が伸びるときには、広告なら広告代理店というルートをまとめる存在、タレントをまとめる事務所などが生まれたわけです。
Voicyもプラットフォームとして、パーソナリティさんの収益や聴取率の拡大、音声による企業向けソリューション事業などをデータ解析によってサポートしていく構想です。Spotifyのような世界的な配信会社を見てもわかるように、個別に音声配信しているだけでは前世紀のPodcastと同じですが、巨大な視聴者がある土壌に発信者を載せていく仕組みづくりが重要です。
——来年に向け注目しているキーワードや技術があれば教えてください。
2020年は、5Gネットワークの実用化が進むということで、より潤沢なデータ容量のやりとりが可能になります。音質という意味ではすでに十分な帯域を持つオーディオの品質ですが、データのパーソナライズ化や多元化といった意味では、音声サービスが新しい形で利用される可能性はあるでしょう。例えば360度カメラのように立つ位置が少し違うだけで取得できる情報が変わるオーディオコンテンツや、町中や施設内での音声ビーコンによるアナウンスや解説コンテンツなど、技術的には結構すぐにでも実現可能なものもありますから、来年以降、思ってもみなかった利用シーンの広がりは期待できるでしょう。
また、音声技術については音声認識の精度向上に加え、データ分析技術についてもめざましい進化が続いています。現在Web解析がマーケティングのメインストリームであるのと同様に、音声データに対する反響や嗜好の分析、またその嗜好に合わせてデータに基づいたコンテンツの提案といったものも今後我々が取り組んでいく領域として重要なものです。
GAFAを筆頭に、様々な音声デバイスがリリースされた2019年。2020年はクリエーターやプラットフォームの登場など、ソフト面での躍進が予想されます。例えば、「音」に特化したインフルエンサーも生まれるかもしれません。
人の「声」の強みは、「本人性」が宿ること。本人性の宿る情報は共感や信頼を生みやすいというメリットがあります。一方で、AIテクノロジーの活用によって合成音声がより生身の人間に近づいていけば、目的やその人の嗜好性に即した「声のパーソナライズ」も可能になるかもしれません。人によって思わず耳を向けたくなる声色には違いがあるはず、また「朝に脳が活性化する声」のように時間帯によってフィットする声というのもありそうです。「声と人間」の関係性の分析が進み、音声技術がより進歩していけば、音声の活用、ボイステックの可能性はさらに広がっていくでしょう。
- Written by:
- BAE編集部