ヤマハが期間限定で設立した研究スタジオ「VOCALOID β-STUDIO 」から、2023年08月22日より「AIを活用した歌声合成の実証実験をスタートさせる」との発表がありました。
この実証実験では、DAW上で歌声合成を可能にする試作のVST3/AU プラグイン「VX-β(ブイエックス ベータ)」が音楽クリエイターに提供されます。
歌声合成技術とともに歩いているサイトなので、ヤマハの歌声合成の世界における現在のレベルについて記載しますが、あくまでも「AIボーカル=リアルなボーカル表現」を求めるユーザーの視点で書いています。
歌声合成の世界における現在のヤマハ
歌声合成の世界でトップではない
ヤマハ「VOCALOID β-STUDIO」のAI歌声合成の試作のVST3/AUプラグイン「VX-β」を語るまえに、歌声合成の世界における現在のヤマハのレベルを書いておきます。
「VOCALOID」という言葉が一般に浸透しているので、ヤマハが歌声合成におけるトップと思われている人もいるかもしれませんが、現在では全然トップではありません。
AIを搭載した最新の「VOCALOID 6」を見る限りだと「実際のボーカルのリアルな表現」に焦点を合わせたときに、残念ですが3本の指にも入ってきません。
初代VOCALOID発売当初から、リアルなボーカル表現を追求してきたメーカーなので、当然、ヤマハでもそれを認識しているはずです。
一般に出回っているAI歌声合成ソフトのなかでは「Synthesizer V Studio」「NEUTRINO」がトップクラスで、次点が「VoiSona」「CeVIO AI」というのが現状です。
ヤマハの歌声合成技術に関して言えば「Synthesizer V」と比較したときに、AIボーカルの観点だと仮歌でも厳しい2~3周遅れくらいのクオリティーです。
VOCALOIDは過去の物
2023年04月に公開された音声生成AI「RVC(Retrieval-based Voice Changer)」の大きな市場が、近い将来に日本でも出来上がりそうな気配もあります。
ここではRVCについて詳しく書きませんが、次世代のAIボーカルの本丸であることは間違いなく、良い意味でも悪い意味でもイラストの世界で起きたAI旋風が音楽の世界にも確実に来そうです。
例えば、あいみょんや優里くんの「声」を楽曲から抜き出して学習させれば、自分の曲でも、あいみょんや優里くんが歌っているかのような楽曲ができてしまうという技術がRVCです。
日本の著作権法では「声」は保護の対象ではないのですが、さすがにグレーゾーンというよりアウトな気がします。(確実にクレームは入ると思います。)
そんな状況ですので、正直、AI事情に詳しい人間たちのあいだでは、ヤマハの歌声合成技術 VOCALOIDは、すでに過去の物として認識されています。
ほとんどが「ら」で歌われているデモ動画
VOCALOID β-STUDIO「VX-β」のコンセプト・デモ動画を視聴しましたが、ほとんどが「ら」で歌われています。
「ら」だと「VOCALOID 4」あたりからだと、そこそこよく聴こえるのですが、歌詞を入れたものを聴くとリアルなボーカルかどうかを判断しやすいです。
動画のなかで唯一「ことばになってゆく」という歌詞入りフレーズがありましたが、これだけを聴くと「Synthesizer V」や「NEUTRINO」のAIボーカルのリアルなクオリティーには、まったく到達していません。
もともと「VOCALOID」は別売りライブラリにしても、デモ曲のレベルが低くて、その製品の魅力を伝えてないです。少なくともAIボーカルである必要性の感じないデモ曲のレベルです。
もし「Synthesizer V」「NEUTRINO」「VoiSona」「CeVIO AI」に持って行かれたユーザーを取り戻すのなら、デモ曲の段階から気合を入れないと無理な話です。
歌声合成の世界でどこを目指しているの?
新しい時代は感じない
AIボーカルのリアルさに着目して、もし「VX-β」のデモ動画をベタ褒めしている人がいるのなら、間違いなくクリエイターとして偽物か、メーカーと何らかの利害関係のある人だと思われます。
「Synthesizer V」「NEUTRINO」「RVC」がすごいレベルに到達してきている現状で、わたしは何の刺激も凄さも感じませんでした。
少なくとも新しい時代に残れ、新たな音楽文化を作ってゆくことのできるクオリティーは「VOCALOID 6」や「VX-β」にはないです。
歌声合成の常識の定義を示して欲しい
VOCALOID β-STUDIO公式サイトのキャッチコピーに「歌声合成の常識を打ち破るべく」とありますが、ヤマハが歌声合成の世界でどこを目指しているのかがわかりませんので「歌声合成の常識」の定義を示して欲しいです。
ほとんどの人がAIボーカルに求めるのはリアルなボーカルです。リアルなボーカルを求めなければ、AIとは無縁の「VOCALOID 3」や「VOCALOID 4」で充分です。
AIボーカルが登場し始めの数年前に「うちのボーカル・ライブラリはアコピではなく、エレピを目指している」と後出し情報で、ユーザーを大きく失望させてしまったメーカーもあります。
ヤマハも「ら」満載のデモ動画を作ってみたり、ここまで来ると、AIボーカルで他のソフトと戦う技術がないのを隠すため?と疑ってしまいます。
コンテンツを育てるのが下手な会社
VOCALOID β-STUDIOの公式ページには「クリエイターの皆様とヤマハの研究者がともに一緒になって、新たな世界に挑戦していきます」とヤマハは記載しています。
正直なところ、知名度や技術はあっても、独自のコンセプトでコンテンツを育てるのが下手な会社で、いつも初めは威勢が良く、聞こえのよい言葉を並べています。
しかし、利益が出ないせいか、どのサービスも知らないうちにフェードアウトしてゆくイメージです。(企業なので利益を求めるのは当然ですので否定はしません。)
歌声合成技術の世界でのヤマハの復権
ボカロブームを作ったのは初音ミクのおかげ
ボーカロイドが市民権を得たのはクリプトン・フューチャー・メディアの初音ミクのおかげで、ヤマハがボカロブームを作ったとは言い難いです。
初音ミクなしには語れないはずのボーカロイドですが、その大貢献した初音ミクの扱いも「VOCALOID 5」のときのヤマハの対応には「あれ?」と感じた人が多いのではないでしょうか?
初音ミクだけではなく「VOCALOID 4」のライブラリの多くが、他の歌声合成ソフトに移行していることも考えると、一緒に歌声合成の世界の向上のために尽力しても「そんなこと言ったっけ?」「嫌なら出てけば」みたいな感じで、無言でフェードアウトされる気がします。(あくまでもイメージです。)
ヒットライブラリ「GUMI」で知られるインタネ社は「VOCALOID 6」との道を選びましたが、ライブラリに進化は感じますが「GUMI」に求めていたAIボーカルとは言えないクオリティーと感じた人も多いのではないでしょうか?
若き天才が歌声合成の世界を大きく変え始めた
「ボーカロイド」という知名度があるので、歌声合成技術で、まだヤマハは自分たちが第一線にいると思わせたいようですが、歌声合成技術の世界を大きく変え始めたのは「Synthesizer V」を作った若き天才です。
個人的にも「Synthesizer V」のライブラリであるSaki AIのデモを聴いたときに、久々に刺激があり、新しい時代が来たと感じました。珍しくリリースと同時にSaki AIを即買いしました。
その感覚と比較するとVX-βは、デモ動画だけでなく、サイトにある上画像のライブラリのデモもすべて聴きましたが、数年前のSaki AIのレベルにも歌唱クオリティーは達していないです。
クリエイターを刺激するクオリティーなら別ですが、デモから判断すると、そうではないだけではなく、期間限定で使えなくなるのが「VX-β」です。
そのようなツールを、興味本位で少しは触っても、真剣に使いこなそうという人間がいるようには、どうしても考えにくいです。
現状だとVOCALOIDの復権はない
そう遠くない未来にAIボーカルが歌った曲で、ボカロ曲のような一部のリスナーではなく、大衆性のある昔で言うミリオンセールスのような大ヒット曲というのが登場するかもしれません。
ただ現状だと、そのヒット曲はヤマハの歌声合成技術で作られたボーカルではなく、AIボーカルの本丸のRVCが最も近い気がします。
VOCALOID 6やVX-βのAIボーカルのクオリティーだと、歌声合成技術の世界でVOCALOIDの復権はないです。
個人的には、ヤマハクラスの大きい企業からするとソフトの利益は微々たるものなので、大した問題ではなく、耳の痛い言葉に真摯に向き合う必要もないような気がします。
ただ時代は大きく変わり始めていて、音声生成AIの世界は来年には「Synthesizer V」の世界さえ飲み込んでしまう可能性があります。
記事公開日:2023年08月23日 by KSTY