自分のミクは眠ったままですが・・・
3分で“神調教”に? Netぼかりすα版で曲を作ってみた
4月28日18時9分配信 ITmediaニュース
ぼかりすの仕組み(産総研のニュースリリースより)
鍵盤楽器ができる人は、DTMソフト上でわざわざ音符を置いていくような手間はかけない。MIDIキーボードでさっと弾いて、それを編集して使う。ギタリストならば、自分で弾いたものを録音する。しかし、VOCALOIDは基本的に手入力。そこをショートカットしたいのだ。「それなら自分で歌った方が早いよ」。そんな人にとって、Netぼかりすはきっと福音となるだろう。自分で歌ったボーカルを、初音ミクや鏡音リン・レン、巡音ルカ、がくっぽいどといったVOCALOIDの歌声に変え、細かい“調教”をしなくても、歌った通りに再現してくれるのだから。
「ぼかりす」(VocaListener)は、独立行政法人・産業総合研究所(産総研)の情報技術研究部門メディアインタラクション研究グループ 後藤真孝研究グループ長と、中野倫靖特別研究員らが開発した。歌声を聞き取って、その歌い方の特性をまねて歌声合成する技術だ。
産総研は、「市販の歌声合成ソフトウェアを用いて、録音された歌唱音声の事例からその歌い方(声の高さと声の大きさ)をまねて歌声合成できる技術」と言っている。歌声だけを抜き出した音声データと歌詞を与えれば、VOCALOIDで使われているVSQファイルを吐き出してくれるというのが便利なところだ。
つまり、ぼかりすは、歌声から音程、長さ、音量を抽出し、歌詞をマッチングさせて、歌詞データの入った、ほぼ完成形のVSQファイルを作り出してくれる。
ほぼ完成形のVSQデータがあれば、すぐにでも初音ミクや鏡音リン・レン、巡音ルカ、がくっぽいどの声に変換して、出来上がったWAVファイルをDAW(Digital Audio Workstation:音楽制作ソフト)に取り込んで歌わせることができる。歌詞データと、歌うための数分間が用意できれば、本来かかるであろう数時間~数十時間分をスキップできるのだ。
しかも、VOCALOIDには難しい表現をVOCALOID Editor上で苦心して編集するよりも楽に、難しい歌唱方法を再現できる。こぶしをまわしたり、自然なビブラートをかける、というのも歌手次第といえるだろう。
元歌の歌手さえうまければ、「神調教」と呼ばれるのも夢ではない。
●Netぼかりすに必要な環境
では、発表から1年たち、ようやくわれわれが手にできるようになった簡易版ぼかりすである「Netぼかりす」α版を使う方法を紹介しよう。
まず、「Net」が必要だ。インターネット環境がなければならない。なぜかというと、Netぼかりすの処理がサーバ上で行われるからだ。ローカルのPCでは、歌ったボーカルのWAVデータと歌詞のテキストデータをサーバに送り出すという処理しかしない。送ったボーカルデータを適切なVSQデータに変換して、それに歌詞を付ける作業はヤマハのサーバが行って、こちらに戻してくれる。
なぜこういう処理になるのか。それは、この処理には膨大なデータベースと強力なCPUパワーが必要で、一般的なDTMに使われているマシンだと負荷が大きすぎると判断したためだ。将来的にPCの能力が上がったり、ソフトウェアの処理が簡略化できた場合にはローカル処理できる可能性もあるだろう。
現在のNetぼかりすα版に必要なPC環境は、VOCALOIDソフトウェアがインストールされていること、Internet Explorer 6/7/8だ。IEにはFlash最新版・Flash 10のプラグインが必須である。ActiveXコントロールによるプラグインではなく、独立したインストーラでFlashを組み込んでおく必要がある。アプリ自体はAdobe Flexが使われているようなので、Adobe AIRでも提供してほしい。
Flashが組み込まれたWindows版IEが必要ということは、Windows互換レイヤーである「CrossOver Mac」や「MikuInstaller」では利用できないことを意味する。これは非常に残念な点だ。VOCALOIDのインストールを確認してから起動する仕組みになっているため、HTAアプリケーションとなっているわけだが、ユーザーインタフェース自体それほど難しいものではないので、ぜひ実現してもらいたい。
●実際にNetぼかりすを使ってみた
ヤマハから提供してもらったNetぼかりすα版を、現在手元にある2つのWindows環境で試してみた。1つは、IntelベースのiMacに「VMware Fusion」をインストールし、その上でWindows Vista Home Editionを走らせたもの。IE 8とFlashの最新版を搭載している。もう1つは、日本ヒューレット・パッカードの5万円台ノートPC(Celeronベース)で、Windows XP Home EditionとIE 7、Flashという組み合わせだ。
どちらにも巡音ルカをインストールしてある(初音ミクや鏡音リン・レン、がくっぽいど、PRIMAはすべてCrossOver Mac上にインストールしてあるのだ)。
使うアプリは、HTAの非常に小さなアプリが1つ。これを起動すると、Flashが動き、そのマシンにインストールされているVOCALOIDが表示される。
ここで、オーディオとテキストの2つのファイルを指定し、それをNetぼかりすのサーバに向けてアップロードする。ファイル名はどちらも適当でよく2つが一致している必要はない。
ただし、どちらにも制限がある。オーディオファイルはWAVファイルで、3分以内。テキストファイルには歌詞が書かれたもので、その形式は、漢字交じりのテキスト。文字コードはShift JISでなければならないようだ。
この2つのファイルを選択し、準備が終わったとのメッセージが出たらアップロードを開始する。アップロードが終わると変換が始まる。数分もかからずにダウンロード可能になり、ボタンを押すと、ローカルマシンに、変換済みVSQファイルがダウンロードされる。合計で3分以上かかることはなかった。
あとは、変換されたデータをVOCALOID Editorで読み込むだけ。ネットに2つファイルを送れば、完成形のファイルが戻ってくるという非常にシンプルな仕組みだ。
ここが、本物のぼかりすとはちょっと違う、簡略化された部分でもある。ぼかりすは、ユーザーと何回かフィードバックをしながら、正しいデータを作っていくという、反復処理に特徴があったのだ。ヤマハの話では、1回だけの変換でも大半はうまくいくそうなので、簡略方式にしたのだという。
α版のテスト途中で、何度か仕様が改良された。主に、歌詞のアラインメント(音符に歌詞を当てはめていく作業)を正しく判断させるためのものだ。WAVファイルにそのまま歌詞の文字をインサートしたり、歌詞テキストに、タイムスタンプを挿入することで強制的に歌詞を読ませたり、漢字交じりではなく、ひらがなで表記することで読み間違いを防いだりといったオプションがどんどん追加されていった。
送ることができるWAVファイルの長さも最初は1分の制限があったが、現時点では3分まで伸びている。このようにどんどん進化できるのも、ネットアプリのメリットだろう。
●自分の歌をミク、ルカの歌声に変換してみた
1分から2分程度の長さを持つ元歌WAVファイルを送って実際に試してみた。サンプルに使ったのは自作の2曲。1つは80年代風バラード「さよならゴメン」、もう1つは和田アキ子風歌謡曲「古いダイアリー」。自分が歌いやすいメロディー、音域に設定してある。
オケはあらかじめある程度作っておいて、メロディーガイドとなるトラックも作っておく。それを聞きながら、元歌を録音していくわけだ。元歌が調子はずれだと、Netぼかりすも正確にその音痴っぷりのままで戻してくれるので、この段階で、声のチューニングはきっちり合わせておく必要がある。
オケをMP3化するなどしてiPodなどで聞きながら、ビデオカメラでボーカル録りをするなども可能だが(実際に1曲ではその方法でやってみた)、何度かリテイクをして、調子はずれの部分を歌い直したほうが、後でVOCALOID Editorで作業する部分が少なくてすむため、できればやっておいたほうがいい。
DAWなどで編集した元歌は、いったんWAVで吐き出しておく。歌った部分の歌詞も同時に用意しておく必要がある。
「人の波をかきわけて あなたを探す地下街の通路で」といったような歌詞を書いたテキストファイルと、上述のWAVファイルをPC上に置いて、NetぼかりすのWebアプリから送出する。そのときに、インストールされているVOCALOIDシンガーから適切なものを選び(複数がインストールされている場合)、元歌から音程を変更する度合いを半音単位で-12~+12で指定する。
デフォルトのBPM(テンポ)はVOCALOID Editorと同様に120だが、歌詞ファイルに記述することで、バッキングトラックに合わせたBPM指定が可能。また、ピッチベンド変更の範囲(PBS)を指定することも可能なので、VOCALOID Editor上で音程を細かく編集していくときには便利だ。
Netぼかりすによって吐き出されたファイルに書き込まれるのは、ピアノロールにノート情報(歌詞と音程、音長)、さらにパラメータとして音量情報のDYN、細かい音程情報のPITと、その幅を決めるPBSだ。このDYNとPITにより、ビブラートや微妙な節回しを表現し、元歌の歌手の歌い方をまねしてくれるのだ。
例えば音を長く伸ばして後半にビブラートをかける場合でも、音量のビブラートと音程のビブラートが微妙に異なる場合があるが、そこの部分も元歌から抽出して再現する。VOCALOIDシンガーが元からもっている特性を、この歌い方によって上書きしてしまうこともできる。
その特性はデータベース化されていて、例えば初音ミクと巡音ルカのボーカルのそれぞれの特性に合わせたVSQファイルを吐き出す仕組みになっている。初音ミクは比較的平坦な歌い方をし、音を伸ばすときにも、音量がほぼ一定のままだが、巡音ルカは音量の減衰が早く、後半部分のDYNを意識的に持ち上げていかないと同じような歌い方はできない。Netぼかりすはその補正作業を自動的に行ってくれる。また、巡音ルカはバイリンガルのシンガーなので、特有の発音指定が利用できるので、それにも対応している。
だから、最終的に使うシンガーを決めたうえでNetぼかりすのシンガー指定をしておく必要がある。その後の変更も不可能ではないが、VOCALOID Editor上での作業が多く発生するかもしれない。
やってみて一番苦労したのは、Netぼかりすが歌手の歌い方に忠実すぎるために、自分の音程の不安定さやリズム感の悪いところまで再現してしまうところ。これは、元歌を録り直したり、いいテイクをつなげていって問題ないレベルまでもっていくしかない。本物のぼかりすには、「歌唱力補正機能」があるが、Netぼかりすにはまだ実装されていない。この機能が追加されれば、MIDIキーボード入力におけるクォンタイズ(リズムの不正確さや音量のバラツキを修正してくれる機能)に相当するような手軽さが生まれてくるのではないだろうか。
もう1つは、歌い方によるのだろうが、一部の歌詞の割り付け(アラインメント)がうまくいかないというところ。音声認識で元歌と合わせているわけではなく、テキストに記述された歌詞の長さを割り付けるようになっているようで、1つ間違えるとその後がしばらくずれてしまう。そうすると、VOCADLOID Editor上での作業が大変になってしまう。
ヤマハではその対策として、歌詞ファイルに、「00:11:11」など歌詞の特定部分を時間指定することができるようにしている。
この歌詞アラインメントで、音声認識と組み合わせられるようになれば、さらに正確さは増していくのではないだろうか。
自分ができる範囲でのNetぼかりす作品はこの2曲程度で、それなりの限界も見えると思うが、ほかのVOCALOIDユーザーの作品もニコニコ動画にたくさん投稿されるので、そちらも参考にしてほしい。
内部的にどのような処理がされているかについては、産総研がニコニコ動画に投稿したビデオが分かりやすいだろう(歌い方の変更や歌唱力の補正など、一部の機能はNetぼかりすには実装されていない)。
今後はまるごと1曲をNetぼかりすで、というのではなく、要所要所をNetぼかりすで代替することもできるのではないかと考えている。感情表現が必要とされる部分や、微妙なビブラートやこぶしなど、VSQをいじるのには時間がかかりそうな部分はNetぼかりすで、残りは素直にデフォルトのVOCALOIDで、といった使い分けもいいかもしれない。
そういうときには、Netぼかりすで取得したVSQファイルと別に新規トラックを作成し、Netぼかりすトラックの全イベントを選択&コピーし、新規トラックにペーストすると、DYNとPIT情報のないトラックが出来上がる。
ここでクォンタイズ機能を使ってタイミングを合わせれば、手軽に「ベタ打ち」のトラックができる。人間っぽい歌い方をするだけではなく、ベタ打ちの省力化もできるのだ。
●Netぼかりすに望むもの
Netぼかりすは発展形の技術だ。できるだけ多くのユーザーの声を吸い上げようとしている。産総研が最初にぼかりすのデモをニコニコ動画に投稿したのも、実際のユーザーやリスナーの反応を知りたかったからだ。
ぼかりすの機能をNetぼかりすに実装したヤマハY2プロジェクトのメンバーも同じだと思う。プロではないわれわれのようなアマチュアにさまざまなサンプルを投稿してもらい、その反応をみながら、機能を改良したり追加したりしていくのだろう。
わたしからの希望は、Macへの対応(CrossOver MacとMikuInstaller)。これはぜひに。せっかくWindowsなしでできる環境がMacユーザーに提供されているので、WebアプリのためにVM+Windowsを買い足すのは負担が大きすぎだ。ぼかりすの残りの機能、特に歌唱力補正機能も優先的に進めてほしい。これは、歌に自信のない人にとってとても便利なツールとなるはずだ。
●Netぼかりすはボカロ使いに何をもたらすのか?
ぼかりすが出てきた当初は、スゴ腕のボカロ使い(VOCALOIDユーザー)の立場がなくなるとか、ミクの魅力がなくなってしまうとかの意見があった。しかし、良いボカロ使いは、歌声が何かということを本質的につかんでいる人だと思う。
どのような歌声がいい歌声なのか。これだけ多くの人がボーカルという表現に正面から向き合った時代はかつてないはずだ。
VOCALOIDによるボーカルという表現、技術を分かった人、ボカロ使いが、さらに新しい技術であるNetぼかりすを使ってより高度な表現力を手に入れることができるとすれば、それはすばらしいことではないだろうか。単に省力化して、その時間を楽曲作りや自分自身の歌唱力向上に使うというのも、もちろんアリだと思う。
ミクの歌声にもっと広がりをもたせたい人、自分の歌に対する思いをVOCALOIDにもっと伝えたい人は、クラウドの中にいるミクたちとキャッチボールすることで、その願いはかなえられるだろう。
最近のコメント