オーディオ分離ツール Demucs

facebookresearch/demucs: Code for the paper Hybrid Spectrogram and Waveform Source Separation

オーディオファイルからドラム、ベース、ボーカルとそれ以外を分離するツール

以前試したときよりもかなり精度が高くなっている印象。音質劣化も少ない。 GPUを使用すると4〜5分程度の楽曲の処理が10秒以下で終わる。CPUだと数分はかかる。

# インストールされているCudaバージョンの確認
nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:41:10_Pacific_Daylight_Time_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0

# すでにインストールされているpytorchを削除
# conda/pipが定まっていなかったため念のため両方
conda remove pytorch torchvision torchaudio
pip uninstall pytorch torchvision torchaudio

# 今後はcondaで統一する。11.8対応のものがなかったので11.7を指定した
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia

Cuda版のPytorchが入ったか確認するPythonスクリプト

import torch

print(torch.__version__)
print(f"cuda, {torch.cuda.is_available()}")
print(f"compute_{''.join(map(str,(torch.cuda.get_device_capability())))}")
device_num:int = torch.cuda.device_count()
print(f"find gpu devices, {device_num}")
for idx in range(device_num):
    print(f"cuda:{idx}, {torch.cuda.get_device_name(idx)}")

実行結果

(base) PS C:\Users\takeu\Downloads> python .\gpu.py
1.13.0
cuda, True
compute_86
find gpu devices, 1
cuda:0, NVIDIA GeForce RTX 3070 Ti

AIきりたんに『うちで踊ろう』を歌わせてみた

2020-05-05

音楽

ニューラルネットワークを用いた歌声シンセサイザーNEUTRINOを試してみた。 NEUTRINO -Neural singing synthesizer- 歌わせた曲は星野源さんの『うちで踊ろう』。権利問題がクリアになっているのと、楽譜が公開されているのもありがたい。星野源が作詞作曲した「うちで踊ろう」の楽譜ができました！皆さんどんどん弾いて、アレンジして、歌って動画をアップしてくださいね。#うちで踊ろう #星野源https://t.co/fyYxaEqrXP pic.twitter.com/PzUAjWm13I — 星野源 Gen Hoshino (@gen_senden) April 4, 2020 NEUTRINOには2020年4月現在、2名の音源（東北きりたん、謡子）が同梱されているようだが、ポップソング向けという説明があった、東北きりたんを選択。使い方は以下のページが詳しかった。つよすぎるAIシンガーAIきりたんの基本的な使い方。【無料】｜赤坂まさか｜note AIきりたんに歌わせるための楽譜ファイルは、フリーソフトのMuseScoreを使って作成するとのこと。先に音符を入力してから歌詞を入力する。歌詞は音符を選択して、Ctrl+Lで入力。次の音符へはカーソルキー（→）で移動できる。 MusicXMLについて | NEUTRINOに、フレーズ長があまりにも長いと音声が破綻します。ブレス記号又は休符で囲まれた区間がフレーズに相当します。とあったので、適度にブレスを入れた。打ち込んだ楽譜はこんな感じ。生成された歌声はこちら。いや、楽譜ベタ打ちでこれはすごい。伴奏をつけたバージョンはこちら。初音ミク的なのものは、ずっと興味はあったんだけど、調整（調教？）の職人技の世界は無理そうかな…と、二の足を踏んでいた。が、無調整でこのレベルで歌ってくれるんなら気軽に使えていいですね。作成したMusicXMLを置いときます。 MusicXML(うちで踊ろう）

関連記事