メインコンテンツへスキップ

オーディオ分離ツール Demucs

facebookresearch/demucs: Code for the paper Hybrid Spectrogram and Waveform Source Separation

オーディオファイルからドラム、ベース、ボーカルとそれ以外を分離するツール

以前試したときよりもかなり精度が高くなっている印象。音質劣化も少ない。 GPUを使用すると4〜5分程度の楽曲の処理が10秒以下で終わる。CPUだと数分はかかる。

# インストールされているCudaバージョンの確認
nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:41:10_Pacific_Daylight_Time_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0

# すでにインストールされているpytorchを削除
# conda/pipが定まっていなかったため念のため両方
conda remove pytorch torchvision torchaudio
pip uninstall pytorch torchvision torchaudio

# 今後はcondaで統一する。11.8対応のものがなかったので11.7を指定した
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia

Cuda版のPytorchが入ったか確認するPythonスクリプト

import torch

print(torch.__version__)
print(f"cuda, {torch.cuda.is_available()}")
print(f"compute_{''.join(map(str,(torch.cuda.get_device_capability())))}")
device_num:int = torch.cuda.device_count()
print(f"find gpu devices, {device_num}")
for idx in range(device_num):
    print(f"cuda:{idx}, {torch.cuda.get_device_name(idx)}")

実行結果

(base) PS C:\Users\takeu\Downloads> python .\gpu.py
1.13.0
cuda, True
compute_86
find gpu devices, 1
cuda:0, NVIDIA GeForce RTX 3070 Ti

関連記事

AIきりたんに『うちで踊ろう』を歌わせてみた

ニューラルネットワークを用いた歌声シンセサイザーNEUTRINOを試してみた。 NEUTRINO -Neural singing synthesizer- 歌わせた曲は星野源さんの『うちで踊ろう』。権利問題がクリアになっているのと、楽譜が公開されているのもありがたい。 星野源が作詞作曲した「うちで踊ろう」の楽譜ができました! 皆さんどんどん弾いて、アレンジして、歌って動画をアップしてくださいね。#うちで踊ろう #星野源https://t.co/fyYxaEqrXP pic.twitter.com/PzUAjWm13I — 星野源 Gen Hoshino (@gen_senden) April 4, 2020 NEUTRINOには2020年4月現在、2名の音源(東北きりたん、謡子)が同梱されているようだが、ポップソング向けという説明があった、東北きりたんを選択。 使い方は以下のページが詳しかった。 つよすぎるAIシンガーAIきりたんの基本的な使い方。【無料】|赤坂まさか|note AIきりたんに歌わせるための楽譜ファイルは、フリーソフトのMuseScoreを使って作成するとのこと。 先に音符を入力してから歌詞を入力する。歌詞は音符を選択して、Ctrl+Lで入力。次の音符へはカーソルキー(→)で移動できる。 MusicXMLについて | NEUTRINOに、 フレーズ長があまりにも長いと音声が破綻します。 ブレス記号又は休符で囲まれた区間がフレーズに相当します。 とあったので、適度にブレスを入れた。 打ち込んだ楽譜はこんな感じ。 生成された歌声はこちら。 いや、楽譜ベタ打ちでこれはすごい。伴奏をつけたバージョンはこちら。 初音ミク的なのものは、ずっと興味はあったんだけど、調整(調教?)の職人技の世界は無理そうかな…と、二の足を踏んでいた。が、無調整でこのレベルで歌ってくれるんなら気軽に使えていいですね。 作成したMusicXMLを置いときます。 MusicXML(うちで踊ろう)

エレキギター音源UJAM IRONを試してみた

70%オフセール時に買ったUjamのVirtual Guitarist IRONをようやく試せました。 IRONというのはujamがリリースしているVirtual Guitaristシリーズの中のひとつで、ロックやメタル系の楽曲むけの音色とフレーズを搭載したプラグインです。 シーケンサーで「ギターっぽく」打ち込むのは、かなり大変で自分のような初心者の場合は、目も当てられない結果になることが多いわけですが、IRONを使えばプリセットのバッキングパターンが豊富なので、趣味の音楽作りで十分に活躍してくれそうな感じです。使ってて楽しい。 とりあえず、デモトラックを作ってみました。 コード弾きのバッキングに使うのがメインのようですが、単音弾きもできるようなので、もうすこしギターメインのトラックにも挑戦してみます。 IRON | Electric Rock Guitar | Virtual Guitarist by ujam メタルギタリストがあなたの曲作りをお手伝い!UJAM「IRON」の魅力 | 96bit-music

monologueで音作りするときの初期化手順

KORGのアナログシンセmonologueで音作りを始める際の初期化手順の覚え書きです。 シンセの音作りに慣れている人なら、各種のパラメタ値がどうなっていても問題ないと思いますが、パラメタの変更でどのように音が変化するかをイメージできない初心者は、パラメタを初期化してから音作りを始めた方が良いらしい。 Youtubeに手順をまとめた動画があったので、書き起こしました。 EG INT(9)、LFO INT(10)を左に回し切る EQ TYPE(9)を一番下にする(Gate) FILTER CUTOFF(8)を右に FILTER RESONANCE(8)を左に回し切る MIXER VCO 1(7)を右に VCO 2(7)を左に回し切る VCO 1 SHAPE(5)、VCO 2 SHAPE(6)を左に回し切る 最後に(動画とは違う手順ですが)SHIFT + PLAYを押してパネル・ロード。これで、音色にパネル上のスイッチやノブの状態が反映されます。

4W1H

利用シーン # 目標に対して設定したアクションを具体化する。 責任分担を明確化し進捗状況をフォローする。 具体例 # 4W1HのうちWhereとHowは自明であることが多いためこの例では省略している。 「ステータス」は未着手・進捗率(パーセンテージ)・ペンディング・完了・中止などアクションの状態を表す語を定義し記述する。 「実施状況」はアクションの途中経過を日付入りで時系列に記述する。 定例会議でステータスの確認、進捗やアクションのアプローチに関するフォローアップを行うことで、確実にアクションを進める。(これが重要) 関連ツール # ゴールツリーで設定したアクションを実施する際に4W1Hを使用すると良い。

SWOT分析

利用シーン # 組織(個人でも良い)の戦略を検討する際に、ブレストだけでは意見が発散してしまい、統一感のある戦略にまとめあげるのが難しいケースがある。そういう場合は、SWOT分析により論点を絞り意見を共有しながら戦略に落とし込むと良い。 具体例 # 自分たちの強み(Strength)と弱み(Weakness)について列挙する。分析対象を明確にした上で(全社、部、課など)ブレストの要領で行うと良い。 外部環境を機会(Opportunities)、脅威(Threats)に分けて列挙する。 いずれも、結論を出すためのプロセスではないことを注意する。ブレスト中、いつにまにか対策の議論に入ってしまうことがあるので注意。 上で列挙した強み・弱み・機会・脅威をマトリクスにして、それぞれについて今後、何をすべきかを議論する。 議論した「何をすべきか」が確実に実行されるよう、4W1Hなどを使ってアクションプランを作成しておく。