Reply To: harktool5-guiについて

HARK FORUM harktool5-guiについて Reply To: harktool5-guiについて

#2596

お問合せありがとうございます。

> tsp信号は同期録音ではないため各音源ごとに多少のずれがあります。
問題ございません。HARKTOOL5の下記のURLにある機能を使用して頂き、音が含まれる区間(start ~ end)を指定して頂くと伝達関数を作成できます。「Use TSP record Files」となっているところを「Use Mouth TSP Record Files」に変更すると設定用の項目が表示されます。
複素回帰モデルを用いた伝達関数推定

> tsp信号はharkダウンロード時に得られるものを
「ダウンロード時に得られるもの」というのは下記のファイルという事で合っていますでしょうか。
/usr/share/hark/16386.little_endian.tsp または
/usr/share/hark/16386.little_endian.wav

> 再生環境に合わせ変換したものを使用しておりrate:48000,float32bitのものを使用しました。
再生については制限がありませんが、収録するTSPは 16bit integer または 24bit integer の WAV ファイルで収録をお願いします。

また、「再生環境に合わせ変換」とありますが、具体的にはどのように行われたのでしょうか。
アップサンプリングを行っても16kHzの入力(ナイキスト周波数の8kHzまでの音)までしか分離する事が出来ません。また、再生するTSPがアップサンプリングにより歪みますので音声などが目的の場合で16kHzでも十分な場合にはTSP信号自体をアップサンプリングするのではなく、16kHzのままで再生して頂いた方がベターです。再生デバイスは通常、複数のサンプリングレートに対応していますので16kHzのままでもファイルを再生できるはずです。

音声の定位や分離が目的である場合は16kHzで十分に機能しますので、次のケース1または、ケース2のどちらかの方法で対応してください。
音楽や電子音など高周波数帯域の定位や分離も行いたい場合は、ケース3の方法で48kHz用のTSP信号で対応してください。その場合、音声認識に関しては通常16kHz(あるいは8kHz)用にモデルが作られているため、そのままでは音声認識が出来ない事に注意して下さい。
*) 我々が提供しているKaldiのモデルは16kHz用です。

ケース1:16kHzで収録し、16kHzで処理する。
音声のみを対象としている場合は、こちらの手順を推奨します。
TSP収録時のマイク設定を16kHzにした状態(*)で収録して頂き、HARKで処理を行う際も16kHzで使用する。
伝達関数は16kHzで作成したものを使用します。
*) マイクデバイスが対応していれば、サンプリングレートを変更して収録が可能です。
arecord などでは -r オプションで収録するサンプリングレートが指定できます。

ケース2:マイクの設定は48kHzのままで、収録時とHARK処理時にDownSamplingし、16kHzで処理する。
マイクが16kHzでの収録に対応していない場合はこちらの手順で16kHz対応のマイクと同様に処理できます。
HARKで「AudioStreamFromMicノード」の後に「MultiDownSamplerノード」を接続して48kHzを16kHzにダウンサンプリングする事が出来ます。TSP収録を「AudioStreamFromMic、MultiDownSampler、SaveWavePCM」という接続のネットワークで行って頂き、HARKで定位/分離処理を行うネットワークでも同様に「MultiDownSamplerノード」を挿入して頂く事で16kHzとして処理できます。
伝達関数は16kHzで作成したものを使用します。

ケース3:
音楽や電子音のように高い周波数を含む48kHzの入力(ナイキスト周波数の24kHzまでの音)を分離したいという要望であれば、下記のURLにあるように48kHz用のTSP信号を使用する必要があります。
Recording TSP
HARKTOOLで不具合が発生する場合は、GUIを使用せずコマンドラインから作成しなければならない場合があります。エラーなどが発生しましたら再度ご連絡ください。

> 伝達関数を生成するサンプルのtsp録音データなどがあれば頂けると幸いです。
サイズが大きいため公式サイトからのダウンロード提供は今まで行っておりませんでしたが、公開しているTAMAGO03の伝達関数を作成する際に使用したTSP収録データはございます。
ただし、こちらは16kHzで収録したデータになります。16kHz以外の例えば48kHzでのサンプルとなりますとご提供可能な(公開可能な)収録データがございません。
TAMAGO03用(16kHz)で宜しければ下記からダウンロード出来ように致しました。
TAMAGO03 TSP recording data
サイズを小さくするため 7-zip 形式で圧縮しておりますので、下記のように 7-zip を入れて頂いてから展開して頂けますでしょうか。


sudo apt install p7zip-full
7z x tsp.7z

以上、宜しくお願い致します。
HARK support team.