Reply To: streamの遅延時間について part2

HARK FORUM streamの遅延時間について part2 Reply To: streamの遅延時間について part2

#912
橋口夏樹
Participant

    ご回答ありがとうございました。
    何度も説明して頂き恐縮ですが、整理させて下さい。
    ご承知の通り、マイクの入力から分離音が得られるまでの応答速度改善が第一目的です。

    ①(ADVANCE=160、window=50の場合)preroll_length=0でも50でも、frame0に対する定位情報は
    同時刻(frame0が入力されてから約540ms後、つまり音声のframe50が入力されているころ)に出力され、その(frame0の)定位情報に基づき、

     -今のframe50から処理(分離等のノード処理)するのがpreroll_lemgth=0
      (すでにframe0は過ぎてしまっているので、frame50から処理開始)
     -バッファから過去50frame分遡ったframe0から処理するのはpreroll_length=50

    である。つまり、あるframeに対する定位情報を取得するのにかかる時間はpreroll_lengthの設定値により変わらないが、preroll_lengthの設定frame分streamは遅延(同じframe番号の音声入力と分離音出力を比較して)する。
    preroll_lengthの設定を0にすれば、理論上streamの遅延はほとんど(1frame以下)ないはず(頭は切れるかもしれないが)。
    という事でよろしいでしょうか。
    (特に音声の終わりを早く検知したいので、頭は多少切れても良いと考えています。)

    ②pause_lengthについては承知しました。色々ためしたところ、pause_lengthを短くすると
    細切れになってしまうため、pause_lengthは800~1200に落ち着いています。

    ③実時間処理の件は承知致しました。

    ④periodの調整に関しては承知しました。
    ADVANCEやLENGTHの設定に関する注意事項、ポイント等はございますでしょうか。
    (LENGTHは20~40msが良く、ADVANCEは後続フレームとフレーム全体の 1/3 – 1/2 重なる量シフトを指定すると記載されていましたが、デフォルトでは各512、160samplesということで、2/3が重なっている気がします。しかし例えばLENGTH=256にすると、うまく定位しませんでした)

    ⑤FUTUREになっていました。
    今回のような用途の場合はPASTが良いのでしょうか。
    上記①との関係も含めて教えて頂ければと思います。
    FUTURE、PASTでも、あるframeの定位情報はどこのframeを使用するかということでしょうか?
    分かりづらくて恐縮ですが、添付に整理しております。考え方はあっておりますでしょうか。
    (preroll_lengthとの関係が理解できているか不安です)

    Attachments: