講習会で配布された音声の録音環境が知りたい

HARK FORUM 講習会で配布された音声の録音環境が知りたい

Viewing 2 posts - 1 through 2 (of 2 total)
  • Author
    Posts
  • #2779
    牛太郎
    Participant

      第22回HARK講習会のpractice1で使用した、”practice1.wav” についてです。
      3人の男性(1人は高く、大きい声で話していて、2人は低く、小さい声で話している)が「人生最高!」と発音しています。

      ここで質問なのですが、この音声は、60, 0 -60 度に固定されたスピーカーから、3人の声の録音を、時計回り(もしくは反時計回り)になるように再生していますか?

      この音声について、一人の声につき1つのwavファイル(計3つ)を作成しようと思い、”SourceTracker”ノードのパラメータ”PAUSE_LENGTH”を大きくすることによって、各角度における分離結果をまとめて1つずつのwavファイルにしました。

      分離後の音声を聞いてみると、3人とも同じ位置に固定されているのではなく、マイクの周りを回っているような結果が出力されたので、録音環境が知りたくこのような質問をさせていただきました。

      #2780

      お問い合わせありがとうございます。

      第10回から使用されている収録データのため、第10回HARK講習会資料の該当箇所の画像を引用して添付いたします。
      仰る通り、-60度, 0度, 60度の方向に音源が存在します。画像をご参照ください。
      音源は、話者が実際に発話しています。 (スピーカー再生ではないため、方向に若干のブレがあります。)

      元がかなり古いデータですので詳細をすぐにお調べするのが難しい状況ですが、私の把握している限りではマイクアレイの周囲を回っているという認識はございません。
      恐らくですが、実際の話者の発話であることから発話の開始、終了タイミングがバラバラであり、顔の向きなどのブレにより方向が若干揺れていることなどが影響し SourceTracker ノードが別方向の話者の定位結果と繋げてしまったことが要因ではないかと考えられます。
      SourceTracker ノードは特定話者や特定方向の音源を追跡する機能ではなく、近い音源を検出すると継続音源とみなして追跡する機能ですので、該当する定位した音源の消失前に近い方向で音源が見つかると追跡してしまいます。つまり PAUSE_LENGTH 期間中に新たな音源が見つかると繋がります。 (*1)
      ConstantLocalization ノードを使用して Azimuth を -60, 0, 60 固定で分離することで同一方向の音を常時分離する事が可能ですので、特定方向の話者の音声のみを分離することが可能です。

      *1) 極端な例を挙げると、下記のようなケースの場合は別の近傍方向の音源にずれて繋がる可能性があります。
      ↑ Degree
        ───┐  └───
       ───┐  └───
      ───┐  └───
      —> Time

      以上、宜しくお願い致します。
      HARK Support Team.

      Attachments:
    Viewing 2 posts - 1 through 2 (of 2 total)
    • You must be logged in to reply to this topic.