RASP-ZXでの伝達関数測定

HARK FORUM RASP-ZXでの伝達関数測定

Viewing 6 posts - 1 through 6 (of 6 total)
  • Author
    Posts
  • #1314
    nakky
    Participant

      RASP-ZXでの伝達関数測定(幾何計算ベース)を試みております。
      他の回答でもあげて頂いておりますドキュメントも見ながら進めております。
      RASP-ZXはマイクアレイ形状が自由ですので、ひとまず一直線に8ch(15cm間隔)並べて試しております。
      1.この時座標テンプレートは”grid”(マイクアレイ、音源ともに)でよろしいでしょうか。
      2.音源座標ファイルはどのように作ればよいでしょうか(tamagoの例は半径1m 30°×12ポイント)。
      3.そもそも幾何計算の際に音源座標ファイルは必要ない(録音してないのだから)と思うのですが、この情報はどのように使われるのでしょうか。
      4.実際にtamagoの幾何計算のやり方にのっとり(以下URL)で伝達関数ファイルを作ったものと、ダウンロードできるtamagoの伝達関数ファイルの中身がかなり違うのですが、この違いはなんでしょうか。
      https://translate.google.co.jp/translate?hl=ja&sl=auto&tl=ja&u=https%3A%2F%2Fwww.hark.jp%2Fdocument%2Ftf%2Fgeometric-calculation-based_tfg_tamago%2FGeometric-calculation-based_TFG_for_TAMAGO_using_HARKTOOL5.html

      よろしくお願い致します。

      #1315

      お問い合わせありがとうございます。

      1.既に書かれていらっしゃるように、RASP-ZXの場合はマイクを自由に配置可能ですので次のような手順で作成します。
      1) 最初に作成するマイク座標ファイルは何を選択しても問題ありません。直線配置であればマイク座標はgridがよさそうです。音源座標は、次の「2.」の回答で書いているように通常はcircleやsphereが良いと思われます。点の数がマイクの個数以上となるように設定して作成します。
      2) Top画面に戻ってから、出来上がったマイク座標ファイルを編集します。「Visualize」というボタンを押すと、右側に現在の配置が描画され、左側に座標リストが表示されます。リストの右側にある丸の中に「-」というボタンを押すと指定行の座標が削除されます。(注:途中のidを削除した場合は連番になるように編集の最後に「reset id」ボタンを押してください。)
      なお、座標の単位は[m]で、(X,Y,Z)=(1,0,0)方向が0度(正面)です。例えば、0度を基準として左右の音源と分離するのであればマイクアレイが15cm間隔ですので、座標上はY軸方向に0.15間隔で並べてください。HARKが出力する角度情報は、X,Y,Zがすべて0となる位置からの角度となりますので、マイクアレイの中心が(X,Y,Z)=(0,0,0)となるようにする事をお勧めします。(注:RASP-ZXは本体から最も遠い末端が1chでRASP-ZXに近づくにつれてch番号が増えます。マイク配置の順番もマイクのch順になるように注意してください。)
      3) Top画面に再度戻ってから、「Download」ボタンで座標ファイルを保存されることをお勧めします。

      2.音源位置は実際に使用される環境に合わせて作成します。テレビのように正面180度にしか話者がいない前提の場合は半円で良いですし、ロボットのように全方位に人がいる場合は360度で作成します。例えば座席に座っている人と後ろに立っている人を分離するようなケース(高さが異なる位置の話者同士を分離したい場合)では球体のように配置すべきです。つまり、用途に合わせて音源があると考えられる位置のリストを作成してください。通常の用途ではcircleやsphere、半径は1m前後で問題ないと思われます。席に座っている場合のみを想定するのであれば半径60cmぐらいでも良いと思われますが、これも実際の用途に合わせてご設定ください。

      3.伝達関数とは音の伝播を表す関数ですので、特定の空間でのマイク位置と音源位置の音の伝わりが分かる(例:遅延、減衰は距離などに起因します)必要があります。つまり、マイク座標と音源座標が分からなければ幾何計算できません。単に収録したPCMデータを指定するためのファイルではないのでご注意ください。逆にTSP収録した場合に座標ファイルが必要になる理由は、その伝播がどの音源位置であるかを結びつけるためにあります。そのため、誤った情報を与えると誤った結果を(正しく?)返します。

      4.ダウンロードできる伝達関数とは、下記のURLからダウンロードできるものでしょうか?もし、その認識で合っていましたら「Other Information (Common for TSP recording and geometric calculation transfer function)」という項目がありますので、ご確認ください。恐らくですが、ここに記載している5度毎72方位(マイクアレイ中心からの仰角16.7度)の円形配置という設定と、作成された際の設定で異なるためと考えられます。ご質問の「2.」で書かれているのは伝達関数作成マニュアルの設定かと思われますが、このマニュアルの説明での作成例ですのでご注意ください。
      https://www.hark.jp/document/supported/

      以上、宜しくお願い致します。

      #1318
      nakky
      Participant

        ご連絡ありがとうございました。

        1.で座標の単位は[m]との事ですが、下記によると、
        https://www.hark.jp/document/packages/harktool5-gui-ja/harktool5-gui.html
        ・・・
        X_AXIS ( 単位 mm )
        Y_AXIS ( 単位 mm )
        Z_AXIS ( 単位 mm ) ・・・
        と記載されているので、座標テンプレートをGridにした場合のxやy軸の設定はmm単位なのではないでしょうか?

        ちなみに、mでもmmでも、作成した伝達関数ファイルを使用してharkで定位をさせようとしても何も定位できませんでした。設定がおかしいでしょうか。
        作成したtsファイル、作成状況画像を添付致しますので、ご確認頂けると幸いです。
        よろしくお願い致します。

        #1326
        nterakado
        Moderator

          お問い合わせありがとうございます。

          ご参照いただいた記述ですが、
          X_AXIS ( 単位 mm ) となっている箇所は誤記になります。
          誤解を招く表現をしてしまい、申し訳ありませんでした。

          また、伝達関数を添付いただいていますが、
          これだけでは定位しない原因はわかりかねます。
          差し障りがないようでしたら、
          使用した音源ファイルとネットワークファイルを添付いただければ、
          こちらでの検証も可能となります。

          以上、よろしくお願いいたします。
          HARKサポート

          • This reply was modified 4 years, 2 months ago by nterakado.
          #1363
          nakky
          Participant

            ありがとうございます。大変返答が遅くなり恐縮ですが、ネットワークファイルを添付致します。
            よろしくお願い致します。

            #1365
            nterakado
            Moderator

              ご提供いただいたネットワークファイルと伝達関数を用いて、こちらで検証を行いました。

              結論としては、THRESHの設定が音源定位の環境とマッチしていないということになります。

              こちらでMUSICパワーを確認したところ、
              SourceTrackerノードのTHRESHが測定されたパワーよりも高めに設定されていましたので、
              21~22程度に変更したところ定位結果が表示されるようになりました。

              精度よく定位させるためには、お使いの環境に応じてTHRESHを設定する必要がございます。
              判定に使用しているMUSICパワーはLocalizeMUSICノードで計算された結果ですので、
              実際の環境でどのようなパワーが出力されているかをDEBUG出力等で確認しながらの調整になるかと思います。
              LocalizeMUSICの出力を確認するには、こちらに記載してあるSPECTRUM端子を追加して、DEBUGをtrueに設定してください。

              参考までに、こちらで動作させた際のMUSICパワーを添付します。
              特に雑音のない状態で19~20程度、発話時のピークで22程度となっています。
              実際の環境では、周囲の雑音や定位させたい音声の大きさ等に左右されますのでご注意ください

              以上、よろしくお願いいたします。
              HARKサポート

              • This reply was modified 4 years, 1 month ago by nterakado.
            Viewing 6 posts - 1 through 6 (of 6 total)
            • You must be logged in to reply to this topic.