音源分離について

HARK FORUM 音源分離について

Viewing 9 posts - 1 through 9 (of 9 total)
  • Author
    Posts
  • #1064
    kessaku
    Participant

      クックブックのはじめての音源分離のMAIN_LOOP (後処理あり)を参考にしてみたのですが録音ファイルは出来るのですがすごい数になってしまいます
      録音した音声の再生時間が1秒ほどなのですがこれはどこかを設定すれば長くとれたり出来るでしょうか?

      #1071
      nterakado
      Moderator

        お問い合わせありがとうございます。

        短い音声ファイルが大量に作成されるとのことですが、
        大きく二つの原因がございます。

        1. 小さな音声がノイズと認識されてしまう場合
        この場合、発話の最中に声が小さくなるような音声は、別の音声として分割されてしまいます。
        SourceTracker ノードのパラメータ THRESH の値を小さくすることで改善する可能性がありますが、ノイズを拾いやすくなります。

        2. 無音区間と認識する時間が短い場合
        この場合、発話の最中の息継ぎなどで音声が分割されてしまいます。
        SourceTracker ノードのパラメータ PAUSE_LENGTH の値を大きくすることで無音区間があっても同一の音声と認識されます。
        問題点としては、発話前後に録音される無音区間が長くなります。

        どちらも、実際の録音環境に応じて調整が必要となります。
        ノードの詳細については、以下を参照してください。

        https://www.hark.jp/document/3.0.0/hark-document-ja/subsec-SourceTracker.html

        以上、よろしくお願いいたします。

        • This reply was modified 5 years, 4 months ago by nterakado.
        #1073
        kessaku
        Participant

          回答ありがとうございます

          PAUSE_LENGTHを大きくしたら改善されました
          ありがとうございます

          #1079
          kessaku
          Participant

            ノードのGHDSSについての質問です
            GHDSS内のINITW_FILENAMEに必要な分離行列初期値のファイルはどうすれば作成できますか?
            調べてはみたのですが作り方がわからず教えていただけると助かります

            #1084
            kessaku
            Participant

              前回の質問の続きなのですが試しにGHDSSのINITW_FILENAMEに分離行列初期値のファイルを設定しないで実行してみたのですが音源定位のグラフは出るのですが出来たファイルに音声が録音出来てないのですがこれは分離行列初期値のファイルと何か関係がありますか?
              それともただ自分の設定ミスでしょうか?
              ネットワークファイルは一番最初に質問をした写真のを使用しています

              #1085
              nterakado
              Moderator

                お問い合わせありがとうございます。

                まず、以前にもお伝えしたように、写真だけでは設定がわかりませんので
                ネットワークファイルを添付いただけない場合は回答いたしかねます。

                そのうえで、現状の確認をさせていただきますと、INITW_FILENAMEの役割をご理解できていないように見受けられます。
                詳細はノードリファレンス の 6.3.6.5.4 分離行列の更新式 にある 分離行列の推定 にありますが、
                簡単に説明しますと、INITW_FILENAME を指定しない場合、音声の最初の部分は分離精度があまりよくないですが、処理を続けていくうちに精度がよくなっていきます。
                適切な初期値を指定した場合、精度がよくなるまでの時間が短縮できますが、適切でない場合は指定していない場合と同様に時間がかかるというものです。

                また、作成方法については、ノードリファレンスにも記載してありますが、
                EXPORT_W にtrueを設定し、EXPORT_W_FILENAME に作成したいファイル名を指定してください。
                ネットワーク実行後にファイルが作成されます。

                以上、よろしくお願いいたします。

                • This reply was modified 5 years, 4 months ago by nterakado.
                #1091
                kessaku
                Participant

                  回答ありがとうございます

                  さっそくやってみます

                  HARKを使用するのが初めてなもので何度も質問して申し訳ないです

                  #1092
                  kessaku
                  Participant

                    試しに録音してみたのですがやはり録音ファイルに音が入ってないのですがどうすれば良いでしょうか?
                    のせる写真は別に何かいりますか?

                    #1098
                    nterakado
                    Moderator

                      繰り返しになりますが、
                      写真では分かりませんので、
                      追加の写真を添付いただいても回答できません。

                      また、一次解析も行っておりませんので、
                      原因が使用されているマイクにあるのか(HW要因)、または設定にあるのかを判断することもできません。

                      ただ、ご使用の環境(OS、HARKバージョン、使用マイクアレイ等)についての情報とネットワークファイル(添付の写真では、bunri2という名前で保存されているようです)を提供いただけるなら、こちらで再現実験を行うことができるかもしれません。

                      申し訳ありませんが、HARKはオープンソースとしてソースコードをすべて開示しており、必要な情報はご自分で調査いただくことを前提としています。
                      お力添えできず大変申し訳ございませんが、以上ご了承願います。

                      HARKサポートチーム

                    Viewing 9 posts - 1 through 9 (of 9 total)
                    • You must be logged in to reply to this topic.