音源分離の分離後出力ファイルについて

HARK FORUM 音源分離の分離後出力ファイルについて

Viewing 15 posts - 1 through 15 (of 15 total)
  • Author
    Posts
  • #2488
    東京大阪
    Participant

      突然失礼します。音源分離システムを構築し音源分離しました。作成したシステムでは、SaveWavePCMというノードで、分離後の音声データが保存されるはずなのですが、どこにも保存されていませんでした。その際、エラー等は、出ていません。SaveWavePCMのノード設定は、以下のように設定しました。

      Attachments:
      #2490
      東京大阪
      Participant

        以下のシステムでは音源分離行いました。

        Attachments:
        #2495
        東京大阪
        Participant

          最後のです

          Attachments:
          #2497
          東京大阪
          Participant

            伝達関数と録音音声(雑音0度、人の声180度)をシステムに適用しています。
            音源定位は、正しくできていました。

            #2498
            nterakado
            Moderator

              お問い合わせありがとうございます。

              SaveWavePCM に設定したBASENAME は、実行したネットワークファイル(.nファイル)からの相対パスとなります。
              したがって、ネットワークファイルを実行した箇所をご確認ください。
              HARK Designerから実行していた場合、File タブを選択して表示される File Manager ウィンドウで Path: にある箇所になります。デフォルトでは /usr/lib/hark-designer/userdata/networks ですが、ご自身の操作で変更されている場合がありますので、念のためご確認お願いします。

              また、画面のキャプチャからでは十分な情報が得られませんので、
              よろしければネットワークファイルそのものを添付頂けるとこちらでも調査が可能です。

              以上、よろしくお願いいたします。
              HARKサポートチーム

              #2499
              東京大阪
              Participant

                ご返信ありがとうございます。
                音源分離ネットワークは、添付のもの(一つ目)を使いました。
                保存先は、デフォルトで変わっていないと思います。
                確認してみたのですがやはり生成できていませんでした。

                #2503
                東京大阪
                Participant

                  以下のURLで伝達関数、音声データがダウンロードできます。保存期間が短く申し訳ありません。
                  https://53.gigafile.nu/1215-cec809b45de6e89dd217a233f65ef64b6

                  #2504
                  東京大阪
                  Participant

                    音源分離後の分離音は、生成されましたが、音がなかったです。
                    音源分離で使用した音源は、しっかり再生でき音も聞こえます。
                    ノードの設定が悪いと考えているのですが、使用したノードどれが深く関わっているか分かりません。
                    ご教示お願い致します。

                    #2505
                    nterakado
                    Moderator

                      ご使用のネットワークファイルですが、
                      保存される分離音声の音量が著しく小さくなっています。

                      生成されたwavファイルの音量を増幅することで聞こえるかと思います。
                      方法はいろいろとありますが、Audacityを使用した例を添付します。

                      また、保存される音量自体を大きくするためには、Synthesize ノードのOUTPUT_GAIN を大きく設定してください。

                      以上、よろしくお願いいたします。

                      #2507
                      東京大阪
                      Participant

                        返信ありがとうございます。ご指摘の通り、ノードの設定を変えると、音が聞こえるようになりました。
                        しかし、音源分離の精度が悪くなってしまいました。録音環境以外(ノードの設定)で改善することはできませんか。分離音は、定位ごとの音声ファイルが二つできていますが、二つ音源が聞こえており、あまり分離できていません。

                        #2508
                        nterakado
                        Moderator

                          利用状況と目的がわかりませんので、何点か確認させてください。

                          1.マイクからの入力(オンライン)と、音源ファイルの入力(オフライン)のどちらを使用されていますか?
                          2.使用しているマイクもしくは音源ファイルはどのようなものでしょうか?
                          3.収録環境は屋内でしょうか?屋外でしょうか?
                          4.実行しているHARKのバージョンはいくつでしょうか?

                          また、可能であれば、詳細な目的と実行環境一式をご提供いただければ
                          もう少しご助言できるかもしれません。
                          (例えば、HARKが提供している音源ファイルを使用して音源分離について動作確認をしているのか、
                          ご自身のマイクアレイを利用したシステムのデバッグをされているのかでも対処方法が異なります。)

                          以上、よろしくお願いいたします。
                          HARKサポートチーム

                          #2511
                          東京大阪
                          Participant

                            1.マイクからの入力を使用している。
                            2.使用したマイクは、TAMAGO-03を使用しました。使用した音源ファイルは、以下のURLにあります。
                               URL:https://firestorage.jp/download/3ee6ed5b5de547a82b6b872414702b93d80bf15c
                            3.収録環境は、屋内です。
                            4.実行しているharkのバージョンは、ubuntu20.04です。
                            使用目的は、音源を分離し、分離後と分離前の音の聞き取りやすさの評価がしてみたく使用しています。

                            #2512
                            nterakado
                            Moderator

                              使用した音源ファイルを確認したところ、
                              ノイズの影響が大きいため音源定位が失敗している可能性があります。

                              音源が移動しないのであれば、ConstantLocalization ノードを使用して分離を試していただけますでしょうか。
                              ネットワークの sub_localization の部分で音源定位を実行する代わりに、
                              分かっている音源方向を入力することで、特定方向の音源のみを分離するようなアプローチです。
                              sub_localization を置き換えるような形で使用できるかと思います。

                              また、分離行列をある程度適応学習していますので、うるさい⇒静かで雑音が変わっていっているようなデータですが
                              静か⇒うるさいという感じで変わる方が評価の結果は多少よくなると思われます。

                              上記で分離ができるようであれば、
                              BGNEstimator を使用してノイズ抑制を行うことも効果があるかと思います。

                              以上、よろしくお願いいたします。
                              HARKサポートチーム

                              #2513
                              東京大阪
                              Participant

                                返信ありがとうございます。前回より、録音環境を見直すと、音源定位は、正しくできていそうです。
                                現在、Oct Band Noice を使用して音源分離を行っており、0度で8khz、180度で4khzで流し音源分離を行っています。しかしながら、音源定位は、正しくでき、音源分離のネットワークもエラー等出ずに実行できるのですが、生成された音源分離ファイルのsep_0以外が、こもったような分離音になってしまいます。使用したネットワークと入力ファイル(音声)と分離音と伝達関数が下記のURLにあります。
                                https://firestorage.jp/download/dfe2de78e1c5e0b29e9e98a4d861a605b6ad3821
                                ご迷惑おかけして申し訳ありません。

                                #2514
                                東京大阪
                                Participant

                                  解決しました。ご迷惑をお掛けして申し訳ありません。

                                Viewing 15 posts - 1 through 15 (of 15 total)
                                • You must be logged in to reply to this topic.