音響モデルの作成について

Forum List HARK FORUM 音響モデルの作成について

This topic contains 1 reply, has 2 voices, and was last updated by  Danilo Onishi 3 weeks, 2 days ago.

Viewing 2 posts - 1 through 2 (of 2 total)
  • Author
    Posts
  • #744

    浅井忠
    Participant

    現在、KaldiのCSJモデルでnnet3-chainモデルを作成しているのですが、
    特徴量をHARKで抽出したMSLS40次元の特徴量で学習をしたいのです。
    どのようにやればよろしいでしょうか?
    よろしくお願いします。

    #746

    Danilo Onishi
    Participant

    HARK特徴量の学習を行うには、HARKのSaveHTKFeaturesでMSLSの特徴量を保存してから下記コマンドでKaldiアーカイブに変換する必要があります。
    copy-feats --htk-in scp:/path/to/nfbank/feats.scp ark,scp:/path/to/archive/feats.ark,/path/to/archive/feats.scp
    そうすると、出来たフォルダはKaldi データフォルダと同じ扱いになります。ただ、次元数は13次元(GMM用)と40次元(chain用)が必要になりますのでご注意ください。
    あと、データ水増しステップは音声ファイルをsoxで加工しますので特徴量だけでは出来ません。簡単にするなら水増しを飛ばした方が良いと思いますが、実施するなら下記ステップが追加で必要になります。
    * 分離音をHARKのSaveWavePCMで保存し、そのデータを入れたwav.scpを作成する。
    * utils/data/perturb_data_dir_speed_3way.shを用いて水増しwav.scpを作成する。
    * wav.scpにあるコマンドを実行し、各出力ファイルをHARKで読み込んでから特徴量を抽出する。
    * copy-featsで特徴量をKaldiアーカイブに変換する。

    以上、よろしくお願いいたします。

    • This reply was modified 3 weeks, 2 days ago by  Danilo Onishi. Reason: formatting
Viewing 2 posts - 1 through 2 (of 2 total)

You must be logged in to reply to this topic.