Reply To: HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。

July 26, 2019 at 1:48 pm #1082

Participant

お送りいただいたエラー内容ですが、HARKが送信している特徴量とKaldi音響モデルの入力次元数が異なるのが原因です。

HARK側ではMSLSExtractionノードとMelFilterBankのFBANK_COUNTオプションを実際の次元数を設定し、DeltaノードのFBANK_COUNTに次元数＋1（パワー次元のため）を設定して頂く必要があります。

また、Kaldidecoder側で–splice（現在フレームと合わせて前後何フレームを入力するか）の設定が必要になります。HARK_recog_2.3.0.1_practice2で提供しているモデルはsplice 3を使用しておりますので、現在フレームの±3フレーム（合計7フレーム）をモデルに入力します。つまり、入力次元数は [13（ベース次元数）+13（デルタ）+1（パワー）] * 7 = 189になります。一歩、Kaldi本家のnnetレシピのデフォルトですと、splice=17とfMLLR特徴量で(17*2+1)*40=1400になります。

ただ、注意点としてkaldidecoderはHTK形式特徴量（HARKが扱う形式）にしか対応しておりませんので、それに合わせてHTK特徴量でKaldi音響モデルを学習する必要があります。データの変換手順に関しては前の投稿をご参照ください。

以上、宜しくお願い申し上げます。

Reply To: HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。

Forum User

Forum Search

Recent Replies