HARK FORUM › HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。 › Reply To: HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。
July 26, 2019 at 1:48 pm
#1082
お送りいただいたエラー内容ですが、HARKが送信している特徴量とKaldi音響モデルの入力次元数が異なるのが原因です。
HARK側ではMSLSExtractionノードとMelFilterBankのFBANK_COUNTオプションを実際の次元数を設定し、DeltaノードのFBANK_COUNTに次元数+1(パワー次元のため)を設定して頂く必要があります。
また、Kaldidecoder側で–splice(現在フレームと合わせて前後何フレームを入力するか)の設定が必要になります。HARK_recog_2.3.0.1_practice2で提供しているモデルはsplice 3を使用しておりますので、現在フレームの±3フレーム(合計7フレーム)をモデルに入力します。つまり、入力次元数は [13(ベース次元数)+13(デルタ)+1(パワー)] * 7 = 189になります。一歩、Kaldi本家のnnetレシピのデフォルトですと、splice=17とfMLLR特徴量で(17*2+1)*40=1400になります。
ただ、注意点としてkaldidecoderはHTK形式特徴量(HARKが扱う形式)にしか対応しておりませんので、それに合わせてHTK特徴量でKaldi音響モデルを学習する必要があります。データの変換手順に関しては前の投稿をご参照ください。
以上、宜しくお願い申し上げます。