Reply To: HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。

HARK FORUM HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。 Reply To: HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。

#1088
yoshi.shun.kaldi
Participant

お世話になっております。
お忙しいところ詳細なご回答ありがとうございます。

ご教示いただいた内容を参考に以下の手順(※1)で動作させることができました。
ありがとうございます。大変助かりました。

また、動作させる中で大変恐れながら1点質問がございます。

私の最終的に実現したいことといたしましては、マルチマイクではない通常マイクで録音した音声ファイル(例えば、発話者一人が静音環境下が録音した「おはようございます」など一言で終わるwavファイル)を、”2SPK-ja.wav”と差し替えて認識させてみたいと考えております。

ご教示いただいた内容で動作させることができましたので、早速任意の音声ファイルと差し替えたところ正常に動作する(クラッシュしない)ものの認識結果が出力されないでおります。(kaldi_out.txtに何も出力されない)
# sox –i 2SPK-ja.wavで情報は確認しbit数等を合わせた音声ファイルを使用しております。

認識させる上で何か設定が必要でしたらご教示いただけないでしょうか。

また、”2SPK-ja.wav”を認識させた場合は想定(HARK_recog_3.0.0_practice2を修正しないで認識させた結果)とは大分異なる結果となっております。

●認識結果(自作nnet1による”2SPK-ja.wav”の認識結果)

0, 135.0, いう
1, 105.008911, じ か
2, 64.972717, か きく
3, 40.01096, か
5, -35.024876, ちゅ いう いう 地域 いう 
4, 45.0, いう い いう い 
11, 120.000725, いう
10, 94.992081, か き
6, 45.0, か いう い 言う か い 言う か
7, -35.024876,  いう  言う か
9, -35.024876, 釣っ  いう 
8, 49.98904, か い  いう  言う か

お忙しいところ大変恐縮ではございますがご回答いただける幸いでございます。

以上です。
何卒よろしくお願いいたします。

(※1)
以下試した手順となります。

1.HARKのネットワークファイルの差し替え
ご教示いただいた通り、HARK_recog_2.3.0.1_practice2を使用するのではなく、
HARK_recog_3.0.0_practice2を使用しネットワークでは以下の変更をいたしました。

● HARK_recog_3.0.0_practice2(sub_recognitionシート)の変更

変更箇所:MSLSExtraction ノード ⇒ MFCCExtraction ノードに変更

パラメータについては以下の通りです。

・FBANK_COUNT = FBANK_COUNT ★ MSLSExtractionと同様の値。
・NUM_CEPS = 12→40 ★40に変更。
・LIFTERING_COEF = 22
・USE_POWER = false

2.KaldiDecoderに渡すconfigファイルの変更
こちらはHARK_recog_2.3.0.1_practice2のconfigに加え、ご教示いただいた通り--splice=17を追加いたしました。
# .nnetや.mdlなどはnnet1モデルを使用しております。

--port-mfcnet=5530
--port-result=10500
--filename-words=./my_model_conf/words.txt
--filename-align-lexicon=./my_model_conf/align_lexicon.int
--max-active=2000
--filename-feature-transform=./my_model_conf/final.feature_transform
--filename-nnet=./my_model_conf/final.nnet
--filename-mdl=./my_model_conf/final.mdl
--filename-class-frame-counts=./my_model_conf/ali_train_pdf.counts
--filename-fst=./my_model_conf/HCLG.fst
--splice=17 ★追加