Reply To: HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。

HARK FORUM HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。 Reply To: HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。

#1099
yoshi.shun.kaldi
Participant

五月雨で申し訳ありません。
追加で1点確認させてください。

>HARKの分離音をSaveWavePCMで出力して学習に使用された場合などは

こちらの内容についてですが、
そもそもデフォルトのKaldi+CSJオリジナル音源で音響モデルを作成した場合、
2SPK-ja.wavのような複数話者が話している音源は認識できないため、
“HARKの分離音をSaveWavePCMで出力して学習”が必要ということでしょうか。

再度、”dnn5b_pretrain-dbn_dnn_smbr_i1lats”で作成されたモデルで、
差し替えて動作させてもやはり想定する認識結果とならず手が詰まっております。
# また現状のnnet1モデルはCSJオリジナルのクリーンな音源でのみ学習したものです。
# harkの分離音などの学習はしておりません。
# 現在の目標としては発話者一人が静音環境下が録音した音源を認識させたいと考えております。

● 認識結果(kaldi_out.txt)
0, 135.0, 
1, 105.008911, か
2, 64.972717, 
3, 40.01096, か
5, -35.024876, 
4, 45.0, 
11, 120.000725, 
10, 94.992081, 
6, 45.0, 
7, -35.024876, 
9, -35.024876, 
8, 49.98904, 

差分としては必要最低限に抑え、
以下の変更で実施いたしました。

● online.conf (online_chain.confと差し替えました)
--port-mfcnet=5530
--port-result=10500
--filename-words=./my_model_conf/words.txt
--filename-align-lexicon=./my_model_conf/align_lexicon.int
--max-active=2000
--filename-feature-transform=./my_model_conf/final.feature_transform
--filename-nnet=./my_model_conf/final.nnet
--filename-mdl=./my_model_conf/final.mdl
--filename-class-frame-counts=./my_model_conf/ali_train_pdf.counts
--filename-fst=./my_model_conf/HCLG.fst
--splice=17

● MFCCExtraction (MSLSExtractionと差し替えました)
・FBANK_COUNT = FBANK_COUNT ★ MSLSExtractionと同様の値。
・NUM_CEPS = 12→40 ★40に変更。
・LIFTERING_COEF = 22
・USE_POWER = false

お忙しいところ大変申し訳ありませんが、
ご回答いただけると幸いでございます。