HARK FORUM › HARKへの新規語彙追加方法
初めて質問させていただきます。
HARKのページ内で配布されているHARK_recog_3.0.0_practice2.zip (Japanese)のKaldi音声認識モデルに新しい語彙を追加したいと思っています。
その場合、こちらの理解ではCorpus of Spontaneous Japanese(以下、CSJ)と新しい語彙を追加したデータを用いてモデルの再学習が必要と考えているのですが、その認識で正しいでしょうか?
また、モデルの再学習以外の方法での新しい語彙の追加方法はありますでしょうか?
以上です。 何卒よろしくお願いいたします。
お問い合わせありがとうございます。
新しい語彙を追加とありますが、 wavファイルを音響モデルの学習データに追加した場合は、再学習が必要となります。 そうではなく、評価で使用する言語モデルに語彙ファイルを追加した場合は再学習は不要です。
また、音響モデルの学習に追加するデータですが、 CSJのデータ(520時間)に対して小さい(数時間程度)ものであるならば、 再学習をしてもほとんど効果が見られませんので、 言語モデルの評価データのみ追加したほうが効率はよいかと思います。
以上、よろしくお願いいたします。 HARKサポート
お忙しい中迅速なご回答いただき誠ありがとうございます。
言葉が足りず曖昧な質問になってしまい申し訳ございません。
こちらで意図していた語彙の追加についてですが、 Kaldiでデコードできる単語の種類を増やしたいという意図でした。
例えば以下のような単語を含んだ音声をデコードした場合に、 単語を正しく認識させたいと思いでご質問させていただきました。
単語例)マイナンバーカード Kaldiデコード)周り ナンバー カード
>wavファイルを音響モデルの学習データに追加した場合は、再学習が必要となります。 >そうではなく、評価で使用する言語モデルに語彙ファイルを追加した場合は再学習は不要です。 お恥ずかしながら、Kaldiへの知識不足のため学習後の言語モデルに、 語彙ファイルを追加できるとのこと知りませんでした。
大変恐縮ですが、上記言語モデルへの語彙ファイルの追加について、 参考ページまたは手順についてご教示願えないでしょうか。
以上、何卒宜しくお願いいたします。
Log In