Reply To: HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。

August 5, 2019 at 7:30 pm #1101

Participant

迅速なご回答をありがとうございます。大変助かります。
以下、インラインにて失礼いたします。

＞現状は特徴量を40次元に設定して処理が通るようになりましたが、
＞fMLLR法を用いた音響モデルですとミスマッチがあり、認識性能が出ません。

クラッシュは防げるものの認識できない旨承知いたしました。

＞Kaldi本家のレシピのままですとfMLLR（話者適応処理）を使用しますが、
＞その手法はオンライン処理に向いていないためkaldidecoderは対応しておりません。

fMLLR法の場合、オンライン処理に向いていないとありますが、
オフライン処理の場合は認識させることはできるのでしょうか。

私自身の直近で実施したいことといたしましては、
マイク経由ではなく事前に用意した「こんにちは」などの
“発話者一人が静音環境下が録音した音源”を認識させたいと考えております。

理由といたしましては、
OSSのjuliusやサードパーティ製の音声認識エンジンと認識精度を比較する目的で、
既に用意してある音声ファイルを使用したいと考えておりご質問させていただいている次第です。

＞恐れ入りますが、HARK+kaldidecoderを使用する場合はfMLLRを使わず、
＞MFCC/MSLSそのもので音響モデルを学習する必要があります。

もし、上記に記載させていただいたオフラインによる認識ができない場合は、
私自身でHARK＋KaldiDecoderに対応する音響モデルの作成をしたいと思います。
# その場合も事前に用意した音声を認識させるようにしたいです。

例えば、nnet1モデルでも以下の手順で行えるものなのでしょうか。

KaldiとHARKそれぞれでどのようなデータが必要でどのような手順が
必要なのかあまり理解できておらずご教示いただけると幸いです。

＞また、HARKのMFCCとKaldiのMFCCが若干異なりますので、
＞HARKのSaveHTKFeatureノードで出力した特徴量を用いて
＞音響モデルを学習した方が条件としてマッチすることになります。

MFCCあるいはMSLSと２つの方法で音響モデルを作成かと存じますが、
私のような初心者が行う場合はどちらが比較的容易に行えますでしょうか。

以上です。
引き続き、何卒よろしくお願いいたします。