Reply To: HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。

HARK FORUM HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。 Reply To: HARK音声認識セット("HARK_recog_2.3.0.1_practice2")のモデルを自作モデルに差し替えたい。

#1102
AvatarDanilo Onishi
Participant

> fMLLR法の場合、オンライン処理に向いていないとありますが、
> オフライン処理の場合は認識させることはできるのでしょうか。

> 私自身の直近で実施したいことといたしましては、
> マイク経由ではなく事前に用意した「こんにちは」などの
> “発話者一人が静音環境下が録音した音源”を認識させたいと考えております。
目的に関して、かしこまりました。オフライン処理の場合、そしてマイクアレイを使用しない場合でしたら、HARK自体は不要になり、Kaldiの特徴量作成とオフラインデコードツール(steps/make_mfcc.shとsteps/nnet/decode.sh)のみで出来ます。その手順に関してはKaldiのCSJレシピをご参照ください。

> KaldiとHARKそれぞれでどのようなデータが必要でどのような手順が
> 必要なのかあまり理解できておらずご教示いただけると幸いです。
HARK特徴量に対応した音響モデルの作成ですが、下記投稿の通り、HARKで保存したMFCCまたはMSLS特徴量をfeats.scpファイルに列挙し、copy-feats --htk-inコマンドを使用して頂ければKaldiアーカイブに変換されたデータを通常のレシピに使用出来ます。

音響モデルの作成について

大変恐縮ですが、HARKは商品ではなくオープンソースプロジェクトのため、HARKに対応したKaldi音響モデル作成に関してのサポートは出来かねます。ご了承ください。

> MFCCあるいはMSLSと2つの方法で音響モデルを作成かと存じますが、
> 私のような初心者が行う場合はどちらが比較的容易に行えますでしょうか。
MFCCとMSLSは特徴量作成に用いる手法で、ファイルの扱いは同じですが後者の方が若干性能的に良いためサンプル音響モデルに使用しております。またMSLSはKaldiのfbankに近い処理を行います。

以上、よろしくお願い申し上げます。