HARK FORUM › streamの遅延時間について › Reply To: streamの遅延時間について
「1.」について
はい。入力された音響信号の重複部分は同じデータとなります。入力信号のシフト量とウィンドウ幅を独立で設定出来るように設計されています。
「2.」について
すみません。おっしゃる通り -1 を行うのが正しいです。
「3.」について
はい。どちらのノードもバッファで以前のフレームのデータを保持しており、50フレーム目を受信してから処理が開始できるという事ですのでネットワーク全体で1回だけ考慮するだけで済みます。
「4.」について
ネットワークのスクリーンショットを拝見する限りでは特に問題が無く見えましたので、こちらでも再現確認をさせて頂きます。そのため、少々お時間を頂けますでしょうか。
また、エラー出力の内容からHARK2.xと思われますが、HARKのバージョンを確認させて頂いても宜しいでしょうか。
「5.」について
すみません。前回、見落としていたようです。
> 前後に余裕を持った(前後に無音(に近い)が入っている)ものとなっていると思われ、
> ”発話区間”ではないと思われますがいかがでしょうか。
SourceTrackerのPAUSE_LENGTHとSourceIntervalExtenderのPREROLL_LENGTHにより前後に余裕が出ています。もし、前後の無音区間を無くしたいという事でしたらパラメータを調整して頂く必要があります。SourceTrackerのPAUSE_LENGTHについては短くしすぎると長文を発話している場合などにショートポーズ(息継ぎや句読点)の位置で定位結果が分割されることがありますのでご注意ください。
下記URLにノードの説明が御座います。音声認識が目的の場合、認識エンジンによっては(特に前半部の)無音区間が無い場合に性能(認識率)が低下する事が御座いますのでご注意ください。また、後半の無音区間については無音に見えても(例えば「センター」の「ー」の部分などの)音素や残響などが含まれているケースがありますので短く設定されたい場合はそのような点もご考慮の上でご設定ください。
https://www.hark.jp/document/hark-document-ja/subsec-SourceTracker.html
https://www.hark.jp/document/hark-document-ja/subsec-SourceIntervalExtender.html
以上、宜しくお願い致します。
-
This reply was modified 5 years, 10 months ago by
Masayuki Takigahira.
-
This reply was modified 5 years, 10 months ago by
Masayuki Takigahira.