お世話になっております。
画像認識による人物検知とHARKによる音源分離を組み合わせて雑音環境下でも頑強な音声認識ができるようなシステム構築を考えている者です。
具体的には画像認識による話者の位置情報をhark-pythonへと渡し、その後そのデータを音源分離ノードの入力とすることを考えています。
現在、まずはhark-pythondからDisplayLocalization等のsource型を入力とするノードにデータを渡せないか練習している段階なのですが、解決できないエラーがございます。
実行時のネットワークファイルを添付いたします。
実行時のpythonファイルは以下のとおりです。
# py_source.py
from harkpython import harkbasenode
class HarkNode(harkbasenode.HarkBaseNode):
def __init__(self):
self.outputNames=("output",) # one output terminal named "output"
self.outputTypes=("prim_source",) # the type is primitive float.
def calculate(self):
self.outputValues["output"] = self.input
print("==========")
print(self.input)
print("==========")
self.outputValues["output"] = self.input[0]
出力されるエラーを一部抜粋します。
RuntimeError: HARK-Middleware: HARK exception thrown at harkmw/src/node.cc:185 (Node_process): /home/user/scripts/packaging/HARK-System/hark-base/src/conversion.cc line 267: Failed to dispatch conversion between N4HARK6SourceE and N4HARK6VectorINS_5RCPtrINS_6ObjectEEEEE
/home/user/scripts/packaging/HARK-System/hark-base/src/BufferedNode.cc line 98: Node DisplayLocalization (type 19DisplayLocalization) Exception caught in BufferedNode::getOutput
なにかご存知でしたらご教授頂きたいです。
以上、よろしくお願い致します。