JP-2026076972-A - マルチターゲット追跡のための方法、装置及び記憶媒体
Abstract
【課題】マルチターゲット追跡のための方法、装置及び記憶媒体を提供する。 【解決手段】方法は、ターゲット全身検出を実行して複数のターゲット全身検出枠を決定して現在の入力画像における複数のターゲット頭部検出枠を決定し、全身軌跡関連付けを実行して複数のターゲット全身検出枠の全身識別子を決定し、頭部軌跡関連付けを実行して複数のターゲット頭部検出枠の頭部識別子を決定し、複数のターゲット頭部検出枠の位置及びサイズに基づいて、複数のターゲット頭部検出枠に対応する複数のターゲット全身予測枠を決定し、複数のターゲット頭部検出枠に対応する複数のターゲット全身予測枠の入力画像に占める領域に基づいて、複数のターゲット全身検出枠のうちのターゲット全身関連枠を決定し、複数のターゲット頭部検出枠のターゲット全身関連枠の全身識別子に基づいてターゲット全身軌跡セットを更新する。 【選択図】図1
Inventors
- ワン・モンジアオ
- リィウ・ルゥジエ
Assignees
- 富士通株式会社
Dates
- Publication Date
- 20260512
- Application Date
- 20251021
- Priority Date
- 20241024
Claims (10)
- マルチターゲット追跡のための方法であって、 ターゲット全身検出を実行して現在の入力画像における複数のターゲット全身検出枠を決定し、ターゲット頭部検出を実行して前記現在の入力画像における複数のターゲット頭部検出枠を決定するステップと、 全身軌跡関連付けを実行して前記複数のターゲット全身検出枠の全身識別子を決定し、ターゲット全身軌跡セットを更新するステップと、 頭部軌跡関連付けを実行して前記複数のターゲット頭部検出枠の頭部識別子を決定し、ターゲット頭部軌跡セットを更新するステップと、 前記複数のターゲット頭部検出枠の位置及びサイズに基づいて、前記複数のターゲット頭部検出枠に対応する複数のターゲット全身予測枠を決定するステップと、 前記複数のターゲット頭部検出枠に対応する複数のターゲット全身予測枠の前記入力画像に占める領域に基づいて、前記複数のターゲット頭部検出枠の前記複数のターゲット全身検出枠のうちのターゲット全身関連枠を決定するステップと、 前記複数のターゲット頭部検出枠のターゲット全身関連枠の全身識別子に基づいて前記ターゲット全身軌跡セットを更新するステップと、を含む、方法。
- 前記複数のターゲット頭部検出枠のターゲット全身関連枠の全身識別子に基づいて前記ターゲット全身軌跡セットを更新するステップは、 前記ターゲット頭部軌跡セットにおける各軌跡について、該軌跡の現在の軌跡点のターゲット全身関連枠の全身識別子が該軌跡の直前の軌跡点のターゲット全身関連枠の全身識別子と異なる場合、該現在の軌跡点のターゲット全身関連枠の全身識別子を該直前の軌跡点のターゲット全身関連枠の全身識別子に置き換えるステップ、を含む、請求項1に記載の方法。
- 単一のターゲット検出モデルを使用して、前記現在の入力画像における前記複数のターゲット全身検出枠及び前記複数のターゲット頭部検出枠を決定する、請求項1に記載の方法。
- 前記複数のターゲット全身検出枠の全身識別子を決定すること及び前記複数のターゲット頭部検出枠の頭部識別子を決定することは、ターゲット追跡アルゴリズムに基づいて実行される、請求項1に記載の方法。
- 第1のカルマンフィルタによって、前記現在の入力画像における前記複数のターゲット全身検出枠の全身識別子を決定し、 前記第1のカルマンフィルタとは異なる第2のカルマンフィルタによって、前記現在の入力画像における前記複数のターゲット頭部検出枠の頭部識別子を決定する、請求項4に記載の方法。
- 前記複数のターゲット頭部検出枠のうちの1つのターゲット頭部検出枠に対応するターゲット全身予測枠を決定するステップは、 該ターゲット頭部検出枠の位置の横座標成分と幅を線形結合して該ターゲット全身予測枠の位置の横座標成分を決定するステップと、 該ターゲット頭部検出枠の位置の縦座標成分と高さを線形結合して該ターゲット全身予測枠の位置の縦座標成分を決定するステップと、 該ターゲット頭部検出枠の幅を拡大して該ターゲット全身予測枠の幅を決定するステップと、 該ターゲット頭部検出枠の高さを拡大して該ターゲット全身予測枠の高さを決定するステップと、を含む、請求項1に記載の方法。
- 前記複数のターゲット頭部検出枠の前記複数のターゲット全身検出枠のうちのターゲット全身関連枠を決定するステップは、 前記複数のターゲット全身予測枠及び前記複数のターゲット全身検出枠に基づいて交差オーバーユニオン行列を決定するステップと、 前記交差オーバーユニオン行列にハンガリアンアルゴリズムを適用して各ターゲット頭部検出枠に対応するターゲット全身関連枠を決定するステップと、を含み、 前記交差オーバーユニオン行列における各要素は、前記複数のターゲット全身検出枠のうちの対応するターゲット全身検出枠と前記複数のターゲット全身予測枠のうちの対応するターゲット全身予測枠との交差オーバーユニオンである、請求項1に記載の方法。
- 前記全身軌跡関連付けを実行することは、ハンガリアンアルゴリズムに基づいて、現在のターゲット全身検出枠と、生成されたターゲット全身軌跡セットにおける1つのターゲット全身軌跡とを関連付けることを含み、 前記頭部軌跡関連付けを実行することは、ハンガリアンアルゴリズムに基づいて、現在のターゲット頭部検出枠と、生成されたターゲット頭部軌跡セットにおける1つのターゲット頭部軌跡とを関連付けることを含む、請求項1に記載の方法。
- マルチターゲット追跡のための装置であって、 命令が記憶されたメモリと、 請求項1乃至8の何れかに記載の方法を実現するように前記命令を実行するように構成される少なくとも1つのプロセッサと、を含む、装置。
- プログラムが記憶されたコンピュータ読み取り可能な非一時的な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに、 ターゲット全身検出を実行して現在の入力画像における複数のターゲット全身検出枠を決定し、ターゲット頭部検出を実行して前記現在の入力画像における複数のターゲット頭部検出枠を決定するステップと、 全身軌跡関連付けを実行して前記複数のターゲット全身検出枠の全身識別子を決定し、ターゲット全身軌跡セットを更新するステップと、 頭部軌跡関連付けを実行して前記複数のターゲット頭部検出枠の頭部識別子を決定し、ターゲット頭部軌跡セットを更新するステップと、 前記複数のターゲット頭部検出枠の位置及びサイズに基づいて、前記複数のターゲット頭部検出枠に対応する複数のターゲット全身予測枠を決定するステップと、 前記複数のターゲット頭部検出枠に対応する複数のターゲット全身予測枠の前記入力画像に占める領域に基づいて、前記複数のターゲット頭部検出枠の前記複数のターゲット全身検出枠のうちのターゲット全身関連枠を決定するステップと、 前記複数のターゲット頭部検出枠のターゲット全身関連枠の全身識別子に基づいて前記ターゲット全身軌跡セットを更新するステップと、を実行させる、記憶媒体。
Description
本開示は、全体的には、画像処理に関し、具体的には、マルチターゲット追跡のための方法、マルチターゲット追跡のための装置、及びプログラムが記憶されたコンピュータ読み取り可能な非一時的な記憶媒体に関する。 コンピュータ科学及び人工知能の発展に伴い、コンピュータを使用してニューラルネットワークに基づく人工知能モデルを実行することで情報処理を実現することは益々一般的、且つ効率的になっている。コンピュータビジョンは、人工知能モデルの重要な応用分野の1つである。 コンピュータビジョン技術のホットスポットの1つは、マルチターゲット追跡である。マルチターゲット追跡は、一般に単にMTT(Multiple Target Tracking)(MOT:Multiple Object Trackingと略称される場合もある)と称され、ビデオ内の歩行者、自動車及び/又は動物などの関心のあるタイプのターゲットを検出して識別子(ID)を付与するために使用される。望ましい追跡結果として、取り込まれたビデオセグメントについて、マルチターゲット追跡を実行した後に、同一のターゲットについて異なるフレームにおいて一意のIDを付与し、同一のフレームにおいて異なるターゲットについて異なるIDを付与する。ターゲット識別子が識別されたビデオセグメントにおいて、各フレームにおける各ターゲットは、位置パラメータP、時間パラメータtmを有する。従って、マルチターゲット追跡は、ターゲットTg[n]の「位置-時間」パラメータペア(P,tm)のシーケンスを決定することができる。該シーケンスは、ターゲットTg[n]の軌跡Tr[n]を示すことができる。即ち、マルチターゲット追跡は、フレームを跨いで各ターゲットを追跡し、各ターゲットの軌跡を決定することができる。 追跡対象が人であることを一例にすると、フレームを跨いで各ターゲットを追跡するマルチターゲット追跡を実現することは、通常、以下の3つのステップを含む。(1)t番目のフレームにおけるターゲット(例えば、歩行者)を検出し、ターゲットの検出位置を決定する(例えば、該フレーム内のターゲットの検出枠Bxを決定する)。(2)記憶された以前の軌跡のセグメント(1番目フレーム~t-1番目のフレーム)を用いて、t番目のフレームにおけるターゲットの位置を予測する。(3)予測位置とt番目のフレームにおける検出位置(即ち、検出枠の位置)とを比較し、t番目のフレームにおけるターゲットの検出位置と以前に記憶された軌跡セグメントとを関連付ける(例えば、Bxの位置と、IDがIDnであるターゲットTg[n]の以前の軌跡セグメントTr[n]のターゲット予測位置とが近い場合、Bxと以前の軌跡セグメントTr[n]との関連付けを実現するために、BxのID属性を「IDn」に設定し、それに応じて、軌跡セグメントTr[n]に、Bxに対応する軌跡点を追加し、即ち、軌跡セグメントTr[n]を更新する)ことによって、追跡軌跡の更新を実行する。 例えば、特許文献1(CN116958873A)には、ターゲット検出モデルが少なくとも1つの頭部検出枠及び少なくとも1つの人体検出枠を出力する歩行者追跡方法が開示されている。予定の人の群れの密度の場合、人体検出枠にマッチングしていない頭部検出枠について、該頭部検出枠に基づいて、対応する推定人体検出枠を推定し、人体マルチターゲット追跡器を利用して該推定人体検出枠のターゲット識別子を出力する。 現在のマルチターゲット追跡技術では、特に混雑したシナリオにおいて、ID切り替え(ID-switch)が非常に一般的である。ID切り替えは、ターゲットTg[n]の軌跡セグメントTr[n]に実際に別のターゲットTg[n’]の軌跡点が含まれているという現象に対応する。即ち、追跡軌跡に誤った軌跡点が出現している。追跡方法の全体的な性能を向上させるために、ID切り替えを補正することが求められている。 本開示の上記及び他の目的、特徴及び利点をより容易に理解させるために、以下は図面を参照しながら本開示の実施形態を説明する。なお、図面は、単なる本開示の原理を説明するためのものである。図面では、縮尺に従って各部のサイズ及び相対位置を描く必要がない。同一の符号は、同一の特徴を表示してもよい。 本開示の1つの実施例に係るマルチターゲット追跡のための方法の一例を示すフローチャートである。 本開示の1つの実施例に係る(t-1)番目のフレームの入力画像の一例を示す概略図である。 本開示の1つの実施例に係るt番目のフレームの入力画像の一例を示す概略図である。 図2a及び図2bに対応する真のターゲット軌跡を示す図である。 図2bに示す入力画像において検出されたターゲット全身検出枠を示す図である。 図2bに示す入力画像において検出されたターゲット頭部検出枠を示す図である。 図3aに示すターゲット全身検出枠の割り当てられた全身識別子を示す図である。 図4aに示す全身識別子に対応するターゲット全身軌跡を示す図である。 図3bに示すターゲット頭部検出枠の割り当てられた頭部識別子を示す図である。 図5aに示す頭部識別子に対応するターゲット頭部軌跡を示す図である。 図2bに示すターゲット頭部検出枠に対応するターゲット全身予測枠を示す図である。 図2bに示すターゲット頭部検出枠のターゲット全身関連枠を示す図である。 図4aにおける現在の軌跡点に対応する検出枠の全身識別子の補正後の全身識別子を示す図である。 図7aにおける補正後の全身識別子に基づいて得られたターゲット全身軌跡を示す図である。 本開示の1つの実施例に係るマルチターゲット追跡のための装置の一例を示すブロック図である。 本開示の1つの実施例に係るマルチターゲット追跡のための装置の一例を示すブロック図である。 本開示の1つの実施例に係る情報処理装置の一例を示すブロック図である。 以下は図面を参照しながら本開示の例示的な実施形態を説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、当業者が実施形態を実現する際に、実施形態を実現するために特定の決定を行ってもよく、これらの決定は実施形態に応じて変更されてもよい。 なお、本開示を明確にするために、図面には本開示に密に関連する装置の構成要件及び/又は処理のステップのみが示され、本開示と関係のない細部が省略されている。 なお、本開示は、添付の図面を参照して以下の説明を行うため、説明された実施形態に限定されない。本明細書では、実行可能である場合、実施例を互いに組み合わせてもよいし、異なる実施例の特徴を置き換え、或いは利用してもよいし、1つの実施例において1つ又は複数の特徴を省略してもよい。 本明細書に開示される例示的な実施例の各態様の操作を実行するためのコンピュータプログラムのコードは、1つ又は複数のプログラミング言語の任意の組み合わせで記述されてもよく、該プログラミング言語は、Java、Smalltalk、C++などの対象指向プログラミング言語を含み、「C」プログラミング言語又は同様なプログラミング言語などの従来の手続き型プログラミング言語を含む。 本開示の方法は、対応する機能的構成を有する回路により実現されてもよい。該回路は、プロセッサのための回路を含む。 本開示の1つの態様は、マルチターゲット追跡のための方法に関する。該方法は、コンピュータにより実現されてもよい。本発明の発明者は、マルチターゲット追跡を実現するためのマルチターゲット追跡モデルを研究したところ、入力フレームにおいて、ターゲットの頭部に比べて、ターゲットの胴体の一部又は全部が遮蔽される可能性が高いため、ID切り替えが発生し、追跡の正確度が低下する可能性があることを発見した。そのため、本発明の発明者は、試験を行ったところ、上記の問題を軽減するために、頭部と全身との結合に基づくマルチターゲット追跡方法を提案する。 以下は、図1を参照しながら該方法を例示的に説明する。 図1は、本開示の1つの実施例に係るマルチターゲット追跡のための方法の一例を示すフローチャートである。一例では、方法100は、対応するコンピュータプログラムを実行するコンピュータにより実現される。 ステップOp101において、ターゲット全身検出を実行して現在の入力画像Im[t]における複数のターゲット全身検出枠(以下、1つのターゲット全身検出枠をB[I]で表し、ターゲット全身検出枠セットを{B[I]}で表す)を決定し、ターゲット頭部検出を実行して現在の入力画像における複数のターゲット頭部検出枠(以下、1つのターゲット頭部検出枠をb[i]で表し、ターゲット頭部検出枠セットを{b[i]}で表す)を決定する。tは入力画像のインデックスであり、例えば、tは入力画像のフレーム番号である。ターゲットは人間である。ターゲット頭部検出枠は、画像におけるターゲットの頭部が位置する領域を示す。ターゲット全身検出枠は、画像におけるターゲットの全身(頭部と胴体を含むターゲットの身体全体)が位置する領域を示す。ステップOp101の出力結果に基づいて、各検出枠の高さ、幅、位置(例えば、左上の座標、右下の座標)などを決定することができる。 入力画像は、関心のある場所を監視するカメラから取得されてもよい。カメラの設置高さは、好ましくは、1.5m以上である。カメラの設置高さは、例えば、1.5m、1.6m、1.7m、1.8m、1.9m、2.0m又は2.4mなどである。カメラを屋内に設置する場合、カメラを天井に近い高さに設置してもよい。 一例では、以下のように示すように、ターゲット全身検出及びターゲット頭部検出は、同一のモデルdMで実現される。 ({B[I]},{b[i]})=dM(Im[t])。 例えば、画像Im[t]はモデルdMに入力され、該モデルdMは、複数のターゲット全身検出枠及び複数のターゲット頭部検出枠を出力し、オプションとして、その関連パラメータ(例えば、幅、高さ、信頼性など)をさらに出力してもよい。ここで、検出されたターゲット全身検出枠の数は、検出されたターゲット頭部検出枠の数と等しくてもよく、等しくなくてもよい(多い場合又は少ない場合を含む)。モデルdMは、ニューラルネットワークに基づくモデルであってもよい。モデルがサンプルを用いて訓練された後に得られたモデルは、ステップOp101を実現するために使用されてもよい。例えば、カメラ監視視野には2つのターゲットTg[1]及びTg[2]がある。図2aに示すように、(t-1)番目のフレームにおいて、ターゲットTg[1]及びTg[2]は視野の左側に位置する。図2bに示すように、t番目のフレームにおいて、ターゲットTg[1]及びTg[2]は視野の右側に位置する(即ち、右側に進む)。図2cは、このような進行により形成された真の軌跡tTr[1]、tTr[2]を示している。ここで、説明の便宜上、より早い時点の軌跡点は省略されている。画像Im[t]がモデルdMに入力されると、モデルdMは、4つの検出枠、即ち、図3aに示すターゲット全身検出枠B[1]及びB[2](この段階は検出段階であり、各検出枠には全身識別子wIDが割り当てられていない)、図3bに示すターゲット頭部検出枠b[1]及びb[2](この段階は検出段階であり、各検出枠には頭部識別子hIDが割り当てられていない)を出力する。 ステップOp103において、全身軌跡関連付け