JP-2026076972-A - マルチターゲット追跡のための方法、装置及び記憶媒体

JP2026076972AJP 2026076972 AJP2026076972 AJP 2026076972AJP-2026076972-A

Abstract

【課題】マルチターゲット追跡のための方法、装置及び記憶媒体を提供する。【解決手段】方法は、ターゲット全身検出を実行して複数のターゲット全身検出枠を決定して現在の入力画像における複数のターゲット頭部検出枠を決定し、全身軌跡関連付けを実行して複数のターゲット全身検出枠の全身識別子を決定し、頭部軌跡関連付けを実行して複数のターゲット頭部検出枠の頭部識別子を決定し、複数のターゲット頭部検出枠の位置及びサイズに基づいて、複数のターゲット頭部検出枠に対応する複数のターゲット全身予測枠を決定し、複数のターゲット頭部検出枠に対応する複数のターゲット全身予測枠の入力画像に占める領域に基づいて、複数のターゲット全身検出枠のうちのターゲット全身関連枠を決定し、複数のターゲット頭部検出枠のターゲット全身関連枠の全身識別子に基づいてターゲット全身軌跡セットを更新する。【選択図】図１

Inventors

ワン・モンジアオ
リィウ・ルゥジエ

Assignees

富士通株式会社

Dates

Publication Date: 20260512
Application Date: 20251021
Priority Date: 20241024

Claims (10)

マルチターゲット追跡のための方法であって、ターゲット全身検出を実行して現在の入力画像における複数のターゲット全身検出枠を決定し、ターゲット頭部検出を実行して前記現在の入力画像における複数のターゲット頭部検出枠を決定するステップと、全身軌跡関連付けを実行して前記複数のターゲット全身検出枠の全身識別子を決定し、ターゲット全身軌跡セットを更新するステップと、頭部軌跡関連付けを実行して前記複数のターゲット頭部検出枠の頭部識別子を決定し、ターゲット頭部軌跡セットを更新するステップと、前記複数のターゲット頭部検出枠の位置及びサイズに基づいて、前記複数のターゲット頭部検出枠に対応する複数のターゲット全身予測枠を決定するステップと、前記複数のターゲット頭部検出枠に対応する複数のターゲット全身予測枠の前記入力画像に占める領域に基づいて、前記複数のターゲット頭部検出枠の前記複数のターゲット全身検出枠のうちのターゲット全身関連枠を決定するステップと、前記複数のターゲット頭部検出枠のターゲット全身関連枠の全身識別子に基づいて前記ターゲット全身軌跡セットを更新するステップと、を含む、方法。
前記複数のターゲット頭部検出枠のターゲット全身関連枠の全身識別子に基づいて前記ターゲット全身軌跡セットを更新するステップは、前記ターゲット頭部軌跡セットにおける各軌跡について、該軌跡の現在の軌跡点のターゲット全身関連枠の全身識別子が該軌跡の直前の軌跡点のターゲット全身関連枠の全身識別子と異なる場合、該現在の軌跡点のターゲット全身関連枠の全身識別子を該直前の軌跡点のターゲット全身関連枠の全身識別子に置き換えるステップ、を含む、請求項１に記載の方法。
単一のターゲット検出モデルを使用して、前記現在の入力画像における前記複数のターゲット全身検出枠及び前記複数のターゲット頭部検出枠を決定する、請求項１に記載の方法。
前記複数のターゲット全身検出枠の全身識別子を決定すること及び前記複数のターゲット頭部検出枠の頭部識別子を決定することは、ターゲット追跡アルゴリズムに基づいて実行される、請求項１に記載の方法。
第１のカルマンフィルタによって、前記現在の入力画像における前記複数のターゲット全身検出枠の全身識別子を決定し、前記第１のカルマンフィルタとは異なる第２のカルマンフィルタによって、前記現在の入力画像における前記複数のターゲット頭部検出枠の頭部識別子を決定する、請求項４に記載の方法。
前記複数のターゲット頭部検出枠のうちの１つのターゲット頭部検出枠に対応するターゲット全身予測枠を決定するステップは、該ターゲット頭部検出枠の位置の横座標成分と幅を線形結合して該ターゲット全身予測枠の位置の横座標成分を決定するステップと、該ターゲット頭部検出枠の位置の縦座標成分と高さを線形結合して該ターゲット全身予測枠の位置の縦座標成分を決定するステップと、該ターゲット頭部検出枠の幅を拡大して該ターゲット全身予測枠の幅を決定するステップと、該ターゲット頭部検出枠の高さを拡大して該ターゲット全身予測枠の高さを決定するステップと、を含む、請求項１に記載の方法。
前記複数のターゲット頭部検出枠の前記複数のターゲット全身検出枠のうちのターゲット全身関連枠を決定するステップは、前記複数のターゲット全身予測枠及び前記複数のターゲット全身検出枠に基づいて交差オーバーユニオン行列を決定するステップと、前記交差オーバーユニオン行列にハンガリアンアルゴリズムを適用して各ターゲット頭部検出枠に対応するターゲット全身関連枠を決定するステップと、を含み、前記交差オーバーユニオン行列における各要素は、前記複数のターゲット全身検出枠のうちの対応するターゲット全身検出枠と前記複数のターゲット全身予測枠のうちの対応するターゲット全身予測枠との交差オーバーユニオンである、請求項１に記載の方法。
前記全身軌跡関連付けを実行することは、ハンガリアンアルゴリズムに基づいて、現在のターゲット全身検出枠と、生成されたターゲット全身軌跡セットにおける１つのターゲット全身軌跡とを関連付けることを含み、前記頭部軌跡関連付けを実行することは、ハンガリアンアルゴリズムに基づいて、現在のターゲット頭部検出枠と、生成されたターゲット頭部軌跡セットにおける１つのターゲット頭部軌跡とを関連付けることを含む、請求項１に記載の方法。
マルチターゲット追跡のための装置であって、命令が記憶されたメモリと、請求項１乃至８の何れかに記載の方法を実現するように前記命令を実行するように構成される少なくとも１つのプロセッサと、を含む、装置。
プログラムが記憶されたコンピュータ読み取り可能な非一時的な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに、ターゲット全身検出を実行して現在の入力画像における複数のターゲット全身検出枠を決定し、ターゲット頭部検出を実行して前記現在の入力画像における複数のターゲット頭部検出枠を決定するステップと、全身軌跡関連付けを実行して前記複数のターゲット全身検出枠の全身識別子を決定し、ターゲット全身軌跡セットを更新するステップと、頭部軌跡関連付けを実行して前記複数のターゲット頭部検出枠の頭部識別子を決定し、ターゲット頭部軌跡セットを更新するステップと、前記複数のターゲット頭部検出枠の位置及びサイズに基づいて、前記複数のターゲット頭部検出枠に対応する複数のターゲット全身予測枠を決定するステップと、前記複数のターゲット頭部検出枠に対応する複数のターゲット全身予測枠の前記入力画像に占める領域に基づいて、前記複数のターゲット頭部検出枠の前記複数のターゲット全身検出枠のうちのターゲット全身関連枠を決定するステップと、前記複数のターゲット頭部検出枠のターゲット全身関連枠の全身識別子に基づいて前記ターゲット全身軌跡セットを更新するステップと、を実行させる、記憶媒体。

Description

本開示は、全体的には、画像処理に関し、具体的には、マルチターゲット追跡のための方法、マルチターゲット追跡のための装置、及びプログラムが記憶されたコンピュータ読み取り可能な非一時的な記憶媒体に関する。コンピュータ科学及び人工知能の発展に伴い、コンピュータを使用してニューラルネットワークに基づく人工知能モデルを実行することで情報処理を実現することは益々一般的、且つ効率的になっている。コンピュータビジョンは、人工知能モデルの重要な応用分野の１つである。コンピュータビジョン技術のホットスポットの１つは、マルチターゲット追跡である。マルチターゲット追跡は、一般に単にＭＴＴ（ＭｕｌｔｉｐｌｅＴａｒｇｅｔＴｒａｃｋｉｎｇ）（ＭＯＴ：ＭｕｌｔｉｐｌｅＯｂｊｅｃｔＴｒａｃｋｉｎｇと略称される場合もある）と称され、ビデオ内の歩行者、自動車及び／又は動物などの関心のあるタイプのターゲットを検出して識別子（ＩＤ）を付与するために使用される。望ましい追跡結果として、取り込まれたビデオセグメントについて、マルチターゲット追跡を実行した後に、同一のターゲットについて異なるフレームにおいて一意のＩＤを付与し、同一のフレームにおいて異なるターゲットについて異なるＩＤを付与する。ターゲット識別子が識別されたビデオセグメントにおいて、各フレームにおける各ターゲットは、位置パラメータＰ、時間パラメータｔｍを有する。従って、マルチターゲット追跡は、ターゲットＴｇ［ｎ］の「位置－時間」パラメータペア（Ｐ，ｔｍ）のシーケンスを決定することができる。該シーケンスは、ターゲットＴｇ［ｎ］の軌跡Ｔｒ［ｎ］を示すことができる。即ち、マルチターゲット追跡は、フレームを跨いで各ターゲットを追跡し、各ターゲットの軌跡を決定することができる。追跡対象が人であることを一例にすると、フレームを跨いで各ターゲットを追跡するマルチターゲット追跡を実現することは、通常、以下の３つのステップを含む。（１）ｔ番目のフレームにおけるターゲット（例えば、歩行者）を検出し、ターゲットの検出位置を決定する（例えば、該フレーム内のターゲットの検出枠Ｂｘを決定する）。（２）記憶された以前の軌跡のセグメント（１番目フレーム～ｔ－１番目のフレーム）を用いて、ｔ番目のフレームにおけるターゲットの位置を予測する。（３）予測位置とｔ番目のフレームにおける検出位置（即ち、検出枠の位置）とを比較し、ｔ番目のフレームにおけるターゲットの検出位置と以前に記憶された軌跡セグメントとを関連付ける（例えば、Ｂｘの位置と、ＩＤがＩＤｎであるターゲットＴｇ［ｎ］の以前の軌跡セグメントＴｒ［ｎ］のターゲット予測位置とが近い場合、Ｂｘと以前の軌跡セグメントＴｒ［ｎ］との関連付けを実現するために、ＢｘのＩＤ属性を「ＩＤｎ」に設定し、それに応じて、軌跡セグメントＴｒ［ｎ］に、Ｂｘに対応する軌跡点を追加し、即ち、軌跡セグメントＴｒ［ｎ］を更新する）ことによって、追跡軌跡の更新を実行する。例えば、特許文献１（ＣＮ１１６９５８８７３Ａ）には、ターゲット検出モデルが少なくとも１つの頭部検出枠及び少なくとも１つの人体検出枠を出力する歩行者追跡方法が開示されている。予定の人の群れの密度の場合、人体検出枠にマッチングしていない頭部検出枠について、該頭部検出枠に基づいて、対応する推定人体検出枠を推定し、人体マルチターゲット追跡器を利用して該推定人体検出枠のターゲット識別子を出力する。現在のマルチターゲット追跡技術では、特に混雑したシナリオにおいて、ＩＤ切り替え（ＩＤ－ｓｗｉｔｃｈ）が非常に一般的である。ＩＤ切り替えは、ターゲットＴｇ［ｎ］の軌跡セグメントＴｒ［ｎ］に実際に別のターゲットＴｇ［ｎ’］の軌跡点が含まれているという現象に対応する。即ち、追跡軌跡に誤った軌跡点が出現している。追跡方法の全体的な性能を向上させるために、ＩＤ切り替えを補正することが求められている。本開示の上記及び他の目的、特徴及び利点をより容易に理解させるために、以下は図面を参照しながら本開示の実施形態を説明する。なお、図面は、単なる本開示の原理を説明するためのものである。図面では、縮尺に従って各部のサイズ及び相対位置を描く必要がない。同一の符号は、同一の特徴を表示してもよい。本開示の１つの実施例に係るマルチターゲット追跡のための方法の一例を示すフローチャートである。本開示の１つの実施例に係る（ｔ－１）番目のフレームの入力画像の一例を示す概略図である。本開示の１つの実施例に係るｔ番目のフレームの入力画像の一例を示す概略図である。図２ａ及び図２ｂに対応する真のターゲット軌跡を示す図である。図２ｂに示す入力画像において検出されたターゲット全身検出枠を示す図である。図２ｂに示す入力画像において検出されたターゲット頭部検出枠を示す図である。図３ａに示すターゲット全身検出枠の割り当てられた全身識別子を示す図である。図４ａに示す全身識別子に対応するターゲット全身軌跡を示す図である。図３ｂに示すターゲット頭部検出枠の割り当てられた頭部識別子を示す図である。図５ａに示す頭部識別子に対応するターゲット頭部軌跡を示す図である。図２ｂに示すターゲット頭部検出枠に対応するターゲット全身予測枠を示す図である。図２ｂに示すターゲット頭部検出枠のターゲット全身関連枠を示す図である。図４ａにおける現在の軌跡点に対応する検出枠の全身識別子の補正後の全身識別子を示す図である。図７ａにおける補正後の全身識別子に基づいて得られたターゲット全身軌跡を示す図である。本開示の１つの実施例に係るマルチターゲット追跡のための装置の一例を示すブロック図である。本開示の１つの実施例に係るマルチターゲット追跡のための装置の一例を示すブロック図である。本開示の１つの実施例に係る情報処理装置の一例を示すブロック図である。以下は図面を参照しながら本開示の例示的な実施形態を説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、当業者が実施形態を実現する際に、実施形態を実現するために特定の決定を行ってもよく、これらの決定は実施形態に応じて変更されてもよい。なお、本開示を明確にするために、図面には本開示に密に関連する装置の構成要件及び／又は処理のステップのみが示され、本開示と関係のない細部が省略されている。なお、本開示は、添付の図面を参照して以下の説明を行うため、説明された実施形態に限定されない。本明細書では、実行可能である場合、実施例を互いに組み合わせてもよいし、異なる実施例の特徴を置き換え、或いは利用してもよいし、１つの実施例において１つ又は複数の特徴を省略してもよい。本明細書に開示される例示的な実施例の各態様の操作を実行するためのコンピュータプログラムのコードは、１つ又は複数のプログラミング言語の任意の組み合わせで記述されてもよく、該プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などの対象指向プログラミング言語を含み、「Ｃ」プログラミング言語又は同様なプログラミング言語などの従来の手続き型プログラミング言語を含む。本開示の方法は、対応する機能的構成を有する回路により実現されてもよい。該回路は、プロセッサのための回路を含む。本開示の１つの態様は、マルチターゲット追跡のための方法に関する。該方法は、コンピュータにより実現されてもよい。本発明の発明者は、マルチターゲット追跡を実現するためのマルチターゲット追跡モデルを研究したところ、入力フレームにおいて、ターゲットの頭部に比べて、ターゲットの胴体の一部又は全部が遮蔽される可能性が高いため、ＩＤ切り替えが発生し、追跡の正確度が低下する可能性があることを発見した。そのため、本発明の発明者は、試験を行ったところ、上記の問題を軽減するために、頭部と全身との結合に基づくマルチターゲット追跡方法を提案する。以下は、図１を参照しながら該方法を例示的に説明する。図１は、本開示の１つの実施例に係るマルチターゲット追跡のための方法の一例を示すフローチャートである。一例では、方法１００は、対応するコンピュータプログラムを実行するコンピュータにより実現される。ステップＯｐ１０１において、ターゲット全身検出を実行して現在の入力画像Ｉｍ［ｔ］における複数のターゲット全身検出枠（以下、１つのターゲット全身検出枠をＢ［Ｉ］で表し、ターゲット全身検出枠セットを｛Ｂ［Ｉ］｝で表す）を決定し、ターゲット頭部検出を実行して現在の入力画像における複数のターゲット頭部検出枠（以下、１つのターゲット頭部検出枠をｂ［ｉ］で表し、ターゲット頭部検出枠セットを｛ｂ［ｉ］｝で表す）を決定する。ｔは入力画像のインデックスであり、例えば、ｔは入力画像のフレーム番号である。ターゲットは人間である。ターゲット頭部検出枠は、画像におけるターゲットの頭部が位置する領域を示す。ターゲット全身検出枠は、画像におけるターゲットの全身（頭部と胴体を含むターゲットの身体全体）が位置する領域を示す。ステップＯｐ１０１の出力結果に基づいて、各検出枠の高さ、幅、位置（例えば、左上の座標、右下の座標）などを決定することができる。入力画像は、関心のある場所を監視するカメラから取得されてもよい。カメラの設置高さは、好ましくは、１．５ｍ以上である。カメラの設置高さは、例えば、１．５ｍ、１．６ｍ、１．７ｍ、１．８ｍ、１．９ｍ、２．０ｍ又は２．４ｍなどである。カメラを屋内に設置する場合、カメラを天井に近い高さに設置してもよい。一例では、以下のように示すように、ターゲット全身検出及びターゲット頭部検出は、同一のモデルｄＭで実現される。（｛Ｂ［Ｉ］｝，｛ｂ［ｉ］｝）＝ｄＭ（Ｉｍ［ｔ］）。例えば、画像Ｉｍ［ｔ］はモデルｄＭに入力され、該モデルｄＭは、複数のターゲット全身検出枠及び複数のターゲット頭部検出枠を出力し、オプションとして、その関連パラメータ（例えば、幅、高さ、信頼性など）をさらに出力してもよい。ここで、検出されたターゲット全身検出枠の数は、検出されたターゲット頭部検出枠の数と等しくてもよく、等しくなくてもよい（多い場合又は少ない場合を含む）。モデルｄＭは、ニューラルネットワークに基づくモデルであってもよい。モデルがサンプルを用いて訓練された後に得られたモデルは、ステップＯｐ１０１を実現するために使用されてもよい。例えば、カメラ監視視野には２つのターゲットＴｇ［１］及びＴｇ［２］がある。図２ａに示すように、（ｔ－１）番目のフレームにおいて、ターゲットＴｇ［１］及びＴｇ［２］は視野の左側に位置する。図２ｂに示すように、ｔ番目のフレームにおいて、ターゲットＴｇ［１］及びＴｇ［２］は視野の右側に位置する（即ち、右側に進む）。図２ｃは、このような進行により形成された真の軌跡ｔＴｒ［１］、ｔＴｒ［２］を示している。ここで、説明の便宜上、より早い時点の軌跡点は省略されている。画像Ｉｍ［ｔ］がモデルｄＭに入力されると、モデルｄＭは、４つの検出枠、即ち、図３ａに示すターゲット全身検出枠Ｂ［１］及びＢ［２］（この段階は検出段階であり、各検出枠には全身識別子ｗＩＤが割り当てられていない）、図３ｂに示すターゲット頭部検出枠ｂ［１］及びｂ［２］（この段階は検出段階であり、各検出枠には頭部識別子ｈＩＤが割り当てられていない）を出力する。ステップＯｐ１０３において、全身軌跡関連付け