JP-2026515077-A - 本質的に説明可能なニューラルネットワークの使用による画像の解釈可能な分類のためのシステムおよび方法

JP2026515077AJP 2026515077 AJP2026515077 AJP 2026515077AJP-2026515077-A

Abstract

人工知能ベースの画像処理システムは、プロセッサを備え、プロセッサは、メモリに格納された命令を実行することにより、バックボーンサブネットワークとプロトタイプサブネットワークと読み出しサブネットワークとを含むプロトタイプ部分ニューラルネットワークを用いて入力画像を分類して、入力画像の分類結果および分類結果の解釈の一方または組み合わせを含む、入力画像の解釈可能な分類を生成する。バックボーンサブネットワークは、アクティブ畳み込み層の不完全なシーケンスを用いて入力画像を処理することにより入力画像の異なる領域の画素から抽出された特徴を表す特徴埋め込みを生成するように、機械学習を用いて訓練される。プロトタイプサブネットワークは、特徴埋め込みをプロトタイプ特徴埋め込みと比較して比較の結果を生成するように訓練され、読み出しサブネットワークは、比較の結果を分析して入力画像の解釈可能な分類を生成するように構成される。

Inventors

ジョーンズ，マイケル
ロフィット，スハス
チェリアン，アノープ
カーマイケル，ザカリヤ

Assignees

三菱電機株式会社

Dates

Publication Date: 20260513
Application Date: 20240412
Priority Date: 20230725

Claims (20)

入力画像の解釈可能な分類のための人工知能（ＡＩ）画像処理システムであって、前記ＡＩ画像処理システムは、プロセッサと、命令が格納されたメモリとを備え、前記命令は、前記プロセッサによって実行されると、前記ＡＩ画像処理システムに、バックボーンサブネットワークとプロトタイプサブネットワークと読み出しサブネットワークとを含むプロトタイプ部分ニューラルネットワークを用いて入力画像を分類して、前記入力画像の分類結果および前記分類結果の解釈の一方または組み合わせを含む、前記入力画像の解釈可能な分類を生成することを実行させ、前記バックボーンサブネットワークは、アクティブ畳み込み層の不完全なシーケンスを用いて前記入力画像を処理することにより前記入力画像の異なる領域の画素から抽出された特徴を表す特徴埋め込みを生成するように、機械学習を用いて訓練され、前記アクティブ畳み込み層の完全なシーケンスは、前記特徴埋め込みの各々が、前記入力画像全体の画素から導出された特徴を含むようにさせ、前記プロトタイプサブネットワークは、前記特徴埋め込みをプロトタイプ特徴埋め込みと比較して比較の結果を生成するように訓練され、前記読み出しサブネットワークは、前記比較の結果を分析して前記入力画像の前記解釈可能な分類を生成するように構成され、前記命令はさらに、前記ＡＩ画像処理システムに、前記入力画像の前記解釈可能な分類を出力することを実行させる、ＡＩ画像処理システム。
前記プロセッサは、各反復において異なる数の前記アクティブ畳み込み層を用いて、前記入力画像を前記プロトタイプ部分ニューラルネットワークによって反復的に分類するように構成される、請求項１に記載のＡＩ画像処理システム。
前記プロセッサはさらに、前記アクティブ畳み込み層の数をパラメータとして受け入れるように構成される、請求項２に記載のＡＩ画像処理システム。
前記バックボーンサブネットワークは、複数のコア層およびアドオン層を含み、前記アドオン層は、前記複数のコア層が提供する出力におけるチャネルの数を変更する、請求項１に記載のＡＩ画像処理システム。
前記アドオン層は、正規化線形ユニット（ＲｅＬＵ）活性化関数を有する第１の層と、シグモイド活性化関数を有する第２の層とを含む、請求項４に記載のＡＩ画像処理システム。
前記プロトタイプサブネットワークは、前記入力画像の異なる領域の画素から抽出された前記特徴に対応する複数の特徴ベクトルを生成し、前記特徴ベクトルと前記プロトタイプ特徴埋め込みとの間のペアワイズ距離を計算し、前記特徴ベクトルと前記プロトタイプ特徴埋め込みとの間の前記ペアワイズ距離に基づいて、プロトタイプごとに最も近い埋め込まれたパッチを決定する、請求項１に記載のＡＩ画像処理システム。
前記読み出しサブネットワークは、前記比較の結果のうち、同一クラスのプロトタイプユニットに正の重みを割り当て、クラス無しのプロトタイプユニットに負の重みを割り当てる、全結合層を含む、請求項１に記載のＡＩ画像処理システム。
前記分類結果は、前記入力画像に存在する少なくとも１つのオブジェクトクラスを含み、前記分類結果の前記解釈は、前記入力画像に最も適合する前記少なくとも１つのオブジェクトクラスについてのプロトタイプ部分からの画像領域に関して定義される、請求項１に記載のＡＩ画像処理システム。
前記入力画像に最も適合する前記少なくとも１つのオブジェクトクラスについての前記プロトタイプ部分は、前記入力画像を前記少なくとも１つのオブジェクトクラスに分類するための前記プロトタイプ部分ニューラルネットワークの分類決定に関連付けられる理由を表す、請求項８に記載のＡＩ画像処理システム。
前記プロトタイプ部分は、前記少なくとも１つのオブジェクトクラスに関連付けられる訓練画像に対応する、請求項８に記載のＡＩ画像処理システム。
前記プロセッサはさらに、前記メモリから、複数の基準パッチに分割される基準画像をフェッチすることと、前記プロトタイプ部分からの前記画像領域を前記基準パッチと比較して、前記画像領域の各々は前記基準パッチのうちの少なくとも１つと類似しているか否かを判断することと、前記画像領域のうちの少なくとも１つが前記基準パッチのすべてと類似していない場合、異常を宣言することとを、実行するように構成される、請求項１０に記載のＡＩ画像処理システム。
入力画像の解釈可能な分類のための画像処理方法であって、前記画像処理方法は、バックボーンサブネットワークとプロトタイプサブネットワークと読み出しサブネットワークとを含むプロトタイプ部分ニューラルネットワークを用いて入力画像を分類して、前記入力画像の分類結果および前記分類結果の解釈の一方または組み合わせを含む、前記入力画像の解釈可能な分類を生成することを含み、前記バックボーンサブネットワークは、アクティブ畳み込み層の不完全なシーケンスを用いて前記入力画像を処理することにより前記入力画像の異なる領域の画素から抽出された特徴を表す特徴埋め込みを生成するように、機械学習を用いて訓練され、前記アクティブ畳み込み層の完全なシーケンスは、前記特徴埋め込みの各々が、前記入力画像全体の画素から導出される特徴を含むようにさせ、前記プロトタイプサブネットワークは、前記特徴埋め込みをプロトタイプ特徴埋め込みと比較して比較の結果を生成するように訓練され、前記読み出しサブネットワークは、前記比較の結果を分析して前記入力画像の前記解釈可能な分類を生成するように構成され、前記画像処理方法はさらに、前記入力画像の前記解釈可能な分類を出力することを含む、画像処理方法。
前記プロセッサは、各反復において異なる数の前記アクティブ畳み込み層を用いて、前記入力画像を前記プロトタイプ部分ニューラルネットワークによって反復的に分類するように構成される、請求項１２に記載の画像処理方法。
前記プロセッサはさらに、前記アクティブ畳み込み層の数をパラメータとして受け入れるように構成される、請求項１３に記載の画像処理方法。
前記バックボーンサブネットワークは、複数のコア層およびアドオン層を含み、前記アドオン層は、前記複数のコア層が提供する出力におけるチャネルの数を変更する、請求項１２に記載の画像処理方法。
前記プロトタイプサブネットワークは、前記入力画像の異なる領域の画素から抽出された前記特徴に対応する複数の特徴ベクトルを生成し、前記特徴ベクトルと前記プロトタイプ特徴埋め込みとの間のペアワイズ距離を計算し、前記特徴ベクトルと前記プロトタイプ特徴埋め込みとの間の前記ペアワイズ距離に基づいて、プロトタイプごとに最も近い埋め込まれたパッチを決定する、請求項１２に記載の画像処理方法。
前記読み出しサブネットワークは、前記比較の結果のうち、同一クラスのプロトタイプユニットに正の重みを割り当て、クラス無しのプロトタイプユニットに負の重みを割り当てる、全結合層を含む、請求項１２に記載の画像処理方法。
前記分類結果は、前記入力画像に存在する少なくとも１つのオブジェクトクラスを含み、前記分類結果の前記解釈は、前記入力画像に最も適合する前記少なくとも１つのオブジェクトクラスについてのプロトタイプ部分からの画像領域に関して定義される、請求項１２に記載の画像処理方法。
前記入力画像に最も適合する前記少なくとも１つのオブジェクトクラスについての前記プロトタイプ部分は、前記入力画像を前記少なくとも１つのオブジェクトクラスに分類するための前記プロトタイプ部分ニューラルネットワークの分類決定に関連付けられる理由を表す、請求項１８に記載の画像処理方法。
メモリから、複数の基準パッチに分割される基準画像をフェッチすることと、前記プロトタイプ部分からの前記画像領域を前記基準パッチと比較して、前記画像領域の各々は前記基準パッチのうちの少なくとも１つと類似しているか否かを判断することと、前記画像領域のうちの少なくとも１つが前記基準パッチのすべてと類似していない場合、異常を宣言することとを、さらに含む、請求項１２に記載の画像処理方法。

Description

本開示は、概して画像処理に関し、より具体的には画像内のオブジェクトを認識することに関する。ニューラルネットワークは、任意の分類または回帰関数を学習するための強力なモデルである。多くの場合、ニューラルネットワークの助けを借りて実行された計算プロセスの結果とともに、ニューラルネットワークの出力が、特定のやり方で入力が分類された理由の背後にある推論をも提供することが望ましい。しかしながら、ニューラルネットワークの主な欠点の１つは、ニューラルネットワークがブラックボックスであることであり、このことは、ニューラルネットワークが特定の方法で入力を分類した理由の理解を提供しないことを本質的に意味する。標準的なニューラルネットワークは、その出力についていかなる種類の説明も提供しない。ＡＩがますます進化するのに伴って、人間は、アルゴリズムが如何にして結果に至ったかを把握しそのプロセスを遡ることが要求される。計算プロセス全体は、一般的に「ブラックボックス」と呼ばれている、解釈することができないものに変えられる。これらのブラックボックスモデルは、データから直接ニューラルネットワークによって作成され、アルゴリズムを設計したエンジニアまたはデータ科学者でさえ、正確にはその内部で何が起こっているのか、またはＡＩアルゴリズムが如何にして特定の結果に至ったかを、理解または説明することはできない。説明可能な人工知能（ＸＡＩ：explainable artificial intelligence）は、機械学習アルゴリズムによって作成された結果および出力を人間のユーザが理解し信頼することを可能にするプロセスおよび方法のセットである。説明可能なＡＩは、ＡＩモデル、その予想される影響、および潜在的なバイアスを記述するために使用される。これは、モデルの正確性、公平性、透明性、およびＡＩを活用した意思決定における成果物を特徴付けるのに役立つ。説明可能なＡＩは、組織にとって、ＡＩモデルを生産に導入する際の信頼および自信を構築するのに極めて重要である。ＡＩの説明可能性（explainability）は、組織がＡＩ開発に対して責任のあるアプローチを採用するのにも役立つ。説明可能なＡＩにおけるいくつかの進歩は、部分プロトタイプネットワークと呼ばれることもあるプロトタイプ部分ネットワークを用いて達成されている。プロトタイプ部分ネットワークは、訓練クラスごとにプロトタイプ部分のセットを学習することにより、ニューラルネットワークに何らかの解釈可能性（interpretability）を加えようと試みる。プロトタイプ部分は、オブジェクトの画像からの特徴的な局所領域を表すことを意図している。しかしながら、プロトタイプ部分を学習するためのそのような手段すべてに、説明可能性が低いという問題がある。たとえば、画像処理という領域において、利用可能なプロトタイプ部分ネットワークによって学習されたプロトタイプは、実際には、入力画像の局所領域ではなく入力画像全体を含む受容野を有する。したがって、入力の分類の背後にある推論のロバストな説明を提供することができる説明可能なＡＩを実現するための改善された方法が必要である。いくつかの実施形態の目的は、ＡＩベースの決定をより理解可能かつ解釈可能にするための手段を提供することである。いくつかの実施形態の例は、ディープニューラルネットワークを効率的に説明可能にすることに向けられている。いつかの実施形態の例はまた、画像処理、異常検出、およびデータセキュリティという技術分野へのＡＩベースのモデルの統合および採用を改善するという目的に向けられている。いくつかの実施形態の例は、ＡＩ対応システムが如何にして特定の出力に導かれたかを理解することに関連する多数の利点がある、という認識に基づいている。たとえば、説明可能性は、システムが予想通りに動作していること、または規制基準を満たすことが必要となり得ること、または決定の影響を受けるものがその成果物を疑うまたは変更することを可能にするのに重要となり得ることを、保証するのに役立ち得る。いくつかの実施形態の例はまた、ＡＩにおける説明可能性が、ＡＩシステムを他のデバイスおよびアルゴリズムに採用および統合することにとって重要であることを認識する。いくつかの実施形態はまた、生産データが訓練データと異なるため、ＡＩモデルの性能が、ドリフトまたは劣化する可能性もあることを認識する。そのため、そのようなアルゴリズムの使用がビジネスに与える影響を評価しつつ、ＡＩの説明可能性を促進するためにモデルを継続的に監視および管理することが重要になる。説明可能なＡＩは、エンドユーザの信頼、モデルの監査可能性、およびＡＩの生産的な使用を促進するのにも役立つ。これはまた、生産ＡＩのコンプライアンス、法律、セキュリティ、および評判のリスクを緩和する。いくつかの実施形態の例は、上記ニーズおよび基準を満たすには、ＡＩベースの意思決定の説明可能性がロバストかつ明確でなければならない、というもう１つの認識に基づく。いくつかの実施形態の例はまた、分類精度を改善するには、プロトタイプを学習するための受容野が入力データ全体を包含することが望ましいことを認識する。いくつかの実施形態の例はまた、ＡＩベースの画像処理という文脈において、データの分類についての説明可能性を提供する１つの方法は、学習されたプロトタイプ部分を入力画像の部分と照合し、最も一致するプロトタイプおよび入力画像内の対応する一致場所を識別して、プロトタイプ部分ネットワークの出力に対して説明可能性を提供することであることを、認識する。たとえば、説明は、入力画像の部分（すなわち領域）の特定のセットが、特定のオブジェクトクラスのプロトタイプ部分の特定のセットと十分に一致する、という説明であってもよい。そのようなプロトタイプ部分ネットワークの説明可能性は、「入力画像内のこれらの領域は、あるオブジェクトクラスの典型的な画像のこれらの部分と一致しそのためこのオブジェクトクラスが出力として選択された」という、形態の説明に限定される。しかしながら、いくつかの用途は、基礎をなすＡＩモデルを調整するのに役立ち得る説明などの、分類決定についてのより有意義な説明を必要とする。したがって、いくつかの実施形態の例は、分類のためには、入力データ全体を含む受容野を有する学習プロトタイプが、分類についての説明を生成するのに最適ではない場合がある、という認識に基づく。いくつかの実施形態の例は、基礎をなすＡＩアルゴリズムの改善された説明可能性のためのシステムおよび方法を提供する。いくつかの実施形態の例は、画像の局所領域に正確に対応するプロトタイプを学習することによって説明可能性を改善するプロトタイプ部分ネットワークのための手段および方策を提供する。本発明のいくつかの実施形態は、ＡＩアプローチがより高度になるのに伴い、その設計およびその意思決定プロセスの理論的根拠がユーザにとって不透明であるＭＬモデルによって意思決定が行われることが多くなっている、という認識を反映する。また、本発明のいくつかの実施形態は、同様に、そのようなＭＬモデルの不透明性が、ＡＩ説明可能性を妨害し、ひいては、それがもたらす成果物に対するユーザの信頼を損なう、という認識を反映する。したがって、本発明のいくつかの実施形態は、理想的には、ＭＬモデルが如何にして特定のアクションを実施したか、および何故特定の決定に到達したかについてユーザが解釈可能な見識を、ＡＩ説明可能性が提供する、という認識を反映する。この時点において、ＡＩモデルは他の手段よりも優れた意思決定を提供し得るものの、そのようなモデルについてのロバストな説明可能性の欠如は、拡大・縮小された動作に対してそれを採用することを阻害し得ることを、理解することが不可欠である。いくつかの実施形態の例が対象とする１つの重要な応用分野は、人工知能ベースのモデルを使用した画像処理である。いくつかの実施形態の例は、画像分類のための改善されたネットワークアーキテクチャに向けられている。改善されたネットワークアーキテクチャは、訓練画像の局所領域に関連付けられた訓練クラスごとにプロトタイプのセットを学習するための機構を含む。分類中、プロセスの一部として、学習されたプロトタイプは、画像を分類する（たとえば画像に含まれるオブジェクトタイプを分類する）ために、入力画像の局所領域と照合される。最も一致するプロトタイプは、画像が特定のやり方で分類された理由の説明として機能する。プロトタイプは、画像の特定の部分が、画像の最終的な分類の証拠を提供する訓練画像の特定の部分と一致したと言うために使用されてもよい。いくつかの実施形態の例では、プロトタイプ部分サブネットワークを使用して、ニューラルネットワークは、最も一致するプロトタイプと、それらが最も一致した場所とを、特定の分類の証拠として提供することができる。いくつかの実施形態の例はまた、そのような分類のための処理時間が、多くの用途において説明可能なＡＩを採用するための重要なパラメータであることを、認識する。いくつかの実施形態の例はまた、画像の分類のための処理時間が、プロトタイプが訓練画像の局所領域に対応するか訓練画像の全体に対応するかによって決まることを、認識する。したがって、いくつかの実施形態の例の目的は、入力画像の分類のための処理時間を短縮することである。この点に関して、いくつかの実施形態の例は、プロトタイプを取り出すネットワーク層の受容野を制限する。いくつかの実施形態の例の目的は、プロトタイプを取り出す訓練画像の埋め込まれたパッチを、完全な画像ではなく入力画像の局所領域に対応するように制限することである。よって、いくつかの実施形態の例は、入力画像から特徴を抽出するために使用される層のカウントを、特徴抽出に利用可能な層の全カウントよりも少なくなるように修正する。このように、いくつかの実施形態の例は、入力画像の異なる領域の画素から抽出された特徴を表す特徴埋め込みを生成するために、層の不完全なシーケンスを利用する。この文脈において、抽出層の完全なシーケンスは、特徴埋め込みの各々が、入力画像全体の画素から導出される特徴を含むようにさせる、と理解することができる。このようにして、特徴抽出のために使用される層（すなわちアクティブ層）の数を、調整可能なパラメータとしてもよく、入力画像の分類中のＡＩベースの意思決定の説明可能性を、特徴抽出に利用される層の数を調整することにより、要件に応じて微調整することができる。いくつかの実施形態の例において、利用するアクティブ層の数は、画像分類のためのパラメータとして認められてもよい。いくつかの実施形態の例は、入力画像内のオブジェクト部分に正確に対応する局所プロトタイプをもたらし、したがって、本明細書に開示されるニューラルネットワークは、異なる解釈可能性メトリックに従うより優れた解釈可能性を有する。加えて、本明細書に開示される改善されたニューラルネットワークは、特徴抽出のために、利用可能な層の総数よりも少ない数の層を利用するための規定を有するので、画像分類のために費やされる総時間が大幅に短縮される。よって、ＡＩベースの画像分類の改善された説明可能性とともに、いくつかの実施形態の例はまた、より高速な画像分類システムをもたらす。このため、さもなければＡＩベースの意思決定を取り入れていないであろういくつかの用途分野が、開示されたさまざまなタスクを実行するためのＡＩベースの画像分類方法およびシステムのシームレスな統合の恩恵を受けることができる。上記目的および進歩を達成するために、いくつかの実施形態の例は、入力画像の解釈可能な分類のための人工知能ベースの画像処理のシステム、方法、およびコンピュータプログラム製品を提供する。いくつかの実施形態の例は、入力画像の解釈可能