JP-7855259-B2 - 生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法、及びその演算装置、並びに方法を行うためのプログラムコードを記録した記録媒体

JP7855259B2JP 7855259 B2JP7855259 B2JP 7855259B2JP-7855259-B2

Inventors

ペク，ジュンキ

Assignees

チュンアン・ユニヴァーシティ・インダストリー・アカデミック・コーペレーション・ファウンデーション

Dates

Publication Date: 20260508
Application Date: 20231227
Priority Date: 20231115

Claims (8)

（ａ）ターゲット画像を入力されるステップと、（ｂ）前記ターゲット画像を、学習済みの生成再帰型ニューラルネットワークモデルに適用して、前記ターゲット画像の類型によって、画質の改善した高画質画像及び低画質画像のうちいずれか一つを選択的に生成するステップと、を含み、前記生成再帰型ニューラルネットワークモデルは、第１画像と第２画像のうち低画質画像を入力された後、前記画質の改善した高画質画像を生成する画像強調ニューラルネットワークモジュールと、前記画像強調ニューラルネットワークモジュールの後端に位置するが、前記画質の改善した高画質画像を入力された後、低画質画像を生成する劣化画像ニューラルネットワークモジュールと、前記第１画像と前記第２画像のうち高画質画像と、前記画質の改善した高画質画像についての第１一貫性損失が最小になるように、前記画像強調ニューラルネットワークモジュールの加重値を調整する第１識別モジュールと、前記第１画像と前記第２画像のうち低画質画像と、前記劣化画像ニューラルネットワークモジュールから出力された低画質画像を用いて、第２一貫性損失を計算した後、前記第２一貫性損失が最小になるように、前記劣化画像ニューラルネットワークモジュールの加重値を調整する第２識別モジュールと、を備え、前記画像強調ニューラルネットワークモジュール及び前記劣化画像ニューラルネットワークモジュールは、それぞれ複数のトランスフォーマ基盤のエンコーダ及び複数の畳み込み層を用いたデコーダで構成されるが、複数のトランスフォーマ及び前記複数の畳み込み層は、互いに対称構造を有するように構成され、前記複数のトランスフォーマは、それぞれ、入力画像の特徴マップを抽出する畳み込み層と、前記抽出された特徴マップを分離（ｓｐｌｉｔ）する分離層と、前記分離された特徴マップを入力されて、第１全域特徴マップを抽出する第１スウィン・トランスフォーマブロックと、前記第１スウィン・トランスフォーマブロックの後端に位置し、前記第１全域特徴マップを入力されて第１ローカル特徴マップを抽出する第１残差ブロックと、前記分離された特徴マップを入力されて、前記分離された特徴マップについての第２ローカル特徴マップを抽出する第２残差ブロックと、前記第２残差ブロックの後端に位置し、前記第２ローカル特徴マップを入力されて、第２全域特徴マップを抽出する第２スウィン・トランスフォーマブロックと、前記第１残差ブロックから出力された前記第１ローカル特徴マップと、前記第２スウィン・トランスフォーマブロックから出力される前記第２全域特徴マップとを結合した後、前記畳み込み層を通過して特徴マップを出力する、ことを特徴とする、演算装置によって実行される、生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法。
前記生成再帰型ニューラルネットワークモデルは、学習された画像強調ニューラルネットワークモジュールと、学習された劣化画像生成モジュールを備え、前記ターゲット画像の画質が基準画質以下である場合、前記学習された画像強調ニューラルネットワークモジュールのみ動作し、前記学習された劣化画像生成モジュールは動作せず、前記ターゲット画像の画質が基準画質を超える場合、前記学習された劣化画像生成モジュールのみ動作し、前記学習された画像強調ニューラルネットワークモジュールは動作しない、ことを特徴とする請求項１に記載の生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法。
前記（ａ）ステップ以前に、前記第１画像と前記第２画像を含む画像データセットを用いて、前記生成再帰型ニューラルネットワークモデルを学習させるステップをさらに含み、前記生成再帰型ニューラルネットワークモデルを学習させるステップは、前記第１画像及び前記第２画像を、前記生成再帰型ニューラルネットワークモデルに適用して、前記第１画像と前記第２画像のうち、低画質画像について前記画質の改善した高画質画像を生成し、前記画質の改善した高画質画像を用いて、低画質画像を生成するように学習させるステップを含む、ことを特徴とする請求項１に記載の生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法。
前記第１画像及び前記第２画像は、同一場面において、画質の相異なるペア（ｐａｉｒ）画像である、ことを特徴とする請求項３に記載の生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法。
請求項１に記載の方法を行うためのプログラムコードを記録した、ことを特徴とするコンピュータで読取り可能な記録媒体。
少なくとも一つの命令語を保存するメモリと、前記メモリに保存されている命令語を実行するプロセッサと、を備えるが、前記プロセッサによって実行された命令語は、それぞれ、（ａ）ターゲット画像を入力されるステップと、（ｂ）前記ターゲット画像を、学習済みの生成再帰型ニューラルネットワークモデルに適用して、前記ターゲット画像の類型によって、画質の改善した高画質画像と低画質画像のうちいずれか一つを選択的に生成するステップと、を行い、前記生成再帰型ニューラルネットワークモデルは、第１画像と第２画像のうち低画質画像を入力された後、前記画質の改善した高画質画像を生成する画像強調ニューラルネットワークモジュールと、前記画像強調ニューラルネットワークモジュールの後端に位置するが、前記画質の改善した高画質画像を入力された後、低画質画像を生成する劣化画像ニューラルネットワークモジュールと、前記第１画像と前記第２画像のうち高画質画像と、前記画質の改善した高画質画像についての第１一貫性損失が最小になるように、前記画像強調ニューラルネットワークモジュールの加重値を調整する第１識別モジュールと、前記第１画像と前記第２画像のうち低画質画像と、前記劣化画像ニューラルネットワークモジュールから出力された低画質画像を用いて、第２一貫性損失を計算した後、前記第２一貫性損失が最小になるように、前記劣化画像ニューラルネットワークモジュールの加重値を調整する第２識別モジュールと、を備え、前記画像強調ニューラルネットワークモジュール及び前記劣化画像ニューラルネットワークモジュールは、それぞれ複数のトランスフォーマ基盤のエンコーダ及び複数の畳み込み層を用いたデコーダで構成され、複数のトランスフォーマ及び前記複数の畳み込み層は、互いに対称構造を有するように構成され、前記複数のトランスフォーマは、それぞれ、入力画像の特徴マップを抽出する畳み込み層と、前記抽出された特徴マップを分離（ｓｐｌｉｔ）する分離層と、前記分離された特徴マップを入力されて、第１全域特徴マップを抽出する第１スウィン・トランスフォーマブロックと、前記第１スウィン・トランスフォーマブロックの後端に位置し、前記第１全域特徴マップを入力されて第１ローカル特徴マップを抽出する第１残差ブロックと、前記分離された特徴マップを入力されて、前記分離された特徴マップについての第２ローカル特徴マップを抽出する第２残差ブロックと、前記第２残差ブロックの後端に位置し、前記第２ローカル特徴マップを入力されて、第２全域特徴マップを抽出する第２スウィン・トランスフォーマブロックと、前記第１残差ブロックから出力された前記第１ローカル特徴マップと、前記第２スウィン・トランスフォーマブロックから出力される前記第２全域特徴マップとを結合した後、畳み込み層を通過して特徴マップを出力する、ことを特徴とする演算装置。
前記生成再帰型ニューラルネットワークモデルは、学習された画像強調ニューラルネットワークモジュールと、学習された劣化画像生成モジュールを備え、前記ターゲット画像の画質が基準画質以下である場合、前記学習された画像強調ニューラルネットワークモジュールのみ動作し、前記学習された劣化画像生成モジュールは動作せず、前記ターゲット画像の画質が基準画質を超える場合、前記学習された劣化画像生成モジュールのみ動作し、前記学習された画像強調ニューラルネットワークモジュールは動作しない、ことを特徴とする請求項６に記載の演算装置。
前記（ａ）ステップ以前に、前記第１画像と前記第２画像を含む画像データセットを用いて、前記生成再帰型ニューラルネットワークモデルを学習させるステップをさらに行い、前記生成再帰型ニューラルネットワークモデルを学習させるステップは、前記第１画像及び前記第２画像を、前記生成再帰型ニューラルネットワークモデルに適用して、前記第１画像と前記第２画像のうち、低画質画像について前記画質の改善した高画質画像を生成し、前記画質の改善した高画質画像を用いて、低画質画像を生成するように学習させるステップを含む、ことを特徴とする請求項６に記載の演算装置。

Description

本発明は、生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法及びその装置に関する。デジタル画像は、撮影環境、光学システム性能の限界、画像センサ機能の限界などにより画質が低下するという短所がある。このように低下した画質を改善するために、人工知能基盤の画像強調モデルが使われている。人工知能基盤の画像強調技術は、畳み込みニューラルネットワーク（ＣＮＮ）を使ったノイズ除去及び解像度改善技術に基づいた方法、敵対的生成ニューラルネットワークを用いた方法、ビジョン・トランスフォーマを使った方法、スウィン・トランスフォーマ（ｓｗｉｎｔｒａｎｓｆｏｒｍｅｒ）を使った方法、拡散（ｄｉｆｆｕｓｉｏｎ）モデルを使った方法などに発展しながら、性能を向上させ続けてきた。このような人工知能基盤の画像強調モデルは、高い画質の画像と、低下した画質の画像とのペアを用いた学習を必要とする。人工知能基盤の画像強調モデルの性能を保証するためには、十分な量の多様な学習画像データが必要であるが、公開された学習データ以外の特殊な環境の学習データを確保することは、非常に難しいか不可能である。また、人工知能基盤の画像強調モデルが発展し複雑になるほど、学習に必要なデータの量及び種類が急激に増加し、学習にかかる時間も増加し、特殊な環境で効果的にモデルを具現するには多くの制約がある。例えば、自律走行自動車で低照度を改善しようとする場合、道路で獲得される画像の特性を考慮しない一般的な画像強調モデルは、最適の性能を提供しにくいだけではなく、具現コスト及び処理時間などの問題のため具現し難いという問題点がある。本発明の一実施形態による生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法を示すフローチャートである。本発明の一実施形態による生成再帰型ニューラルネットワークモデルの全体構成を示す図面である。本発明の一実施形態による画像強調ニューラルネットワークモジュール及び劣化画像生成モジュールの詳細構造を示す図面である。本発明の一実施形態によるトランスフォーマブロックの詳細構造を示す図面である。本発明の一実施形態によるスウィン・トランスフォーマの詳細構造を示す図面である。本発明の一実施形態による低画質画像入力時の、生成再帰型ニューラルネットワークモデルの動作を説明するために示す図面である。本発明の一実施形態による高画質画像入力時の、生成再帰型ニューラルネットワークモデルの動作を説明するために示す図面である。本発明の一実施形態による演算装置の内部構成を概略的に示すブロック図である。本明細書で使用される単数の表現は、文脈上明らかに別の方法で示さない限り、複数の表現を含んでいる。本明細書で、「構成される」または「含む」などの用語は、明細書上に記載の多くの構成要素、または多くの段階を必ずいずれも含むと解釈されてはならず、そのうち一部の構成要素または一部の段階は含まれないこともあり、またはさらなる構成要素または段階をさらに含むことができると解釈されねばならない。また、明細書に記載の「・・・部」、「モジュール」などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェアまたはソフトウェアで具現されるか、またはハードウェアとソフトウェアとの結合で具現される。以下、添付した図面を参照して本発明の実施形態を詳細に説明する。図１は、本発明の一実施形態による生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法を示すフローチャートであり、図２は、本発明の一実施形態による生成再帰型ニューラルネットワークモデルの全体構成を示す図面であり、図３は、本発明の一実施形態による画像強調ニューラルネットワークモジュール及び劣化画像生成モジュールの詳細構造を示す図面であり、図４は、本発明の一実施形態によるトランスフォーマブロックの詳細構造を示す図面であり、図５は、本発明の一実施形態によるスウィン・トランスフォーマの詳細構造を示す図面であり、図６は、本発明の一実施形態による低画質画像入力時の、生成再帰型ニューラルネットワークモデルの動作を説明するために示す図面であり、図７は、本発明の一実施形態による高画質画像入力時の、生成再帰型ニューラルネットワークモデルの動作を説明するために示す図面である。１１０ステップで、演算装置１００は、画像データセットを入力される。便宜のため、画像データセットをのように示す。画像データセットは、同一場面において、画質の相異なる画像が一つのペア（ｐａｉｒ）で構成され、Ｎ個のペアを含むことができる。以下では、理解及び説明の便宜のため、は、ｉ番目の画像ペアの高画質画像と表記し、は、ｉ番目の画像ペアの低画質画像と表記して説明する。１１５ステップで、演算装置１００は、ｉ番目の画像ペア（，）を生成再帰型ニューラルネットワークモデルに適用して、について画質の改善した高画質画像を生成し、画質の改善した高画質画像を用いて低画質画像を生成するように、生成再帰型ニューラルネットワークモデルを学習させる。図２に、生成再帰型ニューラルネットワークモデルの詳細構造が示されている。図２を参照して、これについてさらに詳細に説明する。図２に示されたように、生成再帰型ニューラルネットワークモデルは、画像強調ニューラルネットワークモジュール２１０、劣化画像生成モジュール２２０、第１識別モジュール２３０、及び第２識別モジュール２４０を備えて構成される。生成再帰型ニューラルネットワークモデルの学習のために、を画像強調ニューラルネットワークモジュール２１０に適用し、画像強調ニューラルネットワークモジュール２１０は、について画質の改善した高画質画像を生成するように学習される。画像強調ニューラルネットワークモジュール２１０の出力である、画質の改善した高画質画像は、該画像強調ニューラルネットワークモジュール２１０の後端に位置している劣化画像生成モジュール２２０に伝達される。劣化画像生成モジュール２２０は、画質の改善した高画質画像を入力されて、低画質画像を生成するように学習される。第１識別モジュール２３０は、画像強調ニューラルネットワークモジュール２１０の出力である、画質の改善した高画質画像とを用いて、識別確率と一貫性損失（便宜のため、第１一貫性損失と称する）を計算することができる。第１識別モジュール２３０は、識別確率が０．５になり、第１一貫性損失が最小になるように、画像強調ニューラルネットワークモジュール２１０のパラメータ加重値を調整することができる。また、第２識別モジュール２４０は、劣化画像生成モジュール２２０の出力であるとを用いて、識別確率と一貫性損失（便宜のため第２一貫性損失と称する）を計算することができる。第２識別モジュール２４０は、識別確率が０．５になり、第２一貫性損失が最小になるように、劣化画像生成モジュール２２０のパラメータ加重値を調整することができる。画像データセットに含まれている画像ペアを用いて、生成再帰型ニューラルネットワークモデルを、低画質画像について画質の改善した画像を生成し、該画質の改善した画像を用いて低画質画像を生成するように、繰り返して学習させることができる。生成再帰型ニューラルネットワークモデルに含まれている画像強調ニューラルネットワークモジュール２１０と劣化画像生成モジュール２２０は、複数のトランスフォーマ基盤のエンコーダと複数の畳み込み層を用いたデコーダ構造で構成され、複数のトランスフォーマ基盤のエンコーダと複数の畳み込み層を用いたデコーダは、互いに対称構造を有するＵｎｅｔ構造で構成される。図３には、画像強調ニューラルネットワークモジュール２１０と劣化画像生成モジュール２２０のＵｎｅｔ構造が詳細に示されている。図３に示されたように、画像強調ニューラルネットワークモジュール２１０と劣化画像生成モジュール２２０は、同様に、複数のトランスフォーマ基盤のエンコーダと複数の畳み込み層を用いたデコーダを有するＵｎｅｔ構造で構成されるが、学習過程で、相異なる加重値でパラメータが調整されうる。これによって、画像強調ニューラルネットワークモジュール２１０と劣化画像生成モジュール２２０は、パラメータ加重値が相異なって調整されることによって、相異なる画質の画像を生成するように学習される。また、画像強調ニューラルネットワークモジュール２１０と劣化画像生成モジュール２２０それぞれのエンコーダを構成するトランスフォーマブロックは、図４に示されたように、入力画像（または特徴マップ）についての全域特徴マップを抽出した後でローカル特徴マップを抽出し、ローカル特徴マップを抽出した後で全域特徴マップを抽出し、これを統合する構造で構成される。図４には、トランスフォーマブロックの構成が示されている。図４を参照して、トランスフォーマブロックの動作について簡略に説明する。図４に示されたように、入力画像（または入力特徴マップ）から、畳み込み層を介して特徴マップが抽出され、該畳み込み層によって抽出された特徴マップは、分離層を介して２つのブランチに分離される。分離された特徴マップは、第１スウィン・トランスフォーマにより全域特徴マップ（便宜のため第１全域特徴マップと称する）を抽出した後、第１スウィン・トランスフォーマの後端に位置している第１残差ブロックに伝達されて、第１ローカル特徴マップを推正することができる。また、分離された特徴マップから、第２残差ブロックを介して第２ローカル特徴マップが抽出された後、第２スウィン・トランスフォーマによって第２全域特徴マップが推定される。第１及び第２スウィン・トランスフォーマの詳細な構造は、図５に示された通りである。推定された第１ローカル特徴マップと第２全域特徴マップとを結合した後、畳み込み演算を適用して、該トランスフォーマブロックの最終特徴マップが出力されうる。本発明の一実施形態による各トランスフォーマブロックからは、図４に示されたように、一つのブランチを介してスウィン・トランスフォーマを適用して全域特徴マップを抽出した後、後端に位置している残差ブロックに伝達してローカル特徴マップを推正し、他のブランチを介し、かつ残差ブロックを介してローカル特徴マップを抽出した後、後端に位置しているスウィン・トランスフォーマを通過させて、全域特徴マップを推正させることができる。前述したように、生成再帰型ニューラルネットワークモデルに、画像強調ニューラルネットワークモジュール及び劣化画像生成モジュールを結合して学習させることによって、特殊な環境（車載カメラ、軍事セキュリティ現場）についての高画質または低画質画像として、低画質または画質の改善した画像学習データを生成し、これを用いて該モデルを再び学習させることができる。図２ないし図４を参照して、生成再帰型ニューラルネットワークモデルの学習過程について説明した。画像データセットを用いて、生成再帰型ニューラルネットワークモデルの学習済みの後の動作過程について説明する。１２０ステップで、演算装置１００は、ターゲット画像を入力される。ここで、ターゲット画像は、低画質画像であってもよく、高画質画像であってもよい。１２