JP-7855259-B2 - 生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法、及びその演算装置、並びに方法を行うためのプログラムコードを記録した記録媒体
Inventors
- ペク,ジュン キ
Assignees
- チュンアン・ユニヴァーシティ・インダストリー・アカデミック・コーペレーション・ファウンデーション
Dates
- Publication Date
- 20260508
- Application Date
- 20231227
- Priority Date
- 20231115
Claims (8)
- (a)ターゲット画像を入力されるステップと、 (b)前記ターゲット画像を、学習済みの生成再帰型ニューラルネットワークモデルに適用して、前記ターゲット画像の類型によって、画質の改善した高画質画像及び低画質画像のうちいずれか一つを選択的に生成するステップと、を含み、 前記生成再帰型ニューラルネットワークモデルは、 第1画像と第2画像のうち低画質画像を入力された後、前記画質の改善した高画質画像を生成する画像強調ニューラルネットワークモジュールと、 前記画像強調ニューラルネットワークモジュールの後端に位置するが、前記画質の改善した高画質画像を入力された後、低画質画像を生成する劣化画像ニューラルネットワークモジュールと、 前記第1画像と前記第2画像のうち高画質画像と、前記画質の改善した高画質画像についての第1一貫性損失が最小になるように、前記画像強調ニューラルネットワークモジュールの加重値を調整する第1識別モジュールと、 前記第1画像と前記第2画像のうち低画質画像と、前記劣化画像ニューラルネットワークモジュールから出力された低画質画像を用いて、第2一貫性損失を計算した後、前記第2一貫性損失が最小になるように、前記劣化画像ニューラルネットワークモジュールの加重値を調整する第2識別モジュールと、を備え、 前記画像強調ニューラルネットワークモジュール及び前記劣化画像ニューラルネットワークモジュールは、それぞれ複数のトランスフォーマ基盤のエンコーダ及び複数の畳み込み層を用いたデコーダで構成されるが、 複 数のトランスフォーマ及び前記複数の畳み込み層は、互いに対称構造を有するように構成され、 前記 複数の トランスフォーマは、それぞれ、 入力画像の特徴マップを抽出する畳み込み層と、 前記抽出された特徴マップを分離(split)する分離層と、 前記分離された特徴マップを入力されて、第1全域特徴マップを抽出する第1スウィン・トランスフォーマブロックと、 前記第1スウィン・トランスフォーマブロックの後端に位置し、前記第1全域特徴マップを入力されて第1ローカル特徴マップを抽出する第1残差ブロックと、 前記分離された特徴マップを入力されて、前記分離された特徴マップについての第2ローカル特徴マップを抽出する第2残差ブロックと、 前記第2残差ブロックの後端に位置し、前記第2ローカル特徴マップを入力されて、第2全域特徴マップを抽出する第2スウィン・トランスフォーマブロックと、 前記第1残差ブロックから出力された前記第1ローカル特徴マップと、前記第2スウィン・トランスフォーマブロックから出力される前記第2全域特徴マップとを結合した後、前記畳み込み層を通過して特徴マップを出力する、ことを特徴とする、 演算装置によって実行される、 生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法。
- 前記生成再帰型ニューラルネットワークモデルは、 学習された画像強調ニューラルネットワークモジュールと、学習された劣化画像生成モジュールを備え、 前記ターゲット画像の画質が基準画質以下である場合、前記学習された画像強調ニューラルネットワークモジュールのみ動作し、前記学習された劣化画像生成モジュールは動作せず、 前記ターゲット画像の画質が基準画質を超える場合、前記学習された劣化画像生成モジュールのみ動作し、前記学習された画像強調ニューラルネットワークモジュールは動作しない、ことを特徴とする請求項1に記載の生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法。
- 前記(a)ステップ以前に、 前記第1画像と前記第2画像を含む画像データセットを用いて、前記生成再帰型ニューラルネットワークモデルを学習させるステップをさらに含み、 前記生成再帰型ニューラルネットワークモデルを学習させるステップは、 前記第1画像及び前記第2画像を、前記生成再帰型ニューラルネットワークモデルに適用して、前記第1画像と前記第2画像のうち、低画質画像について前記画質の改善した高画質画像を生成し、前記画質の改善した高画質画像を用いて、低画質画像を生成するように学習させるステップを含む、ことを特徴とする請求項1に記載の生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法。
- 前記第1画像及び前記第2画像は、同一場面において、画質の相異なるペア(pair)画像である、ことを特徴とする請求項3に記載の生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法。
- 請求項1に記載の方法を行うためのプログラムコードを記録した、ことを特徴とするコンピュータで読取り可能な記録媒体。
- 少なくとも一つの命令語を保存するメモリと、 前記メモリに保存されている命令語を実行するプロセッサと、を備えるが、 前記プロセッサによって実行された命令語は、それぞれ、 (a)ターゲット画像を入力されるステップと、 (b)前記ターゲット画像を、学習済みの生成再帰型ニューラルネットワークモデルに適用して、前記ターゲット画像の類型によって、画質の改善した高画質画像と低画質画像のうちいずれか一つを選択的に生成するステップと、を行い、 前記生成再帰型ニューラルネットワークモデルは、 第1画像と第2画像のうち低画質画像を入力された後、前記画質の改善した高画質画像を生成する画像強調ニューラルネットワークモジュールと、 前記画像強調ニューラルネットワークモジュールの後端に位置するが、前記画質の改善した高画質画像を入力された後、低画質画像を生成する劣化画像ニューラルネットワークモジュールと、 前記第1画像と前記第2画像のうち高画質画像と、前記画質の改善した高画質画像についての第1一貫性損失が最小になるように、前記画像強調ニューラルネットワークモジュールの加重値を調整する第1識別モジュールと、 前記第1画像と前記第2画像のうち低画質画像と、前記劣化画像ニューラルネットワークモジュールから出力された低画質画像を用いて、第2一貫性損失を計算した後、前記第2一貫性損失が最小になるように、前記劣化画像ニューラルネットワークモジュールの加重値を調整する第2識別モジュールと、を備え、 前記画像強調ニューラルネットワークモジュール及び前記劣化画像ニューラルネットワークモジュールは、それぞれ複数のトランスフォーマ基盤のエンコーダ及び複数の畳み込み層を用いたデコーダで構成され、 複 数のトランスフォーマ及び前記複数の畳み込み層は、互いに対称構造を有するように構成され、 前記 複数の トランスフォーマは、それぞれ、 入力画像の特徴マップを抽出する畳み込み層と、 前記抽出された特徴マップを分離(split)する分離層と、 前記分離された特徴マップを入力されて、第1全域特徴マップを抽出する第1スウィン・トランスフォーマブロックと、 前記第1スウィン・トランスフォーマブロックの後端に位置し、前記第1全域特徴マップを入力されて第1ローカル特徴マップを抽出する第1残差ブロックと、 前記分離された特徴マップを入力されて、前記分離された特徴マップについての第2ローカル特徴マップを抽出する第2残差ブロックと、 前記第2残差ブロックの後端に位置し、前記第2ローカル特徴マップを入力されて、第2全域特徴マップを抽出する第2スウィン・トランスフォーマブロックと、 前記第1残差ブロックから出力された前記第1ローカル特徴マップと、前記第2スウィン・トランスフォーマブロックから出力される前記第2全域特徴マップとを結合した後、畳み込み層を通過して特徴マップを出力する、ことを特徴とする演算装置。
- 前記生成再帰型ニューラルネットワークモデルは、 学習された画像強調ニューラルネットワークモジュールと、学習された劣化画像生成モジュールを備え、 前記ターゲット画像の画質が基準画質以下である場合、前記学習された画像強調ニューラルネットワークモジュールのみ動作し、前記学習された劣化画像生成モジュールは動作せず、 前記ターゲット画像の画質が基準画質を超える場合、前記学習された劣化画像生成モジュールのみ動作し、前記学習された画像強調ニューラルネットワークモジュールは動作しない、ことを特徴とする請求項6に記載の演算装置。
- 前記(a)ステップ以前に、 前記第1画像と前記第2画像を含む画像データセットを用いて、前記生成再帰型ニューラルネットワークモデルを学習させるステップをさらに行い、 前記生成再帰型ニューラルネットワークモデルを学習させるステップは、 前記第1画像及び前記第2画像を、前記生成再帰型ニューラルネットワークモデルに適用して、前記第1画像と前記第2画像のうち、低画質画像について前記画質の改善した高画質画像を生成し、前記画質の改善した高画質画像を用いて、低画質画像を生成するように学習させるステップを含む、ことを特徴とする請求項6に記載の演算装置。
Description
本発明は、生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法及びその装置に関する。 デジタル画像は、撮影環境、光学システム性能の限界、画像センサ機能の限界などにより画質が低下するという短所がある。このように低下した画質を改善するために、人工知能基盤の画像強調モデルが使われている。 人工知能基盤の画像強調技術は、畳み込みニューラルネットワーク(CNN)を使ったノイズ除去及び解像度改善技術に基づいた方法、敵対的生成ニューラルネットワークを用いた方法、ビジョン・トランスフォーマを使った方法、スウィン・トランスフォーマ(swin transformer)を使った方法、拡散(diffusion)モデルを使った方法などに発展しながら、性能を向上させ続けてきた。 このような人工知能基盤の画像強調モデルは、高い画質の画像と、低下した画質の画像とのペアを用いた学習を必要とする。人工知能基盤の画像強調モデルの性能を保証するためには、十分な量の多様な学習画像データが必要であるが、公開された学習データ以外の特殊な環境の学習データを確保することは、非常に難しいか不可能である。 また、人工知能基盤の画像強調モデルが発展し複雑になるほど、学習に必要なデータの量及び種類が急激に増加し、学習にかかる時間も増加し、特殊な環境で効果的にモデルを具現するには多くの制約がある。 例えば、自律走行自動車で低照度を改善しようとする場合、道路で獲得される画像の特性を考慮しない一般的な画像強調モデルは、最適の性能を提供しにくいだけではなく、具現コスト及び処理時間などの問題のため具現し難いという問題点がある。 本発明の一実施形態による生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法を示すフローチャートである。本発明の一実施形態による生成再帰型ニューラルネットワークモデルの全体構成を示す図面である。本発明の一実施形態による画像強調ニューラルネットワークモジュール及び劣化画像生成モジュールの詳細構造を示す図面である。本発明の一実施形態によるトランスフォーマブロックの詳細構造を示す図面である。本発明の一実施形態によるスウィン・トランスフォーマの詳細構造を示す図面である。本発明の一実施形態による低画質画像入力時の、生成再帰型ニューラルネットワークモデルの動作を説明するために示す図面である。本発明の一実施形態による高画質画像入力時の、生成再帰型ニューラルネットワークモデルの動作を説明するために示す図面である。本発明の一実施形態による演算装置の内部構成を概略的に示すブロック図である。 本明細書で使用される単数の表現は、文脈上明らかに別の方法で示さない限り、複数の表現を含んでいる。本明細書で、「構成される」または「含む」などの用語は、明細書上に記載の多くの構成要素、または多くの段階を必ずいずれも含むと解釈されてはならず、そのうち一部の構成要素または一部の段階は含まれないこともあり、またはさらなる構成要素または段階をさらに含むことができると解釈されねばならない。また、明細書に記載の「・・・部」、「モジュール」などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェアまたはソフトウェアで具現されるか、またはハードウェアとソフトウェアとの結合で具現される。 以下、添付した図面を参照して本発明の実施形態を詳細に説明する。 図1は、本発明の一実施形態による生成再帰型ニューラルネットワークモデルを用いて画像強調と学習データ生成とを統合する方法を示すフローチャートであり、図2は、本発明の一実施形態による生成再帰型ニューラルネットワークモデルの全体構成を示す図面であり、図3は、本発明の一実施形態による画像強調ニューラルネットワークモジュール及び劣化画像生成モジュールの詳細構造を示す図面であり、図4は、本発明の一実施形態によるトランスフォーマブロックの詳細構造を示す図面であり、図5は、本発明の一実施形態によるスウィン・トランスフォーマの詳細構造を示す図面であり、図6は、本発明の一実施形態による低画質画像入力時の、生成再帰型ニューラルネットワークモデルの動作を説明するために示す図面であり、図7は、本発明の一実施形態による高画質画像入力時の、生成再帰型ニューラルネットワークモデルの動作を説明するために示す図面である。 110ステップで、演算装置100は、画像データセットを入力される。 便宜のため、画像データセットを のように示す。画像データセットは、同一場面において、画質の相異なる画像が一つのペア(pair)で構成され、N個のペアを含むことができる。 以下では、理解及び説明の便宜のため、 は、i番目の画像ペアの高画質画像と表記し、 は、i番目の画像ペアの低画質画像と表記して説明する。 115ステップで、演算装置100は、i番目の画像ペア ( , )を生成再帰型ニューラルネットワークモデルに適用して、 について画質の改善した高画質画像 を生成し、画質の改善した高画質画像を用いて低画質画像 を生成するように、生成再帰型ニューラルネットワークモデルを学習させる。 図2に、生成再帰型ニューラルネットワークモデルの詳細構造が示されている。図2を参照して、これについてさらに詳細に説明する。 図2に示されたように、生成再帰型ニューラルネットワークモデルは、画像強調ニューラルネットワークモジュール210、劣化画像生成モジュール220、第1識別モジュール230、及び第2識別モジュール240を備えて構成される。 生成再帰型ニューラルネットワークモデルの学習のために、 を画像強調ニューラルネットワークモジュール210に適用し、画像強調ニューラルネットワークモジュール210は、 について画質の改善した高画質画像 を生成するように学習される。 画像強調ニューラルネットワークモジュール210の出力である、画質の改善した高画質画像 は、該画像強調ニューラルネットワークモジュール210の後端に位置している劣化画像生成モジュール220に伝達される。劣化画像生成モジュール220は、画質の改善した高画質画像 を入力されて、低画質画像 を生成するように学習される。 第1識別モジュール230は、画像強調ニューラルネットワークモジュール210の出力である、画質の改善した高画質画像 と を用いて、識別確率と一貫性損失(便宜のため、第1一貫性損失と称する)を計算することができる。第1識別モジュール230は、識別確率が0.5になり、第1一貫性損失が最小になるように、画像強調ニューラルネットワークモジュール210のパラメータ加重値を調整することができる。 また、第2識別モジュール240は、劣化画像生成モジュール220の出力である と を用いて、識別確率と一貫性損失(便宜のため第2一貫性損失と称する)を計算することができる。第2識別モジュール240は、識別確率が0.5になり、第2一貫性損失が最小になるように、劣化画像生成モジュール220のパラメータ加重値を調整することができる。 画像データセットに含まれている画像ペアを用いて、生成再帰型ニューラルネットワークモデルを、低画質画像について画質の改善した画像を生成し、該画質の改善した画像を用いて低画質画像を生成するように、繰り返して学習させることができる。 生成再帰型ニューラルネットワークモデルに含まれている画像強調ニューラルネットワークモジュール210と劣化画像生成モジュール220は、複数のトランスフォーマ基盤のエンコーダと複数の畳み込み層を用いたデコーダ構造で構成され、複数のトランスフォーマ基盤のエンコーダと複数の畳み込み層を用いたデコーダは、互いに対称構造を有するUnet構造で構成される。 図3には、画像強調ニューラルネットワークモジュール210と劣化画像生成モジュール220のUnet構造が詳細に示されている。図3に示されたように、画像強調ニューラルネットワークモジュール210と劣化画像生成モジュール220は、同様に、複数のトランスフォーマ基盤のエンコーダと複数の畳み込み層を用いたデコーダを有するUnet構造で構成されるが、学習過程で、相異なる加重値でパラメータが調整されうる。これによって、画像強調ニューラルネットワークモジュール210と劣化画像生成モジュール220は、パラメータ加重値が相異なって調整されることによって、相異なる画質の画像を生成するように学習される。 また、画像強調ニューラルネットワークモジュール210と劣化画像生成モジュール220それぞれのエンコーダを構成するトランスフォーマブロックは、図4に示されたように、入力画像(または特徴マップ)についての全域特徴マップを抽出した後でローカル特徴マップを抽出し、ローカル特徴マップを抽出した後で全域特徴マップを抽出し、これを統合する構造で構成される。 図4には、トランスフォーマブロックの構成が示されている。図4を参照して、トランスフォーマブロックの動作について簡略に説明する。 図4に示されたように、入力画像(または入力特徴マップ)から、畳み込み層を介して特徴マップが抽出され、該畳み込み層によって抽出された特徴マップは、分離層を介して2つのブランチに分離される。分離された特徴マップは、第1スウィン・トランスフォーマにより全域特徴マップ(便宜のため第1全域特徴マップと称する)を抽出した後、第1スウィン・トランスフォーマの後端に位置している第1残差ブロックに伝達されて、第1ローカル特徴マップを推正することができる。また、分離された特徴マップから、第2残差ブロックを介して第2ローカル特徴マップが抽出された後、第2スウィン・トランスフォーマによって第2全域特徴マップが推定される。第1及び第2スウィン・トランスフォーマの詳細な構造は、図5に示された通りである。 推定された第1ローカル特徴マップと第2全域特徴マップとを結合した後、畳み込み演算を適用して、該トランスフォーマブロックの最終特徴マップが出力されうる。 本発明の一実施形態による各トランスフォーマブロックからは、図4に示されたように、一つのブランチを介してスウィン・トランスフォーマを適用して全域特徴マップを抽出した後、後端に位置している残差ブロックに伝達してローカル特徴マップを推正し、他のブランチを介し、かつ残差ブロックを介してローカル特徴マップを抽出した後、後端に位置しているスウィン・トランスフォーマを通過させて、全域特徴マップを推正させることができる。 前述したように、生成再帰型ニューラルネットワークモデルに、画像強調ニューラルネットワークモジュール及び劣化画像生成モジュールを結合して学習させることによって、特殊な環境(車載カメラ、軍事セキュリティ現場)についての高画質または低画質画像として、低画質または画質の改善した画像学習データを生成し、これを用いて該モデルを再び学習させることができる。 図2ないし図4を参照して、生成再帰型ニューラルネットワークモデルの学習過程について説明した。 画像データセットを用いて、生成再帰型ニューラルネットワークモデルの学習済みの後の動作過程について説明する。 120ステップで、演算装置100は、ターゲット画像を入力される。ここで、ターゲット画像は、低画質画像であってもよく、高画質画像であってもよい。 12