JP-2026077496-A - 生成プログラム、生成方法及び情報処理装置

JP2026077496AJP 2026077496 AJP2026077496 AJP 2026077496AJP-2026077496-A

Abstract

【課題】画像生成の品質劣化を抑制することを課題とする。【解決手段】生成プログラムは、コンピュータに、複数のニューラルネットワークそれぞれについて、それぞれが複数のニューラルネットワークごとに異なる特定の概念に対応した画像データと、特定のトークンおよび特定のトークンと異なる複数のトークンのうちの一部と、を対応付けた複数の訓練データを含む訓練データセットを用いて、ニューラルネットワークを訓練し、訓練後の複数のニューラルネットワークを融合させることで、複数の概念に対応したサブネットワークを生成する、処理を実行させる。【選択図】図５

Inventors

金月寛彰

Assignees

富士通株式会社

Dates

Publication Date: 20260513
Application Date: 20241025

Claims (7)

画像生成ＡＩに付加するサブネットワークとして用いるニューラルネットワークの生成プログラムであって、コンピュータに、複数のニューラルネットワークそれぞれについて、それぞれが複数のニューラルネットワークごとに異なる特定の概念に対応した画像データと、特定のトークンおよび特定のトークンと異なる複数のトークンのうちの一部と、を対応付けた複数の訓練データを含む訓練データセットを用いて、ニューラルネットワークを訓練し、訓練後の複数のニューラルネットワークを融合させることで、複数の概念に対応したサブネットワークを生成する、処理を実行させることを特徴とする生成プログラム。
前記訓練する処理は、前記特定のトークンおよび前記複数のトークンのうちの一部を説明変数とし、前記画像データを目的変数として、前記ニューラルネットワークのパラメータを訓練する処理を含むことを特徴とする請求項１に記載の生成プログラム。
前記複数のトークンのうちの一部は、ランダムドロップアウトで選択されることを特徴とする請求項１に記載の生成プログラム。
前記画像生成ＡＩは、拡散モデルにより実現されることを特徴とする請求項１～３のいずれか１つに記載の生成プログラム。
前記ニューラルネットワークは、ＬｏＲＡにより実現されることを特徴とする請求項１～３のいずれか１つに記載の生成プログラム。
画像生成ＡＩに付加するサブネットワークとして用いるニューラルネットワークの生成方法であって、コンピュータが、複数のニューラルネットワークそれぞれについて、それぞれが複数のニューラルネットワークごとに異なる特定の概念に対応した画像データと、特定のトークンおよび特定のトークンと異なる複数のトークンのうちの一部と、を対応付けた複数の訓練データを含む訓練データセットを用いて、ニューラルネットワークを訓練し、訓練後の複数のニューラルネットワークを融合させることで、複数の概念に対応したサブネットワークを生成する、処理を実行することを特徴とする生成方法。
画像生成ＡＩに付加するサブネットワークとして用いるニューラルネットワークの生成方法を実行する情報処理装置であって、複数のニューラルネットワークそれぞれについて、それぞれが複数のニューラルネットワークごとに異なる特定の概念に対応した画像データと、特定のトークンおよび特定のトークンと異なる複数のトークンのうちの一部と、を対応付けた複数の訓練データを含む訓練データセットを用いて、ニューラルネットワークを訓練し、訓練後の複数のニューラルネットワークを融合させることで、複数の概念に対応したサブネットワークを生成する、処理を実行する制御部を有することを特徴とする情報処理装置。

Description

本発明は、生成プログラム、生成方法及び情報処理装置に関する。画像生成ＡＩ（Artificial Intelligence）等の訓練済みの機械学習モデルのファインチューニング手法の１つとして、ＬｏＲＡ（Low-Rank Adaptation）が提案されている。ＬｏＲＡは、画像生成ＡＩのパラメータを変更する代わりに、画像生成ＡＩのモジュールとして低ランク行列で表現されたサブネットワークを並列に追加し、当該サブネットワークでチューニングによる画像生成ＡＩのパラメータの差分を訓練する手法である。ＬｏＲＡの長所の１つとして、タスクの切り替えが容易である点が挙げられる。例えば、複数のＬｏＲＡの各々に異なるオブジェクトの生成を訓練させておき、複数のＬｏＲＡを組み合わせることにより、１つの画像内で複数のオブジェクトを一括して出力させることもできる。このようにＬｏＲＡを組み合わせる技術の１つとして、複数のＬｏＲＡの重みの平均を取ってＬｏＲＡを融合するWeight Fusionと呼ばれる手法がある。 Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen “LoRA: Low-Rank Adaptation of Large Language Models” International Conference on Learning Representations. 2021 図１は、サーバ装置の機能構成例を示すブロック図である。図２は、Single Subject Generationの一例を示す図である。図３は、Multi Subject Generationの一例を示す図である。図４は、ＬｏＲＡを説明する模式図である。図５は、ＬｏＲＡの融合を説明する模式図である。図６は、課題解決アプローチの一側面を示す模式図である。図７は、ＬｏＲＡの重みの変化の一例を示す図である。図８は、領域設定の一例を示す図である。図９は、第１の訓練方法の一例を説明する模式図である。図１０は、拡張プロンプトの一例を示す図である。図１１は、第２の訓練方法を説明する模式図である。図１２は、第３のサブネットワークの出力例を示す図である。図１３は、第３のサブネットワークの融合時の出力例を示す図である。図１４は、第３のサブネットワークの融合時の出力例を示す図である。図１５は、単純融合の出力例を示す図である。図１６は、第１の訓練処理の手順を示すフローチャートである。図１７は、第２の訓練処理の手順を示すフローチャートである。図１８は、ハードウェア構成例を示す図である。以下、本開示に係る生成プログラム、生成方法及び情報処理装置を実施するための実施例について添付図面を参照して説明する。なお、この実施例には、あくまで１つの例や側面を示すに過ぎず、このような例示により、本開示に係る構造や作用、機能、性質、特性、方法、用途などは限定されない。＜実施例１＞＜システム構成＞図１は、サーバ装置１０の機能構成例を示すブロック図である。図１には、複数のサブネットワークを融合することにより、１つの画像内で複数のオブジェクトを一括して出力させるＬｏＲＡ融合機能を提供するサーバ装置１０が示されている。サーバ装置１０は、ＰａａＳ（Platform as a Service）型のミドルウェア、あるいはＳａａＳ（Software as a Service）型のアプリケーションを実行することで、上記のＬｏＲＡ融合機能をクラウドサービスとして提供できる。なお、サーバ装置１０は、ＬｏＲＡ融合機能を提供する情報処理装置の一例に過ぎない。図１に示すように、サーバ装置１０は、ネットワークＮＷを介して、クライアント端末３０と通信可能に接続され得る。例えば、ネットワークＮＷは、有線または無線を問わず、インターネットやＬＡＮ（Local Area Network）などの任意の種類の通信網であってよい。なお、図１には、１つのサーバ装置１０につき１つのクライアント端末３０が接続される例を挙げたが、任意の台数のクライアント端末３０が接続されることを妨げない。クライアント端末３０は、上記のＬｏＲＡ融合機能の提供を受ける端末装置である。例えば、クライアント端末３０は、パーソナルコンピュータを始め、スマートフォンやタブレット端末、ウェアラブル端末などの任意のコンピュータにより実現されてよい。なお、ここでは、上記のＬｏＲＡ融合機能がクラウドサービスとして提供される例を挙げたが、これに限定されない。例えば、上記のＬｏＲＡ融合機能は、オンプレミスに提供されることとしてもよい。また、上記のＬｏＲＡ融合機能は、クライアントサーバシステムで提供される例を挙げたが、これに限定されない。例えば、クライアント端末３０上で動作するアプリケーションが上記のＬｏＲＡ融合機能に対応する処理をクライアント端末３０に実行させることにより、上記のＬｏＲＡ融合機能がスタンドアロンで提供されてもよい。＜画像生成ＡＩの利用シーン＞画像生成ＡＩを用いて特定のオブジェクトの画像を出力する場面では、あくまで一例として、次のような条件付けを行うことができる。例えば、特定の画像を条件付けして、当該画像に含まれるオブジェクトに関連する関連画像を画像生成ＡＩに出力させる。図２は、Single Subject Generationの一例を示す図である。例えば、図２には、Input Imageに含まれる特定の犬を入力として、「水を走る特定の犬」、「ポリゴン状になった特定の犬」、「Van Gogh画風の特定の犬」及び「ポリス服を着た特定の犬」等のプロンプトに対応する関連画像が出力される例が示されている。図３は、Multi Subject Generationの一例を示す図である。例えば、図３には、２つのInput Imageの各々に含まれる特定の犬と特定のリュックを入力として、「砂利道上にいる特定の犬と特定のリュック」、「エッフェル塔と一緒の特定の犬と特定のリュック」及び「雪の中にいる特定の犬と特定のリュック」等のプロンプトに対応する関連画像が出力される例が示されている。これら図２および図３に示す関連画像の出力を指してSubject/Object Generationという。ここで、単体のオブジェクトの出力である場合、Single Subject/Object Generationと言い、複数のオブジェクトの同時出力である場合、Multi Subject/Object Generationと言う。なお、ここで用いる“Subject”および“Object”は、同じ意味で用いられてよい。＜サブネットワークの一例＞以下、画像生成ＡＩのモジュールとして追加されるサブネットワークの例として、ＬｏＲＡを挙げる。ＬｏＲＡは、チューニングによるオリジナルのモデルからの重みの差分を低ランク行列で表現することでスペースを節約する手法である。図４は、ＬｏＲＡを説明する模式図である。図４に示すように、差分を示す重み行列Ｗは、低ランク行列Ａ、低ランク行列Ｂおよびスケーリングハイパーパラメータγにより構成される。この分解は、特定のパラメータグループにのみ適用され、各トランスフォーマーレイヤのSelf-Attentionの線形投影に対応する。これにより、オリジナルのモデルの計算負荷を軽減しながら、パフォーマンスを維持することが可能になる。＜ＬｏＲＡの融合＞このようなＬｏＲＡを用いてMulti Subject Generationを実現する場合、複数のＬｏＲＡの各々に異なるオブジェクトの生成を訓練させておき、複数のＬｏＲＡを組み合わせることにより、１つの画像内で複数のオブジェクトを一括して出力させる。図５は、ＬｏＲＡの融合を説明する模式図である。図５に示すように、特定のリュックの画像生成が訓練されたＬｏＲＡと、特定のぬいぐるみの画像生成が訓練されたＬｏＲＡとを融合することにより、融合されたＬｏＲＡから特定のリュックおよび特定のぬいぐるみの複数のオブジェクトを出力させることができる。＜課題の一側面＞しかしながら、上記の背景技術の欄で説明したWeight Fusionの通り、複数のＬｏＲＡの重みの平均を取ってＬｏＲＡを単純に融合したのでは、画像生成が不安定になる崩壊と呼ばれる現象が生じやすいので、画像生成の品質劣化を抑制するのが難しい側面がある。以下、上記の従来技術であるWeight FusionによるＬｏＲＡの融合を本実施例に係るＬｏＲＡ融合機能と区別する側面から、前者のことを指して「単純融合」と記載する場合がある。＜課題解決アプローチの一側面＞図６は、課題解決アプローチの一側面を示す模式図である。図６に示すように、本実施例に係るＬｏＲＡ融合機能では、ＬｏＲＡの融合前に各ＬｏＲＡ自体が崩壊耐性を獲得可能な訓練を実現する。つまり、各ＬｏＲＡの間で互いに異なる特徴抽出およびモデル表現を訓練させることにより、個々のＬｏＲＡに互いの表現能力が干渉せずに固有の表現能力を保ち続ける崩壊耐性を獲得させる。これにより、ＬｏＲＡの融合時に崩壊現象が生じるのを抑制する。したがって、本実施例に係るＬｏＲＡ融合機能によれば、画像生成の品質劣化を抑制できる。ここで、本実施例に係るＬｏＲＡ融合機能は、上記の単純融合以外の他の従来技術と比べても有利な効果を有する。＜Composable-Diffusion＞例えば、他の従来技術として、１つのモデルに統合するのではなく領域ごとに用いるＬｏＲＡの重みを変えるComposable-Diffusionと呼ばれる手法がある。例えば、Composable-Diffusionでは、画像生成ＡＩに用いられるDiffusionモデルにおいてノイズの除去を反復する逆拡散プロセスの途中でＬｏＲＡの重みが切り替えられる。図７は、ＬｏＲＡの重みの変化の一例を示す図である。図７に示すグラフの縦軸は、ＬｏＲＡの重みを指し、横軸は、Diffusionモデルの逆拡散プロセスのステップ数を指す。図７に示すように、オブジェクトＤ１の画像生成が訓練されたＬｏＲＡＤ１の重みと、オブジェクトＤ２の画像生成が訓練されたＬｏＲＡＤ２の重みとが切り替えられる。例えば、図７に示す例で言えば、逆拡散プロセスのステップ数が１０に達するまでＬｏＲＡＤ１の重みが用いられる一方で、逆拡散プロセスのステップ数が１０以降になるとＬｏＲＡＤ２の重みが用いられる。このような重みの変更が領域単位で適用される。１つの側面として、Composable-Diffusionでは、画像生成に用いるＬｏＲＡをメモリ内に読み込んでおく必要があるので、ＬｏＲＡの数が増加するに従って空間計算量が増大する側面がある。これに比べて、本実施例に係るＬｏＲＡ融合機能では、１つに融合されたＬｏＲＡが画像生成に用いられるので、画像生成に用いるメモリの使用量および計算量を削減できる。他の側面として、Composable-Diffusionでは、重みの大きさやパラメータが増加するので、ユーザ入力による調整の難易度が高い。例えば、重みの付け方によって絵柄が大きく変化するので、加減が難しい。これに比べて、本実施例に係るＬｏＲＡ融合機能では、余分なユーザ入力を不要化できる。更なる側面として、Composable-Diffusionは、逆拡散プロセスへの途中からへの介入（モデルの変更）であるので、直接的な課題の解決となっていない。その一方で、本実施例に係るＬｏＲＡ融合機能では、各ＬｏＲＡに崩壊耐性を獲得させるので、直接的な課題の