JP-2026077441-A - 情報処理方法、情報処理プログラム、及び情報処理システム

JP2026077441AJP 2026077441 AJP2026077441 AJP 2026077441AJP-2026077441-A

Abstract

【課題】ＲＡＧシステムの回答精度を評価する。【解決手段】本開示の情報処理方法は、ユーザ端末が、（ｆ）複数の対象データに対応するＱ＆Ａデータすべてが所定の基準を満たした後に、Ｑ＆Ａデータに含まれる第１質問と第１質問に対する第１回答との対のうち、第１質問をＲＡＧシステムに入力し、ＲＡＧシステムから第１質問に対する第２回答を回答させる工程と、（ｇ）第１回答に対する第２回答の正確性に関する第２判定結果を出力させる工程と、を含む。【選択図】図４

Inventors

小池文浩
成瀬貴彦
姜春花
岡野真佑

Assignees

ソフトバンク株式会社

Dates

Publication Date: 20260513
Application Date: 20241025

Claims (16)

ユーザ端末を介して、ＲＡＧ（Retrieval Augmented Generation）システムの回答精度を評価するための情報処理方法であって、前記ユーザ端末が、（ａ）対象文書を所定の単位毎に分割してなる複数の対象データそれぞれに対して観点を生成させる工程と、（ｂ）生成された前記観点と、前記複数の対象データのうち前記観点に対応する対象データとを用いて、前記対象データに関連する質問と回答との対であるＱ＆Ａデータを第１大規模言語モデルに生成させる工程と、（ｃ）前記対象文書に対する前記Ｑ＆Ａデータの正確性に関する第１判定結果を出力させる工程と、（ｄ）前記第１判定結果が所定の基準を満たしていない場合に、再生成させた新たなＱ＆Ａデータを工程（ｃ）に供する工程と、（ｅ）前記複数の対象データに対応する前記Ｑ＆Ａデータすべてに対して前記工程（ｂ）から前記工程（ｄ）を実行させる工程と、（ｆ）前記複数の対象データに対応する前記Ｑ＆Ａデータすべてが前記所定の基準を満たした後に、前記Ｑ＆Ａデータに含まれる第１質問と前記第１質問に対する第１回答との対のうち、前記第１質問を前記ＲＡＧシステムに入力し、前記ＲＡＧシステムから前記第１質問に対する第２回答を回答させる工程と、（ｇ）前記第１回答に対する前記第２回答の正確性に関する第２判定結果を出力させる工程と、を含む情報処理方法。
前記工程（ｃ）は、前記第１大規模言語モデルとは異なる第２大規模言語モデルにより実行される、請求項１に記載の情報処理方法。
前記工程（ｄ）において、前記工程（ｂ）によって第３大規模言語モデルに前記新たなＱ＆Ａデータを再生成させる、請求項１または２に記載の情報処理方法。
前記工程（ｄ）において、前記第１判定結果を参照したユーザに前記新たなＱ＆Ａデータを再生成させる、請求項１または２に記載の情報処理方法。
前記第１判定結果および前記第２判定結果は、前記正確性に関する判定値および判定理由の少なくとも一方を含む、請求項１または２に記載の情報処理方法。
前記観点は、前記対象データの、表題、要約、図／表／テキストの種別、結論、背景、及び目的の少なくとも何れかを含む、請求項１または２に記載の情報処理方法。
前記工程（ｇ）は、第４大規模言語モデルによって実行される、請求項１または２に記載の情報処理方法。
前記工程（ａ）において、各々の前記複数の対象データは構成要素ごとに分類され、前記第１判定結果および前記第２判定結果の少なくとも一方は、前記構成要素ごとの判定結果を含む、請求項１または２に記載の情報処理方法。
前記構成要素は、テキスト、グラフ、表、及びグラフ以外の図の少なくとも何れかを含む、請求項８に記載の情報処理方法。
（ｈ）前記第２判定結果に応じたレコメンドを出力させる工程をさらに含む、請求項１または２に記載の情報処理方法。
（ｉ）前記第２判定結果が所定の基準を満たしていない場合に、前記レコメンドに基づく前記ＲＡＧシステムの最適化を実行させる工程をさらに含む、請求項１０に記載の情報処理方法。
前記最適化は、前記ＲＡＧシステムの設定変更に関する、請求項１１に記載の情報処理方法。
前記最適化は、前記対象文書の修正に関する、請求項１１に記載の情報処理方法。
コンピュータ実行可能な情報処理プログラムであって、（ａ）対象文書を所定の単位毎に分割してなる複数の対象データそれぞれに対して観点を生成する工程と、（ｂ）生成された前記観点と、前記複数の対象データのうち前記観点に対応する対象データとを用いて、前記対象データに関連する質問と回答との対であるＱ＆Ａデータを第１大規模言語モデルに生成する工程と、（ｃ）前記対象文書に対する前記Ｑ＆Ａデータの正確性に関する第１判定結果を出力する工程と、（ｄ）前記第１判定結果が所定の基準を満たしていない場合に、再生成させた新たなＱ＆Ａデータを工程（ｃ）に供する工程と、（ｅ）前記複数の対象データに対応する前記Ｑ＆Ａデータすべてに対して前記工程（ｂ）から前記工程（ｄ）を実行する工程と、（ｆ）前記複数の対象データに対応する前記Ｑ＆Ａデータすべてが前記所定の基準を満たした後に、前記Ｑ＆Ａデータに含まれる第１質問と前記第１質問に対する第１回答との対のうち、前記第１質問をＲＡＧ（Retrieval Augmented Generation）システムに入力し、前記ＲＡＧシステムから前記第１質問に対する第２回答を回答する工程と、（ｇ）前記第１回答に対する前記第２回答の正確性に関する第２判定結果を出力する工程と、をコンピュータに実行させる情報処理プログラム。
ＲＡＧ（Retrieval Augmented Generation）システムの回答精度を評価するための情報処理システムであって、対象文書を所定の単位毎に分割してなる複数の対象データそれぞれに対して観点を生成する観点生成部と、生成された前記観点と、前記複数の対象データのうち前記観点に対応する対象データとを用いて、前記対象データに関連する質問と回答との対であるＱ＆Ａデータを第１大規模言語モデルにより生成するＱ＆Ａデータ生成部と、前記対象文書に対する前記Ｑ＆Ａデータの正確性に関する第１判定結果を出力する第１出力部と、前記第１判定結果が所定の基準を満たすまで、新たなＱ＆Ａデータを再生成するＱ＆Ａデータ再生成部と、前記複数の対象データに対応する前記Ｑ＆Ａデータすべてが前記所定の基準を満たした後に、前記Ｑ＆Ａデータに含まれる第１質問と前記第１質問に対する第１回答との対のうち、前記第１質問を前記ＲＡＧシステムに入力し、前記ＲＡＧシステムから前記第１質問に対する第２回答を取得する回答取得部と、前記第１回答に対する前記第２回答の正確性に関する第２判定結果を出力する第２出力部と、を備える情報処理システム。
前記情報処理システムにおいて利用される大規模言語モデルに入力する所定のプロンプトのユーザによる変更および新たなプロンプトの前記ユーザによる設定の少なくともいずれかを受け付ける受付部を備える、請求項１５に記載の情報処理システム。

Description

特許法第３０条第２項適用申請有り展示日令和６年１０月２４日展示会名、開催場所ＧｅｎｅｒａｔｉｖｅＡＩＳｕｍｍｉｔＴｏｋｙｏ ‘２４秋ベルサール渋谷ファーストＵＲＬ：ｈｔｔｐｓ：／／ｃｌｏｕｄｏｎａｉｒ．ｗｉｔｈｇｏｏｇｌｅ．ｃｏｍ／ｅｖｅｎｔｓ／ｇｅｎｅｒａｔｉｖｅ－ａｉ－ｓｕｍｍｉｔ－２４－ｆａｌｌ公開者姜春花本開示は、情報処理方法、情報処理プログラム、及び情報処理システムに関する。従来より、検索拡張生成（Retrieval Augmented Generation（ＲＡＧ））が知られている（例えば、特許文献１）。特許７５２７５８１号本開示に係る情報処理システムの機能構成を示すブロック図である。本開示に係るサーバの機能構成を示すブロック図である。本開示に係るユーザ端末の機能構成を示すブロック図である。本開示に係る情報処理の流れの一例を示すフローチャートである。本開示に係るチャットボットの概略図である。以下、本開示の一実施形態について、図面を参照しながら詳細に説明する。理解の容易のため、最初に、本開示の背景および課題を説明し、その後に本開示の詳細を説明する。＜検索拡張生成＞検索拡張生成（RAG, Retrieval-Augmented Generation）は、外部の知識データベースをリアルタイムで検索し、その情報を基に生成ＡＩに回答を生成させる手法である。通常の生成モデルが学習済みの知識に依存するのに対し、ＲＡＧは、最新の情報または正確性が重要なタスクに強みを有する。ＲＡＧは、検索結果を元に回答を補強するため、より高精度でアップデートされた内容を提供できる。ＲＡＧは、ファインチューニングを用いた生成ＡＩと比較して次のような利点を有する。・最新情報の反映：ファインチューニングでは過去のデータを用いてモデルを更新するところ、ＲＡＧは、リアルタイムで新しい情報にアクセス可能である。・データ更新の負荷削減：ファインチューニングは定期的なモデル更新が必要であるが、ＲＡＧは、その都度の検索で最新情報を取得するため頻繁な再トレーニングが不要である。・柔軟性：ＲＡＧは、特定のトピックに特化せず、幅広い領域で適応可能な回答を生成できる。一方で、ＲＡＧは、内部資料には含まれない誤情報（ハルシネーション）を含む可能性があることから、回答精度には改善の余地が残されている。＜情報処理システム１の概要＞本開示における情報処理システム１は、ＲＡＧ（Retrieval Augmented Generation）システムの回答精度を評価する。また、情報処理システム１は、評価結果に応じたレコメンドに基づいてＲＡＧシステムの回答精度を改善することもできる。情報処理システム１は、ユーザからオンラインで受け付けた質問に対して、その質問に対応する回答を出力するチャットボットに対して使用されてもよい。情報処理システム１は、例えば、航空機、鉄道、船舶、病院、銀行、ホテルなど様々な分野において利用できる。より具体的に、情報処理システム１は、ＲＡＧ（Retrieval Augmented Generation）システムの回答精度を評価するための情報処理システムであって、対象文書を所定の単位毎に分割してなる複数の対象データそれぞれに対して観点を生成する観点生成部と、生成された前記観点と、前記複数の対象データのうち前記観点に対応する対象データとを用いて、前記対象データに関連する質問と回答との対であるＱ＆Ａデータを第１大規模言語モデルにより生成するＱ＆Ａデータ生成部と、前記対象文書に対する前記Ｑ＆Ａデータの正確性に関する第１判定結果を出力する第１出力部と、前記第１判定結果が所定の基準を満たすまで、新たなＱ＆Ａデータを再生成するＱ＆Ａデータ再生成部と、前記複数の対象データに対応する前記Ｑ＆Ａデータすべてが前記所定の基準を満たした後に、前記Ｑ＆Ａデータに含まれる第１質問と前記第１質問に対する第１回答との対のうち、前記第１質問を前記ＲＡＧシステムに入力し、前記ＲＡＧシステムから前記第１質問に対する第２回答を取得する回答取得部と、前記第１回答に対する前記第２回答の正確性に関する第２判定結果を出力する第２出力部と、を備える。前記の構成によれば、情報処理システム１は、ＲＡＧシステムの回答精度を第２判定結果として出力できる。情報処理システム１は、ＲＡＧシステムの回答精度を第２判定結果としてユーザに確認させることにより、誤情報（ハルシネーション）のより少ない、回答精度の改善されたＲＡＧシステムの構築を促進できる。また、前記の構成によれば、情報処理システム１は、従来のＱ＆Ａ参照型チャットボットとは異なり、ユーザが社内文書などを所定のフォルダ（データストアなど）に格納するだけで、自動的に高品質なＱ＆Ａを生成できる。また、情報処理システム１は、複数の生成ＡＩを用いて横並びで精度評価を行うこともできるため、ハルシネーションの可能性を低減でき、ＲＡＧの回答精度を向上させることができる。以下、図面を参照しつつ情報処理システム１を説明する。図１は、本開示に係る情報処理システム１の機能構成を示すブロック図である。図２は、本開示に係るサーバ１０の機能構成を示すブロック図である。図３は、本開示に係るユーザ端末２０の機能構成を示すブロック図である。＜情報処理システム１の構成＞図１を参照して、情報処理システム１は、ネットワークＮを介して接続された、サーバ１０、ユーザ端末２０、及び管理者端末３０を備える。サーバ１０及びユーザ端末２０は、一つの情報処理端末装置として一体化された構成により実現されてもよいが、以下では、それぞれ別々の装置であるものとして説明する。ネットワークＮは、３Ｇ、４Ｇ、５Ｇ、６Ｇなどの移動通信システム、ＬＴＥ（Long Term Evolution）、Ｗｉ-Ｆｉ（登録商標）、インターネット、又は社内ＬＡＮなどであってよい。＜サーバ１０の基本構成＞サーバ１０は、プロセッサ１１、主記憶装置１２、補助記憶装置１３、及び通信ＩＦ１４を備える。これらは通信バスを介して互いに電気的に接続される。プロセッサ１１は、プログラムに記述された命令を実行する。プロセッサ１１は、演算装置、レジスタ、及び／又は、周辺回路などにより構成される。主記憶装置１２は、プログラム、及び、プログラム等で処理されるデータを一時的に記憶するものであり、例えば、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリである。補助記憶装置１３は、データ、及びプログラムを保存するものであり、例えば、フラッシュメモリ、ＨＤＤ（Hard Disc Drive）、又は光磁気ディスク等である。通信ＩＦ１４は、有線又は無線の通信規格を用いて、他のコンピュータとネットワークを介して通信するための信号を入出力するためのインタフェースである。次に、図２を参照して、サーバ１０は、記憶部１０１及び制御部１０２を備える。以下、記憶部１０１及び制御部１０２について説明する。記憶部１０１は、アプリケーションプログラム１０１１、大規模言語モデル１０１２、対象文書１０１３、対象データ１０１４、及びＱ＆Ａデータ１０１５を記憶する。アプリケーションプログラム１０１１は、サーバ１０の制御部１０２を各機能ユニットとして機能させるためのプログラムである。アプリケーションプログラム１０１１は、ウェブブラウザアプリケーションなどのアプリケーションを含む。大規模言語モデル１０１２は、情報処理システム１において使用する複数の大規模言語モデルを記憶する。複数の大規模言語モデルは、少なくとも一部は互いに異なっていてもよい。複数の大規模言語モデルが互いに異なるとは、それぞれ異なるアーキテクチャ又はハイパーパラメータ等を有することをいい、レイヤー構造、ニューロン数、トレーニング手法、及び／又は、最適化アルゴリズムの相違を含む。さらに、学習に使用されたデータセット、及び／又は、チューニング方法も互いに異なってよく、生成するテキストの品質、及び／又は、特性に違いを生じさせうる。これにより、同じタスクに対してもモデルごとに異なる応答が期待できる。大規模言語モデル１０１２は、必ずしもサーバ１０の記憶部１０１に記憶されている必要はなく、後述のユーザ端末２０の記憶部（不図示）、又は、他の記憶装置に記憶されていてもよい。次に、対象文書１０１３について説明する。一般に、検索拡張生成では、タスクの実行を指示する指示情報に基づいて所定のデータソースから参照情報が検索され、指示情報及び参照情報の検索結果を含むプロンプトが大規模言語モデルに入力される。大規模言語モデルは、学習データに含まれない参照情報を参照してタスクを実行する。これにより、検索拡張生成は、従来の生成ＡＩの回答において課題となっていた誤情報（ハルシネーション）を改善する。対象文書１０１３は、前述した参照情報に該当すると考えてよい。対象文書１０１３は、インターネット情報又は組織（企業など）内に保存されている、最新情報、データベース、及び、内部資料などであってよく、その種類は限定されない。対象文書１０１３は、ワード、パワーポイント、ｐｄｆ、ＳＱＬ形式、ＣＳＶ形式、ＪＳＯＮ形式、ＸＭＬ形式、バイナリ形式などの様々な形式で保存されていてもよい。以下では、説明の便宜のため、対象文書１０１３は、企業内に保存されているｐｄｆ形式の文書（対象文書）であるものとして説明する。対象文書１０１３は、必ずしもサーバ１０の記憶部１０１に記憶されている必要はなく、後述のユーザ端末２０の記憶部（不図示）、又は、他の記憶装置に記憶されていてもよい。次に、対象データ１０１４について説明する。対象データ１０１４は、対象文書を所定の単位毎に分割してなる複数のデータである。所定の単位とは、例えば、１頁ごと、２頁ごと、又は、文書内の章ごとなど、適宜に決められてよい。Ｑ＆Ａデータ１０１５は、対象データ１０１４に対して想定される質問とその模範解答とを対応付けたデータセットをいう。Ｑ＆Ａデータ１０１５は、評価対象のシステムに質問を与えることによって得られた回答が模範解答とどれだけ近いかを判定するために作られる。Ｑ＆Ａデータ１０１５は、通常、ユーザがシステムに尋ねるであろう「質問項目（Question）」とその質問に対する模範的な回答である「回答内容（Answer）」を含む。さらに、Ｑ＆Ａデータ１０１５は、質問が属するテーマやトピックを示す「カテゴリー（Category）」、及び／又は、検索もしくはフィルタリングを助けるキーワードとなる「タグ（Tags）」などを含んでもよい。Ｑ＆Ａデータ１０１５は、必ずしもサーバ１０の記憶部１０１に記憶されている必要はなく、後述のユーザ端末２０の記憶部（不図示）、又は、他の記憶装置に記憶されていてもよい。続いて、図２を参照して、制御部１０２は、対象文書分割部１０２０、構成要素分類部１０２１、観点生成部１０２２、Ｑ＆Ａデータ生成部１０２３、第１出力部１０２４、Ｑ＆Ａデータ再生成部１０２５、回答取得部１０２６、及び第２出力部１０２７を備える。制御部１０２は、受付部１０２８を備えていてもよい。対象文書分割部１０２０は、対象文書を所定の単位毎に分割する。所定の単位とは、例えば、１頁ごと、２頁ごと、又は、文書内の章ごとなど、適宜に決められてよい。以下では、対象文書分割部１０２０は、所定のフォルダに保存された対象文書を１頁毎に分割するものとして説明する。対象文書分割部１０２０は、例えば、オンラインツール（Smallpdf、ILovePDFなど）、Adobe Acrobatに備え付けの機能、又はPython等のプログラムを用いて、対象文書を１頁毎に分割してよい。具体的に、対象文書分割部１０２