JP-2026077441-A - 情報処理方法、情報処理プログラム、及び情報処理システム
Abstract
【課題】RAGシステムの回答精度を評価する。 【解決手段】本開示の情報処理方法は、ユーザ端末が、(f)複数の対象データに対応するQ&Aデータすべてが所定の基準を満たした後に、Q&Aデータに含まれる第1質問と第1質問に対する第1回答との対のうち、第1質問をRAGシステムに入力し、RAGシステムから第1質問に対する第2回答を回答させる工程と、(g)第1回答に対する第2回答の正確性に関する第2判定結果を出力させる工程と、を含む。 【選択図】図4
Inventors
- 小池 文浩
- 成瀬 貴彦
- 姜 春花
- 岡野 真佑
Assignees
- ソフトバンク株式会社
Dates
- Publication Date
- 20260513
- Application Date
- 20241025
Claims (16)
- ユーザ端末を介して、RAG(Retrieval Augmented Generation)システムの回答精度を評価するための情報処理方法であって、 前記ユーザ端末が、 (a)対象文書を所定の単位毎に分割してなる複数の対象データそれぞれに対して観点を生成させる工程と、 (b)生成された前記観点と、前記複数の対象データのうち前記観点に対応する対象データとを用いて、前記対象データに関連する質問と回答との対であるQ&Aデータを第1大規模言語モデルに生成させる工程と、 (c)前記対象文書に対する前記Q&Aデータの正確性に関する第1判定結果を出力させる工程と、 (d)前記第1判定結果が所定の基準を満たしていない場合に、再生成させた新たなQ&Aデータを工程(c)に供する工程と、 (e)前記複数の対象データに対応する前記Q&Aデータすべてに対して前記工程(b)から前記工程(d)を実行させる工程と、 (f)前記複数の対象データに対応する前記Q&Aデータすべてが前記所定の基準を満たした後に、前記Q&Aデータに含まれる第1質問と前記第1質問に対する第1回答との対のうち、前記第1質問を前記RAGシステムに入力し、前記RAGシステムから前記第1質問に対する第2回答を回答させる工程と、 (g)前記第1回答に対する前記第2回答の正確性に関する第2判定結果を出力させる工程と、を含む情報処理方法。
- 前記工程(c)は、前記第1大規模言語モデルとは異なる第2大規模言語モデルにより実行される、請求項1に記載の情報処理方法。
- 前記工程(d)において、前記工程(b)によって第3大規模言語モデルに前記新たなQ&Aデータを再生成させる、請求項1または2に記載の情報処理方法。
- 前記工程(d)において、前記第1判定結果を参照したユーザに前記新たなQ&Aデータを再生成させる、請求項1または2に記載の情報処理方法。
- 前記第1判定結果および前記第2判定結果は、前記正確性に関する判定値および判定理由の少なくとも一方を含む、請求項1または2に記載の情報処理方法。
- 前記観点は、前記対象データの、表題、要約、図/表/テキストの種別、結論、背景、及び目的の少なくとも何れかを含む、請求項1または2に記載の情報処理方法。
- 前記工程(g)は、第4大規模言語モデルによって実行される、請求項1または2に記載の情報処理方法。
- 前記工程(a)において、各々の前記複数の対象データは構成要素ごとに分類され、 前記第1判定結果および前記第2判定結果の少なくとも一方は、前記構成要素ごとの判定結果を含む、請求項1または2に記載の情報処理方法。
- 前記構成要素は、テキスト、グラフ、表、及びグラフ以外の図の少なくとも何れかを含む、請求項8に記載の情報処理方法。
- (h)前記第2判定結果に応じたレコメンドを出力させる工程をさらに含む、請求項1または2に記載の情報処理方法。
- (i)前記第2判定結果が所定の基準を満たしていない場合に、前記レコメンドに基づく前記RAGシステムの最適化を実行させる工程をさらに含む、請求項10に記載の情報処理方法。
- 前記最適化は、前記RAGシステムの設定変更に関する、請求項11に記載の情報処理方法。
- 前記最適化は、前記対象文書の修正に関する、請求項11に記載の情報処理方法。
- コンピュータ実行可能な情報処理プログラムであって、 (a)対象文書を所定の単位毎に分割してなる複数の対象データそれぞれに対して観点を生成する工程と、 (b)生成された前記観点と、前記複数の対象データのうち前記観点に対応する対象データとを用いて、前記対象データに関連する質問と回答との対であるQ&Aデータを第1大規模言語モデルに生成する工程と、 (c)前記対象文書に対する前記Q&Aデータの正確性に関する第1判定結果を出力する工程と、 (d)前記第1判定結果が所定の基準を満たしていない場合に、再生成させた新たなQ&Aデータを工程(c)に供する工程と、 (e)前記複数の対象データに対応する前記Q&Aデータすべてに対して前記工程(b)から前記工程(d)を実行する工程と、 (f)前記複数の対象データに対応する前記Q&Aデータすべてが前記所定の基準を満たした後に、前記Q&Aデータに含まれる第1質問と前記第1質問に対する第1回答との対のうち、前記第1質問をRAG(Retrieval Augmented Generation)システムに入力し、前記RAGシステムから前記第1質問に対する第2回答を回答する工程と、 (g)前記第1回答に対する前記第2回答の正確性に関する第2判定結果を出力する工程と、をコンピュータに実行させる情報処理プログラム。
- RAG(Retrieval Augmented Generation)システムの回答精度を評価するための情報処理システムであって、 対象文書を所定の単位毎に分割してなる複数の対象データそれぞれに対して観点を生成する観点生成部と、 生成された前記観点と、前記複数の対象データのうち前記観点に対応する対象データとを用いて、前記対象データに関連する質問と回答との対であるQ&Aデータを第1大規模言語モデルにより生成するQ&Aデータ生成部と、 前記対象文書に対する前記Q&Aデータの正確性に関する第1判定結果を出力する第1出力部と、 前記第1判定結果が所定の基準を満たすまで、新たなQ&Aデータを再生成するQ&Aデータ再生成部と、 前記複数の対象データに対応する前記Q&Aデータすべてが前記所定の基準を満たした後に、前記Q&Aデータに含まれる第1質問と前記第1質問に対する第1回答との対のうち、前記第1質問を前記RAGシステムに入力し、前記RAGシステムから前記第1質問に対する第2回答を取得する回答取得部と、 前記第1回答に対する前記第2回答の正確性に関する第2判定結果を出力する第2出力部と、を備える情報処理システム。
- 前記情報処理システムにおいて利用される大規模言語モデルに入力する所定のプロンプトのユーザによる変更および新たなプロンプトの前記ユーザによる設定の少なくともいずれかを受け付ける受付部を備える、請求項15に記載の情報処理システム。
Description
特許法第30条第2項適用申請有り 展示日 令和6年10月24日 展示会名、開催場所 Generative AI Summit Tokyo ‘24 秋 ベルサール渋谷ファースト URL:https://cloudonair.withgoogle.com/events/generative-ai-summit-24-fall 公開者 姜 春花 本開示は、情報処理方法、情報処理プログラム、及び情報処理システムに関する。 従来より、検索拡張生成(Retrieval Augmented Generation(RAG))が知られている(例えば、特許文献1)。 特許7527581号 本開示に係る情報処理システムの機能構成を示すブロック図である。本開示に係るサーバの機能構成を示すブロック図である。本開示に係るユーザ端末の機能構成を示すブロック図である。本開示に係る情報処理の流れの一例を示すフローチャートである。本開示に係るチャットボットの概略図である。 以下、本開示の一実施形態について、図面を参照しながら詳細に説明する。理解の容易のため、最初に、本開示の背景および課題を説明し、その後に本開示の詳細を説明する。 <検索拡張生成> 検索拡張生成(RAG, Retrieval-Augmented Generation)は、外部の知識データベースをリアルタイムで検索し、その情報を基に生成AIに回答を生成させる手法である。通常の生成モデルが学習済みの知識に依存するのに対し、RAGは、最新の情報または正確性が重要なタスクに強みを有する。RAGは、検索結果を元に回答を補強するため、より高精度でアップデートされた内容を提供できる。RAGは、ファインチューニングを用いた生成AIと比較して次のような利点を有する。 ・最新情報の反映:ファインチューニングでは過去のデータを用いてモデルを更新するところ、RAGは、リアルタイムで新しい情報にアクセス可能である。 ・データ更新の負荷削減:ファインチューニングは定期的なモデル更新が必要であるが、RAGは、その都度の検索で最新情報を取得するため頻繁な再トレーニングが不要である。 ・柔軟性:RAGは、特定のトピックに特化せず、幅広い領域で適応可能な回答を生成できる。 一方で、RAGは、内部資料には含まれない誤情報(ハルシネーション)を含む可能性があることから、回答精度には改善の余地が残されている。 <情報処理システム1の概要> 本開示における情報処理システム1は、RAG(Retrieval Augmented Generation)システムの回答精度を評価する。また、情報処理システム1は、評価結果に応じたレコメンドに基づいてRAGシステムの回答精度を改善することもできる。情報処理システム1は、ユーザからオンラインで受け付けた質問に対して、その質問に対応する回答を出力するチャットボットに対して使用されてもよい。 情報処理システム1は、例えば、航空機、鉄道、船舶、病院、銀行、ホテルなど様々な分野において利用できる。 より具体的に、情報処理システム1は、RAG(Retrieval Augmented Generation)システムの回答精度を評価するための情報処理システムであって、対象文書を所定の単位毎に分割してなる複数の対象データそれぞれに対して観点を生成する観点生成部と、生成された前記観点と、前記複数の対象データのうち前記観点に対応する対象データとを用いて、前記対象データに関連する質問と回答との対であるQ&Aデータを第1大規模言語モデルにより生成するQ&Aデータ生成部と、前記対象文書に対する前記Q&Aデータの正確性に関する第1判定結果を出力する第1出力部と、前記第1判定結果が所定の基準を満たすまで、新たなQ&Aデータを再生成するQ&Aデータ再生成部と、前記複数の対象データに対応する前記Q&Aデータすべてが前記所定の基準を満たした後に、前記Q&Aデータに含まれる第1質問と前記第1質問に対する第1回答との対のうち、前記第1質問を前記RAGシステムに入力し、前記RAGシステムから前記第1質問に対する第2回答を取得する回答取得部と、前記第1回答に対する前記第2回答の正確性に関する第2判定結果を出力する第2出力部と、を備える。 前記の構成によれば、情報処理システム1は、RAGシステムの回答精度を第2判定結果として出力できる。情報処理システム1は、RAGシステムの回答精度を第2判定結果としてユーザに確認させることにより、誤情報(ハルシネーション)のより少ない、回答精度の改善されたRAGシステムの構築を促進できる。 また、前記の構成によれば、情報処理システム1は、従来のQ&A参照型チャットボットとは異なり、ユーザが社内文書などを所定のフォルダ(データストアなど)に格納するだけで、自動的に高品質なQ&Aを生成できる。また、情報処理システム1は、複数の生成AIを用いて横並びで精度評価を行うこともできるため、ハルシネーションの可能性を低減でき、RAGの回答精度を向上させることができる。 以下、図面を参照しつつ情報処理システム1を説明する。 図1は、本開示に係る情報処理システム1の機能構成を示すブロック図である。 図2は、本開示に係るサーバ10の機能構成を示すブロック図である。 図3は、本開示に係るユーザ端末20の機能構成を示すブロック図である。 <情報処理システム1の構成> 図1を参照して、情報処理システム1は、ネットワークNを介して接続された、サーバ10、ユーザ端末20、及び管理者端末30を備える。 サーバ10及びユーザ端末20は、一つの情報処理端末装置として一体化された構成により実現されてもよいが、以下では、それぞれ別々の装置であるものとして説明する。 ネットワークNは、3G、4G、5G、6Gなどの移動通信システム、LTE(Long Term Evolution)、Wi-Fi(登録商標)、インターネット、又は社内LANなどであってよい。 <サーバ10の基本構成> サーバ10は、プロセッサ11、主記憶装置12、補助記憶装置13、及び通信IF14を備える。これらは通信バスを介して互いに電気的に接続される。 プロセッサ11は、プログラムに記述された命令を実行する。プロセッサ11は、演算装置、レジスタ、及び/又は、周辺回路などにより構成される。 主記憶装置12は、プログラム、及び、プログラム等で処理されるデータを一時的に記憶するものであり、例えば、DRAM(Dynamic Random Access Memory)等の揮発性メモリである。 補助記憶装置13は、データ、及びプログラムを保存するものであり、例えば、フラッシュメモリ、HDD(Hard Disc Drive)、又は光磁気ディスク等である。 通信IF14は、有線又は無線の通信規格を用いて、他のコンピュータとネットワークを介して通信するための信号を入出力するためのインタフェースである。 次に、図2を参照して、サーバ10は、記憶部101及び制御部102を備える。以下、記憶部101及び制御部102について説明する。 記憶部101は、アプリケーションプログラム1011、大規模言語モデル1012、対象文書1013、対象データ1014、及びQ&Aデータ1015を記憶する。 アプリケーションプログラム1011は、サーバ10の制御部102を各機能ユニットとして機能させるためのプログラムである。アプリケーションプログラム1011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。 大規模言語モデル1012は、情報処理システム1において使用する複数の大規模言語モデルを記憶する。複数の大規模言語モデルは、少なくとも一部は互いに異なっていてもよい。複数の大規模言語モデルが互いに異なるとは、それぞれ異なるアーキテクチャ又はハイパーパラメータ等を有することをいい、レイヤー構造、ニューロン数、トレーニング手法、及び/又は、最適化アルゴリズムの相違を含む。さらに、学習に使用されたデータセット、及び/又は、チューニング方法も互いに異なってよく、生成するテキストの品質、及び/又は、特性に違いを生じさせうる。これにより、同じタスクに対してもモデルごとに異なる応答が期待できる。 大規模言語モデル1012は、必ずしもサーバ10の記憶部101に記憶されている必要はなく、後述のユーザ端末20の記憶部(不図示)、又は、他の記憶装置に記憶されていてもよい。 次に、対象文書1013について説明する。一般に、検索拡張生成では、タスクの実行を指示する指示情報に基づいて所定のデータソースから参照情報が検索され、指示情報及び参照情報の検索結果を含むプロンプトが大規模言語モデルに入力される。大規模言語モデルは、学習データに含まれない参照情報を参照してタスクを実行する。これにより、検索拡張生成は、従来の生成AIの回答において課題となっていた誤情報(ハルシネーション)を改善する。 対象文書1013は、前述した参照情報に該当すると考えてよい。対象文書1013は、インターネット情報又は組織(企業など)内に保存されている、最新情報、データベース、及び、内部資料などであってよく、その種類は限定されない。対象文書1013は、ワード、パワーポイント、pdf、SQL形式、CSV形式、JSON形式、XML形式、バイナリ形式などの様々な形式で保存されていてもよい。以下では、説明の便宜のため、対象文書1013は、企業内に保存されているpdf形式の文書(対象文書)であるものとして説明する。 対象文書1013は、必ずしもサーバ10の記憶部101に記憶されている必要はなく、後述のユーザ端末20の記憶部(不図示)、又は、他の記憶装置に記憶されていてもよい。 次に、対象データ1014について説明する。対象データ1014は、対象文書を所定の単位毎に分割してなる複数のデータである。所定の単位とは、例えば、1頁ごと、2頁ごと、又は、文書内の章ごとなど、適宜に決められてよい。 Q&Aデータ1015は、対象データ1014に対して想定される質問とその模範解答とを対応付けたデータセットをいう。Q&Aデータ1015は、評価対象のシステムに質問を与えることによって得られた回答が模範解答とどれだけ近いかを判定するために作られる。 Q&Aデータ1015は、通常、ユーザがシステムに尋ねるであろう「質問項目(Question)」とその質問に対する模範的な回答である「回答内容(Answer)」を含む。さらに、Q&Aデータ1015は、質問が属するテーマやトピックを示す「カテゴリー(Category)」、及び/又は、検索もしくはフィルタリングを助けるキーワードとなる「タグ(Tags)」などを含んでもよい。 Q&Aデータ1015は、必ずしもサーバ10の記憶部101に記憶されている必要はなく、後述のユーザ端末20の記憶部(不図示)、又は、他の記憶装置に記憶されていてもよい。 続いて、図2を参照して、制御部102は、対象文書分割部1020、構成要素分類部1021、観点生成部1022、Q&Aデータ生成部1023、第1出力部1024、Q&Aデータ再生成部1025、回答取得部1026、及び第2出力部1027を備える。制御部102は、受付部1028を備えていてもよい。 対象文書分割部1020は、対象文書を所定の単位毎に分割する。所定の単位とは、例えば、1頁ごと、2頁ごと、又は、文書内の章ごとなど、適宜に決められてよい。以下では、対象文書分割部1020は、所定のフォルダに保存された対象文書を1頁毎に分割するものとして説明する。 対象文書分割部1020は、例えば、オンラインツール(Smallpdf、ILovePDFなど)、Adobe Acrobatに備え付けの機能、又はPython等のプログラムを用いて、対象文書を1頁毎に分割してよい。具体的に、対象文書分割部102