Search

JP-2026077560-A - 情報処理装置、情報処理方法、およびプログラム

JP2026077560AJP 2026077560 AJP2026077560 AJP 2026077560AJP-2026077560-A

Abstract

【課題】ユーザの質問に対する適切な回答を短時間で提供すること。 【解決手段】ユーザからの質問の対象となるコンテンツを取得する取得部と、前記コンテンツを文脈に応じた複数の領域に分割する分割部と、前記複数の領域ごとに要約を生成する第1生成部と、前記要約と、要約元となるコンテンツのカテゴリと、前記要約元となるコンテンツを示すラベルとを紐づけたインデックス情報を生成する第2生成部と、前記カテゴリおよび前記ラベルと関連付けられた質問を、前記ユーザから受け付ける受付部と、前記質問に関連付けられた前記カテゴリおよび前記ラベルに基づいて、前記インデックス情報を絞り込む絞込部と、絞り込まれた前記インデックス情報から、前記質問と関連性のある前記インデックス情報を抽出する抽出部と、抽出された前記インデックス情報に基づいて、前記質問に対する回答を生成する第3生成部と、を備える情報処理装置。 【選択図】図10

Inventors

  • 渥美 順仁

Assignees

  • PayPay株式会社

Dates

Publication Date
20260513
Application Date
20250717

Claims (8)

  1. ユーザからの質問の対象となるコンテンツを取得する取得部と、 前記コンテンツを文脈に応じた複数の領域に分割する分割部と、 前記複数の領域ごとに要約を生成する第1生成部と、 前記要約と、要約元となるコンテンツのカテゴリと、前記要約元となるコンテンツを示すラベルとを紐づけたインデックス情報を生成する第2生成部と、 前記カテゴリおよび前記ラベルと関連付けられた質問を、前記ユーザから受け付ける受付部と、 前記質問に関連付けられた前記カテゴリおよび前記ラベルに基づいて、前記インデックス情報を絞り込む絞込部と、 絞り込まれた前記インデックス情報から、前記質問と関連性のある前記インデックス情報を抽出する抽出部と、 抽出された前記インデックス情報に基づいて、前記質問に対する回答を生成する第3生成部と、 を備える情報処理装置。
  2. 前記質問をベクトル化した第1ベクトルと、前記要約をベクトル化した第2ベクトルとを生成するベクトル化部を更に備え、 前記抽出部は、 前記第1ベクトルと前記第2ベクトルとを比較することにより、前記質問と関連性のある前記インデックス情報を抽出する、 請求項1記載の情報処理装置。
  3. 前記第3生成部は、 抽出された前記インデックス情報に基づいて、前記質問に対する回答を生成するためのプロンプトを生成し、 前記プロンプトを学習済みモデルに入力することで出力された回答を、前記ユーザからの質問に対する回答として生成する、 請求項1記載の情報処理装置。
  4. 前記第2生成部は、 前記要約と、前記カテゴリと、前記ラベルと、前記要約元となるコンテンツの中の範囲を示す範囲ラベルとを紐づけた前記インデックス情報を生成する、 請求項1記載の情報処理装置。
  5. 前記第2生成部は、 前記回答に対する評価に基づいて決定された大きさの領域ごとの前記要約、前記カテゴリ、および前記ラベルが紐づけられた前記インデックス情報を生成する、 請求項1記載の情報処理装置。
  6. 前記コンテンツは、規約である、 請求項1記載の情報処理装置。
  7. 情報処理装置が、 ユーザからの質問の対象となるコンテンツを取得し、 前記コンテンツを文脈に応じた複数の領域に分割し、 前記複数の領域ごとに要約を生成し、 前記要約と、要約元となるコンテンツのカテゴリと、前記要約元となるコンテンツを示すラベルとを紐づけたインデックス情報を生成し、 前記カテゴリおよび前記ラベルと関連付けられた質問を、前記ユーザから受け付け、 前記質問に関連付けられた前記カテゴリおよび前記ラベルに基づいて、前記インデックス情報を絞り込み、 絞り込まれた前記インデックス情報から、前記質問と関連性のある前記インデックス情報を抽出し、 抽出された前記インデックス情報に基づいて、前記質問に対する回答を生成する、 情報処理方法。
  8. 情報処理装置に、 ユーザからの質問の対象となるコンテンツを取得させ、 前記コンテンツを文脈に応じた複数の領域に分割させ、 前記複数の領域ごとに要約を生成させ、 前記要約と、要約元となるコンテンツのカテゴリと、前記要約元となるコンテンツを示すラベルとを紐づけたインデックス情報を生成させ、 前記カテゴリおよび前記ラベルと関連付けられた質問を、前記ユーザから受け付けさせ、 前記質問に関連付けられた前記カテゴリおよび前記ラベルに基づいて、前記インデックス情報を絞り込ませ、 絞り込まれた前記インデックス情報から、前記質問と関連性のある前記インデックス情報を抽出させ、 抽出された前記インデックス情報に基づいて、前記質問に対する回答を生成させる、 プログラム。

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。 従来、ユーザが欲しい回答を得やすくするための技術が知られている。 特開2023-081009号公報特許第4900041号公報 図1は、実施形態に係る情報処理の概要を説明するための説明図である。図2は、実施形態に係る情報処理システムの構成例を示す図である。図3は、実施形態に係る情報処理(実施形態1)の一例を示す図である。図4は、実施形態に係る情報処理(実施形態2)の一例を示す図である。図5は、実施形態に係る企業で管理されるコンテンツの一例を示す図である。図6は、実施形態に係るチャットボットのホーム画面の一例を示す図である。図7は、実施形態に係るチャットボットのウィンドウの一例を示す図である。図8は、実施形態に係る社内問い合わせフォームの一例を示す図である。図9は、実施形態に係る端末装置の構成例を示す図である。図10は、実施形態に係る情報処理装置の構成例を示す図である。図11は、実施形態に係るインデックス情報記憶部の一例を示す図である。図12は、実施形態に係る回答評価情報記憶部の一例を示す図である。図13は、実施形態に係る情報処理(実施形態1)の一例を示すフローチャートである。図14は、実施形態に係る情報処理(実施形態2)の一例を示すフローチャートである。図15は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。 以下に、本願に係る情報処理装置、情報処理方法、およびプログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、およびプログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 (実施形態) 〔1.情報処理の概要〕 図1を用いて、実施形態に係る情報処理の概要を説明する。図1は、実施形態に係る情報処理の概要を説明するための説明図である。図1に示すように、概要Rには、概要R1乃至概要R6が含まれる。概要R1は、規約、ウェブコンテンツ、店舗情報(売上履歴など)などのコンテンツの取得である。このコンテンツの中の文を用いてユーザUの質問に対する回答が生成される。概要R2は、インデックスビルダであり、概要R1で取得されたコンテンツがインデックス化される。概要R3は、概要R2でインデックス化されたインデックス化後の情報(インデックス情報)の取得である。概要R4は、ディスパッチャであり、ユーザUの操作に基づくタスクが実行される。例えば、ユーザUから受け付けられた質問に回答するためのタスクが実行される。概要R5は、プロンプトビルダであり、概要R3で取得されたインデックス情報と、概要R4で受け付けられた質問とを用いてプロンプトが生成される。例えば、概要R4で受け付けられた質問に対応するインデックス情報を抽出してそのインデックス情報からプロンプトが生成される。概要R6は、GPTなどの生成AIモデルであり、概要R5で生成されたプロンプトに基づきユーザUの質問に対する回答が生成される。概要R6で生成された回答は、ディスパッチャを介してユーザUに提供される。 〔2.情報処理システムの構成〕 図2に示す情報処理システム1について説明する。図2に示すように、情報処理システム1は、端末装置10と、情報処理装置100とが含まれる。端末装置10と、情報処理装置100とは所定の通信網(ネットワークN)を介して、有線または無線により通信可能に接続される。図2は、実施形態に係る情報処理システム1の構成例を示す図である。 端末装置10は、質問を行うユーザによって利用される情報処理装置である。ユーザは、例えば、規約や法律、ルールやマニュアルなどの内容に関して質問を行うユーザである。例えば、出張のために「社内の宿泊規約の宿泊費用の上限はいくらですか?」といった質問を行うユーザである。ユーザは、例えば、テキストでコメントのやりとりが可能なチャットツールを利用して質問を入力する。端末装置10は、実施形態における処理を実現可能であれば、どのような装置であってもよい。また、端末装置10は、スマートフォンや、タブレット型端末や、ノート型PCや、デスクトップPCや、携帯電話機や、PDAなどの装置であってもよい。後述する図4では、端末装置10がスマートフォンである場合を示す。 端末装置10は、例えば、スマートフォンやタブレットなどのスマートデバイスであり、4G~5G(Generation)やLTE(Long Term Evolution)などの無線通信網を介して任意のサーバ装置と通信を行うことができる携帯端末装置である。また、端末装置10は、液晶ディスプレイなどの画面であって、タッチパネルの機能を有する画面を有し、ユーザから指やスタイラスなどによりタップ操作、スライド操作、スクロール操作など、コンテンツなどの表示データに対する各種の操作を受け付けてもよい。後述する図4では、端末装置10はユーザU1によって利用される場合を示す。 情報処理装置100は、ユーザの質問に対する適切な回答を提供することを目的とした情報処理装置であり、実施形態における処理を実現可能であれば、どのような装置であってもよい。情報処理装置100は、大きく2種類の処理を行なう。1つ目は、ユーザから質問を受け付ける前の処理であり、ユーザから質問を受け付けた際に適切な回答を提供できるようにするための処理である。2つ目は、ユーザから質問を受け付けた際の処理であり、1つ目の処理結果の情報を用いてユーザの質問に対する回答を生成する処理である。具体的には、1つ目の処理において、情報処理装置100は、コンテンツ(規約や法律、ルールやマニュアルなど)を章ごと、条(条文)ごと、センテンスごと、主旨(予め所定の意味付けがされた主旨)ごとなど所定の単位(以下実施形態では「領域」とする)ごとに要約した情報(以下、適宜、「インデックス情報」とする)を生成する。そして、生成されたインデックス情報が2つ目の処理に利用される。また、2つ目の処理において、情報処理装置100は、ユーザから質問を受け付けると、1つ目の処理で生成されたインデックス情報を生成AIに入力することで、その質問に対する回答を生成する。 ここで、実施形態に係るインデックス情報について説明する。実施形態に係るインデックス情報の生成には、ラマインデックスなどが用いられる。ラマインデックスは、大量のユーザデータからコンテキストを生成するためのツールであり、ユーザから受け付けた質問と個人のユーザデータとを入力することでデータ検索を行うツールである。すなわち、ラマインデックスは、データベースの情報源などにアクセスしてプロンプトの生成のための補助を行う。インデックス情報は、このような情報源などから取り込んだデータを整理して検索しやすくなるように構造化したものである。情報処理装置100は、このようなインデックス情報を用いることで、プロンプトの生成時に効率的にプライベート情報にアクセスしてプライベート情報を含むコンテキストの生成を行うことが可能になる。情報処理装置100は、ユーザから自然文の質問を受け付けると、ラマインデックスなどを用いてユーザからの質問に合うインデックス情報を検索して生成AIに入力する。 生成AIは、例えば、インターネット上に公開されたデータなどを学習させた文章生成モデルである。例えば、質問に対して回答を生成するGPT(Generative Pre-trained Transformer)モデルである。このようなモデルは、インターネット上に公開されたデータから質問に対する回答が生成される。インターネット上には日々新たなデータが公開されるので、モデルによる回答は、日々アップデートされることになる。すなわち、同じ内容の質問を行ったとしても質問する時期などによって、モデルが回答を生成する際に参照するデータが異なるので、異なる回答が生成されることになる。また、モデルは、幅広い分野の質問に対して詳細な回答を行うことができるので、モデルには、多種多様な質問がユーザから行われる。 なお、図2では、端末装置10と情報処理装置100とが、別装置である場合を示すが、端末装置10と情報処理装置100とが一体であってもよい。 〔3.情報処理の一例〕 従来、ユーザが欲しい回答を得やすくするための技術が知られている。例えば、社内データを活用して社内向けのチャットボットシステムを提供するための技術が知られている(上記特許文献1)。また、例えば、規約やマニュアルなどを章や段落などの所定の単位ごとに分割してタグ付けする技術が知られている(上記特許文献2)。しかしながら、従来の技術では、例えば、回答の生成に用いられる情報を適切に絞り込んだ上で回答を生成しないため、ユーザの質問に対する適切な回答を短時間で提供するための更なる向上の余地があった。本願は、上記に鑑みてなされたものであって、回答の生成に用いられる情報(インデックス情報)をカテゴリおよびラベルに基づいて絞り込んだ上で回答を生成することで、ユーザの質問に対する適切な回答を短時間で提供することを目的とする。 以下、実施形態に係る情報処理システム1の情報処理として2つの情報処理を説明する。上述のように、1つ目の情報処理(実施形態1)は、インデックス情報の生成のための情報処理であり、2つ目の情報処理(実施形態2)は、ユーザからの質問に対する回答を生成するための情報処理である。2つの情報処理を組み合わせることで、ユーザの質問に対する適切な回答を提供することが可能になる。情報処理装置100は、1つ目の情報処理(Indexing Stage)では、データソースから取得したデータを整理してインデックス化を行い、2つ目の情報処理(Querying Stage)では、ユーザが入力した質問を解析してインデックスから関連する情報を取り出し最終的なレスポンスの生成を行う。この仕組みを用いることで、ラマインデックスは大量のデータを効率的に管理し、ユーザは必要な情報を迅速に取得することが可能になる。特に、多くの情報が散在している場合や、特定の情報を迅速に引き出したい場合に有用であり、生成AIへのプロンプトの生成を大幅に効率化し、より良い結果の取得が可能になる。 (実施形態1:インデックス情報の生成のための情報処理) 図3は、実施形態1に係る情報処理システム1の情報処理の一例を示す図である。情報処理装置100は、ユーザからの質問の対象となるコンテンツ(コンテンツA)を取得する(ステップS101)。実施形態に係るコンテンツは、規約や法律、ルールやマニュアルなどが一例であるが、どのような内容のコンテンツであってもよく、特に限定されなくてもよい。後述の実施形態では、コンテンツが「出張旅費規約」である例を説明するが、コンテンツが、サービス提供者とユーザとの間で、サービス提供者の権利義務およびユーザの遵守事項を定めた「サービス利用規約」であってもよい。なお、実施形態に係るコンテンツは、PDFなどのドキュメントオブジェクトに変換されてもよい。すなわち、異なるデータベースから取得された情報は、ドキュメントオブジェクトに変換されてもよい。そして、このように変換されたドキュメントオブジェクトは、より扱いやすいノードへと変換されて、効率的なデータアクセスのためにインデックス化されてもよい。 情報処理装置100は、取得したコンテンツを複数の領域(領域A1、領域A2、領域A3、・・・)に分割する(ステップS102)。例えば、情報処理装置100は、章ごと、条ごと、センテンスごと、主旨ごとなどの領域ごとに分割する。なお、分割される領域の大きさ(領域分けの範囲)はコンテンツの文脈などから判断されてもよい。すなわち、情報処理装置10