Search

JP-2026076524-A - 情報処理装置、情報処理プログラム、情報処理システム、および、データベース生成方法

JP2026076524AJP 2026076524 AJP2026076524 AJP 2026076524AJP-2026076524-A

Abstract

【課題】大規模言語モデルからユーザの要求に応じた適切な回答を得ることができる技術を提供する。 【解決手段】例示的な情報処理装置は、大規模言語モデルに入力するプロンプトを生成する情報処理装置であって、撮影画像の、撮影時間情報を含む特徴を表すベクトルデータを複数収集した時系列ベクトルデータベースを用いて、ユーザの入力と類似するデータを検索する類似検索を行い、前記ユーザの入力と、前記類似検索により前記時系列ベクトルデータベースから抽出されたベクトルデータに紐づく画像データとに基づき前記プロンプトを生成する。 【選択図】図1

Inventors

  • 岩▲崎▼ 雄介
  • 片山 雄喜
  • 小島 幹
  • 大沼 和親
  • 矢野 竜之介
  • 石田 泰久
  • 池上 翔太

Assignees

  • 株式会社デンソーテン

Dates

Publication Date
20260512
Application Date
20241024

Claims (11)

  1. 大規模言語モデルに入力するプロンプトを生成する情報処理装置であって、 撮影画像の、撮影時間情報を含む特徴を表すベクトルデータを複数収集した時系列ベクトルデータベースを用いて、ユーザの入力と類似するデータを検索する類似検索を行い、 前記ユーザの入力と、前記類似検索により前記時系列ベクトルデータベースから抽出されたベクトルデータに紐づく画像データとに基づき前記プロンプトを生成する、情報処理装置。
  2. 前記時系列ベクトルデータベースを構成するベクトルデータを生成するベクトルデータ生成処理を行う、請求項1に記載の情報処理装置。
  3. 前記撮影画像の特徴を取得する物体検知処理を行う、請求項1又は2に記載の情報処理装置。
  4. 前記物体検知処理により得られた物体の種類を示すラベルに対して前記撮影時間情報を与える時間情報付与処理を行う、請求項3に記載の情報処理装置。
  5. 前記類似検索を行うに際に、前記撮影時間情報を前記ユーザの入力があった時刻を基準とする相対時間情報に変換して前記時系列ベクトルデータベースに含める時間情報変換処理を行う、請求項1に記載の情報処理装置。
  6. 前記画像データは、静止画像データまたは動画像データである、請求項1に記載の情報処理装置。
  7. 前記ユーザの入力は、ユーザの音声入力である、請求項1に記載の情報処理装置。
  8. 大規模言語モデルに入力するプロンプトを生成する処理をコンピュータに実行させる情報処理プログラムであって、 前記コンピュータを、 撮影画像の、撮影時間情報を含む特徴を表すベクトルデータを複数収集した時系列ベクトルデータベースを用いて、ユーザの入力と類似するデータを検索する類似検索を行うことと、 前記ユーザの入力と、前記類似検索により前記時系列ベクトルデータベースから抽出されたベクトルデータに紐づく画像データとに基づき前記プロンプトを生成することと、 を行う手段として機能させる、情報処理プログラム。
  9. 大規模言語モデルを備えるサーバと、 前記大規模言語モデルに入力するプロンプトを生成する対話装置と、 を備え、 前記対話装置は、 コントローラと、 撮影画像の、撮影時間情報を含む特徴を表すベクトルデータを複数収集した時系列ベクトルデータベースを格納するメモリと、 を有し、 前記コントローラは、 前記時系列ベクトルデータベースを用いてユーザの入力と類似するデータを検索する類似検索を行い、 前記ユーザの入力と、前記類似検索により前記時系列ベクトルデータベースから抽出されたベクトルデータに紐づく画像データとに基づき前記プロンプトを生成する、情報処理システム。
  10. 大規模言語モデルに入力するプロンプトを生成する情報処理装置であって、 撮影画像の、撮影時間情報を含む特徴を表すベクトルデータを複数収集した時系列ベクトルデータベースから、ユーザの入力と類似するベクトルデータとして抽出された類似ベクトルデータを取得し、 前記ユーザの入力と、前記類似ベクトルデータに紐づく画像データとに基づき前記プロンプトを生成する、情報処理装置。
  11. カメラで撮影された撮影画像のデータを取得し、 前記撮影画像の特徴を、撮影時間情報を含んで取得する処理を行い、 前記撮影画像の特徴をベクトルで表すベクトルデータを生成し、 順次撮影された前記撮影画像ごとの前記ベクトルデータを収集して時系列ベクトルデータベースとする、データベース生成方法。

Description

本発明は、大規模言語モデル(LLM:Large Language Models)に入力するプロンプトを生成する技術に関する。 従来、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルである大規模言語モデルが知られている。大規模言語モデルは、プロンプトと呼ばれる文章を入力とし、文章を出力する。このような大規模言語モデルは、例えば質疑応答を行うシステムに適用され、質問文(プロンプト)を入力されると、回答文を出力する。 大規模言語モデルが行う回答の正確さを向上する技術として、質問文に情報を付加してプロンプトを生成することが行われている(例えば特許文献1参照)。特許文献1には、入力された質問文に対して参考情報を付加することにより、大規模言語モデルに入力するためのプロンプトを生成する文章生成方法が開示されている。当該文章生成方法において、参考情報は、入力された質問文の特徴に応じて、大規模言語モデルとは別に準備された文章データベースから取得される。 特許第7325152号公報 情報処理システムの概要を示すブロック図エンベディングの結果として得られるベクトル空間を単純化して示す模式図大規模言語モデルに入力するプロンプトと、大規模言語モデルからの回答を例示する図対話装置の概略の構成を示すブロック図撮影画像に対する物体検知処理について説明するための図シーン認識部で取得されたラベルを強ラベル変換した後のデータ例を示す図強ラベル変換後データの補正処理について説明するための図対話装置(情報処理装置)によって実行される時系列ベクトルデータベースの生成処理の流れを例示するフローチャート対話装置(情報処理装置)によって実行されるプロンプトの生成処理の流れを例示するフローチャート図6の撮影時間情報を、ユーザの入力(発話)があった時刻を基準とした相対時間情報に変換した結果を示す図第1変形例の情報処理システムの概要を示すブロック図第2変形例の情報処理システムの概要を示すブロック図 以下、本発明の例示的な実施形態について、図面を参照しながら詳細に説明する。なお、本明細書において、情報処理は、装置が実行する処理のことを指す。 <1.情報処理システム> 図1は、本発明の実施形態に係る情報処理システム100の概要を示すブロック図である。図1に示すように、情報処理システム100は、サーバ1と対話装置2とを備える。サーバ1および対話装置2は、それぞれ、インターネットや電話回線網等の通信ネットワーク(不図示)に接続可能に設けられる。サーバ1と対話装置2とは、通信ネットワークを介して通信可能である。 サーバ1は、詳細にはクラウドサーバである。図1に示すように、サーバ1は、大規模言語モデル(LLM)1aを備える。大規模言語モデル1aは、大量のテキストデータを使ってトレーニングされたモデルに従って自然言語処理可能に設けられたソフトウェアである。詳細には、大規模言語モデル1aはマルチモーダルLLMである。すなわち、大規模言語モデル1aは、テキストの他に画像等のデータも扱うことができる。例えば、大規模言語モデル1aは、対話装置2によって指令文や質問文等のプロンプトを入力され、当該プロンプトの入力に対して回答文等の応答を対話装置2に対して行う。また、例えば、大規模言語モデル1aは、対話装置2によって指令文等に画像を伴ったプロンプトを入力され、当該プロンプトの入力に対して回答文等の応答を対話装置2に対して行う。 対話装置2は、ユーザU1からの指令や質問等を音声認識により抽出し、大規模言語モデル1aとの協働により、ユーザU1からの指令等に応じた処理を実行する機能を備える。対話装置2は、大規模言語モデル1aに入力するプロンプトを生成する。本実施形態においては、対話装置2は、自動車等の車両(不図示)に搭載される車載装置である。対話装置2は、例えばナビゲーション装置やディスプレイオーディオ等に含まれる構成であってもよい。なお、本実施形態において、ユーザU1は、対話装置2を搭載する車両の乗員が想定される。ユーザU1は、詳細にはドライバが想定される。 対話装置2は、対話等処理部2aと、エンベディング(Embedding)モデル2bと、ベクトルデータベース(ベクトルDB)2cと、前処理部2dと、を備える。 対話等処理部2aは、対話装置2における対話に関わる処理を行う。対話等処理部2aは、例えば、ユーザU1との対話処理、大規模言語モデル1aとの通信処理、大規模言語モデル1aに入力するプロンプトの生成処理等を行う。 エンベディングモデル2bは、機械学習を行った学習モデルであり、単語や文章等のデータ(テキストデータ)に対してエンベディング(埋め込み)を行うソフトウェアである。なお、エンベディングとは、単語や文章等の意味を封じ込めたデータの数学的表現のことを指し、具体的には単語や文章等のデータをベクトル表現に変換することを指す。ベクトルは、例えば、[0.50,-0.10,0.25,0.55,・・・]のように実数値が並べられた配列を指す。例えば100個の数値が並ぶベクトルは、「100次元」のベクトルと呼ばれる。 各種のデータをエンベディングすることにより得られたベクトル空間においては、互いに関連性の高い意味を持つベクトル同士は、近接した場所に配置されることになる。図2は、エンベディングの結果として得られるベクトル空間を単純化して示す模式図である。図2では、理解を容易とするためにベクトル空間を2次元化しているが、ベクトル空間は実際には非常に大きな次元を有する。図2に示す例では、スポーツ観戦という点で意味的に関連する「野球が見たい」と「サッカーが見たい」とがベクトル空間において近接した場所に配置されている。一方、スポーツ観戦とは意味的に関連性の低い文章である「犬の散歩がしたい」については、ベクトル空間において「野球が見たい」および「サッカーが見たい」から離れた位置に配置されている。 ベクトルデータベース2cは、エンベディングモデル2bによってベクトルでの表現形式に変換されたデータ(ベクトルデータ)の集めたデータベースである。ベクトルデータベース2cは、例えば、ベクトルデータと、当該ベクトルデータに紐づけられた元データとを含んで構成される。元データは、ベクトルに変換される前のデータのことであり、例えばテキストデータである。 ベクトルデータベース2cは、大規模言語モデル1aに入力するプロンプトの生成時に有用な情報として利用される可能性があるデータを集めて整理した情報のかたまりである。より詳細には、ベクトルデータベース2cは、類似検索(ベクトル検索)に利用されるデータを集めたデータの集合体である。類似検索は、ベクトル表現に変換されたベクトルデータ同士の比較により類似度を計算し、類似(関連)する情報を見つけ出す検索手法のことである。例えば、ベクトル空間における位置が所定の範囲内にあるベクトルデータ同士は、類似(関連)する情報として扱われる。 なお、本実施形態では、ベクトルデータベース2cは、第1ベクトルデータベース2caと第2ベクトルデータベース2cbとを備える。第1ベクトルデータベース2caと第2ベクトルデータベース2cbとは、データベースの生成手法が異なる。第1ベクトルデータベース2caと第2ベクトルデータベース2cbとの詳細については後述する。なお、本明細書では、第2ベクトルデータベース2cbのことを時系列ベクトルデータベース2cbと表現することがある。 前処理部2dは、上記の第2ベクトルデータベース(時系列ベクトルデータベース)2cbを生成するための前処理を行う。前処理部2dには、対話装置2を搭載する車両が備えるドライブレコーダDR1(詳細にはカメラ200)で撮影された撮影画像のデータ(画像データ)が入力される。前処理部2dは、入力された画像データを用いて、第2ベクトルデータベース2cbを生成するための前処理を行う。前処理により得られたデータを用いて、第2ベクトルデータベース2cbが生成される。前処理部2dが行う処理の詳細については後述する。 なお、本実施形態では、カメラ200がドライブレコーダDR1に含まれる構成であるが、これは例示にすぎない。対話装置2に入力する画像データを取得するカメラ200は、車両の周囲を撮影することができる構成であればよく、ドライブレコーダに含まれる構成である必要はない。カメラ200は、車両の乗員が見る光景と同様の光景を撮影することが好ましく、ドライバが見る光景と同様の光景を撮影することがより好ましい。すなわち、カメラ200は、車両の室内から前方を見た光景を撮影できるように配置されることが好ましい。なお、本実施形態では、ドライブレコーダDR1に含まれるカメラ200は、車両の室内から前方を撮影する構成となっている。 また、本実施形態では、前処理部2dが対話装置2に含まれる構成となっているが、前処理部2dは、対話装置2とは別の車載装置として構成されてもよい。このような構成とする場合、前処理部2dを構成する車載装置は、対話装置2とデータの送受信を可能に設けられればよい。 ここで、図1に示す情報処理システム100において、ユーザU1の質問や指令等の入力により、大規模言語モデル1aがユーザU1に対して応答を行う情報処理の流れについて説明する。なお、図1に示す情報処理は、コンピュータを用いた演算処理(コンピュータ処理)により実現される。 第1の前提として、第1ベクトルデータベース2caを生成する処理が行われる。第1ベクトルデータベース2caを生成する処理は、車両に乗るユーザU1が対話装置2の利用を開始する時点で完了している。第1ベクトルデータベース2caを生成する処理には、図1における符号(a1)および(a2)で示す処理が含まれる。 符号(a1)で示す処理は、知識データD1をエンベディングモデル2bに入力する処理である。知識データD1を入力されたエンベディングモデル2bは、入力されたデータをベクトルデータに変換する処理を行う。なお、知識データD1は、単語や文章等のテキストデータである。知識データD1は、プロンプトの生成時に有用な情報として利用される可能性があるデータである。知識データD1は、例えば、ユーザU1の入力した質問文の回答を大規模言語モデル1aに回答させる場合に、回答の参考となる情報(参考情報)を与えるデータである。エンベディングモデル2bには、複数の知識データD1が入力され、複数の知識データD1のそれぞれがベクトルデータに変換される。 符号(a2)で示す処理は、各知識データD1の入力に応じてエンベディングモデル2bが生成した各ベクトルデータを、1つに纏めて第1ベクトルデータベース2caを生成する処理である。第1ベクトルデータベース2caに格納される各ベクトルデータは、ベクトル変換前の元データと紐づけられた状態(セットとされた状態)で、第1ベクトルデータベース2caに格納される。 第2の前提として、第2ベクトルデータベース2cbを生成する処理が行われる。第2ベクトルデータベース2cbを生成する処理は、車両に搭載されるドライブレコーダDR1がカメラ200による撮影を開始した時点から開始され、カメラ200による撮影が継続している間、継続して行われる。第2ベクトルデータベース2cbを生成する処理には、図1における符号(b1)、(b2)、および、(b3)で示す処理が含まれる。 符号(b1)で示す処理は、ドライブレコーダDR1(カメラ200)で撮影した撮影画像のデータ(画像データ)を、対話装置2に入力する処理である。対話装置2に入力された画像データは、第2ベクトルデータベース2cbに格納されるベクトルデータと紐づけて記憶されるように、対話装置2が備えるメモリに記憶される。なお、画像データは、第2ベクトルデータベース2cbを格納されるベクトルデータと紐づけ記憶されていれ