JP-2026076524-A - 情報処理装置、情報処理プログラム、情報処理システム、および、データベース生成方法

JP2026076524AJP 2026076524 AJP2026076524 AJP 2026076524AJP-2026076524-A

Abstract

【課題】大規模言語モデルからユーザの要求に応じた適切な回答を得ることができる技術を提供する。【解決手段】例示的な情報処理装置は、大規模言語モデルに入力するプロンプトを生成する情報処理装置であって、撮影画像の、撮影時間情報を含む特徴を表すベクトルデータを複数収集した時系列ベクトルデータベースを用いて、ユーザの入力と類似するデータを検索する類似検索を行い、前記ユーザの入力と、前記類似検索により前記時系列ベクトルデータベースから抽出されたベクトルデータに紐づく画像データとに基づき前記プロンプトを生成する。【選択図】図１

Inventors

岩▲崎▼ 雄介
片山雄喜
小島幹
大沼和親
矢野竜之介
石田泰久
池上翔太

Assignees

株式会社デンソーテン

Dates

Publication Date: 20260512
Application Date: 20241024

Claims (11)

大規模言語モデルに入力するプロンプトを生成する情報処理装置であって、撮影画像の、撮影時間情報を含む特徴を表すベクトルデータを複数収集した時系列ベクトルデータベースを用いて、ユーザの入力と類似するデータを検索する類似検索を行い、前記ユーザの入力と、前記類似検索により前記時系列ベクトルデータベースから抽出されたベクトルデータに紐づく画像データとに基づき前記プロンプトを生成する、情報処理装置。
前記時系列ベクトルデータベースを構成するベクトルデータを生成するベクトルデータ生成処理を行う、請求項１に記載の情報処理装置。
前記撮影画像の特徴を取得する物体検知処理を行う、請求項１又は２に記載の情報処理装置。
前記物体検知処理により得られた物体の種類を示すラベルに対して前記撮影時間情報を与える時間情報付与処理を行う、請求項３に記載の情報処理装置。
前記類似検索を行うに際に、前記撮影時間情報を前記ユーザの入力があった時刻を基準とする相対時間情報に変換して前記時系列ベクトルデータベースに含める時間情報変換処理を行う、請求項１に記載の情報処理装置。
前記画像データは、静止画像データまたは動画像データである、請求項１に記載の情報処理装置。
前記ユーザの入力は、ユーザの音声入力である、請求項１に記載の情報処理装置。
大規模言語モデルに入力するプロンプトを生成する処理をコンピュータに実行させる情報処理プログラムであって、前記コンピュータを、撮影画像の、撮影時間情報を含む特徴を表すベクトルデータを複数収集した時系列ベクトルデータベースを用いて、ユーザの入力と類似するデータを検索する類似検索を行うことと、前記ユーザの入力と、前記類似検索により前記時系列ベクトルデータベースから抽出されたベクトルデータに紐づく画像データとに基づき前記プロンプトを生成することと、を行う手段として機能させる、情報処理プログラム。
大規模言語モデルを備えるサーバと、前記大規模言語モデルに入力するプロンプトを生成する対話装置と、を備え、前記対話装置は、コントローラと、撮影画像の、撮影時間情報を含む特徴を表すベクトルデータを複数収集した時系列ベクトルデータベースを格納するメモリと、を有し、前記コントローラは、前記時系列ベクトルデータベースを用いてユーザの入力と類似するデータを検索する類似検索を行い、前記ユーザの入力と、前記類似検索により前記時系列ベクトルデータベースから抽出されたベクトルデータに紐づく画像データとに基づき前記プロンプトを生成する、情報処理システム。
大規模言語モデルに入力するプロンプトを生成する情報処理装置であって、撮影画像の、撮影時間情報を含む特徴を表すベクトルデータを複数収集した時系列ベクトルデータベースから、ユーザの入力と類似するベクトルデータとして抽出された類似ベクトルデータを取得し、前記ユーザの入力と、前記類似ベクトルデータに紐づく画像データとに基づき前記プロンプトを生成する、情報処理装置。
カメラで撮影された撮影画像のデータを取得し、前記撮影画像の特徴を、撮影時間情報を含んで取得する処理を行い、前記撮影画像の特徴をベクトルで表すベクトルデータを生成し、順次撮影された前記撮影画像ごとの前記ベクトルデータを収集して時系列ベクトルデータベースとする、データベース生成方法。

Description

本発明は、大規模言語モデル（ＬＬＭ：Large Language Models）に入力するプロンプトを生成する技術に関する。従来、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルである大規模言語モデルが知られている。大規模言語モデルは、プロンプトと呼ばれる文章を入力とし、文章を出力する。このような大規模言語モデルは、例えば質疑応答を行うシステムに適用され、質問文（プロンプト）を入力されると、回答文を出力する。大規模言語モデルが行う回答の正確さを向上する技術として、質問文に情報を付加してプロンプトを生成することが行われている（例えば特許文献１参照）。特許文献１には、入力された質問文に対して参考情報を付加することにより、大規模言語モデルに入力するためのプロンプトを生成する文章生成方法が開示されている。当該文章生成方法において、参考情報は、入力された質問文の特徴に応じて、大規模言語モデルとは別に準備された文章データベースから取得される。特許第７３２５１５２号公報情報処理システムの概要を示すブロック図エンベディングの結果として得られるベクトル空間を単純化して示す模式図大規模言語モデルに入力するプロンプトと、大規模言語モデルからの回答を例示する図対話装置の概略の構成を示すブロック図撮影画像に対する物体検知処理について説明するための図シーン認識部で取得されたラベルを強ラベル変換した後のデータ例を示す図強ラベル変換後データの補正処理について説明するための図対話装置（情報処理装置）によって実行される時系列ベクトルデータベースの生成処理の流れを例示するフローチャート対話装置（情報処理装置）によって実行されるプロンプトの生成処理の流れを例示するフローチャート図６の撮影時間情報を、ユーザの入力（発話）があった時刻を基準とした相対時間情報に変換した結果を示す図第１変形例の情報処理システムの概要を示すブロック図第２変形例の情報処理システムの概要を示すブロック図以下、本発明の例示的な実施形態について、図面を参照しながら詳細に説明する。なお、本明細書において、情報処理は、装置が実行する処理のことを指す。＜１．情報処理システム＞図１は、本発明の実施形態に係る情報処理システム１００の概要を示すブロック図である。図１に示すように、情報処理システム１００は、サーバ１と対話装置２とを備える。サーバ１および対話装置２は、それぞれ、インターネットや電話回線網等の通信ネットワーク（不図示）に接続可能に設けられる。サーバ１と対話装置２とは、通信ネットワークを介して通信可能である。サーバ１は、詳細にはクラウドサーバである。図１に示すように、サーバ１は、大規模言語モデル（ＬＬＭ）１ａを備える。大規模言語モデル１ａは、大量のテキストデータを使ってトレーニングされたモデルに従って自然言語処理可能に設けられたソフトウェアである。詳細には、大規模言語モデル１ａはマルチモーダルＬＬＭである。すなわち、大規模言語モデル１ａは、テキストの他に画像等のデータも扱うことができる。例えば、大規模言語モデル１ａは、対話装置２によって指令文や質問文等のプロンプトを入力され、当該プロンプトの入力に対して回答文等の応答を対話装置２に対して行う。また、例えば、大規模言語モデル１ａは、対話装置２によって指令文等に画像を伴ったプロンプトを入力され、当該プロンプトの入力に対して回答文等の応答を対話装置２に対して行う。対話装置２は、ユーザＵ１からの指令や質問等を音声認識により抽出し、大規模言語モデル１ａとの協働により、ユーザＵ１からの指令等に応じた処理を実行する機能を備える。対話装置２は、大規模言語モデル１ａに入力するプロンプトを生成する。本実施形態においては、対話装置２は、自動車等の車両（不図示）に搭載される車載装置である。対話装置２は、例えばナビゲーション装置やディスプレイオーディオ等に含まれる構成であってもよい。なお、本実施形態において、ユーザＵ１は、対話装置２を搭載する車両の乗員が想定される。ユーザＵ１は、詳細にはドライバが想定される。対話装置２は、対話等処理部２ａと、エンベディング（Embedding）モデル２ｂと、ベクトルデータベース（ベクトルＤＢ）２ｃと、前処理部２ｄと、を備える。対話等処理部２ａは、対話装置２における対話に関わる処理を行う。対話等処理部２ａは、例えば、ユーザＵ１との対話処理、大規模言語モデル１ａとの通信処理、大規模言語モデル１ａに入力するプロンプトの生成処理等を行う。エンベディングモデル２ｂは、機械学習を行った学習モデルであり、単語や文章等のデータ（テキストデータ）に対してエンベディング（埋め込み）を行うソフトウェアである。なお、エンベディングとは、単語や文章等の意味を封じ込めたデータの数学的表現のことを指し、具体的には単語や文章等のデータをベクトル表現に変換することを指す。ベクトルは、例えば、［０．５０，－０．１０，０．２５，０.５５，・・・］のように実数値が並べられた配列を指す。例えば１００個の数値が並ぶベクトルは、「１００次元」のベクトルと呼ばれる。各種のデータをエンベディングすることにより得られたベクトル空間においては、互いに関連性の高い意味を持つベクトル同士は、近接した場所に配置されることになる。図２は、エンベディングの結果として得られるベクトル空間を単純化して示す模式図である。図２では、理解を容易とするためにベクトル空間を２次元化しているが、ベクトル空間は実際には非常に大きな次元を有する。図２に示す例では、スポーツ観戦という点で意味的に関連する「野球が見たい」と「サッカーが見たい」とがベクトル空間において近接した場所に配置されている。一方、スポーツ観戦とは意味的に関連性の低い文章である「犬の散歩がしたい」については、ベクトル空間において「野球が見たい」および「サッカーが見たい」から離れた位置に配置されている。ベクトルデータベース２ｃは、エンベディングモデル２ｂによってベクトルでの表現形式に変換されたデータ（ベクトルデータ）の集めたデータベースである。ベクトルデータベース２ｃは、例えば、ベクトルデータと、当該ベクトルデータに紐づけられた元データとを含んで構成される。元データは、ベクトルに変換される前のデータのことであり、例えばテキストデータである。ベクトルデータベース２ｃは、大規模言語モデル１ａに入力するプロンプトの生成時に有用な情報として利用される可能性があるデータを集めて整理した情報のかたまりである。より詳細には、ベクトルデータベース２ｃは、類似検索（ベクトル検索）に利用されるデータを集めたデータの集合体である。類似検索は、ベクトル表現に変換されたベクトルデータ同士の比較により類似度を計算し、類似（関連）する情報を見つけ出す検索手法のことである。例えば、ベクトル空間における位置が所定の範囲内にあるベクトルデータ同士は、類似（関連）する情報として扱われる。なお、本実施形態では、ベクトルデータベース２ｃは、第１ベクトルデータベース２ｃａと第２ベクトルデータベース２ｃｂとを備える。第１ベクトルデータベース２ｃａと第２ベクトルデータベース２ｃｂとは、データベースの生成手法が異なる。第１ベクトルデータベース２ｃａと第２ベクトルデータベース２ｃｂとの詳細については後述する。なお、本明細書では、第２ベクトルデータベース２ｃｂのことを時系列ベクトルデータベース２ｃｂと表現することがある。前処理部２ｄは、上記の第２ベクトルデータベース(時系列ベクトルデータベース)２ｃｂを生成するための前処理を行う。前処理部２ｄには、対話装置２を搭載する車両が備えるドライブレコーダＤＲ１（詳細にはカメラ２００）で撮影された撮影画像のデータ（画像データ）が入力される。前処理部２ｄは、入力された画像データを用いて、第２ベクトルデータベース２ｃｂを生成するための前処理を行う。前処理により得られたデータを用いて、第２ベクトルデータベース２ｃｂが生成される。前処理部２ｄが行う処理の詳細については後述する。なお、本実施形態では、カメラ２００がドライブレコーダＤＲ１に含まれる構成であるが、これは例示にすぎない。対話装置２に入力する画像データを取得するカメラ２００は、車両の周囲を撮影することができる構成であればよく、ドライブレコーダに含まれる構成である必要はない。カメラ２００は、車両の乗員が見る光景と同様の光景を撮影することが好ましく、ドライバが見る光景と同様の光景を撮影することがより好ましい。すなわち、カメラ２００は、車両の室内から前方を見た光景を撮影できるように配置されることが好ましい。なお、本実施形態では、ドライブレコーダＤＲ１に含まれるカメラ２００は、車両の室内から前方を撮影する構成となっている。また、本実施形態では、前処理部２ｄが対話装置２に含まれる構成となっているが、前処理部２ｄは、対話装置２とは別の車載装置として構成されてもよい。このような構成とする場合、前処理部２ｄを構成する車載装置は、対話装置２とデータの送受信を可能に設けられればよい。ここで、図１に示す情報処理システム１００において、ユーザＵ１の質問や指令等の入力により、大規模言語モデル１ａがユーザＵ１に対して応答を行う情報処理の流れについて説明する。なお、図１に示す情報処理は、コンピュータを用いた演算処理（コンピュータ処理）により実現される。第１の前提として、第１ベクトルデータベース２ｃａを生成する処理が行われる。第１ベクトルデータベース２ｃａを生成する処理は、車両に乗るユーザＵ１が対話装置２の利用を開始する時点で完了している。第１ベクトルデータベース２ｃａを生成する処理には、図１における符号（ａ１）および（ａ２）で示す処理が含まれる。符号（ａ１）で示す処理は、知識データＤ１をエンベディングモデル２ｂに入力する処理である。知識データＤ１を入力されたエンベディングモデル２ｂは、入力されたデータをベクトルデータに変換する処理を行う。なお、知識データＤ１は、単語や文章等のテキストデータである。知識データＤ１は、プロンプトの生成時に有用な情報として利用される可能性があるデータである。知識データＤ１は、例えば、ユーザＵ１の入力した質問文の回答を大規模言語モデル１ａに回答させる場合に、回答の参考となる情報（参考情報）を与えるデータである。エンベディングモデル２ｂには、複数の知識データＤ１が入力され、複数の知識データＤ１のそれぞれがベクトルデータに変換される。符号（ａ２）で示す処理は、各知識データＤ１の入力に応じてエンベディングモデル２ｂが生成した各ベクトルデータを、１つに纏めて第１ベクトルデータベース２ｃａを生成する処理である。第１ベクトルデータベース２ｃａに格納される各ベクトルデータは、ベクトル変換前の元データと紐づけられた状態（セットとされた状態）で、第１ベクトルデータベース２ｃａに格納される。第２の前提として、第２ベクトルデータベース２ｃｂを生成する処理が行われる。第２ベクトルデータベース２ｃｂを生成する処理は、車両に搭載されるドライブレコーダＤＲ１がカメラ２００による撮影を開始した時点から開始され、カメラ２００による撮影が継続している間、継続して行われる。第２ベクトルデータベース２ｃｂを生成する処理には、図１における符号（ｂ１）、（ｂ２）、および、（ｂ３）で示す処理が含まれる。符号（ｂ１）で示す処理は、ドライブレコーダＤＲ１（カメラ２００）で撮影した撮影画像のデータ（画像データ）を、対話装置２に入力する処理である。対話装置２に入力された画像データは、第２ベクトルデータベース２ｃｂに格納されるベクトルデータと紐づけて記憶されるように、対話装置２が備えるメモリに記憶される。なお、画像データは、第２ベクトルデータベース２ｃｂを格納されるベクトルデータと紐づけ記憶されていれ