Search

JP-2026077311-A - 対話システム、対話方法及びプログラム

JP2026077311AJP 2026077311 AJP2026077311 AJP 2026077311AJP-2026077311-A

Abstract

【課題】人間と対話システムとの間でも、人間同士のように効率的なコミュニケーションを実現することを目的とする。 【解決手段】本開示は、ユーザ端末を操作するユーザと対話しながら図形オブジェクトを配置することで図形配置座標を生成する対話システムであって、ユーザ端末から送られて来たユーザによるユーザ発話内容を受信する通信部と、言語モデルを用いて、ユーザ発話内容から、所定の図形オブジェクトの所定の名付け情報、及び所定の図形オブジェクトのIDの移動先座標を取得し、各図形オブジェクトのID及び名付け情報が管理されている名付け情報管理部から、所定の名付け情報に対応する図形オブジェクトのIDを読み出す図形移動検出部と、各図形オブジェクトのID及び位置座標を管理する座標情報管理部に対して、所定の図形オブジェクトのIDに対応する位置座標を前記移動先座標に更新する図形移動部と、を有する対話システムである。 【選択図】図3

Inventors

  • 東中 竜一郎
  • 齋藤 結
  • 南 泰浩

Assignees

  • NTT株式会社
  • 国立大学法人電気通信大学

Dates

Publication Date
20260513
Application Date
20241025

Claims (8)

  1. ユーザ端末を操作するユーザと対話しながら図形オブジェクトを配置することで図形配置座標を生成する対話システムであって、 前記ユーザ端末から送られて来た前記ユーザによるユーザ発話内容を受信する通信部と、 言語モデルを用いて、前記ユーザ発話内容から、所定の図形オブジェクトの所定の名付け情報、及び当該所定の図形オブジェクトのIDの移動先座標を取得し、各図形オブジェクトのID及び名付け情報が管理されている名付け情報管理部から、前記所定の名付け情報に対応する図形オブジェクトのIDを読み出す図形移動検出部と、 各図形オブジェクトのID及び位置座標を管理する座標情報管理部に対して、前記所定の図形オブジェクトのIDに対応する位置座標を前記移動先座標に更新する図形移動部と、 を有する対話システム。
  2. 請求項1に記載の対話システムであって、 前記言語モデルを用いて、前記ユーザ発話内容内に名付け情報が含まれているか否かを判断し、含まれている場合には、ユーザ発話内容から特定の名付け情報を検出する名付け検出部と、 前記名付け情報がどの図形オブジェクトのIDを示し得るかを表す確率構造を用いて、前記特定の名付け情報を割り当てる特定の図形オブジェクトのIDを選択し、前記名付け情報管理部で管理されている前記特定の図形オブジェクトのIDに関連付けられている名付け情報を、前記特定の名付け情報に更新する図形選択部と、 を有する対話システム。
  3. 請求項2に記載の対話システムであって、 前記言語モデルを用いて、前記ユーザ発話内容内に、各図形オブジェクトを配置して完成させるための目標を示す目標名付け情報が含まれているか否かを判断し、含まれている場合には、前記ユーザ発話内容から目標名付け情報を検出する目標名付け検出部と、 前記言語モデルを用いて、前記目標名付け情報に基づき、当該目標名付け情報で示される目標に近づくように移動対象の図形オブジェクトの位置座標を設定することで、当該移動対象の図形オブジェクトのレイアウトを作成する目標図形配置作成部と、 現在のレイアウトと、前記目標図形配置作成部によって新たに作成されたレイアウトとを比較し、現状の各図形オブジェクトの位置座標と、前記新たに作成されたレイアウトの各図形オブジェクトの位置座標とのそれぞれで距離を求め、最大値を取る1つの図形オブジェクトを前記移動対象の図形オブジェクトとして決定する移動図形決定部と、 を有する対話システム。
  4. 請求項3に記載の対話システムであって、 前記言語モデルを用いて、前記座標情報管理部から読み出した前記位置座標、前記名付け情報管理部から読み出した前記名付け情報、及び前記移動図形決定部によって決定された前記名付け設定情報に基づき、前記対話システムが前記ユーザ端末に対して発話する内容を示すシステム発話内容を生成する発話内容生成部を有する、対話システム。
  5. 前記発話内容生成部は、前記システム発話内容を前記ユーザ発話内容として、前記図形移動検出部、前記名付け検出部、及び前記目標名付け検出部に出力する、請求項4に記載の対話システム。
  6. ユーザ端末を操作するユーザと対話しながら図形オブジェクトを配置することで図形配置座標を生成する対話システムが実行する対話方法であって、 前記ユーザ端末から送られて来た前記ユーザによるユーザ発話内容を受信する通信処理と、 言語モデルを用いて、前記ユーザ発話内容内に名付け情報が含まれているか否かを判断し、含まれている場合には、ユーザ発話内容から特定の名付け情報を検出する名付け検出処理と、 前記名付け情報がどの図形オブジェクトのIDを示し得るかを表す確率構造を用いて、前記特定の名付け情報を割り当てる特定の図形オブジェクトのIDを選択し、各図形オブジェクトのID及び名付け情報が管理されている名付け情報管理部で管理されている前記特定の図形オブジェクトのIDに関連付けられている名付け情報を、前記特定の名付け情報に更新する図形選択処理と、 を実行する対話方法。
  7. ユーザ端末を操作するユーザと対話しながら図形オブジェクトを配置することで図形配置座標を生成する対話システムが実行する対話方法であって、 前記ユーザ端末から送られて来た前記ユーザによるユーザ発話内容を受信する通信処理と、 言語モデルを用いて、前記ユーザ発話内容内に、各図形オブジェクトを配置して完成させるための目標を示す目標名付け情報が含まれているか否かを判断し、含まれている場合には、前記ユーザ発話内容から目標名付け情報を検出する目標名付け検出処理と、 前記言語モデルを用いて、前記目標名付け情報に基づき、当該目標名付け情報で示される目標に近づくように移動対象の図形オブジェクトの位置座標を設定することで、当該移動対象の図形オブジェクトのレイアウトを作成する目標図形配置作成処理と、 現在のレイアウトと、前記目標図形配置作成処理によって新たに作成されたレイアウトとを比較し、現状の各図形オブジェクトの位置座標と、前記新たに作成されたレイアウトの各図形オブジェクトの位置座標とのそれぞれで距離を求め、最大値を取る1つの図形オブジェクトを前記移動対象の図形オブジェクトとして決定する移動図形決定処理と、 を実行する対話方法。
  8. コンピュータに、請求項6又は7に記載の方法を実行させるプログラム。

Description

特許法第30条第2項適用申請有り 2024年3月4日に言語処理学会第30回年次大会予稿集にて公開 本開示は、図形オブジェクトを再配置することで目的の図形配置を生成する技術に関する。 近年、対話システムにおいて、人間はスマートスピーカ等のコンピュータと対話を行い、種々の情報を得たり、要望を満たしたりすることができる。 また、人間同士のコミュニケーションにおいて、相手に的確に伝えたい内容を伝えることは重要である。話者同士が相互に理解した内容のことを共通基盤と呼ぶが、この共通基盤がいかに構築されるかはまだわかっていない。そのような中、テキストチャットにおけるやり取りと共通基盤の関係を示した技術が開示されている(非特許文献1)。 この非特許文献1では,共同図形配置課題と呼ばれる課題を用いる。この課題では、2名の話者(ユーザ)がテキストチャットを行う。各話者には、異なる配置を持った同じ図形オブジェクト群が提示されている。そして、各話者は、テキストチャットによる対話を通して、独自に各PC等で各図形オブジェクトの配置を揃えていく。このとき、図形オブジェクト群の配置の一致度は、話者同士が一致して理解した配置内容と考えらえるため、共通基盤を定量化したものと捉えることができる。この共同図形配置課題を通して、発話毎にどのように共通基盤が構築されていくかを確認することができ、また、どのような発話が共通基盤の構築に有用かを調査することができる。 共同図形配置課題のように、人間同士の共同作業では、「名付け」と呼ばれる処理が有用であることが分かっている。例えば、非特許文献2では、目標名付けと呼ばれる、これから共同で作ろうとする図形配置を表す「家」、「街」という目標名付けが、共同作業の成功に寄与しやすいことが開示されている。また、名付けが含まれる対話の方が、タスクを達成しやすいことも確認されている。このように、人間同士の共同作業においては、図形オブジェクトや図形配置に対する名付けが有用である。 光田航, 東中竜一郎, 大賀悠平, 吉田仙, 共同作業を行う対話における共通基盤構築過程の記録と分析, 自然言語処理, Vol. 30, No. 3, pp. 907-934, 2023齋藤結, 光田航, 東中竜一郎, 南泰浩, 共通基盤の構築における名付けの有用性の分析, 言語処理学会第29回年次大会発表論文集 (NLP2023), pp. 1985-1989, 2023. 通信システムの全体構成図である。ユーザ端末及び対話システムの電気的なハードウェア構成図である。対話システムの機能構成図である。対話システムの処理を示すフローチャートである。対話システムの処理を示すフローチャートである。図形移動検出部におけるFunction callingの記述例を示す図である。対話内容生成部のプロンプトの一例を示す図である。対話内容生成部のプロンプトの一例を示す図である。実験結果として、ユーザと対話システムの対話例を示す図である。 以下、図面に基づいて本発明の実施形態を説明する。 〔実施形態の概要〕 まずは、図1を用いて、本実施形態の概略を説明する。図1は、本実施形態の全体構成図である。 図1に示すように、通信システム10は、対話システム20及びユーザ端末80を有する。対話システム20とユーザ端末80とは、インターネット等の通信ネットワーク100を介してデータ通信することができる。 ユーザ端末80は、ノートPC、デスクトップPC、スマートフォン、タブレット端末等である。ユーザは、ユーザ端末80のマウス等を操作することで、予め用意されている図形オブジェクト(三角形の図形、四角形の図形等)を目的の図形配置座標の作成のために移動させながら、その移動の内容(例えば、「小さな三角形を左下に移動」)を発話している。 なお、以降、「図形配置座標」は「配置」と表現し、「図形オブジェクト」は「図形」として表現する。 また、発話内容は、チャット等のテキストの入力であってもよいし、口頭で発音してユーザ端末80の音声認識機能によりテキストに変換してもよい。この発話内容を示すテキストのデータは、対話システム20に送信される。 対話システム20は、コンピュータである。対話システム20は、ユーザ端末80から送られて来たユーザ発話内容、及び対話システム20が自動的に生成したシステム発話内容を参考に、メモリ内(後述の座標情報管理部21等)で、ユーザ端末80とは独立して独自に図形を移動して目標の配置を作成する。また、対話システム20は、自ら作成したシステム発話内容のデータを、ユーザ端末80に送信する。これにより、ユーザ端末80では、システム発話内容のテキスト又は音声が出力され、ユーザは対話システム20と対話することができる。 〔ハードウェア構成〕 次に、図2を用いて、ユーザ端末80のハードウェア構成について説明する。図2は、実施形態に係るユーザ端末のハードウェア構成図である。 図2に示されているように、ユーザ端末80は、プロセッサ1001、メモリ1002、補助記憶装置1003、通信装置1004、及び接続装置1005を有する。また、ユーザ端末80は、操作装置1006、表示装置1007、音声入力装置1008、及び音声出力装置1009を有する。なお、ユーザ端末80を構成する各ハードウェアは、データバス等のバス1010を介して相互に接続される。 プロセッサ1001は、ユーザ端末80全体の制御を行う制御部の役割を果たし、CPU(Central Processing Unit)等の各種演算デバイスを有する。プロセッサ1001は、各種プログラムをメモリ1002上に読み出して実行する。なお、プロセッサ1001には、GPU(Graphics Processing Unit)が含まれていてもよい。 メモリ1002は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ1001とメモリ1002とは、いわゆるコンピュータを形成し、プロセッサ1001が、メモリ1002上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。 補助記憶装置1003は、各種プログラムや、各種プログラムがプロセッサ1001によって実行される際に用いられる各種情報を格納する。 通信装置1004は、他の装置(機器、サーバ、システムを含む)との間で各種情報を送受信するための通信デバイスである。 接続装置1005は、ユーザ端末80に、各種センサや外付けメモリ等を接続する際に用いる接続デバイスである。 操作装置1006は、ユーザの操作により、テキストや画像等の各種情報の入力を受け付ける。 表示装置1007は、例えば、操作装置1006又は他の装置から取得した各種情報を画像表示するデバイス(ディスプレイ等)である。 音声入力装置1008は、ユーザの音声等の音声情報を検出する。 音声出力装置1009は、例えば、他の装置から受信した各種情報等を音声出力するデバイスである。 なお、対話システム20は、図2と同様の構成であるため、説明を省略する。ユーザ端末80及び対話システム20は、音声入力装置1008及び音声出力装置1009を有していなくてもよい。 〔機能構成〕 続いて、図3を用いて、実施形態に係る対話システムの機能構成を説明する。図3は、対話システムの機能構成図である。 図3に示すように、対話システム20は、通信部31、図形移動検出部41、図形移動部42、名付け検出部51、図形選択部52、目標名付け検出部61、目標図形配置作成部62、移動図形決定部63、及び発話内容生成部71を有する。これら各部は、プログラムに基づき図2のプロセッサ1001による命令によって実現される機能である。また、対話システム20のメモリ1002又は補助記憶装置1003には、座標情報管理部21、確率構造管理部22、名付け情報管理部23、目標情報管理部24、名付け設定情報管理部25、及び発話履歴管理部26が構築されている。 <各管理部> 座標情報管理部21は、各図形のID(「図形ID」と示す)と各図形の位置(配置)座標とを関連付けて管理している。これにより、対話システム20が、図1に示すように、仮想空間上の各図形の位置を認識することができる。なお、ID(Identifier)は識別情報である。 確率構造管理部22は、確率構造であるP(図形|名付け)を管理する(非特許文献2参照)。 ここで、「確率構造」とは、予め図形と名付け情報の対応付けが含まれるコーパスデータから取得した、名付け情報がどの図形(図形ID)を示し得るかを表す統計情報である。 名付け情報管理部23は、各図形の図形IDと名付け情報とを関連付けて管理する。 目標情報管理部24は、後述する目標となる設計図(レイアウト)の情報を管理する。 名付け設定情報管理部25は、後述の名付け設定情報を管理する。名付け設定情報は、移動図形決定部63によって決定された図形(図形ID)及び選択された名付け情報を関連付けた情報である。 発話履歴管理部26は、ユーザ発話内容及びシステム発話内容の履歴である各テキストデータを管理する。 <図形移動検出部> 図形移動検出部41は、GPT(Generative Pre-trained Transformer)-4等のインストラクションチューニングされた大規模言語モデル(以下、「言語モデルM」)と示す)を用いて、ユーザ又は対話システム20の発話内容(テキスト)から、図形の名付け情報、及びこの図形の移動先座標を取得する。また、図形移動検出部41は、言語モデルMから取得した名付け情報を検索キーとして名付け情報管理DB23を検索し、対応する図形IDを読み出すことで、図形を特定する。そして、図形移動検出部41は、図形移動部42に対して、図形ID及び移動先座標を出力する。 <図形移動部> 図形移動部42は、図形移動検出部41から取得した図形ID及び移動先座標に基づき、移動先座標に図形IDに係る図形を移動させる。なお、例えば、「四角形」の図形が複数ある場合、一様分布に従い、複数の図形のうちの所定の図形を同じ確率でランダムに選択して、この選択した図形を移動させる。そして、図形移動部42は、座標情報管理部21に対して、移動した図形の図形IDに対応する座標を移動先座標に更新する。なお、図形移動検出部41によって、名付け情報から図形を特定できない場合には、図形移動検出部41は、座標情報管理部21に対する更新を行なわない。 <名付け検出部> 名付け検出部51は、言語モデルMを用いて、発話内容(テキスト)内に名付け情報が含まれているか否かを判断し、含まれている場合には、発話内容から名付け情報を検出(抽出)し、この名付け情報を図形選択部52に出力する。例えば、名付け検出部51は、発話内容(「目としましょう」)から名付け情報(「目」)を抽出する。 <図形選択部> 図形選択部52は、確率構造管理部22に管理されている確率構造であるP(図形|名付け)を用いて、名付け検出部51から取得した名付け情報を割り当てる図形(図形ID)をカテゴリカル分布に従って1つ選択する。例えば、名付け情報が「目」であれば、確率構造は、横長の楕円形が60%、下弦の月の形が30%、円形が10%の割合で示すような情報である。 なお、図形選択部52は、ここで確率を計算する際、対話システム20が保持している図形のみに絞って確率を計算する。即ち、図形選択部52は、対話に含まれる図形について総和が「1」になるように正規化する。このように、図形選択部52が、統計情報である確率構造を用いて名付け先の図形を特定することで、統計情報の元となったデータに関わった人間の感覚に合わせて、名付け情報及び図形の関連付けを可能とすることができる。なお、例えば、複数の「