JP-2026077667-A - 情報処理装置、及びプログラム
Abstract
【課題】人の動作によるアバター、及びロボットの少なくとも一方の動作の多様性を向上させる。 【解決手段】骨格情報生成システムH1は、対象映像ST1が表す検知対象画像KTGから、骨格情報を生成し、生成した骨格情報をデータ列ST5として、検知対象画像KTGを検知対象の画像ST6として姿勢評価システムH2に出力する。姿勢評価システムH2は、お手本データTDを用いた検知対象画像KTGの姿勢評価を行う場合に、そのお手本データTDに含まれる骨格情報と、入力した骨格情報との間の差分を用いたお手本との差分AI分析SH2により、検知対象KTに伝達すべきテキスト情報を生成する。そのテキスト情報は音声として音声出力システムTOから出力され、検知対象画像KTG、及びお手本データTDに含まれるお手本画像OGは画像表示システムGHにより表示される。 【選択図】図1
Inventors
- 山本 雄一郎
- 田中 清貴
Assignees
- TRIBAWL株式会社
Dates
- Publication Date
- 20260513
- Application Date
- 20260205
Claims (7)
- 検知対象を撮像して得られる画像データを取得する画像データ取得手段と、 前記画像データが表す検知対象画像に基づいて、前記検知対象画像における関節の位置情報と、関節間の関係性を示す関係性情報とを含む骨格情報を生成する骨格情報生成手段と、 前記骨格情報に基づいて、前記検知対象画像における動作内容を解析する解析手段と、 前記動作内容の解析結果に基づいて、テキスト情報を生成するテキスト情報生成手段と、 前記テキスト情報に基づいて、表示させる所定のアバター、及び物理機械であるロボットのうちの少なくとも一方を動作対象として動作させる動作制御手段と、 を有する情報処理装置。
- 前記動作制御手段による前記テキスト情報に基づく前記動作対象の動作には、表示、及び放音のうちの少なくとも一方による発言動作が含まれる、 請求項1に記載の情報処理装置。
- 前記動作制御手段は、前記骨格情報に基づいて、前記動作対象を動作させることが可能である、 請求項1、または2に記載の情報処理装置。
- 前記検知対象が発する音声を表す音声情報を取得する音声情報取得手段と、 前記音声情報を用いた音声認識を行い、前記音声情報から第1の文字列を生成する音声認識手段と、 前記第1の文字列への応答とすべき第2の文字列を生成する会話処理手段と、をさらに有し、 前記動作制御手段は、前記動作対象の発言動作における発言内容として、前記第2の文字列を出力させる、 請求項1~3のいずれか1項に記載の情報処理装置。
- 前記動作制御手段は、前記骨格情報に基づいて、前記骨格情報よって表される動作とは異なる動作を前記動作対象に行わせる、 請求項1、2、または4に記載の情報処理装置。
- 前記テキスト情報生成手段は、前記動作内容の解析結果として、前記検知対象画像における手指の動きが手話のための動きと特定された場合に、前記手話の内容を表す前記テキスト情報を生成し、 前記動作制御手段は、前記骨格情報を用いて、前記手指の動きに沿った手指の動作を前記動作対象に行わせるとともに、前記テキスト情報を出力させる、 請求項1~4のいずれか1項に記載の情報処理装置。
- 情報処理装置に、 検知対象を想定した撮像により得られる画像データが表す検知対象画像に基づいて、前記検知対象画像における関節の位置情報と、関節間の関係性を示す関係性情報とを含む骨格情報を生成し、 前記骨格情報に基づいて、前記検知対象画像における動作内容を解析し、 前記動作内容の解析結果に基づいて、テキスト情報を生成し、 前記テキスト情報に基づいて、表示させる所定のアバター、及び物理機械であるロボットのうちの少なくとも一方を動作対象として動作させる、 処理を実行させるプログラム。
Description
本発明は、情報処理装置、及びプログラムに関する。 カメラにより撮像された画像に含まれる人物の骨格情報を推定する技術が知られている(例えば、特許文献1参照)。また、人物の動きに基づいて、ロボットを遠隔で制御し、特定の操作を行わせる技術も知られている(例えば、特許文献2参照)。 特開2021-189946号公報特開平7-160310号公報 本発明の適用により構築されたサービス提供システム、及びそのシステムで提供されるサービスの内容の一例を説明する図である。動作対象に別の動作を行わせるための姿勢を含む動作の一例を説明する図。本発明の情報処理装置の一実施形態に係るAPサーバが接続されたネットワーク環境の一例を説明する図である。ゲーム等のための場の例を説明する図である。本発明の情報処理装置の一実施形態に係るAPサーバのハードウェア構成の一例を示すブロック図である。本発明の情報処理装置の一実施形態に係るAPサーバ上に実現される機能的構成の一例を示す機能ブロック図である。本実施形態に係る情報処理装置であるAPサーバに搭載のCPUによって実行される動画表示処理の一例を示すフローチャートである。 以下、本発明を実施するための形態について、図を参照しながら説明する。なお、説明する実施形態は、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。本発明の技術的範囲には、様々な変形例も含まれる。 図1は、本発明の適用により構築されたサービス提供システム、及びそのシステムで提供されるサービスの内容の一例を説明する図である。ここでは、このサービス提供システムSYにより提供するサービスを「本サービス」と表記し説明する。 図1に示す例は、カメラCによる撮像(動画撮影)を想定しているのは動物であり、動物は主に人である。この例では、人を、骨格検知の対象である検知対象KTとし、検知対象KTの動作内容に応じて、伝達すべき情報を音声出力により、タイムリに検知対象KTに伝達することが想定されている。 検知対象KTの動作内容の確認のために、検知対象KTの骨格情報の生成が行われる。この骨格情報は、人の関節の位置情報と、関節間の関係性を示す関係性情報とを含む情報である。関係性情報は、例えば骨格上、隣り合う形となっている関節間の距離、及び方向を表す情報である。このような骨格情報の生成は、カメラCの撮像により得られた対象映像ST1を用いた解析により行われる。それにより、検知対象KTの骨格情報は、対象映像ST1から生成される。図1に示すスケルトン画像SGは、間接の位置、及び関係性情報が生成される関節間の一例を表している。骨格情報の生成自体は、周知の技術により行われる。 なお、撮像に用いるカメラCは複数台であっても良い。複数台のカメラCをそれぞれ異なる位置に設置させた場合、各カメラCから得られる対象映像ST1により、1台以上のカメラCでは死角となる検知対象KTの部分も確認できるようになる。そのため、骨格情報の生成はより高精度に行えることとなる。例えば、これは、検知対象KTが二人以上である場合に特に有用である。ここでは、説明上、便宜的に、カメラCは1台の想定で説明することとする。 サービス提供システムSYには、図1に示すように、骨格情報生成システムH1、姿勢評価システムH2、及び姿勢管理システムH3が含まれる。 図1では、各システムH1~H3を別々に表しているが、これらのシステム(における機能)は同じ情報処理装置上に実現されていても良い。そのうちの2つを同じ情報処理装置上に実現させても良い。ここでは、図1に示す通り、各システムH1~H3はそれぞれ異なる情報処理装置上に実現されているものと想定、つまりサービス提供システムSYには3台以上の情報処理装置を用いて構築されているものと想定し説明する。 骨格情報生成システムH1は、OS(Operating System)H11が搭載された情報処理装置上に実現されている。そのOSH11には、カメラ機器映像取得・管理スイッチ(SW)H111が搭載されている。このカメラ機器映像取得・管理スイッチH111は、骨格情報生成システムH1に受信された対象映像ST1を含む各種情報を渡す先を切り換える機能である。それにより、骨格情報生成システムH1に受信された対象映像ST1は、カメラ機器映像取得・管理SWH111により、対象映像ST2として処理エンジンH112に渡される。この処理エンジンH112、及び骨格検知部H113は、例えば何れもOSH11上で動作するアプリケーション・プログラム(以降「アプリケーション」と略記)により実現される機能である。 処理エンジンH112は、本サービスの提供のための全体的な制御を行う機能である。処理エンジンH112は、骨格検知処理呼出ST3により、骨格検知部H113を骨格検知処理に実行させ、対象映像ST2を用いた骨格情報の生成を行わせる。そのために、処理エンジンH112は、骨格検知処理呼出ST3により、例えば対象映像ST2を骨格検知部H113に渡す。処理エンジンH112から骨格検知部H113に渡すのは、対象映像ST2ではなく、検知対象画像を含む部分のみの映像情報であっても良い。ここでは、対象映像ST2が処理エンジンH112から骨格検知部H113に渡されるものと想定する。 骨格検知部H113は、骨格情報の生成のための骨格検知処理を実行し、その骨格検知処理の処理結果ST4を処理エンジンH112に返す。この処理結果ST4が、骨格表現のデータ列の形で生成される骨格情報である。 処理エンジンH112は、骨格検知部H113から返された処理結果ST4である骨格情報を骨格表現のデータ列ST5として、姿勢評価システムH2、及び姿勢管理システムH3にそれぞれ出力することができる。姿勢評価システムH2には、検知対象の画像ST6として、検知対象KTの画像である検知対象画像KTGも出力される。 姿勢評価システムH2は、骨格情報生成システムH1から入力した検知対象の画像ST6か、或いは骨格表現のデータ列ST5を用いて生成したキャラクタの画像を、表示させるべき画像ST8の一部として画像表示システムGHに出力することができる。画像ST8は、例えば1画面分の表示のためのものであり、キャラクタの画像は、その画面内に配置されて表示される。キャラクタの画像は、検知対象KTの分身と想定されたものである。 他のキャラクタ画像を表示させる場合であっても、キャラクタには別の検知対象KTの分身か、或いは仮想的な人格の分身のものが含まれることがある。仮想的な人格は、具体的には本サービスの提供用に想定されたものである。以降、キャラクタのうち、そのような分身と位置付けられるキャラクタを「アバター」と表記する。特に断らない限り、キャラクタのうち、アバター以外のものを指す意味で「キャラクタ」を用いる。 画像表示システムGHは、姿勢評価システムH2から入力した画像ST8により、ディスプレイD上に画面を表示させる。そのため、姿勢評価システムH2は、画像表示システムGHに出力する画像ST8を通して、ディスプレイDに表示させる画面の内容を任意に変更することができる。図1では、画像ST8が表す検知対象画像KTGがディスプレイD上に表示されている状態を示している。検知対象画像KTGの代わりに、骨格情報から生成したアバター画像を表示させるようにしても良い。 ディスプレイDとは、例えば大型の表示装置か、或いはスクリーン等である。ディスプレイDがスクリーンであった場合、画像表示システムGHには、スクリーンへの投影が可能なプロジェクターも含まれる。 その一方、姿勢評価システムH2は、骨格表現のデータ列ST5を用いた分析により、音声出力の対象となるテキスト情報の生成を行う。そのために姿勢評価システムH2は、お手本との差分AI(Artificial Intelligence)分析SH2を行う。 このテキスト情報は、詳細は後述するように、アバター画像、或いはロボットである動作対象の各種動作を制御する制御情報としても機能する。各種動作には、動作対象を視覚的に変化させる動作だけでなく、視覚的な変化を伴わない表示、或いは放音による発言動作等も含まれる。 お手本との差分AI分析SH2は、何れかのタイミングで検知対象KTが取るべき姿勢(ポーズ)が予め判明していることを前提として行われる分析である。その分析のために、手本となる姿勢を表すお手本データTDが用意されている。取るべき姿勢が予め判明している動きとしては、ダンス、お手本の動きをまねた動作が求められるか、或いは定めた一つ以上の姿勢を取る動作が求められるようなゲーム、及び理想的な動きが考えられる運動(例えばスポーツ)等を挙げることができる。以降、このような要求、或いは運動等による一連の動作を「姿勢要求動作」と総称する。 このお手本データTDには、手本となる姿勢時の画像であるお手本画像OGの他に、骨格情報が含まれる。それにより、お手本との差分AI分析SH2では、骨格表現のデータ列ST5とお手本データTDに含まれる骨格情報との間の差分の算出を含む、その差分を用いたAIによる分析が行われる。その分析により、検知対象画像KTGが表す姿勢が評価され、その評価結果に応じたテキスト情報が生成される。図1に示す例では、姿勢評価システムH2から音声出力システムTOに出力される差分補正指示ST9は、テキスト情報の音声としての放音を指示するためのものである。この差分補正指示ST9は、具体的には、放音のために生成された音声信号か、或いはその音声信号の生成に必要な情報を含むコマンド等である。 差分を用いた分析のために、AIでは、差分と、生成すべきテキスト情報との関係を表す学習データを用いた深層学習が行われる。この深層学習により、お手本との差分AI分析SH2では、差分の生成(算出)により、適切なテキスト情報を生成することができる。検知対象画像KTGのサイズとお手本データTDが表すお手本画像OGのサイズとの間の比が必ずしも適切とする範囲内であるとは限らないことから、差分は、例えば2つの骨格情報のうちの一方に対して拡大、或いは縮小の操作を行った後に生成される。 図1では、ディスプレイDに、検知対象画像KTGに加え、お手本画像OGが表示されていることを表している。 検知対象画像KTGがお手本画像OGと特に大きく異なるのは、右手である。左手も明確に異なっているが、右手と比較して、異なる程度は小さい。このことから、この場合、「右手を少し上へ」等の文字列を表すテキスト情報がお手本との差分AI分析SH2により生成される。この結果、この文字列が音声として音声出力システムTOから出力、つまり放音される。この音声出力は、検知対象画像KTG、或いはお手本画像OGをアバター画像と想定して行われる。 音声出力システムTOによる音声出力は、検知対象KTを想定して行われる。そのため、検知対象KTにとっては、ディスプレイDにアバター画像として表示される検知対象画像KTG、或いはお手本画像OGから、自身が取るべき適切な姿勢を取るうえでの有用な情報が音声出力によりタイムリに得られる形となる。それにより、表示される検知対象画像KTG、或いはお手本画像OGを動作対象とし、検知対象画像KTGからのテキスト情報の生成により、その動作対象に発言させる発言動作が仮想的に行われる形となる。 なお、動作対象の動作は、発言動作、つまり音声出力でなくとも良い。例えば、検知対象KTがお手本画像OGの姿勢に近づけるために必要な動きを動作対象に行わせるようにしても良い。また、文字列をアバター画像の発言内容として表示させるようにしても良い。音声出力(メッセージ等の出力)は、検知対象画像KTGの姿勢が不適切と評価した場合にのみ行い、その姿勢が適切と評価した場合には、その旨を検知対象KTが認識できるように、効果音、或いは演