JP-2026077667-A - 情報処理装置、及びプログラム

JP2026077667AJP 2026077667 AJP2026077667 AJP 2026077667AJP-2026077667-A

Abstract

【課題】人の動作によるアバター、及びロボットの少なくとも一方の動作の多様性を向上させる。【解決手段】骨格情報生成システムＨ１は、対象映像ＳＴ１が表す検知対象画像ＫＴＧから、骨格情報を生成し、生成した骨格情報をデータ列ＳＴ５として、検知対象画像ＫＴＧを検知対象の画像ＳＴ６として姿勢評価システムＨ２に出力する。姿勢評価システムＨ２は、お手本データＴＤを用いた検知対象画像ＫＴＧの姿勢評価を行う場合に、そのお手本データＴＤに含まれる骨格情報と、入力した骨格情報との間の差分を用いたお手本との差分ＡＩ分析ＳＨ２により、検知対象ＫＴに伝達すべきテキスト情報を生成する。そのテキスト情報は音声として音声出力システムＴＯから出力され、検知対象画像ＫＴＧ、及びお手本データＴＤに含まれるお手本画像ＯＧは画像表示システムＧＨにより表示される。【選択図】図１

Inventors

山本雄一郎
田中清貴

Assignees

ＴＲＩＢＡＷＬ株式会社

Dates

Publication Date: 20260513
Application Date: 20260205

Claims (7)

検知対象を撮像して得られる画像データを取得する画像データ取得手段と、前記画像データが表す検知対象画像に基づいて、前記検知対象画像における関節の位置情報と、関節間の関係性を示す関係性情報とを含む骨格情報を生成する骨格情報生成手段と、前記骨格情報に基づいて、前記検知対象画像における動作内容を解析する解析手段と、前記動作内容の解析結果に基づいて、テキスト情報を生成するテキスト情報生成手段と、前記テキスト情報に基づいて、表示させる所定のアバター、及び物理機械であるロボットのうちの少なくとも一方を動作対象として動作させる動作制御手段と、を有する情報処理装置。
前記動作制御手段による前記テキスト情報に基づく前記動作対象の動作には、表示、及び放音のうちの少なくとも一方による発言動作が含まれる、請求項１に記載の情報処理装置。
前記動作制御手段は、前記骨格情報に基づいて、前記動作対象を動作させることが可能である、請求項１、または２に記載の情報処理装置。
前記検知対象が発する音声を表す音声情報を取得する音声情報取得手段と、前記音声情報を用いた音声認識を行い、前記音声情報から第１の文字列を生成する音声認識手段と、前記第１の文字列への応答とすべき第２の文字列を生成する会話処理手段と、をさらに有し、前記動作制御手段は、前記動作対象の発言動作における発言内容として、前記第２の文字列を出力させる、請求項１～３のいずれか１項に記載の情報処理装置。
前記動作制御手段は、前記骨格情報に基づいて、前記骨格情報よって表される動作とは異なる動作を前記動作対象に行わせる、請求項１、２、または４に記載の情報処理装置。
前記テキスト情報生成手段は、前記動作内容の解析結果として、前記検知対象画像における手指の動きが手話のための動きと特定された場合に、前記手話の内容を表す前記テキスト情報を生成し、前記動作制御手段は、前記骨格情報を用いて、前記手指の動きに沿った手指の動作を前記動作対象に行わせるとともに、前記テキスト情報を出力させる、請求項１～４のいずれか１項に記載の情報処理装置。
情報処理装置に、検知対象を想定した撮像により得られる画像データが表す検知対象画像に基づいて、前記検知対象画像における関節の位置情報と、関節間の関係性を示す関係性情報とを含む骨格情報を生成し、前記骨格情報に基づいて、前記検知対象画像における動作内容を解析し、前記動作内容の解析結果に基づいて、テキスト情報を生成し、前記テキスト情報に基づいて、表示させる所定のアバター、及び物理機械であるロボットのうちの少なくとも一方を動作対象として動作させる、処理を実行させるプログラム。

Description

本発明は、情報処理装置、及びプログラムに関する。カメラにより撮像された画像に含まれる人物の骨格情報を推定する技術が知られている（例えば、特許文献１参照）。また、人物の動きに基づいて、ロボットを遠隔で制御し、特定の操作を行わせる技術も知られている（例えば、特許文献２参照）。特開２０２１－１８９９４６号公報特開平７－１６０３１０号公報本発明の適用により構築されたサービス提供システム、及びそのシステムで提供されるサービスの内容の一例を説明する図である。動作対象に別の動作を行わせるための姿勢を含む動作の一例を説明する図。本発明の情報処理装置の一実施形態に係るＡＰサーバが接続されたネットワーク環境の一例を説明する図である。ゲーム等のための場の例を説明する図である。本発明の情報処理装置の一実施形態に係るＡＰサーバのハードウェア構成の一例を示すブロック図である。本発明の情報処理装置の一実施形態に係るＡＰサーバ上に実現される機能的構成の一例を示す機能ブロック図である。本実施形態に係る情報処理装置であるＡＰサーバに搭載のＣＰＵによって実行される動画表示処理の一例を示すフローチャートである。以下、本発明を実施するための形態について、図を参照しながら説明する。なお、説明する実施形態は、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。本発明の技術的範囲には、様々な変形例も含まれる。図１は、本発明の適用により構築されたサービス提供システム、及びそのシステムで提供されるサービスの内容の一例を説明する図である。ここでは、このサービス提供システムＳＹにより提供するサービスを「本サービス」と表記し説明する。図１に示す例は、カメラＣによる撮像（動画撮影）を想定しているのは動物であり、動物は主に人である。この例では、人を、骨格検知の対象である検知対象ＫＴとし、検知対象ＫＴの動作内容に応じて、伝達すべき情報を音声出力により、タイムリに検知対象ＫＴに伝達することが想定されている。検知対象ＫＴの動作内容の確認のために、検知対象ＫＴの骨格情報の生成が行われる。この骨格情報は、人の関節の位置情報と、関節間の関係性を示す関係性情報とを含む情報である。関係性情報は、例えば骨格上、隣り合う形となっている関節間の距離、及び方向を表す情報である。このような骨格情報の生成は、カメラＣの撮像により得られた対象映像ＳＴ１を用いた解析により行われる。それにより、検知対象ＫＴの骨格情報は、対象映像ＳＴ１から生成される。図１に示すスケルトン画像ＳＧは、間接の位置、及び関係性情報が生成される関節間の一例を表している。骨格情報の生成自体は、周知の技術により行われる。なお、撮像に用いるカメラＣは複数台であっても良い。複数台のカメラＣをそれぞれ異なる位置に設置させた場合、各カメラＣから得られる対象映像ＳＴ１により、１台以上のカメラＣでは死角となる検知対象ＫＴの部分も確認できるようになる。そのため、骨格情報の生成はより高精度に行えることとなる。例えば、これは、検知対象ＫＴが二人以上である場合に特に有用である。ここでは、説明上、便宜的に、カメラＣは１台の想定で説明することとする。サービス提供システムＳＹには、図１に示すように、骨格情報生成システムＨ１、姿勢評価システムＨ２、及び姿勢管理システムＨ３が含まれる。図１では、各システムＨ１～Ｈ３を別々に表しているが、これらのシステム（における機能）は同じ情報処理装置上に実現されていても良い。そのうちの２つを同じ情報処理装置上に実現させても良い。ここでは、図１に示す通り、各システムＨ１～Ｈ３はそれぞれ異なる情報処理装置上に実現されているものと想定、つまりサービス提供システムＳＹには３台以上の情報処理装置を用いて構築されているものと想定し説明する。骨格情報生成システムＨ１は、ＯＳ（Operating System）Ｈ１１が搭載された情報処理装置上に実現されている。そのＯＳＨ１１には、カメラ機器映像取得・管理スイッチ（ＳＷ）Ｈ１１１が搭載されている。このカメラ機器映像取得・管理スイッチＨ１１１は、骨格情報生成システムＨ１に受信された対象映像ＳＴ１を含む各種情報を渡す先を切り換える機能である。それにより、骨格情報生成システムＨ１に受信された対象映像ＳＴ１は、カメラ機器映像取得・管理ＳＷＨ１１１により、対象映像ＳＴ２として処理エンジンＨ１１２に渡される。この処理エンジンＨ１１２、及び骨格検知部Ｈ１１３は、例えば何れもＯＳＨ１１上で動作するアプリケーション・プログラム（以降「アプリケーション」と略記）により実現される機能である。処理エンジンＨ１１２は、本サービスの提供のための全体的な制御を行う機能である。処理エンジンＨ１１２は、骨格検知処理呼出ＳＴ３により、骨格検知部Ｈ１１３を骨格検知処理に実行させ、対象映像ＳＴ２を用いた骨格情報の生成を行わせる。そのために、処理エンジンＨ１１２は、骨格検知処理呼出ＳＴ３により、例えば対象映像ＳＴ２を骨格検知部Ｈ１１３に渡す。処理エンジンＨ１１２から骨格検知部Ｈ１１３に渡すのは、対象映像ＳＴ２ではなく、検知対象画像を含む部分のみの映像情報であっても良い。ここでは、対象映像ＳＴ２が処理エンジンＨ１１２から骨格検知部Ｈ１１３に渡されるものと想定する。骨格検知部Ｈ１１３は、骨格情報の生成のための骨格検知処理を実行し、その骨格検知処理の処理結果ＳＴ４を処理エンジンＨ１１２に返す。この処理結果ＳＴ４が、骨格表現のデータ列の形で生成される骨格情報である。処理エンジンＨ１１２は、骨格検知部Ｈ１１３から返された処理結果ＳＴ４である骨格情報を骨格表現のデータ列ＳＴ５として、姿勢評価システムＨ２、及び姿勢管理システムＨ３にそれぞれ出力することができる。姿勢評価システムＨ２には、検知対象の画像ＳＴ６として、検知対象ＫＴの画像である検知対象画像ＫＴＧも出力される。姿勢評価システムＨ２は、骨格情報生成システムＨ１から入力した検知対象の画像ＳＴ６か、或いは骨格表現のデータ列ＳＴ５を用いて生成したキャラクタの画像を、表示させるべき画像ＳＴ８の一部として画像表示システムＧＨに出力することができる。画像ＳＴ８は、例えば１画面分の表示のためのものであり、キャラクタの画像は、その画面内に配置されて表示される。キャラクタの画像は、検知対象ＫＴの分身と想定されたものである。他のキャラクタ画像を表示させる場合であっても、キャラクタには別の検知対象ＫＴの分身か、或いは仮想的な人格の分身のものが含まれることがある。仮想的な人格は、具体的には本サービスの提供用に想定されたものである。以降、キャラクタのうち、そのような分身と位置付けられるキャラクタを「アバター」と表記する。特に断らない限り、キャラクタのうち、アバター以外のものを指す意味で「キャラクタ」を用いる。画像表示システムＧＨは、姿勢評価システムＨ２から入力した画像ＳＴ８により、ディスプレイＤ上に画面を表示させる。そのため、姿勢評価システムＨ２は、画像表示システムＧＨに出力する画像ＳＴ８を通して、ディスプレイＤに表示させる画面の内容を任意に変更することができる。図１では、画像ＳＴ８が表す検知対象画像ＫＴＧがディスプレイＤ上に表示されている状態を示している。検知対象画像ＫＴＧの代わりに、骨格情報から生成したアバター画像を表示させるようにしても良い。ディスプレイＤとは、例えば大型の表示装置か、或いはスクリーン等である。ディスプレイＤがスクリーンであった場合、画像表示システムＧＨには、スクリーンへの投影が可能なプロジェクターも含まれる。その一方、姿勢評価システムＨ２は、骨格表現のデータ列ＳＴ５を用いた分析により、音声出力の対象となるテキスト情報の生成を行う。そのために姿勢評価システムＨ２は、お手本との差分ＡＩ（Artificial Intelligence）分析ＳＨ２を行う。このテキスト情報は、詳細は後述するように、アバター画像、或いはロボットである動作対象の各種動作を制御する制御情報としても機能する。各種動作には、動作対象を視覚的に変化させる動作だけでなく、視覚的な変化を伴わない表示、或いは放音による発言動作等も含まれる。お手本との差分ＡＩ分析ＳＨ２は、何れかのタイミングで検知対象ＫＴが取るべき姿勢（ポーズ）が予め判明していることを前提として行われる分析である。その分析のために、手本となる姿勢を表すお手本データＴＤが用意されている。取るべき姿勢が予め判明している動きとしては、ダンス、お手本の動きをまねた動作が求められるか、或いは定めた一つ以上の姿勢を取る動作が求められるようなゲーム、及び理想的な動きが考えられる運動（例えばスポーツ）等を挙げることができる。以降、このような要求、或いは運動等による一連の動作を「姿勢要求動作」と総称する。このお手本データＴＤには、手本となる姿勢時の画像であるお手本画像ＯＧの他に、骨格情報が含まれる。それにより、お手本との差分ＡＩ分析ＳＨ２では、骨格表現のデータ列ＳＴ５とお手本データＴＤに含まれる骨格情報との間の差分の算出を含む、その差分を用いたＡＩによる分析が行われる。その分析により、検知対象画像ＫＴＧが表す姿勢が評価され、その評価結果に応じたテキスト情報が生成される。図１に示す例では、姿勢評価システムＨ２から音声出力システムＴＯに出力される差分補正指示ＳＴ９は、テキスト情報の音声としての放音を指示するためのものである。この差分補正指示ＳＴ９は、具体的には、放音のために生成された音声信号か、或いはその音声信号の生成に必要な情報を含むコマンド等である。差分を用いた分析のために、ＡＩでは、差分と、生成すべきテキスト情報との関係を表す学習データを用いた深層学習が行われる。この深層学習により、お手本との差分ＡＩ分析ＳＨ２では、差分の生成（算出）により、適切なテキスト情報を生成することができる。検知対象画像ＫＴＧのサイズとお手本データＴＤが表すお手本画像ＯＧのサイズとの間の比が必ずしも適切とする範囲内であるとは限らないことから、差分は、例えば２つの骨格情報のうちの一方に対して拡大、或いは縮小の操作を行った後に生成される。図１では、ディスプレイＤに、検知対象画像ＫＴＧに加え、お手本画像ＯＧが表示されていることを表している。検知対象画像ＫＴＧがお手本画像ＯＧと特に大きく異なるのは、右手である。左手も明確に異なっているが、右手と比較して、異なる程度は小さい。このことから、この場合、「右手を少し上へ」等の文字列を表すテキスト情報がお手本との差分ＡＩ分析ＳＨ２により生成される。この結果、この文字列が音声として音声出力システムＴＯから出力、つまり放音される。この音声出力は、検知対象画像ＫＴＧ、或いはお手本画像ＯＧをアバター画像と想定して行われる。音声出力システムＴＯによる音声出力は、検知対象ＫＴを想定して行われる。そのため、検知対象ＫＴにとっては、ディスプレイＤにアバター画像として表示される検知対象画像ＫＴＧ、或いはお手本画像ＯＧから、自身が取るべき適切な姿勢を取るうえでの有用な情報が音声出力によりタイムリに得られる形となる。それにより、表示される検知対象画像ＫＴＧ、或いはお手本画像ＯＧを動作対象とし、検知対象画像ＫＴＧからのテキスト情報の生成により、その動作対象に発言させる発言動作が仮想的に行われる形となる。なお、動作対象の動作は、発言動作、つまり音声出力でなくとも良い。例えば、検知対象ＫＴがお手本画像ＯＧの姿勢に近づけるために必要な動きを動作対象に行わせるようにしても良い。また、文字列をアバター画像の発言内容として表示させるようにしても良い。音声出力（メッセージ等の出力）は、検知対象画像ＫＴＧの姿勢が不適切と評価した場合にのみ行い、その姿勢が適切と評価した場合には、その旨を検知対象ＫＴが認識できるように、効果音、或いは演