JP-2026076646-A - 解析装置及びプログラム
Abstract
【課題】高い検知精度を有し且つ低コストで実現可能な解析装置及びプログラムを提供する。 【解決手段】実施形態の解析装置10は、入力部103と、設定部102と、検知部105とを含む。入力部103は、各々に識別情報が関連付けられた少なくとも1つの画像を取得可能である。設定部102は、識別情報毎に少なくとも1つのプロンプトを含むプロンプトセットを設定し、且つ識別情報に共通の学習済み画像言語モデルを設定する。検知部105は、少なくとも1つの画像のうち第1の識別情報が関連付けられた第1の画像と、第1の識別情報に設定された第1のプロンプトセットとを画像言語モデルに入力し、第1の画像に対する第1のプロンプトセットの回答を出力する。 【選択図】図3
Inventors
- 田中 葉月
- 高野 歩芳
- 野田 玲子
- 和氣 正秀
Assignees
- 株式会社東芝
- 東芝デジタルソリューションズ株式会社
Dates
- Publication Date
- 20260512
- Application Date
- 20241024
Claims (12)
- 各々に識別情報が関連付けられた少なくとも1つの画像を取得可能な入力部と、 前記識別情報毎に少なくとも1つのプロンプトを含むプロンプトセットを設定し、且つ前記識別情報に共通の学習済み画像言語モデルを設定する設定部と、 前記少なくとも1つの画像のうち第1の識別情報が関連付けられた第1の画像と、前記第1の識別情報に設定された第1のプロンプトセットとを前記画像言語モデルに入力し、前記第1の画像に対する前記第1のプロンプトセットの回答を出力する検知部と、を備える、解析装置。
- 検知対象とする事象又は事物についての少なくとも1つのキーワードに基づいて、前記プロンプトセットを生成するプロンプト生成部をさらに備える、 請求項1に記載の解析装置。
- 前記プロンプト生成部は、前記少なくとも1つのキーワードに基づいて複数のプロンプトを生成し、前記複数のプロンプトのそれぞれの精度評価と、前記複数のプロンプトにおけるプロンプトの組み合わせの精度評価とを実行し、評価結果に基づいて抽出された少なくとも1つのプロンプトを前記プロンプトセットとして設定する、 請求項2に記載の解析装置。
- 前記入力部は、さらに、互いに異なる識別情報が関連付けられた複数のカメラのそれぞれから画像と情報とを取得可能に構成され、 前記設定部は、検知対象とする事象又は事物についての少なくとも1つのキーワードと前記情報とを照合して、照合結果に基づいて、前記複数のカメラから検知対象とする少なくとも1つのカメラを設定する、 請求項1に記載の解析装置。
- 前記回答に基づいて検知対象が検出されたか否かを判定し、判定結果に基づいて通知を出力するように構成された通知部をさらに備える、 請求項1に記載の解析装置。
- 前記設定部は、プロンプトに対する期待回答を設定可能であり、 前記通知部は、前記期待回答に基づいて検知対象が検出されたか否かを判定する、 請求項5に記載の解析装置。
- 前記画像言語モデルは、質問応答AIである、 請求項1に記載の解析装置。
- 前記入力部は、動画ファイルを取得可能に構成され、 前記検知部は、前記動画ファイルをフレーム単位に分割し、分割されたフレームに識別情報を付加した画像を前記画像言語モデルに入力する、 請求項1に記載の解析装置。
- 前記入力部は、画像ファイル又は動画ファイルを取得可能に構成され、 前記検知部は、前記画像ファイル又は前記動画ファイルを前記画像言語モデルに入力する、 請求項1に記載の解析装置。
- 前記画像と、前記プロンプトセットと、前記画像言語モデルと、前記回答とを記憶可能に構成されたデータ記憶部をさらに備える、 請求項1に記載の解析装置。
- 前記回答に基づいて検知対象が検出されたか否かを判定し、判定結果に基づいて通知を出力するように構成された通知部をさらに備え、 前記データ記憶部は、過去の判定結果を記憶し、 前記通知部は、前記判定結果と前記過去の判定結果とに基づいて、通知を出力するか否かを決定する、 請求項10に記載の解析装置。
- コンピュータに、 各々に識別情報が関連付けられた少なくとも1つの画像を取得することと、 前記識別情報毎に少なくとも1つのプロンプトを含むプロンプトセットを設定することと、 前記識別情報に共通の学習済み画像言語モデルを設定することと、 前記少なくとも1つの画像のうち第1の識別情報が関連付けられた第1の画像と、前記第1の識別情報に設定された第1のプロンプトセットとを前記画像言語モデルに入力し、前記第1の画像に対する前記第1のプロンプトセットの回答を出力することと、 を実行させる、プログラム。
Description
実施形態は、解析装置及びプログラムに関する。 防災などの目的で事象や事物の早期発見に使用される機材としては、監視カメラなどが有効である。監視カメラの映像を監視員が目視で確認することによって、異常が確認された際に関係各所に連絡したり、現場へ向かったりといった対応をとることができる。しかしながら、監視員の目視による映像の確認は、精度やコスト面に課題を有する。 これに対して、事象や事物の早期発見に、画像認識AI(Artificial Intelligence:人工知能)を利用することが検討されている。画像認識AIは、学習した個々の物体を検知することができ、入力された画像に含まれた特定の形状を認識及び判別することができる。例えば、画像認識AIが監視カメラに映ったある事象や事物を検知し、異常と判断したうえで警報を発報して監視員に知らせる監視技術が知られている。特許文献1では、複数のカメラに使用可能な共通の汎用的なAIモデルが作成される。そして、カメラ毎にAIモデルが調整されることによって、映像解析の精度が向上されている。 特許第7492595号公報 実施形態に係る解析システムの全体構成の一例を示すブロック図。実施形態に係る解析装置のハードウェア構成の一例を示すブロック図。実施形態に係る解析装置の機能構成の一例を示すブロック図。実施形態に係る解析装置が備えるデータ記憶部の構成の一例を示すブロック図。実施形態に係る解析装置が備えるデータ記憶部に記憶された教師データDBの構成の一例を示すデータテーブル。実施形態に係る解析装置が備えるデータ記憶部に記憶された学習済みモデルDBの構成の一例を示すデータテーブル。実施形態に係る解析装置が備えるデータ記憶部に記憶されたカメラ情報DBの構成の一例を示すデータテーブル。実施形態に係る解析装置が備えるデータ記憶部に記憶されたプロンプト評価DBの構成の一例を示すデータテーブル。実施形態に係る解析装置が備えるデータ記憶部に記憶されたプロンプトDBの構成の一例を示すデータテーブル。実施形態に係る解析装置が備えるデータ記憶部に記憶された検知結果DBの構成の一例を示すデータテーブル。実施形態に係る解析装置が備えるデータ記憶部に記憶されたアラート発報履歴DBの構成の一例を示すデータテーブル。実施形態に係る解析装置を用いた質問応答AIの概要を示す模式図。実施形態に係る解析装置による画像言語モデルの作成方法の一例を示すフローチャート。実施形態に係る解析装置で使用される正解画像の一例を示す図。実施形態に係る解析装置で使用される検知対象を含む画像の一例を示す図。実施形態に係る解析装置による解析処理の一例を示すフローチャート。実施形態に係る解析装置による設定処理の一例を示すフローチャート。実施形態に係る解析装置によるプロンプト生成処理の概要を示す模式図。実施形態に係る解析装置によるプロンプト生成処理の一例を示すフローチャート。実施形態に係る解析装置による検知処理の一例を示すフローチャート。実施形態に係る解析装置による検知結果の利用方法の一例を示すフローチャート。 以下に、実施形態について図面を参照して説明する。実施形態は、発明の技術的思想を具体化するための装置や方法を例示している。以下で参照される図面は、模式的又は概念的なものである。略同一の機能及び構成を有する構成要素には、同一の符号が付加されている。本明細書では、“データベース”のことを、適宜“DB”と省略して記載する。 <1>構成 まず、実施形態に係る解析システム1の構成について説明する。 <1-1>解析システム1の全体構成 図1は、実施形態に係る解析システム1の全体構成の一例を示すブロック図である。図1に示すように、実施形態に係る解析システム1は、例えば、解析装置10、端末装置20、カメラセット30、及び発報装置40を含む。解析システム1において、解析装置10は、例えば、ネットワークNWを介して、端末装置20、カメラセット30、及び発報装置40のそれぞれと通信可能に構成される。 解析装置10は、画像言語モデルを用いた質問応答AI(Artificial Intelligence)としての機能を有するコンピュータである。画像言語モデルを用いた質問応答AIは、画像と、少なくとも1つのプロンプト(質問)との組の入力を受け付ける。そして、質問応答AIは、入力された画像について、プロンプト毎の回答を出力し得る。さらに、解析装置10は、検知対象のキーワードに関連する少なくとも1つのプロンプトを生成できるように構成される。解析装置10では、カメラセット30により取得された画像と、自身が生成した少なくとも1つのプロンプトとが、質問応答AIに入力される。 端末装置20は、例えば、スマートフォン、PC(Personal Computer)等の電子機器である。監視員等のユーザーは、例えば、端末装置20を用いて、解析装置10の質問応答AIの機能にアクセスすることができる。 カメラセット30は、解析装置10による解析の対象とされる画像又は映像を撮影する撮影機器の集合である。カメラセット30は、例えば、複数のカメラ31-1~31-N(Nは2以上の整数)を含む。複数のカメラ31-1~31-Nのそれぞれは、撮影した画像又は映像を、例えば、ネットワークNWを介して、解析装置10に送信し得る。 発報装置40は、解析装置10の指示に基づいて、監視員等のユーザーに異常等を知らせるための機器である。発報装置40は、例えば、警報を発報できるように構成されたブザーである。発報装置40としては、解析装置10の指示に基づいて発報することが可能であれば、その他の機器や方法が利用されてもよい。例えば、発報装置40としての機能が、スマートフォン等のアプリケーションに搭載されてもよい。この場合、解析装置10は、検知対象の検知結果に基づいて、遠隔地のスマートフォン等のアプリケーションへの通知をインターネット回線を経由して送信し得る。解析装置10により発報装置40に通知される内容としては、音やメッセージだけでなく、検知結果の画像が含まれていてもよい。解析システム1は、複数の発報装置40を備えていてもよい。この場合、複数の発報装置40のそれぞれが、少なくとも1つのカメラ31と関連付けられてもよい。 なお、解析装置10は、端末装置20、カメラセット30、及び発報装置40とのそれぞれと、ネットワークNWを介さずに接続されてもよい。解析装置10は、記憶済みの画像や動画に対して、質問応答AIの機能を利用してもよい。端末装置20の処理は、解析装置10を直接操作することによって実現されてもよい。端末装置20、カメラセット30、発報装置40の少なくとも1つが、用途に応じて、解析システム1から省略されてもよい。発報装置40の機能が、解析装置10及び端末装置20に搭載されてもよい。 以下では、解析システム1が、道路の安全管理のために、道路で発生した異常を検知するための監視システムとして使用される場合を例に説明する。 <1-2>解析装置10のハードウェア構成 図2は、実施形態に係る解析装置10のハードウェア構成の一例を示すブロック図である。図2に示すように、実施形態に係る解析装置10は、例えば、プロセッサ11、メモリ装置12、ストレージ装置13、表示装置14、入力インターフェース15、及び通信モジュール16を含む。 プロセッサ11は、様々なプログラムを実行することが可能な集積回路であり、解析装置10の全体の動作を制御する。プロセッサ11としては、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)、FPGA(field-programmable gate array)、GPU(Graphics Processing Unit)等が使用される。 メモリ装置12は、解析装置10を制御するためのプログラムや制御データなどを記憶する記憶装置である。メモリ装置12は、プロセッサ11の作業領域として使用される。なお、解析装置10は、プログラムや制御データを記憶するメモリ装置と、プロセッサ11の作業領域として使用されるメモリ装置とを個別に備えていてもよい。 ストレージ装置13は、不揮発性の記憶装置である。ストレージ装置13は、例えば、解析装置10のアプリケーションソフトウェアや、システムソフトウェアなどを記憶する。ストレージ装置13としては、例えば、SSD(Solid State Drive)やHDD(Hard Disk Drive)等が使用される。 表示装置14は、文字や画像などを表示することが可能に構成された装置である。表示装置14は、プロセッサ11の指示に基づいて、例えば、アプリケーションソフトウェアに対応するGUI(Graphical User Interface)などを表示する。表示装置14としては、例えば、LCD(Liquid Crystal Display)や、有機EL(Electro Luminescence)ディスプレイ等が使用される。 入力インターフェース15は、解析装置10の操作に使用されるインターフェースである。ユーザーは、入力インターフェース15を用いて、解析装置10を操作することができる。なお、解析装置10において、入力インターフェース15としての機能が表示装置14に内蔵されてもよい。 通信モジュール16は、外部の機器とのデータ等の送受信に使用される回路である。通信モジュール16によるデータ等の送受信には、有線通信及び無線通信のいずれが利用されてもよい。通信モジュール16は、外部のストレージ装置に接続されてもよいし、ネットワークNWを介して外部のサーバに接続されてもよい。 なお、解析装置10は、その他のハードウェア構成であってもよい。例えば、解析装置10がIoT(Internet of Things)端末などである場合に、表示装置14が解析装置10から省略されてもよい。ストレージ装置13、表示装置14、及び入力インターフェース15のそれぞれは、解析装置10に外部接続されてもよい。 <1-3>解析装置10の機能構成 図3は、実施形態に係る解析装置10の機能構成の一例を示すブロック図である。図3に示すように、解析装置10は、例えば、学習部101、設定部102、入力部103、プロンプト生成部104、検知部105、データ記憶部106、及び通知部107を備えるコンピュータとして機能する。学習部101、設定部102、入力部103、プロンプト生成部104、検知部105、データ記憶部106、及び通知部107のそれぞれは、図2を用いて説明された解析装置10のハードウェア構成によって実現され得る。 学習部101は、データ記憶部106に記憶された教師データを使用してAIの学習を実施し、質問応答AIで使用される画像言語モデルを作成する機能を有する。そして、学習部101は、作成した画像言語モデルを、データ記憶部106に記憶する。以下では、学習部101により作成された画像言語モデルのことを、“学習済みモデル”と呼ぶ。また、学習部101は、学習済みモデルと新たな教師データとを使用して、学習済みモデルの追加学習を実施し得る。 設定部102は、検知事象設定機能と、カメラ設定機能と、プロンプト設定機能と、モデル設定機能とを有する。 設定部102の検知事象設定機能は、例えば、監視業務において発見・検知するべき事象や事物(検知対象)の情報の入力を外部の端末装置20から受け付ける。検知事象設定機能に入力される情報は、1つ又は複数のキーワードであってもよいし、テキストデータであってもよいし、画像データであってもよい。検知事象設定機能は、テキストデータが入力された場合、テキストデータから1つ又は複数