JP-2026076646-A - 解析装置及びプログラム

JP2026076646AJP 2026076646 AJP2026076646 AJP 2026076646AJP-2026076646-A

Abstract

【課題】高い検知精度を有し且つ低コストで実現可能な解析装置及びプログラムを提供する。【解決手段】実施形態の解析装置１０は、入力部１０３と、設定部１０２と、検知部１０５とを含む。入力部１０３は、各々に識別情報が関連付けられた少なくとも１つの画像を取得可能である。設定部１０２は、識別情報毎に少なくとも１つのプロンプトを含むプロンプトセットを設定し、且つ識別情報に共通の学習済み画像言語モデルを設定する。検知部１０５は、少なくとも１つの画像のうち第１の識別情報が関連付けられた第１の画像と、第１の識別情報に設定された第１のプロンプトセットとを画像言語モデルに入力し、第１の画像に対する第１のプロンプトセットの回答を出力する。【選択図】図３

Inventors

田中葉月
高野歩芳
野田玲子
和氣正秀

Assignees

株式会社東芝
東芝デジタルソリューションズ株式会社

Dates

Publication Date: 20260512
Application Date: 20241024

Claims (12)

各々に識別情報が関連付けられた少なくとも１つの画像を取得可能な入力部と、前記識別情報毎に少なくとも１つのプロンプトを含むプロンプトセットを設定し、且つ前記識別情報に共通の学習済み画像言語モデルを設定する設定部と、前記少なくとも１つの画像のうち第１の識別情報が関連付けられた第１の画像と、前記第１の識別情報に設定された第１のプロンプトセットとを前記画像言語モデルに入力し、前記第１の画像に対する前記第１のプロンプトセットの回答を出力する検知部と、を備える、解析装置。
検知対象とする事象又は事物についての少なくとも１つのキーワードに基づいて、前記プロンプトセットを生成するプロンプト生成部をさらに備える、請求項１に記載の解析装置。
前記プロンプト生成部は、前記少なくとも１つのキーワードに基づいて複数のプロンプトを生成し、前記複数のプロンプトのそれぞれの精度評価と、前記複数のプロンプトにおけるプロンプトの組み合わせの精度評価とを実行し、評価結果に基づいて抽出された少なくとも１つのプロンプトを前記プロンプトセットとして設定する、請求項２に記載の解析装置。
前記入力部は、さらに、互いに異なる識別情報が関連付けられた複数のカメラのそれぞれから画像と情報とを取得可能に構成され、前記設定部は、検知対象とする事象又は事物についての少なくとも１つのキーワードと前記情報とを照合して、照合結果に基づいて、前記複数のカメラから検知対象とする少なくとも１つのカメラを設定する、請求項１に記載の解析装置。
前記回答に基づいて検知対象が検出されたか否かを判定し、判定結果に基づいて通知を出力するように構成された通知部をさらに備える、請求項１に記載の解析装置。
前記設定部は、プロンプトに対する期待回答を設定可能であり、前記通知部は、前記期待回答に基づいて検知対象が検出されたか否かを判定する、請求項５に記載の解析装置。
前記画像言語モデルは、質問応答ＡＩである、請求項１に記載の解析装置。
前記入力部は、動画ファイルを取得可能に構成され、前記検知部は、前記動画ファイルをフレーム単位に分割し、分割されたフレームに識別情報を付加した画像を前記画像言語モデルに入力する、請求項１に記載の解析装置。
前記入力部は、画像ファイル又は動画ファイルを取得可能に構成され、前記検知部は、前記画像ファイル又は前記動画ファイルを前記画像言語モデルに入力する、請求項１に記載の解析装置。
前記画像と、前記プロンプトセットと、前記画像言語モデルと、前記回答とを記憶可能に構成されたデータ記憶部をさらに備える、請求項１に記載の解析装置。
前記回答に基づいて検知対象が検出されたか否かを判定し、判定結果に基づいて通知を出力するように構成された通知部をさらに備え、前記データ記憶部は、過去の判定結果を記憶し、前記通知部は、前記判定結果と前記過去の判定結果とに基づいて、通知を出力するか否かを決定する、請求項１０に記載の解析装置。
コンピュータに、各々に識別情報が関連付けられた少なくとも１つの画像を取得することと、前記識別情報毎に少なくとも１つのプロンプトを含むプロンプトセットを設定することと、前記識別情報に共通の学習済み画像言語モデルを設定することと、前記少なくとも１つの画像のうち第１の識別情報が関連付けられた第１の画像と、前記第１の識別情報に設定された第１のプロンプトセットとを前記画像言語モデルに入力し、前記第１の画像に対する前記第１のプロンプトセットの回答を出力することと、を実行させる、プログラム。

Description

実施形態は、解析装置及びプログラムに関する。防災などの目的で事象や事物の早期発見に使用される機材としては、監視カメラなどが有効である。監視カメラの映像を監視員が目視で確認することによって、異常が確認された際に関係各所に連絡したり、現場へ向かったりといった対応をとることができる。しかしながら、監視員の目視による映像の確認は、精度やコスト面に課題を有する。これに対して、事象や事物の早期発見に、画像認識ＡＩ（Artificial Intelligence：人工知能）を利用することが検討されている。画像認識ＡＩは、学習した個々の物体を検知することができ、入力された画像に含まれた特定の形状を認識及び判別することができる。例えば、画像認識ＡＩが監視カメラに映ったある事象や事物を検知し、異常と判断したうえで警報を発報して監視員に知らせる監視技術が知られている。特許文献１では、複数のカメラに使用可能な共通の汎用的なＡＩモデルが作成される。そして、カメラ毎にＡＩモデルが調整されることによって、映像解析の精度が向上されている。特許第７４９２５９５号公報実施形態に係る解析システムの全体構成の一例を示すブロック図。実施形態に係る解析装置のハードウェア構成の一例を示すブロック図。実施形態に係る解析装置の機能構成の一例を示すブロック図。実施形態に係る解析装置が備えるデータ記憶部の構成の一例を示すブロック図。実施形態に係る解析装置が備えるデータ記憶部に記憶された教師データＤＢの構成の一例を示すデータテーブル。実施形態に係る解析装置が備えるデータ記憶部に記憶された学習済みモデルＤＢの構成の一例を示すデータテーブル。実施形態に係る解析装置が備えるデータ記憶部に記憶されたカメラ情報ＤＢの構成の一例を示すデータテーブル。実施形態に係る解析装置が備えるデータ記憶部に記憶されたプロンプト評価ＤＢの構成の一例を示すデータテーブル。実施形態に係る解析装置が備えるデータ記憶部に記憶されたプロンプトＤＢの構成の一例を示すデータテーブル。実施形態に係る解析装置が備えるデータ記憶部に記憶された検知結果ＤＢの構成の一例を示すデータテーブル。実施形態に係る解析装置が備えるデータ記憶部に記憶されたアラート発報履歴ＤＢの構成の一例を示すデータテーブル。実施形態に係る解析装置を用いた質問応答ＡＩの概要を示す模式図。実施形態に係る解析装置による画像言語モデルの作成方法の一例を示すフローチャート。実施形態に係る解析装置で使用される正解画像の一例を示す図。実施形態に係る解析装置で使用される検知対象を含む画像の一例を示す図。実施形態に係る解析装置による解析処理の一例を示すフローチャート。実施形態に係る解析装置による設定処理の一例を示すフローチャート。実施形態に係る解析装置によるプロンプト生成処理の概要を示す模式図。実施形態に係る解析装置によるプロンプト生成処理の一例を示すフローチャート。実施形態に係る解析装置による検知処理の一例を示すフローチャート。実施形態に係る解析装置による検知結果の利用方法の一例を示すフローチャート。以下に、実施形態について図面を参照して説明する。実施形態は、発明の技術的思想を具体化するための装置や方法を例示している。以下で参照される図面は、模式的又は概念的なものである。略同一の機能及び構成を有する構成要素には、同一の符号が付加されている。本明細書では、“データベース”のことを、適宜“ＤＢ”と省略して記載する。＜１＞構成まず、実施形態に係る解析システム１の構成について説明する。＜１－１＞解析システム１の全体構成図１は、実施形態に係る解析システム１の全体構成の一例を示すブロック図である。図１に示すように、実施形態に係る解析システム１は、例えば、解析装置１０、端末装置２０、カメラセット３０、及び発報装置４０を含む。解析システム１において、解析装置１０は、例えば、ネットワークＮＷを介して、端末装置２０、カメラセット３０、及び発報装置４０のそれぞれと通信可能に構成される。解析装置１０は、画像言語モデルを用いた質問応答ＡＩ（Artificial Intelligence）としての機能を有するコンピュータである。画像言語モデルを用いた質問応答ＡＩは、画像と、少なくとも１つのプロンプト（質問）との組の入力を受け付ける。そして、質問応答ＡＩは、入力された画像について、プロンプト毎の回答を出力し得る。さらに、解析装置１０は、検知対象のキーワードに関連する少なくとも１つのプロンプトを生成できるように構成される。解析装置１０では、カメラセット３０により取得された画像と、自身が生成した少なくとも１つのプロンプトとが、質問応答ＡＩに入力される。端末装置２０は、例えば、スマートフォン、ＰＣ（Personal Computer）等の電子機器である。監視員等のユーザーは、例えば、端末装置２０を用いて、解析装置１０の質問応答ＡＩの機能にアクセスすることができる。カメラセット３０は、解析装置１０による解析の対象とされる画像又は映像を撮影する撮影機器の集合である。カメラセット３０は、例えば、複数のカメラ３１－１～３１－Ｎ（Ｎは２以上の整数）を含む。複数のカメラ３１－１～３１－Ｎのそれぞれは、撮影した画像又は映像を、例えば、ネットワークＮＷを介して、解析装置１０に送信し得る。発報装置４０は、解析装置１０の指示に基づいて、監視員等のユーザーに異常等を知らせるための機器である。発報装置４０は、例えば、警報を発報できるように構成されたブザーである。発報装置４０としては、解析装置１０の指示に基づいて発報することが可能であれば、その他の機器や方法が利用されてもよい。例えば、発報装置４０としての機能が、スマートフォン等のアプリケーションに搭載されてもよい。この場合、解析装置１０は、検知対象の検知結果に基づいて、遠隔地のスマートフォン等のアプリケーションへの通知をインターネット回線を経由して送信し得る。解析装置１０により発報装置４０に通知される内容としては、音やメッセージだけでなく、検知結果の画像が含まれていてもよい。解析システム１は、複数の発報装置４０を備えていてもよい。この場合、複数の発報装置４０のそれぞれが、少なくとも１つのカメラ３１と関連付けられてもよい。なお、解析装置１０は、端末装置２０、カメラセット３０、及び発報装置４０とのそれぞれと、ネットワークＮＷを介さずに接続されてもよい。解析装置１０は、記憶済みの画像や動画に対して、質問応答ＡＩの機能を利用してもよい。端末装置２０の処理は、解析装置１０を直接操作することによって実現されてもよい。端末装置２０、カメラセット３０、発報装置４０の少なくとも１つが、用途に応じて、解析システム１から省略されてもよい。発報装置４０の機能が、解析装置１０及び端末装置２０に搭載されてもよい。以下では、解析システム１が、道路の安全管理のために、道路で発生した異常を検知するための監視システムとして使用される場合を例に説明する。＜１－２＞解析装置１０のハードウェア構成図２は、実施形態に係る解析装置１０のハードウェア構成の一例を示すブロック図である。図２に示すように、実施形態に係る解析装置１０は、例えば、プロセッサ１１、メモリ装置１２、ストレージ装置１３、表示装置１４、入力インターフェース１５、及び通信モジュール１６を含む。プロセッサ１１は、様々なプログラムを実行することが可能な集積回路であり、解析装置１０の全体の動作を制御する。プロセッサ１１としては、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（field-programmable gate array）、ＧＰＵ（Graphics Processing Unit）等が使用される。メモリ装置１２は、解析装置１０を制御するためのプログラムや制御データなどを記憶する記憶装置である。メモリ装置１２は、プロセッサ１１の作業領域として使用される。なお、解析装置１０は、プログラムや制御データを記憶するメモリ装置と、プロセッサ１１の作業領域として使用されるメモリ装置とを個別に備えていてもよい。ストレージ装置１３は、不揮発性の記憶装置である。ストレージ装置１３は、例えば、解析装置１０のアプリケーションソフトウェアや、システムソフトウェアなどを記憶する。ストレージ装置１３としては、例えば、ＳＳＤ（Solid State Drive）やＨＤＤ（Hard Disk Drive）等が使用される。表示装置１４は、文字や画像などを表示することが可能に構成された装置である。表示装置１４は、プロセッサ１１の指示に基づいて、例えば、アプリケーションソフトウェアに対応するＧＵＩ（Graphical User Interface）などを表示する。表示装置１４としては、例えば、ＬＣＤ（Liquid Crystal Display）や、有機ＥＬ（Electro Luminescence）ディスプレイ等が使用される。入力インターフェース１５は、解析装置１０の操作に使用されるインターフェースである。ユーザーは、入力インターフェース１５を用いて、解析装置１０を操作することができる。なお、解析装置１０において、入力インターフェース１５としての機能が表示装置１４に内蔵されてもよい。通信モジュール１６は、外部の機器とのデータ等の送受信に使用される回路である。通信モジュール１６によるデータ等の送受信には、有線通信及び無線通信のいずれが利用されてもよい。通信モジュール１６は、外部のストレージ装置に接続されてもよいし、ネットワークＮＷを介して外部のサーバに接続されてもよい。なお、解析装置１０は、その他のハードウェア構成であってもよい。例えば、解析装置１０がＩｏＴ（Internet of Things）端末などである場合に、表示装置１４が解析装置１０から省略されてもよい。ストレージ装置１３、表示装置１４、及び入力インターフェース１５のそれぞれは、解析装置１０に外部接続されてもよい。＜１－３＞解析装置１０の機能構成図３は、実施形態に係る解析装置１０の機能構成の一例を示すブロック図である。図３に示すように、解析装置１０は、例えば、学習部１０１、設定部１０２、入力部１０３、プロンプト生成部１０４、検知部１０５、データ記憶部１０６、及び通知部１０７を備えるコンピュータとして機能する。学習部１０１、設定部１０２、入力部１０３、プロンプト生成部１０４、検知部１０５、データ記憶部１０６、及び通知部１０７のそれぞれは、図２を用いて説明された解析装置１０のハードウェア構成によって実現され得る。学習部１０１は、データ記憶部１０６に記憶された教師データを使用してＡＩの学習を実施し、質問応答ＡＩで使用される画像言語モデルを作成する機能を有する。そして、学習部１０１は、作成した画像言語モデルを、データ記憶部１０６に記憶する。以下では、学習部１０１により作成された画像言語モデルのことを、“学習済みモデル”と呼ぶ。また、学習部１０１は、学習済みモデルと新たな教師データとを使用して、学習済みモデルの追加学習を実施し得る。設定部１０２は、検知事象設定機能と、カメラ設定機能と、プロンプト設定機能と、モデル設定機能とを有する。設定部１０２の検知事象設定機能は、例えば、監視業務において発見・検知するべき事象や事物（検知対象）の情報の入力を外部の端末装置２０から受け付ける。検知事象設定機能に入力される情報は、１つ又は複数のキーワードであってもよいし、テキストデータであってもよいし、画像データであってもよい。検知事象設定機能は、テキストデータが入力された場合、テキストデータから１つ又は複数