JP-2026076900-A - セキュリティ対策支援システム
Abstract
【課題】大規模言語モデル(LLM)の利用に固有のアプローチでのセキュリティ診断及び監視を支援するセキュリティ対策支援システムを提供する。 【解決手段】セキュリティ対策支援システム1は、ユーザが使用する情報処理端末に導入され、ユーザが入力したユーザプロンプトをフックして、ユーザプロンプトのLLMサービスプロバイダ5への入力を保留するアプリケーションと、アプリケーションから受け渡されたユーザプロンプトの内容がセキュリティに係る所定の内容に該当するものであるかを検知する診断部11と、を有し、診断部11は、ユーザプロンプトの内容が所定の内容に該当するものであることを検知した場合に、検知した旨をアプリケーションに診断結果として応答し、アプリケーションは、警告画面を表示し、警告画面を介してユーザから指示を受けた場合に、ユーザプロンプトをLLMサービスプロバイダ5に入力する。 【選択図】図5
Inventors
- 田篭 照博
Assignees
- 株式会社野村総合研究所
Dates
- Publication Date
- 20260512
- Application Date
- 20241108
- Priority Date
- 20241024
Claims (6)
- ユーザによる大規模言語モデルサービス(以下「LLMサービス」という)の利用に係るセキュリティの診断を支援するセキュリティ対策支援システムであって、 前記ユーザが使用する情報処理端末に導入され、前記ユーザが入力したユーザプロンプトをフックして、前記ユーザプロンプトの前記LLMサービスへの入力を保留するアプリケーションと、 前記アプリケーションから受け渡された前記ユーザプロンプトの内容がセキュリティに係る所定の内容に該当するものであるかを検知する診断部と、を有し、 前記診断部は、前記ユーザプロンプトの内容が前記所定の内容に該当するものであることを検知した場合に、検知した旨を前記アプリケーションに診断結果として応答し、 前記アプリケーションは、前記ユーザプロンプトの内容が前記所定の内容に該当するものである旨の前記診断結果を受けた場合、警告画面を表示し、前記警告画面を介して前記ユーザから指示を受けた場合に、前記ユーザプロンプトを前記LLMサービスに入力する、セキュリティ対策支援システム。
- 請求項1に記載のセキュリティ対策支援システムにおいて、 前記所定の内容は、前記ユーザプロンプトに所定の機微情報が含まれることである、セキュリティ対策支援システム。
- 請求項2に記載のセキュリティ対策支援システムにおいて、 前記診断部は、前記ユーザプロンプトに前記所定の機微情報が含まれることを検知した場合、前記機微情報を秘匿化した内容の前記ユーザプロンプトを前記アプリケーションに応答し、 前記アプリケーションは、前記警告画面に前記機微情報が秘匿化された前記ユーザプロンプトを表示し、前記警告画面を介して前記ユーザから指示を受けた場合に、前記機微情報が秘匿化された前記ユーザプロンプトを前記LLMサービスに入力する、セキュリティ対策支援システム。
- 請求項1に記載のセキュリティ対策支援システムにおいて、 前記所定の内容は、前記ユーザプロンプトに前記LLMサービスに入力されているシステムプロンプトにおける指示を侵害する内容が含まれることである、セキュリティ対策支援システム。
- 請求項1に記載のセキュリティ対策支援システムにおいて、 前記所定の内容は、前記ユーザプロンプトに前記ユーザの業務領域に固有の不適切な命令が含まれることである、セキュリティ対策支援システム。
- 請求項1に記載のセキュリティ対策支援システムにおいて、 前記アプリケーションは、前記警告画面を介して、前記LLMサービスに入力する前記ユーザプロンプトの内容を前記ユーザにより編集可能とする、セキュリティ対策支援システム。
Description
本発明は、セキュリティ技術に関し、特に、情報処理システムやアプリケーションに係るセキュリティの診断・監視を支援するセキュリティ対策支援システムに適用して有効な技術に関するものである。 生成AI(Artificial Intelligence)・大規模言語モデル(LLM:Large Language Models)(以下ではこれらを「LLM」と総称する場合がある)の利用が急速に拡大しており、情報処理システムやアプリケーション(以下ではこれらを「システム」と総称する場合がある)においてLLMが利用される場面も増えている。また、ユーザが業務においてChatGPT(登録商標、以下同様)のようなLLMサービスを直接利用する場面も増えている。 一方で、システムは常にサイバー攻撃の脅威にさらされており、攻撃を検知して未然に防ぐことを可能とすべく、システムに係るセキュリティの診断・監視を行う仕組みも種々検討されている。 例えば、特許第7213626号公報(特許文献1)には、対象システムに内在する脅威を基にサイバー攻撃を想定し、想定したサイバー攻撃の攻撃手順を分析して、これに対応するセキュリティ対策を検討する仕組みが記載されており、想定するサイバー攻撃のシナリオを作成する際にLLMを用いることが記載されている。 特許第7213626号公報 本発明の実施の形態1であるセキュリティ対策支援システムの構成例について概要を示した図である。本発明の実施の形態1におけるプロンプトインジェクションの例について概要を示した図である。本発明の実施の形態1における対象システムおよびLLMに対する入出力の診断の例について概要を示した図である。本発明の実施の形態1におけるダッシュボード画面の例について概要を示した図である。本発明の実施の形態2におけるSaaSサービスの利用に対する診断の例について概要を示した図である。本発明の実施の形態2における機微情報を含むユーザプロンプトの例について概要を示した図である。本発明の実施の形態2における機微情報の入力を検知した際の警告画面の例について概要を示した図である。本発明の実施の形態2における機微情報の復元の例について概要を示した図である。本発明の実施の形態2における不正な攻撃を検知した際の警告画面の例について概要を示した図である。(a)(b)は、本発明の実施の形態2における業務上の命令をLLMサービスプロバイダに入力した際の例について概要を示した図である。 以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。一方で、ある図において符号を付して説明した部位について、他の図の説明の際に再度の図示はしないが同一の符号を付して言及する場合がある。 (実施の形態1) <概要> 本発明の実施の形態1であるセキュリティ対策支援システムは、LLMを利用もしくは組み込んだユーザのシステムについて、サイバー攻撃に対するセキュリティリスクを解決するための仕組みとして、2つのアプローチでのサービスを連携させて提供することを可能とする情報処理システムである。 すなわち、サイバー攻撃に対するセキュリティ対策におけるいわゆる「レッドチーム」のサービスとして、対象のシステムに対してLLM独自のセキュリティ観点で、サイバー攻撃と同等の擬似的な攻撃をスポット的に仕掛けることで脆弱性の有無を診断する。そして、これとともにいわゆる「ブルーチーム」のサービスとして、対象のシステムにおけるLLMへの入出力を常時監視し、攻撃を検知することにより、対象のシステムの安全性を継続的に確保する。このような2つのサービスを有することで、システムへの攻撃手法と当該攻撃への対応策をナレッジ(インテリジェンス)として蓄積することができ、継続的かつ相互補完的に双方のサービスの質を向上させることができる。 <システム構成> 図1は、本発明の実施の形態1であるセキュリティ対策支援システムの構成例について概要を示した図である。セキュリティ対策支援システム1は、例えば、サーバ機器やクラウドコンピューティングサービス上に構築された仮想サーバ等により構成され、図示しないCPU(Central Processing Unit)により、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の記録装置からメモリ上に展開したOS(Operating System)やDBMS(DataBase Management System)、Webサーバプログラム等のミドルウェアや、その上で稼働するソフトウェアを実行することで、LLM21を利用する対象システム2に対するセキュリティの診断を支援する機能を実現する。 セキュリティ対策支援システム1は、例えば、ソフトウェアとして実装された診断部11、支援部12、および監視部13などの各部を有する。また、データベースやファイルテーブル等により実装された専用インテリジェンス14、および汎用インテリジェンス15などの各データストアを有する。 診断部11は、対象システム2においてどの部分を診断・監視の対象とするか等に応じて、対象システム2におけるLLM21への入力(ユーザプロンプト)と、LLM21からの出力の内容や、対象システム2へのユーザからの入力と対象システム2からのユーザへの出力の内容を取得し、専用インテリジェンス14および汎用インテリジェンス15に蓄積されている既知の攻撃内容(シグネチャ)等を参照して解析することで、対象システム2にとって敵対的な攻撃であるか否かを診断する機能を有する。検知された攻撃について専用インテリジェンス14や汎用インテリジェンス15に蓄積されている対応策を出力するようにしてもよい。 専用インテリジェンス14には、対象システム2に特化した固有のシグネチャが蓄積され、汎用インテリジェンス15には、対象システム2に特化しない汎用的・一般的なシグネチャが蓄積されている。なお、本実施の形態における主な攻撃手法(シグネチャ)の内容については後述する。 診断部11の機能は、例えば、API(Application Programming Interface)の形で対象システム2に対して提供され、対象システム2において当該APIを呼び出すことでLLM21への入出力や対象システム2への入出力の内容を自動的に診断部11に送って診断結果を受け取ることができる。対象システム2では、敵対的な攻撃が検知されたという診断結果を受け取った場合、警告を出力したり処理を停止したり等の対応をとることができる。 APIを用いずに、LLM21への入出力や対象システム2への入出力の内容を、後述する支援部12を介してレッドチーム3が手動で診断部11に入力し、診断結果を支援部12を介してレッドチーム3に提示することも可能である。この場合、レッドチーム3が擬似的な攻撃を試すことができるよう、例えば、LLM21と同等の図示しないLLMをセキュリティ対策支援システム1側に別途構築してもよい。 支援部12は、レッドチーム3による対象システム2やLLM21(もしくは別途構築した同等のLLM)に対する擬似的なサイバー攻撃とこれに対する診断部11による診断結果の取得、および診断の結果新たに発見された攻撃(シグネチャ)の専用インテリジェンス14への登録を支援する機能を有する。レッドチーム3に対するユーザインタフェースの機能も含まれる。他の対象システム2に対する診断・調査の結果や、論文その他の文献等の最新情報の調査の結果に基づいて新たに得られたシグネチャの汎用インテリジェンス15への登録を支援する機能を有していてもよい。 上述したように、レッドチーム3は、対象システム2のリリース前や定期的なタイミングで、対象システム2に対してLLM独自のセキュリティ観点でサイバー攻撃と同等の擬似的な攻撃をスポット的に仕掛けることで脆弱性の有無を診断する。攻撃の際に用いるシグネチャは、例えば、専用インテリジェンス14もしくは汎用インテリジェンス15に蓄積されている既知のシグネチャを用いて複数の攻撃を一括的に行うようにしてもよいし、レッドチーム3が手動で攻撃を行うようにしてもよい。 攻撃は、例えば、診断部11等を介してシステム的に連携して自動的に行い、LLM21からの出力の内容を診断部11で診断するようにしてもよいし、レッドチーム3が独自に対象システム2やLLM21(もしくは別途構築した同等のLLM)に対して手動で攻撃を行い、攻撃(入力)の内容と出力の内容に基づいて手動で診断してもよい。入出力の内容を支援部12を介して手動で診断部11に入力して診断させるようにしてもよい。 監視部13は、対象システム2におけるLLM21への入出力や対象システム2への入出力に係る診断部11による診断結果を常時チェックし、対象システム2への攻撃を検知することでブルーチーム4による継続的な対象システム2の監視を支援する機能を有する。監視の結果、ブルーチーム4によって新たに検出された脅威(シグネチャ)について、専用インテリジェンス14や汎用インテリジェンス15にブラックリストとして登録・蓄積してフィードバックすることで、これらインテリジェンスをレッドチーム3による診断とブルーチーム4による監視それぞれのサービスに活用して質を向上させることができる。攻撃として検知したが分析の結果問題がなかった偽陽性の攻撃についてホワイトリストとしてフィードバックするようにしてもよい。 図4は、本発明の実施の形態1におけるダッシュボード画面の例について概要を示した図である。ブルーチーム4の監視の用に供するため、監視部13により図4の例に示すようなダッシュボード画面を提供するようにしてもよい。ダッシュボード画面では、例えば、画面下部の領域にて検知された攻撃(イベント)をリストとして表示し、その中から選択された攻撃に係る基本情報を画面左上の領域に表示している。また、画面右上の領域には後述する各検知項目のスコアの時系列での遷移をグラフにより示している。このようなダッシュボード画面により、ブルーチーム4による監視サービスの省力化と精度の向上を図ることができる。 上述したように、本実施の形態においてレッドチーム3による診断およびブルーチーム4による監視により蓄積されるインテリジェンスは、大きく専用インテリジェンス14と汎用インテリジェンス15に分けられる。 専用インテリジェンス14は、各対象システム2それぞれに固有のインテリジェンスであり、大きく分けて以下の2つのものが想定される。1つは、対象システム2に対するレッドチーム3による診断サービスにおいて有効性が確認できた攻撃(すなわち、敵対的な攻撃として成功したもの)に係るシグネチャであり、他の1つは、対象システム2に対するブルーチーム4による常時監視サービスにおいて検知された攻撃である。ただし、いずれも対象システム2に固有の脆弱性を攻撃しているもので、他の対象システム2には有効ではないと考えられるものである。 一方、汎用インテリジェンス15は、すべての対象システム2に利用することができると考えられるユニバーサルなインテリジェンスであり、大きく分けて以下の3つのものが想定される。1つは、対象システム2に対するレッドチーム3による診断サービスにおいて有効性が確認できた攻撃であり、他の1つは、対象システム2に対するブルーチーム4による常時監視サービスにおいて検知された攻撃である。ただし、いずれも他の対象システム2についても有効であると判断されたものである。他の1つは、レッドチーム3や他の調査員等が論文等の文献や各種サイトの情報等を調査して発見した新たな攻撃手法である。 <攻撃手法> レッドチーム3が行う診断サービスにおいて対象システム2に対して用いられる攻撃手法は、特に