JP-2026076900-A - セキュリティ対策支援システム

JP2026076900AJP 2026076900 AJP2026076900 AJP 2026076900AJP-2026076900-A

Abstract

【課題】大規模言語モデル（ＬＬＭ）の利用に固有のアプローチでのセキュリティ診断及び監視を支援するセキュリティ対策支援システムを提供する。【解決手段】セキュリティ対策支援システム１は、ユーザが使用する情報処理端末に導入され、ユーザが入力したユーザプロンプトをフックして、ユーザプロンプトのＬＬＭサービスプロバイダ５への入力を保留するアプリケーションと、アプリケーションから受け渡されたユーザプロンプトの内容がセキュリティに係る所定の内容に該当するものであるかを検知する診断部１１と、を有し、診断部１１は、ユーザプロンプトの内容が所定の内容に該当するものであることを検知した場合に、検知した旨をアプリケーションに診断結果として応答し、アプリケーションは、警告画面を表示し、警告画面を介してユーザから指示を受けた場合に、ユーザプロンプトをＬＬＭサービスプロバイダ５に入力する。【選択図】図５

Inventors

田篭照博

Assignees

株式会社野村総合研究所

Dates

Publication Date: 20260512
Application Date: 20241108
Priority Date: 20241024

Claims (6)

ユーザによる大規模言語モデルサービス（以下「ＬＬＭサービス」という）の利用に係るセキュリティの診断を支援するセキュリティ対策支援システムであって、前記ユーザが使用する情報処理端末に導入され、前記ユーザが入力したユーザプロンプトをフックして、前記ユーザプロンプトの前記ＬＬＭサービスへの入力を保留するアプリケーションと、前記アプリケーションから受け渡された前記ユーザプロンプトの内容がセキュリティに係る所定の内容に該当するものであるかを検知する診断部と、を有し、前記診断部は、前記ユーザプロンプトの内容が前記所定の内容に該当するものであることを検知した場合に、検知した旨を前記アプリケーションに診断結果として応答し、前記アプリケーションは、前記ユーザプロンプトの内容が前記所定の内容に該当するものである旨の前記診断結果を受けた場合、警告画面を表示し、前記警告画面を介して前記ユーザから指示を受けた場合に、前記ユーザプロンプトを前記ＬＬＭサービスに入力する、セキュリティ対策支援システム。
請求項１に記載のセキュリティ対策支援システムにおいて、前記所定の内容は、前記ユーザプロンプトに所定の機微情報が含まれることである、セキュリティ対策支援システム。
請求項２に記載のセキュリティ対策支援システムにおいて、前記診断部は、前記ユーザプロンプトに前記所定の機微情報が含まれることを検知した場合、前記機微情報を秘匿化した内容の前記ユーザプロンプトを前記アプリケーションに応答し、前記アプリケーションは、前記警告画面に前記機微情報が秘匿化された前記ユーザプロンプトを表示し、前記警告画面を介して前記ユーザから指示を受けた場合に、前記機微情報が秘匿化された前記ユーザプロンプトを前記ＬＬＭサービスに入力する、セキュリティ対策支援システム。
請求項１に記載のセキュリティ対策支援システムにおいて、前記所定の内容は、前記ユーザプロンプトに前記ＬＬＭサービスに入力されているシステムプロンプトにおける指示を侵害する内容が含まれることである、セキュリティ対策支援システム。
請求項１に記載のセキュリティ対策支援システムにおいて、前記所定の内容は、前記ユーザプロンプトに前記ユーザの業務領域に固有の不適切な命令が含まれることである、セキュリティ対策支援システム。
請求項１に記載のセキュリティ対策支援システムにおいて、前記アプリケーションは、前記警告画面を介して、前記ＬＬＭサービスに入力する前記ユーザプロンプトの内容を前記ユーザにより編集可能とする、セキュリティ対策支援システム。

Description

本発明は、セキュリティ技術に関し、特に、情報処理システムやアプリケーションに係るセキュリティの診断・監視を支援するセキュリティ対策支援システムに適用して有効な技術に関するものである。生成ＡＩ（Artificial Intelligence）・大規模言語モデル（ＬＬＭ：Large Language Models）（以下ではこれらを「ＬＬＭ」と総称する場合がある）の利用が急速に拡大しており、情報処理システムやアプリケーション（以下ではこれらを「システム」と総称する場合がある）においてＬＬＭが利用される場面も増えている。また、ユーザが業務においてＣｈａｔＧＰＴ（登録商標、以下同様）のようなＬＬＭサービスを直接利用する場面も増えている。一方で、システムは常にサイバー攻撃の脅威にさらされており、攻撃を検知して未然に防ぐことを可能とすべく、システムに係るセキュリティの診断・監視を行う仕組みも種々検討されている。例えば、特許第７２１３６２６号公報（特許文献１）には、対象システムに内在する脅威を基にサイバー攻撃を想定し、想定したサイバー攻撃の攻撃手順を分析して、これに対応するセキュリティ対策を検討する仕組みが記載されており、想定するサイバー攻撃のシナリオを作成する際にＬＬＭを用いることが記載されている。特許第７２１３６２６号公報本発明の実施の形態１であるセキュリティ対策支援システムの構成例について概要を示した図である。本発明の実施の形態１におけるプロンプトインジェクションの例について概要を示した図である。本発明の実施の形態１における対象システムおよびＬＬＭに対する入出力の診断の例について概要を示した図である。本発明の実施の形態１におけるダッシュボード画面の例について概要を示した図である。本発明の実施の形態２におけるＳａａＳサービスの利用に対する診断の例について概要を示した図である。本発明の実施の形態２における機微情報を含むユーザプロンプトの例について概要を示した図である。本発明の実施の形態２における機微情報の入力を検知した際の警告画面の例について概要を示した図である。本発明の実施の形態２における機微情報の復元の例について概要を示した図である。本発明の実施の形態２における不正な攻撃を検知した際の警告画面の例について概要を示した図である。（ａ）（ｂ）は、本発明の実施の形態２における業務上の命令をＬＬＭサービスプロバイダに入力した際の例について概要を示した図である。以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。一方で、ある図において符号を付して説明した部位について、他の図の説明の際に再度の図示はしないが同一の符号を付して言及する場合がある。（実施の形態１）＜概要＞本発明の実施の形態１であるセキュリティ対策支援システムは、ＬＬＭを利用もしくは組み込んだユーザのシステムについて、サイバー攻撃に対するセキュリティリスクを解決するための仕組みとして、２つのアプローチでのサービスを連携させて提供することを可能とする情報処理システムである。すなわち、サイバー攻撃に対するセキュリティ対策におけるいわゆる「レッドチーム」のサービスとして、対象のシステムに対してＬＬＭ独自のセキュリティ観点で、サイバー攻撃と同等の擬似的な攻撃をスポット的に仕掛けることで脆弱性の有無を診断する。そして、これとともにいわゆる「ブルーチーム」のサービスとして、対象のシステムにおけるＬＬＭへの入出力を常時監視し、攻撃を検知することにより、対象のシステムの安全性を継続的に確保する。このような２つのサービスを有することで、システムへの攻撃手法と当該攻撃への対応策をナレッジ（インテリジェンス）として蓄積することができ、継続的かつ相互補完的に双方のサービスの質を向上させることができる。＜システム構成＞図１は、本発明の実施の形態１であるセキュリティ対策支援システムの構成例について概要を示した図である。セキュリティ対策支援システム１は、例えば、サーバ機器やクラウドコンピューティングサービス上に構築された仮想サーバ等により構成され、図示しないＣＰＵ（Central Processing Unit）により、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の記録装置からメモリ上に展開したＯＳ（Operating System）やＤＢＭＳ（DataBase Management System）、Ｗｅｂサーバプログラム等のミドルウェアや、その上で稼働するソフトウェアを実行することで、ＬＬＭ２１を利用する対象システム２に対するセキュリティの診断を支援する機能を実現する。セキュリティ対策支援システム１は、例えば、ソフトウェアとして実装された診断部１１、支援部１２、および監視部１３などの各部を有する。また、データベースやファイルテーブル等により実装された専用インテリジェンス１４、および汎用インテリジェンス１５などの各データストアを有する。診断部１１は、対象システム２においてどの部分を診断・監視の対象とするか等に応じて、対象システム２におけるＬＬＭ２１への入力（ユーザプロンプト）と、ＬＬＭ２１からの出力の内容や、対象システム２へのユーザからの入力と対象システム２からのユーザへの出力の内容を取得し、専用インテリジェンス１４および汎用インテリジェンス１５に蓄積されている既知の攻撃内容（シグネチャ）等を参照して解析することで、対象システム２にとって敵対的な攻撃であるか否かを診断する機能を有する。検知された攻撃について専用インテリジェンス１４や汎用インテリジェンス１５に蓄積されている対応策を出力するようにしてもよい。専用インテリジェンス１４には、対象システム２に特化した固有のシグネチャが蓄積され、汎用インテリジェンス１５には、対象システム２に特化しない汎用的・一般的なシグネチャが蓄積されている。なお、本実施の形態における主な攻撃手法（シグネチャ）の内容については後述する。診断部１１の機能は、例えば、ＡＰＩ（Application Programming Interface）の形で対象システム２に対して提供され、対象システム２において当該ＡＰＩを呼び出すことでＬＬＭ２１への入出力や対象システム２への入出力の内容を自動的に診断部１１に送って診断結果を受け取ることができる。対象システム２では、敵対的な攻撃が検知されたという診断結果を受け取った場合、警告を出力したり処理を停止したり等の対応をとることができる。ＡＰＩを用いずに、ＬＬＭ２１への入出力や対象システム２への入出力の内容を、後述する支援部１２を介してレッドチーム３が手動で診断部１１に入力し、診断結果を支援部１２を介してレッドチーム３に提示することも可能である。この場合、レッドチーム３が擬似的な攻撃を試すことができるよう、例えば、ＬＬＭ２１と同等の図示しないＬＬＭをセキュリティ対策支援システム１側に別途構築してもよい。支援部１２は、レッドチーム３による対象システム２やＬＬＭ２１（もしくは別途構築した同等のＬＬＭ）に対する擬似的なサイバー攻撃とこれに対する診断部１１による診断結果の取得、および診断の結果新たに発見された攻撃（シグネチャ）の専用インテリジェンス１４への登録を支援する機能を有する。レッドチーム３に対するユーザインタフェースの機能も含まれる。他の対象システム２に対する診断・調査の結果や、論文その他の文献等の最新情報の調査の結果に基づいて新たに得られたシグネチャの汎用インテリジェンス１５への登録を支援する機能を有していてもよい。上述したように、レッドチーム３は、対象システム２のリリース前や定期的なタイミングで、対象システム２に対してＬＬＭ独自のセキュリティ観点でサイバー攻撃と同等の擬似的な攻撃をスポット的に仕掛けることで脆弱性の有無を診断する。攻撃の際に用いるシグネチャは、例えば、専用インテリジェンス１４もしくは汎用インテリジェンス１５に蓄積されている既知のシグネチャを用いて複数の攻撃を一括的に行うようにしてもよいし、レッドチーム３が手動で攻撃を行うようにしてもよい。攻撃は、例えば、診断部１１等を介してシステム的に連携して自動的に行い、ＬＬＭ２１からの出力の内容を診断部１１で診断するようにしてもよいし、レッドチーム３が独自に対象システム２やＬＬＭ２１（もしくは別途構築した同等のＬＬＭ）に対して手動で攻撃を行い、攻撃（入力）の内容と出力の内容に基づいて手動で診断してもよい。入出力の内容を支援部１２を介して手動で診断部１１に入力して診断させるようにしてもよい。監視部１３は、対象システム２におけるＬＬＭ２１への入出力や対象システム２への入出力に係る診断部１１による診断結果を常時チェックし、対象システム２への攻撃を検知することでブルーチーム４による継続的な対象システム２の監視を支援する機能を有する。監視の結果、ブルーチーム４によって新たに検出された脅威（シグネチャ）について、専用インテリジェンス１４や汎用インテリジェンス１５にブラックリストとして登録・蓄積してフィードバックすることで、これらインテリジェンスをレッドチーム３による診断とブルーチーム４による監視それぞれのサービスに活用して質を向上させることができる。攻撃として検知したが分析の結果問題がなかった偽陽性の攻撃についてホワイトリストとしてフィードバックするようにしてもよい。図４は、本発明の実施の形態１におけるダッシュボード画面の例について概要を示した図である。ブルーチーム４の監視の用に供するため、監視部１３により図４の例に示すようなダッシュボード画面を提供するようにしてもよい。ダッシュボード画面では、例えば、画面下部の領域にて検知された攻撃（イベント）をリストとして表示し、その中から選択された攻撃に係る基本情報を画面左上の領域に表示している。また、画面右上の領域には後述する各検知項目のスコアの時系列での遷移をグラフにより示している。このようなダッシュボード画面により、ブルーチーム４による監視サービスの省力化と精度の向上を図ることができる。上述したように、本実施の形態においてレッドチーム３による診断およびブルーチーム４による監視により蓄積されるインテリジェンスは、大きく専用インテリジェンス１４と汎用インテリジェンス１５に分けられる。専用インテリジェンス１４は、各対象システム２それぞれに固有のインテリジェンスであり、大きく分けて以下の２つのものが想定される。１つは、対象システム２に対するレッドチーム３による診断サービスにおいて有効性が確認できた攻撃（すなわち、敵対的な攻撃として成功したもの）に係るシグネチャであり、他の１つは、対象システム２に対するブルーチーム４による常時監視サービスにおいて検知された攻撃である。ただし、いずれも対象システム２に固有の脆弱性を攻撃しているもので、他の対象システム２には有効ではないと考えられるものである。一方、汎用インテリジェンス１５は、すべての対象システム２に利用することができると考えられるユニバーサルなインテリジェンスであり、大きく分けて以下の３つのものが想定される。１つは、対象システム２に対するレッドチーム３による診断サービスにおいて有効性が確認できた攻撃であり、他の１つは、対象システム２に対するブルーチーム４による常時監視サービスにおいて検知された攻撃である。ただし、いずれも他の対象システム２についても有効であると判断されたものである。他の１つは、レッドチーム３や他の調査員等が論文等の文献や各種サイトの情報等を調査して発見した新たな攻撃手法である。＜攻撃手法＞レッドチーム３が行う診断サービスにおいて対象システム２に対して用いられる攻撃手法は、特に