JP-2026077330-A - 強化学習プログラム，強化学習方法，及び情報処理装置

JP2026077330AJP 2026077330 AJP2026077330 AJP 2026077330AJP-2026077330-A

Abstract

【課題】対象物に対する適切な化合物の３次元分子構造を特定可能とする。【解決手段】第１対象物に適合させる第１化合物の３次元分子構造を状態Ｓｔとし、前記状態Ｓｔにおける前記第１化合物に対する、追加原子の種類，前記追加原子の前記３次元分子構造への結合位置，及び前記追加原子の３次元位置の指定を行動Ａｔとし、前記行動Ａｔにより前記３次元分子構造に前記追加原子を結合して得られる３次元分子構造を評価するための指標を報酬Ｒｔとして、機械学習モデルの強化学習を実行する、処理をコンピュータに実行させる。【選択図】図１

Inventors

小御門道

Assignees

富士通株式会社

Dates

Publication Date: 20260513
Application Date: 20241025

Claims (7)

第１対象物に適合させる第１化合物の３次元分子構造を状態とし、前記状態における前記第１化合物に対する、追加原子の種類，前記追加原子の前記３次元分子構造への結合位置，及び前記追加原子の３次元位置の指定を行動とし、前記行動により前記３次元分子構造に前記追加原子を結合して得られる３次元分子構造を評価するための指標を報酬として、機械学習モデルの強化学習を実行する、処理をコンピュータに実行させる、強化学習プログラム。
前記指標は、前記第１対象物の３次元構造と前記行動により得られる前記３次元分子構造との結合の親和性に関する第１指標を含む、請求項１に記載の強化学習プログラム。
前記第１指標は、前記第１対象物の３次元構造のエネルギーと前記行動により得られる前記３次元分子構造のエネルギーとの総和エネルギーと、前記第１対象物の３次元構造と前記行動により得られる前記３次元分子構造との結合の配置が最適である場合の全体エネルギーと、の間のエネルギー差を含む、請求項２に記載の強化学習プログラム。
前記指標は、前記行動により得られる前記３次元分子構造の薬らしさに関する第２指標と、前記第１対象物の３次元構造と前記行動により得られる前記３次元分子構造との結合の難易度に関する第３指標と、のうちの一方又は双方を含む、請求項１に記載の強化学習プログラム。
前記機械学習モデルは、前記第１対象物を含む複数の第２対象物の各々の入力に応じて、入力される前記第２対象物に適合する第２化合物の３次元分子構造を出力するように訓練された訓練済み機械学習モデルである、請求項１～請求項４のいずれか１項に記載の強化学習プログラム。
第１対象物に適合させる第１化合物の３次元分子構造を状態とし、前記状態における前記第１化合物に対する、追加原子の種類，前記追加原子の前記３次元分子構造への結合位置，及び前記追加原子の３次元位置の指定を行動とし、前記行動により前記３次元分子構造に前記追加原子を結合して得られる３次元分子構造を評価するための指標を報酬として、機械学習モデルの強化学習を実行する、処理をコンピュータが実行する、強化学習方法。
第１対象物に適合させる第１化合物の３次元分子構造を状態とし、前記状態における前記第１化合物に対する、追加原子の種類，前記追加原子の前記３次元分子構造への結合位置，及び前記追加原子の３次元位置の指定を行動とし、前記行動により前記３次元分子構造に前記追加原子を結合して得られる３次元分子構造を評価するための指標を報酬として、機械学習モデルの強化学習を実行する、制御部を備える、情報処理装置。

Description

本発明は、強化学習プログラム，強化学習方法，及び情報処理装置に関する。ＡＩ（Artificial Intelligence）創薬の分野において、生成モデルを活用したDe Novo Drug Designの研究が行なわれている。生成モデルにより生成された化合物を評価する指標として、ＱＥＤ（Quantitative Estimate of Drug-likeness）及びＳＡスコア（Synthetic Accessibility Score）等の化学的性質（特性）（Chemical Property）を用いた指標が存在する。これらの指標は、微分可能ではないため、通常の教師有り機械学習の仕組みで最適化することはできない。そこで、強化学習によってＱＥＤ及びＳＡスコアを最適化する手法が知られている。 “Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation”，Jiaxuan You et al.，arXiv:1806.02473v3 [cs.LG] 25 Feb 2019，＜インターネット：arxiv.org/abs/1806.02473＞，［2024年3月11日検索］“GraphAF: a Flow-based Autoregressive Model for Molecular Graph Generation”，Chence Shi et al.，arXiv:2001.09382v2 [cs.LG] 27 Feb 2020，＜インターネット：arxiv.org/abs/2001.09382＞，［2024年3月11日検索］“Hit and Lead Discovery with Explorative RL and Fragment-based Molecule Generation”，Soojung Yang et al.，35th Conference on Neural Information Processing Systems (NeurIPS 2021)，＜インターネット：proceedings.neurips.cc/paper_files/paper/2021/file/41da609c519d77b29be442f8c1105647-Paper.pdf＞，［2024年3月19日検索］“Molecule Generation For Target Protein Binding with Structural Motifs”，Zaixi Zhang，Published as a conference paper at ICLR 2023，＜インターネット：openreview.net/forum?id=Rq13idF0F73＞，［2024年3月11日検索］一実施形態に係る強化学習部の構成例を示すブロック図である。一実施形態の一例としてのサーバの機能を実現するコンピュータのハードウェア構成例を示すブロック図である。一実施形態の一例としてのサーバのソフトウェア構成例を示すブロック図である。機械学習モデルの機械学習処理の一例を説明するための図である。機械学習モデルの強化学習処理の一例を説明するための図である。一実施形態に係るサーバにおける機械学習モデルの強化学習処理の動作例を説明するためのフローチャートである。一実施形態に係るサーバにおける機械学習モデルの機械学習処理の動作例を説明するためのフローチャートである。一実施形態に係るサーバによる機械学習モデルの推論処理の動作例を説明するためのフローチャートである。以下、図面を参照して実施形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。〔Ａ〕一実施形態に係る強化学習部の説明図１は、一実施形態に係る強化学習部１の構成例を示すブロック図である。強化学習部１は、対象物に対する適切な化合物の３次元分子構造を特定可能とするように、機械学習モデルの強化学習を実行する。以下の説明では、３次元分子構造として、３次元化合物グラフ（３次元分子グラフと称されてもよい）を例に挙げる。また、一実施形態では、対象物（第１対象物）の一例として、たんぱく（タンパク，蛋白）質のポケット構造を挙げ、対象物に対する適切な化合物の一例として、当該たんぱく質のポケットに３次元的によく適合する化合物（生成化合物と称されてもよい）を挙げる。一実施形態に係る３次元分子構造，対象物，化合物は、これらに限定されるものではない。強化学習部１は、エージェント（Agent）２と、環境（Environment）５とを備えてよい。エージェント２は、環境５において取り得る行動（Action）の集合（Action Space）Ａｓ＿ｔの中から行動Ａｔを選択し、環境５に出力する。環境５は、行動Ａｔを観測及び評価し、観測された行動Ａｔの結果となる状態（State）Ｓｔと、評価結果に応じた報酬（Reward）Ｒｔとをエージェント２に出力する。報酬Ｒｔは、例えば、適切な（良い）行動Ａｔを評価する指標を含んでよい。エージェント２は、方策（Policy）３と、強化学習アルゴリズム４（Reinforcement Learning Algorithm）とを備えてよい。方策３は、現在の状態Ｓｔを入力として、行動Ａｔを生成及び出力する。方策３としては、例えば、機械学習モデルが挙げられる。強化学習アルゴリズム４は、現在の状態Ｓｔと行動Ａｔと報酬Ｒｔとに基づき、方策３を更新（Update）する。強化学習アルゴリズム４としては、ＰＰＯ（Proximal Policy Optimization）等の種々のアルゴリズムが用いられてもよい。このように、エージェント２は、行動Ａｔの結果となる状態Ｓｔから新しい行動Ａｔを生成し、新しい行動Ａｔについての新しい状態Ｓｔ及び新しい報酬Ｒｔに応じて方策３を更新する処理を繰り返す。これにより、報酬Ｒｔを最大化する適切な行動Ａｔを行なうように方策３を調整（Fine Tuning，Refine）することができる。ここで、強化学習によってＱＥＤ及びＳＡスコアを最適化する上述した手法では、２次元の化合物グラフ表現を扱う。このため、当該手法では、たんぱく質ポケットに３次元的によく適合する化合物グラフを生成することが難しい場合がある。これに対し、一実施形態に係る強化学習部１は、以下のような状態Ｓｔ，行動Ａｔ，報酬Ｒｔを用いて、機械学習モデル、例えば方策３の強化学習を実行することによって、象物に対する適切な化合物の３次元分子構造を特定可能とする。強化学習部１は、状態Ｓｔとして、第１対象物に適合させる第１化合物の３次元分子構造を用いてよい。状態Ｓｔには、例えば、前回の行動Ａｔにより３次元分子構造に追加原子を結合して得られた３次元分子構造が用いられてよい。強化学習部１は、行動Ａｔとして、状態Ｓｔにおける第１化合物に対する、追加する追加原子の種類，当該追加原子の３次元分子構造への結合位置，及び当該追加原子の３次元位置の指定、を用いてよい。追加原子の３次元位置とは、例えば、追加原子の３次元座標に関する情報であってよい。強化学習部１は、報酬Ｒｔとして、行動Ａｔにより３次元分子構造に追加原子を結合して得られる３次元分子構造を評価するための指標を用いてよい。これにより、強化学習部１では、追加原子の種類及び結合位置に加えて追加原子の３次元座標の位置の指定を含む行動Ａｔに応じた報酬Ｒｔを最大化するように、方策３の強化学習が実行される。このように、強化学習部１によれば、強化学習によって、行動Ａｔにより得られる３次元分子構造がより良いものになるように方策３が調整されるため、第１対象物に対する適切な化合物の３次元分子構造を特定可能とすることができる。方策３の調整には、例えば、方策３のモデルとしての機械学習モデルのパラメータの更新が含まれてよい。報酬Ｒｔの指標には、第１対象物の３次元構造と行動Ａｔにより得られる３次元分子構造との結合の親和性に関する第１指標が含まれてよい。結合の親和性の一例としては、第１対象物と第１化合物とのドッキング（結合）シミュレーション（ＤＳ：Docking Simulation）の結果が挙げられる。ＤＳとしては、既知の種々の手法が用いられてもよい。報酬Ｒｔの指標として、第１指標が用いられることにより、第１対象物に対してより親和性の高い、換言すれば、３次元的な当てはまりがより良い（適切な）化合物の３次元分子構造を特定可能とすることができる。適切な化合物の３次元分子構造とは、例えば、現実的な或いは実用的な化合物の３次元分子構造と言い換えてもよい。また、第１指標は、第１対象物の３次元構造のエネルギーと行動Ａｔにより得られる３次元分子構造のエネルギーとの総和エネルギーと、第１対象物の３次元構造と行動Ａｔにより得られる３次元分子構造との結合の配置が最適である場合の全体エネルギーと、の間のエネルギー差を含んでよい。全体エネルギーの一例としては、ＤＳにより得られる、第１対象物と第１化合物との配置（配座）が最適になったときの全体のエネルギー、換言すれば、ＤＳ後のエネルギーが挙げられる。総和エネルギーの一例としては、ＤＳ前における、第１対象物の３次元構造と行動Ａｔにより得られる３次元分子構造との各々のエネルギーの総和、換言すれば、ＤＳ前のエネルギーが挙げられる。エネルギー差が大きいほど、第１化合物はたんぱく質ポケットに対して３次元的な当てはまりが良いといえるため、第１対象物に対して３次元的な当てはまりがより良い（適切な）化合物の３次元分子構造を特定可能とすることができる。報酬Ｒｔの指標には、さらに、第２指標及び第３指標のうちの一方又は双方が含まれてもよい。第２指標は、行動Ａｔにより得られる３次元分子構造の薬らしさに関する指標であり、一例として、ＱＥＤが挙げられる。第３指標は、第１対象物の３次元構造と行動Ａｔにより得られる３次元分子構造との結合の難易度に関する指標であり、一例として、ＳＡスコアが挙げられる。報酬Ｒｔの指標として、第１指標に加えて、第２指標及び第３指標のうちの一方又は双方がさらに用いられることにより、第１対象物に対するより適切な化合物の３次元分子構造を特定可能とすることができる。なお、強化学習アルゴリズム４は、報酬Ｒｔに含まれる複数の指標のうち、第２指標及び第３指標よりも第１指標を優先して、報酬Ｒｔを最大化するように、方策３の強化学習を実行してもよい。また、強化学習部１の環境５は、上述した指標の算出において、又は、上述した指標の算出に加えて、生成化合物に関する化学的な規則（ルール）の検査（Chemical Rule Check）等を行ない、その結果を指標に適用させてもよい。強化学習部１のエージェント２は、方策３のモデルとして、第１対象物を含む複数の第２対象物の各々の入力に応じて、入力される第２対象物に適合する第２化合物の３次元分子構造を出力するように訓練された訓練済み機械学習モデルを用いてよい。複数の第２対象物の一例としては、第１対象物がたんぱく質又はそのポケット構造である場合、当該たんぱく質を含む様々なたんぱく質が挙げられる。換言すれば、訓練済み機械学習モデルは、様々なたんぱく質に対して汎用的な特徴量抽出器として訓練されたモデルであるといえる。例えば、特定の疾患には対応するたんぱく質が存在しているため、実際の創薬の現場では、第１対象物となるたんぱく質を想定した上で、当該第１対象物に対する適切な化合物を生成することになる。一